Skip to content
Snippets Groups Projects

Récupération des questions

Merged PREVOT LUCAS requested to merge recuperation_des_questions into main

Première phase (Récupération des questions)

Les questions ont été sauvegardées dans le dossier data au format JSON.

Pour chaque question, les clés sont les suivantes:

  • "question_id" : Le numéro d'identification de la question sur l'API (probablement inutile pour l'apprentissage)
  • "title" : Le titre de la question
  • "tags" : Les tags. Attention: Les questions ont toujours plusieurs tags, probablement du plus pertinent au moins pertinent. Il serait peut être intéressant de conserver uniquement le tag le plus pertinent par question pour l'apprentissage.
  • "body_html" : Le texte de la question, sans parsing ni prétraitement.
  • "body_text" : Le texte de la question, avec les balises HTML retirées par BeautifulSoup.
  • "body_text_clean" : Le texte de la question avec un léger prétraitement (Suppression des retours à la ligne, espaces consécutifs et liens https/www)

J'ai laissé les 3 versions pour vous permettre de travailler comme vous voulez, si vous préférez faire le prétraitement-vous même à partir de zéro, par exemple.

Edited by PREVOT LUCAS

Merge request reports

Loading
Loading

Activity

Filter activity
  • Approvals
  • Assignees & reviewers
  • Comments (from bots)
  • Comments (from users)
  • Commits & branches
  • Edits
  • Labels
  • Lock status
  • Mentions
  • Merge request status
  • Tracking
Please register or sign in to reply