Récupération des questions
Première phase (Récupération des questions)
Les questions ont été sauvegardées dans le dossier data au format JSON.
Pour chaque question, les clés sont les suivantes:
- "question_id" : Le numéro d'identification de la question sur l'API (probablement inutile pour l'apprentissage)
- "title" : Le titre de la question
- "tags" : Les tags. Attention: Les questions ont toujours plusieurs tags, probablement du plus pertinent au moins pertinent. Il serait peut être intéressant de conserver uniquement le tag le plus pertinent par question pour l'apprentissage.
- "body_html" : Le texte de la question, sans parsing ni prétraitement.
- "body_text" : Le texte de la question, avec les balises HTML retirées par BeautifulSoup.
- "body_text_clean" : Le texte de la question avec un léger prétraitement (Suppression des retours à la ligne, espaces consécutifs et liens https/www)
J'ai laissé les 3 versions pour vous permettre de travailler comme vous voulez, si vous préférez faire le prétraitement-vous même à partir de zéro, par exemple.
Edited by PREVOT LUCAS