PREVOT LUCAS requested to merge recuperation_des_questions into main Dec 28, 2024

Première phase (Récupération des questions)

Les questions ont été sauvegardées dans le dossier data au format JSON.

Pour chaque question, les clés sont les suivantes:

"question_id" : Le numéro d'identification de la question sur l'API (probablement inutile pour l'apprentissage)
"title" : Le titre de la question
"tags" : Les tags. Attention: Les questions ont toujours plusieurs tags, probablement du plus pertinent au moins pertinent. Il serait peut être intéressant de conserver uniquement le tag le plus pertinent par question pour l'apprentissage.
"body_html" : Le texte de la question, sans parsing ni prétraitement.
"body_text" : Le texte de la question, avec les balises HTML retirées par BeautifulSoup.
"body_text_clean" : Le texte de la question avec un léger prétraitement (Suppression des retours à la ligne, espaces consécutifs et liens https/www)

J'ai laissé les 3 versions pour vous permettre de travailler comme vous voulez, si vous préférez faire le prétraitement-vous même à partir de zéro, par exemple.

Edited Dec 28, 2024 by PREVOT LUCAS

Admin message

Récupération des questions

Première phase (Récupération des questions)

Merge request reports