diff --git a/rapport.md b/rapport.md index e7cd334..bf6ba5a 100644 --- a/rapport.md +++ b/rapport.md @@ -1,5 +1,5 @@ --- -ntitle: IFT-7022 - Traitement automatique de la langue naturelle +title: IFT-7022 - Traitement automatique de la langue naturelle author: François Pelletier (908 144 032) date: 30 septembre 2019 geometry: "left=3cm,right=3cm,top=2cm,bottom=2cm" @@ -52,7 +52,7 @@ Sur l'ensemble des questions à convertir, quatre réponses ne correspondaient p Situation 1. `Q : Qui était Galileo?`: -- Comme cette question correspond au motif 1, la réponse que le module produit est **Luc Lamontagne était Galileo.**, alors qu'elle aurait du tomber dans la catégorie *autre*. Pour ce faire, cela aurait nécessité une analyse syntaxique. +- Comme cette question correspond au motif 1, la réponse que le module produit est **Luc Lamontagne était Galileo.**, alors qu'elle aurait du être classée dans la catégorie *autre*. Pour ce faire, cela aurait nécessité une analyse syntaxique. Situation 2. `Q : À quelle distance se trouve la ligne de service du net au tennis?`: @@ -89,6 +89,10 @@ Situation 2. `Q : Combien de cœurs a une pieuvre?`: - Même erreur qu'à la situation 3 dans le fichier d'entrainement +### Conclusion + +Les expression régulières développées sur le fichier d'entraînement ont eu une bonne performance sur le fichier de questions de test. Avec quelques ajustement et ajouts, les expression sont capables de traiter plusieurs types de questions. Cependant, pour certains types de questions, les réponses obtenues ne sont pas grammaticalement correctes. Ce qui laisse croire qu'il est probablement approprié d'ajouter de la logique de programmation aux expressions régulières pour obtenir un algorithme vraiment généraliste. + ## Origine du nom de famille Dans cette section, on crée des modèles pour les noms de famille provenant de 18 langues d'origine. On dispose d'échantillons d'entrainement et de test étiquetés, ce qui permettra d'analyser la performance des différents modèles d'origine. @@ -206,6 +210,9 @@ Les résultats détaillés sont présentés ci-dessous sous forme de matrices de On remarque immédiatement que le modèle ne fait pas la distinction entre les deux catégories `DEFINITION` et `ENTITY`. Comme ce sont respectivement les catégories les plus fréquentes de l'échantillon d'entrainement et de test respectivement, on explique une bonne partie de la perte de performance. +### Conclusion + +Ce problème de classification présente plusieurs défis, notamment au niveau de la variété des questions et en même temps de la forme similaire de celles-ci. Il serait approprié d'avoir des indicateurs sur la sémantique des mots pour pouvoir avoir un classificateur plus précis. ## Notes