ajout tokenisation mots

2019-10-13 01:10:09 -04:00 · 2019-10-13 01:10:09 -04:00 · 9a60485710
commit 9a60485710
parent fb18d8b5d6
1 changed files with 50 additions and 6 deletions
--- a/examen_partiel.md
+++ b/examen_partiel.md
@ -130,17 +130,61 @@ Deux approches de base:

 Toute expression régulière peut être compilée automatiquement en un automate non-déterministe, que l'on peut convertir en automate déterministe.

-# Tokenisation de mots et segmentation de phrases
+# Prétraitement des textes

-# Normalisation
+## Définitions

-## Stemming
+- **Jetons**: Nombre d'occurences de mots ($N$)
+- **Types**: Nombre de mots distincts dans le vocabulaire ($|V|$)
+- **Mot**: Plus petit élément pouvant être prononcé ou écrit en isolation avec un contenu sémantique. On peut accepter les signes de ponctuation dans certaines tâches

-## Lemmatisation
+Loi de Heaps: $|V| = kN^{\beta}, 0.67 < \beta < 0.75$

-## Analyse morphologique
+Dictionnaires: 

-# Distance minimale d'édition
+- Oxford English (600 000 mots)
+- Petit Robert (60 000 mots)
+
+## Types de traitements
+
+Les traitements les plus fréquents sont:
+
+- Découper le texte en mots (segmentation)
+- Uniformiser les mots (normalisation)
+- Découper le texte en phrases (segmentation)
+
+## Segmentation de mots (tokenisation)
+
+- Utilisation de délimiteurs (ponctuation et espaces)
+  - Difficultés:
+	- Apostrophes qui relient des mots
+	- Traits d'union reliant deux parties d'une entité ou deux entités séparées
+	- Acronymes
+	- Mots composés et noms propres
+	- Nombres et termes spéciaux
+- Choix du tokeniseur:
+  - Split
+  - Whitespace
+  - WordPunct
+  - Treebank
+  - Tweet
+  - Regexp
+- Disponible dans toutes les librairies NLP
+  - Efficace, utilise des expressions régulières et correction avec un dictionnaire
+
+## Normalisation
+
+
+
+### Stemming
+
+### Lemmatisation
+
+### Analyse morphologique
+
+## Distance minimale d'édition
+
+## Segmentation de phrases

 # Modèles de langue N-grammes