diff --git a/examen_partiel.md b/examen_partiel.md index bb9e3f1..5831d22 100644 --- a/examen_partiel.md +++ b/examen_partiel.md @@ -130,17 +130,61 @@ Deux approches de base: Toute expression régulière peut être compilée automatiquement en un automate non-déterministe, que l'on peut convertir en automate déterministe. -# Tokenisation de mots et segmentation de phrases +# Prétraitement des textes -# Normalisation +## Définitions -## Stemming +- **Jetons**: Nombre d'occurences de mots ($N$) +- **Types**: Nombre de mots distincts dans le vocabulaire ($|V|$) +- **Mot**: Plus petit élément pouvant être prononcé ou écrit en isolation avec un contenu sémantique. On peut accepter les signes de ponctuation dans certaines tâches -## Lemmatisation +Loi de Heaps: $|V| = kN^{\beta}, 0.67 < \beta < 0.75$ -## Analyse morphologique +Dictionnaires: -# Distance minimale d'édition +- Oxford English (600 000 mots) +- Petit Robert (60 000 mots) + +## Types de traitements + +Les traitements les plus fréquents sont: + +- Découper le texte en mots (segmentation) +- Uniformiser les mots (normalisation) +- Découper le texte en phrases (segmentation) + +## Segmentation de mots (tokenisation) + +- Utilisation de délimiteurs (ponctuation et espaces) + - Difficultés: + - Apostrophes qui relient des mots + - Traits d'union reliant deux parties d'une entité ou deux entités séparées + - Acronymes + - Mots composés et noms propres + - Nombres et termes spéciaux +- Choix du tokeniseur: + - Split + - Whitespace + - WordPunct + - Treebank + - Tweet + - Regexp +- Disponible dans toutes les librairies NLP + - Efficace, utilise des expressions régulières et correction avec un dictionnaire + +## Normalisation + + + +### Stemming + +### Lemmatisation + +### Analyse morphologique + +## Distance minimale d'édition + +## Segmentation de phrases # Modèles de langue N-grammes