ajout tokenisation mots

This commit is contained in:
François Pelletier 2019-10-13 01:10:09 -04:00
parent fb18d8b5d6
commit 9a60485710

View file

@ -130,17 +130,61 @@ Deux approches de base:
Toute expression régulière peut être compilée automatiquement en un automate non-déterministe, que l'on peut convertir en automate déterministe.
# Tokenisation de mots et segmentation de phrases
# Prétraitement des textes
# Normalisation
## Définitions
## Stemming
- **Jetons**: Nombre d'occurences de mots ($N$)
- **Types**: Nombre de mots distincts dans le vocabulaire ($|V|$)
- **Mot**: Plus petit élément pouvant être prononcé ou écrit en isolation avec un contenu sémantique. On peut accepter les signes de ponctuation dans certaines tâches
## Lemmatisation
Loi de Heaps: $|V| = kN^{\beta}, 0.67 < \beta < 0.75$
## Analyse morphologique
Dictionnaires:
# Distance minimale d'édition
- Oxford English (600 000 mots)
- Petit Robert (60 000 mots)
## Types de traitements
Les traitements les plus fréquents sont:
- Découper le texte en mots (segmentation)
- Uniformiser les mots (normalisation)
- Découper le texte en phrases (segmentation)
## Segmentation de mots (tokenisation)
- Utilisation de délimiteurs (ponctuation et espaces)
- Difficultés:
- Apostrophes qui relient des mots
- Traits d'union reliant deux parties d'une entité ou deux entités séparées
- Acronymes
- Mots composés et noms propres
- Nombres et termes spéciaux
- Choix du tokeniseur:
- Split
- Whitespace
- WordPunct
- Treebank
- Tweet
- Regexp
- Disponible dans toutes les librairies NLP
- Efficace, utilise des expressions régulières et correction avec un dictionnaire
## Normalisation
### Stemming
### Lemmatisation
### Analyse morphologique
## Distance minimale d'édition
## Segmentation de phrases
# Modèles de langue N-grammes