ajout tokenisation mots
This commit is contained in:
parent
fb18d8b5d6
commit
9a60485710
1 changed files with 50 additions and 6 deletions
|
@ -130,17 +130,61 @@ Deux approches de base:
|
|||
|
||||
Toute expression régulière peut être compilée automatiquement en un automate non-déterministe, que l'on peut convertir en automate déterministe.
|
||||
|
||||
# Tokenisation de mots et segmentation de phrases
|
||||
# Prétraitement des textes
|
||||
|
||||
# Normalisation
|
||||
## Définitions
|
||||
|
||||
## Stemming
|
||||
- **Jetons**: Nombre d'occurences de mots ($N$)
|
||||
- **Types**: Nombre de mots distincts dans le vocabulaire ($|V|$)
|
||||
- **Mot**: Plus petit élément pouvant être prononcé ou écrit en isolation avec un contenu sémantique. On peut accepter les signes de ponctuation dans certaines tâches
|
||||
|
||||
## Lemmatisation
|
||||
Loi de Heaps: $|V| = kN^{\beta}, 0.67 < \beta < 0.75$
|
||||
|
||||
## Analyse morphologique
|
||||
Dictionnaires:
|
||||
|
||||
# Distance minimale d'édition
|
||||
- Oxford English (600 000 mots)
|
||||
- Petit Robert (60 000 mots)
|
||||
|
||||
## Types de traitements
|
||||
|
||||
Les traitements les plus fréquents sont:
|
||||
|
||||
- Découper le texte en mots (segmentation)
|
||||
- Uniformiser les mots (normalisation)
|
||||
- Découper le texte en phrases (segmentation)
|
||||
|
||||
## Segmentation de mots (tokenisation)
|
||||
|
||||
- Utilisation de délimiteurs (ponctuation et espaces)
|
||||
- Difficultés:
|
||||
- Apostrophes qui relient des mots
|
||||
- Traits d'union reliant deux parties d'une entité ou deux entités séparées
|
||||
- Acronymes
|
||||
- Mots composés et noms propres
|
||||
- Nombres et termes spéciaux
|
||||
- Choix du tokeniseur:
|
||||
- Split
|
||||
- Whitespace
|
||||
- WordPunct
|
||||
- Treebank
|
||||
- Tweet
|
||||
- Regexp
|
||||
- Disponible dans toutes les librairies NLP
|
||||
- Efficace, utilise des expressions régulières et correction avec un dictionnaire
|
||||
|
||||
## Normalisation
|
||||
|
||||
|
||||
|
||||
### Stemming
|
||||
|
||||
### Lemmatisation
|
||||
|
||||
### Analyse morphologique
|
||||
|
||||
## Distance minimale d'édition
|
||||
|
||||
## Segmentation de phrases
|
||||
|
||||
# Modèles de langue N-grammes
|
||||
|
||||
|
|
Loading…
Reference in a new issue