ajout introduction n-grammes

This commit is contained in:
François Pelletier 2019-10-17 00:49:00 -04:00
parent 451e8fd91a
commit d285d265b4

View file

@ -302,14 +302,112 @@ L'objectif d'un modèle de langue est classifier un texte selon son vocabulaire
## Définition
- **$N$-gramme** : Séquence de $N$ mots
- Les plus fréquents sont les bigrammes (2) et trigrammes(3)
- On évalue la probabilité d'une séquence de longueur $N$ à partir de la probabilité de la séquence de longueur $N-1$.
- **$N$-gramme**: Séquence de $N$ mots
- Les plus fréquents sont les bigrammes (2) et trigrammes(3)
- **Corpus**: Ensemble de documents représentatif de notre application ou du sujet d'intérêt
## Applications
La prédiction du mot suivant est utilisée dans plusieurs domaines
- Reconnaissance vocale
- Correction d'orthographe
- Traduction automatique
Classification de textes, désambiguation
## Modèles
Approches:
- Estimer les probabilités à partir des fréquences relatives des mots
- Compter les sous-séquences dans un corpus
Décompte des mots:
- On utilise seulement les formes de mots (les mots tel quels)
Calcul:
- On évalue la probabilité d'une séquence de longueur $N$ à partir de la probabilité de la séquence de longueur $N-1$.
- Ex: $P(w_4|w_1,w_2,w_3)$
- On évalue la probabilité d'une séquence entière
- $P(W) = P(w_1,w_2,w_3,w_4)$
Règle de Bayes:
$$
\begin{aligned}
P(B|A) &= \frac{P(A,B)}{P(A)}
&= \frac{P(B)P(A|B)}{P(A)}
\end{aligned}
$$
Exemple:
$$
\begin{aligned}
&P(\texttt{nous} | \texttt{les minions sont de retour et}) \\
&=\frac{P(\texttt{les minions sont de retour et nous})}{P(\texttt{les minions sont de retour et})}
\end{aligned}
$$
## Chainage de probabilités
- Selon Google, les comptes de ces séquences sont de 0.
- Solution: Règle de chaînage de probabilité
- Assumer une forme d'indépendance entre les mots.
- $P(ABC) = P(A) P(B|A) P(C|AB)$
- Forme générale:
$$
\begin{aligned}
P(w_i^n) &= P(w_1)P(w_2|w_1)P(w_3|w_1^2) \ldots P(w_n|w_1^{n-1}) \\
&= \prod_{k=1}^{n} P(w_k|w_1^{k-1})
\end{aligned}
$$
- Exemple:
$$
\begin{aligned}
P(\texttt{les minions sont de retour}) &= \\
P(\texttt{les}) \times \\
P(\texttt{minions}|\texttt{les}) \times \\
P(\texttt{sont}|\texttt{les minions}) \times \\
P(\texttt{de}|\texttt{les minions sont}) \times \\
P(\texttt{retour}|\texttt{les minions sont de}) \times \\
\end{aligned}
$$
Encore une fois, il y a trop de phrases possibles pour pouvoir calculer les statistiques de longs historiques. On pose une autre hypothèse d'indépendance, l'hypothèse de Markov.
$$
\begin{aligned}
P(\texttt{retour}|\texttt{les minions sont de})
&\sim P(\texttt{retour}|\texttt{de})
&\sim P(\texttt{retour}|\texttt{sont de})
\end{aligned}
$$
**Hypothèse de Markov**: Les mots sont indépendants du début de l'historique, et seulement des $N$ mots précédents.
$$
P(w_n|w_1{n-1}) \sim P(w_n|w_{n-N+1}^{n-1})
$$
## Estimation des probabilités
Estimateur du maximum de vraisemblance pour les bigrammes
$$
\begin{aligned}
P(w_i|w_{i-1}) &= \frac{\texttt{count}(w_{i-1},w_i)}{\texttt{count}(w_{i-1})} \\
&= \frac{C(w_{i-1},w_i)}{C(w_{i-1})} \\
&= \frac{C(w_{n-1}w_n)}{\sum_{w \in V}C(w_{n-1}w)}
\end{aligned}
$$
## Lissage
# Correction d'orthographe