ajout introduction n-grammes
This commit is contained in:
parent
451e8fd91a
commit
d285d265b4
1 changed files with 101 additions and 3 deletions
|
@ -302,14 +302,112 @@ L'objectif d'un modèle de langue est classifier un texte selon son vocabulaire
|
|||
|
||||
## Définition
|
||||
|
||||
- **$N$-gramme** : Séquence de $N$ mots
|
||||
- Les plus fréquents sont les bigrammes (2) et trigrammes(3)
|
||||
- On évalue la probabilité d'une séquence de longueur $N$ à partir de la probabilité de la séquence de longueur $N-1$.
|
||||
- **$N$-gramme**: Séquence de $N$ mots
|
||||
- Les plus fréquents sont les bigrammes (2) et trigrammes(3)
|
||||
- **Corpus**: Ensemble de documents représentatif de notre application ou du sujet d'intérêt
|
||||
|
||||
## Applications
|
||||
|
||||
La prédiction du mot suivant est utilisée dans plusieurs domaines
|
||||
|
||||
- Reconnaissance vocale
|
||||
- Correction d'orthographe
|
||||
- Traduction automatique
|
||||
|
||||
Classification de textes, désambiguation
|
||||
|
||||
## Modèles
|
||||
|
||||
Approches:
|
||||
|
||||
- Estimer les probabilités à partir des fréquences relatives des mots
|
||||
- Compter les sous-séquences dans un corpus
|
||||
|
||||
Décompte des mots:
|
||||
|
||||
- On utilise seulement les formes de mots (les mots tel quels)
|
||||
|
||||
Calcul:
|
||||
|
||||
- On évalue la probabilité d'une séquence de longueur $N$ à partir de la probabilité de la séquence de longueur $N-1$.
|
||||
- Ex: $P(w_4|w_1,w_2,w_3)$
|
||||
- On évalue la probabilité d'une séquence entière
|
||||
- $P(W) = P(w_1,w_2,w_3,w_4)$
|
||||
|
||||
Règle de Bayes:
|
||||
|
||||
$$
|
||||
\begin{aligned}
|
||||
P(B|A) &= \frac{P(A,B)}{P(A)}
|
||||
&= \frac{P(B)P(A|B)}{P(A)}
|
||||
\end{aligned}
|
||||
$$
|
||||
|
||||
Exemple:
|
||||
|
||||
$$
|
||||
\begin{aligned}
|
||||
&P(\texttt{nous} | \texttt{les minions sont de retour et}) \\
|
||||
&=\frac{P(\texttt{les minions sont de retour et nous})}{P(\texttt{les minions sont de retour et})}
|
||||
\end{aligned}
|
||||
$$
|
||||
|
||||
## Chainage de probabilités
|
||||
|
||||
- Selon Google, les comptes de ces séquences sont de 0.
|
||||
- Solution: Règle de chaînage de probabilité
|
||||
- Assumer une forme d'indépendance entre les mots.
|
||||
- $P(ABC) = P(A) P(B|A) P(C|AB)$
|
||||
- Forme générale:
|
||||
|
||||
$$
|
||||
\begin{aligned}
|
||||
P(w_i^n) &= P(w_1)P(w_2|w_1)P(w_3|w_1^2) \ldots P(w_n|w_1^{n-1}) \\
|
||||
&= \prod_{k=1}^{n} P(w_k|w_1^{k-1})
|
||||
\end{aligned}
|
||||
$$
|
||||
|
||||
- Exemple:
|
||||
|
||||
$$
|
||||
\begin{aligned}
|
||||
P(\texttt{les minions sont de retour}) &= \\
|
||||
P(\texttt{les}) \times \\
|
||||
P(\texttt{minions}|\texttt{les}) \times \\
|
||||
P(\texttt{sont}|\texttt{les minions}) \times \\
|
||||
P(\texttt{de}|\texttt{les minions sont}) \times \\
|
||||
P(\texttt{retour}|\texttt{les minions sont de}) \times \\
|
||||
\end{aligned}
|
||||
$$
|
||||
|
||||
Encore une fois, il y a trop de phrases possibles pour pouvoir calculer les statistiques de longs historiques. On pose une autre hypothèse d'indépendance, l'hypothèse de Markov.
|
||||
|
||||
$$
|
||||
\begin{aligned}
|
||||
P(\texttt{retour}|\texttt{les minions sont de})
|
||||
&\sim P(\texttt{retour}|\texttt{de})
|
||||
&\sim P(\texttt{retour}|\texttt{sont de})
|
||||
\end{aligned}
|
||||
$$
|
||||
|
||||
**Hypothèse de Markov**: Les mots sont indépendants du début de l'historique, et seulement des $N$ mots précédents.
|
||||
|
||||
$$
|
||||
P(w_n|w_1{n-1}) \sim P(w_n|w_{n-N+1}^{n-1})
|
||||
$$
|
||||
|
||||
## Estimation des probabilités
|
||||
|
||||
Estimateur du maximum de vraisemblance pour les bigrammes
|
||||
|
||||
$$
|
||||
\begin{aligned}
|
||||
P(w_i|w_{i-1}) &= \frac{\texttt{count}(w_{i-1},w_i)}{\texttt{count}(w_{i-1})} \\
|
||||
&= \frac{C(w_{i-1},w_i)}{C(w_{i-1})} \\
|
||||
&= \frac{C(w_{n-1}w_n)}{\sum_{w \in V}C(w_{n-1}w)}
|
||||
\end{aligned}
|
||||
$$
|
||||
|
||||
## Lissage
|
||||
|
||||
# Correction d'orthographe
|
||||
|
|
Loading…
Reference in a new issue