diff --git a/examen_partiel.md b/examen_partiel.md index c52b9b4..9641eb5 100644 --- a/examen_partiel.md +++ b/examen_partiel.md @@ -302,14 +302,112 @@ L'objectif d'un modèle de langue est classifier un texte selon son vocabulaire ## Définition -- **$N$-gramme** : Séquence de $N$ mots -- Les plus fréquents sont les bigrammes (2) et trigrammes(3) -- On évalue la probabilité d'une séquence de longueur $N$ à partir de la probabilité de la séquence de longueur $N-1$. +- **$N$-gramme**: Séquence de $N$ mots + - Les plus fréquents sont les bigrammes (2) et trigrammes(3) +- **Corpus**: Ensemble de documents représentatif de notre application ou du sujet d'intérêt + +## Applications + +La prédiction du mot suivant est utilisée dans plusieurs domaines + +- Reconnaissance vocale +- Correction d'orthographe +- Traduction automatique + +Classification de textes, désambiguation ## Modèles +Approches: + +- Estimer les probabilités à partir des fréquences relatives des mots +- Compter les sous-séquences dans un corpus + +Décompte des mots: + +- On utilise seulement les formes de mots (les mots tel quels) + +Calcul: + +- On évalue la probabilité d'une séquence de longueur $N$ à partir de la probabilité de la séquence de longueur $N-1$. + - Ex: $P(w_4|w_1,w_2,w_3)$ +- On évalue la probabilité d'une séquence entière + - $P(W) = P(w_1,w_2,w_3,w_4)$ + +Règle de Bayes: + +$$ +\begin{aligned} +P(B|A) &= \frac{P(A,B)}{P(A)} +&= \frac{P(B)P(A|B)}{P(A)} +\end{aligned} +$$ + +Exemple: + +$$ +\begin{aligned} +&P(\texttt{nous} | \texttt{les minions sont de retour et}) \\ +&=\frac{P(\texttt{les minions sont de retour et nous})}{P(\texttt{les minions sont de retour et})} +\end{aligned} +$$ + +## Chainage de probabilités + +- Selon Google, les comptes de ces séquences sont de 0. +- Solution: Règle de chaînage de probabilité + - Assumer une forme d'indépendance entre les mots. + - $P(ABC) = P(A) P(B|A) P(C|AB)$ +- Forme générale: + +$$ +\begin{aligned} +P(w_i^n) &= P(w_1)P(w_2|w_1)P(w_3|w_1^2) \ldots P(w_n|w_1^{n-1}) \\ +&= \prod_{k=1}^{n} P(w_k|w_1^{k-1}) +\end{aligned} +$$ + +- Exemple: + +$$ +\begin{aligned} +P(\texttt{les minions sont de retour}) &= \\ +P(\texttt{les}) \times \\ +P(\texttt{minions}|\texttt{les}) \times \\ +P(\texttt{sont}|\texttt{les minions}) \times \\ +P(\texttt{de}|\texttt{les minions sont}) \times \\ +P(\texttt{retour}|\texttt{les minions sont de}) \times \\ +\end{aligned} +$$ + +Encore une fois, il y a trop de phrases possibles pour pouvoir calculer les statistiques de longs historiques. On pose une autre hypothèse d'indépendance, l'hypothèse de Markov. + +$$ +\begin{aligned} +P(\texttt{retour}|\texttt{les minions sont de}) +&\sim P(\texttt{retour}|\texttt{de}) +&\sim P(\texttt{retour}|\texttt{sont de}) +\end{aligned} +$$ + +**Hypothèse de Markov**: Les mots sont indépendants du début de l'historique, et seulement des $N$ mots précédents. + +$$ +P(w_n|w_1{n-1}) \sim P(w_n|w_{n-N+1}^{n-1}) +$$ + ## Estimation des probabilités +Estimateur du maximum de vraisemblance pour les bigrammes + +$$ +\begin{aligned} +P(w_i|w_{i-1}) &= \frac{\texttt{count}(w_{i-1},w_i)}{\texttt{count}(w_{i-1})} \\ +&= \frac{C(w_{i-1},w_i)}{C(w_{i-1})} \\ +&= \frac{C(w_{n-1}w_n)}{\sum_{w \in V}C(w_{n-1}w)} +\end{aligned} +$$ + ## Lissage # Correction d'orthographe