From 6aa5dc71f4b7d48efc03c9c346f6726277bad105 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Fran=C3=A7ois=20Pelletier?= <francois@francoispelletier.org>
Date: Sun, 20 Oct 2019 13:53:01 -0400
Subject: [PATCH] =?UTF-8?q?d=C3=A9but=20analyse=20syntaxique?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 examen_partiel.md | 86 ++++++++++++++++++++++++++++++++++++++++++++++-
 1 file changed, 85 insertions(+), 1 deletion(-)

diff --git a/examen_partiel.md b/examen_partiel.md
index 000897c..e729280 100644
--- a/examen_partiel.md
+++ b/examen_partiel.md
@@ -1019,18 +1019,102 @@ $$
 
 Comme il n'est pas pratique d'énumérer tous les chemins possibles et d'estimer leurs probabilités, on utilise la programmation dynamique.
 
+Tableau:
 
+- Lignes: État possible
+- Colonnes: Mots
+- Treillis reliant les états possibles
+- On multiplie les probabilité sur chacun des chemins et on conserve celui avec la probabilité la plus élevée aux noeuds qui recoupent deux chemins.
+- $v_t(j)=\max_{i=1}^N v_{t-1}(i)a_{ij}b_j(o_t)$
+
+### Extension
+
+- Utiliser des trigrammes: 
+$$
+P(t_1^n) \approx \prod_{i=1}^n P(t_i|t_{i-1}t_{i-2})
+$$
+- Lissage des probabilités de transition par interpolation linéaire:
+$$
+P(t_i|t_{i-1}t_{i-2}) = \lambda_3 P(t_i|t_{i-1}t_{i-2}) + \lambda_2 P(t_i|t_{i-1}) + \lambda_1 P(t_i)
+$$
+- Mots inconnus:
+  - Utiliser les suffixes des mots
+  - Probabilité que les suffixes correspondent aux étiquettes:
+	- Ex: P(-ment|RB)
 
 ## MEMM
 
-## Choix d'attributs
+- Chaque étiquette dépend du mot et d'autres attributs (étiquettes et mots précédents et suivants, par exemple, ou tout autre attribut du mot, dont la forme)
+
+$$
+\begin{aligned}
+\hat{T} = arg\,max_{T} \prod_{i} P(t_i|t_{i-1},w_i,f_i)
+\end{aligned}
+$$
+
+### Attributs possibles:
+
+- $w_i$ contient un préfixe particulier (de tous les préfixes de longueur $\leq 4$)
+- $w_i$ contient un suffixe particulier (de tous les suffixes de longueur $\leq 4$)
+- $w_i$ contient un nombre
+- $w_i$ contient une lettre majuscule
+- $w_i$ contient un trait d'union
+- $w_i$ est tout en majuscules
+- la forme du mot $w_i$ 
+- la forme courte du mot $w_i$
+- $w_i$ est en majuscules et comporte un chiffre et un tiret (comme CFC-12)
+- $w_i$ est en majuscules et suivi en 3 mots par Co, Inc.
+
+### Séquence la plus probable:
+
+$$
+\begin{aligned}
+\hat{T} = arg\,max_{T} \prod_{i}\frac{\exp\left(\sum_{j}\theta_{j}f_{j}(t_i,w_{i-l}^{i+l},t_{i-k}^{i-1})\right)}{\sum_{t^{\prime} \in \text{tagset}}\exp\left(\sum_{j}\theta_{j}f_{j}(t^{\prime},w_{i-l}^{i+l},t_{i-k}^{i-1})\right)}
+\end{aligned}
+$$
+
+- Décodage avec l'algorithme de Viterbi, comme pour les HMM
+
+$$
+v_t(j) = \max_{i=1}^N v_{t-1}(i)P(q_j|q_i,o_t)
+$$
+
+- La résolution peut être bidirectionnelle.
+- La performance se mesure par l'exactitude. 
+  - Les meilleurs algorithme obtiennent 97% en anglais.
 
 # Analyse syntaxique
 
 ## Groupes syntaxiques
 
+Groupes de mots formant une seule unité dans la phrase:
+
+- Nominal
+- Verbal
+- Prépositionnel
+- Adverbial
+- Adjectival
+
+Ils ont une structure interne souvent similaire
+
+Comportement externe:
+
+- Par rapport aus autres unités
+- On peut changer leur position dans la phrase
+- Il est difficile de déplacer les mots individuellement
+
 ## Grammaire
 
+Formalisation: grammaire hors-contexte
+
+- Règles
+  - Un non-terminal à gauche et un certain nombre de terminaux et non-terminaux à droite
+- Symboles terminaux
+  - Mots des phrases
+- Symboles non-terminaux
+  - Groupes de mots
+
+
 ## Analyseur
 
 ## CKY