From 6aa5dc71f4b7d48efc03c9c346f6726277bad105 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Fran=C3=A7ois=20Pelletier?= Date: Sun, 20 Oct 2019 13:53:01 -0400 Subject: [PATCH] =?UTF-8?q?d=C3=A9but=20analyse=20syntaxique?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- examen_partiel.md | 86 ++++++++++++++++++++++++++++++++++++++++++++++- 1 file changed, 85 insertions(+), 1 deletion(-) diff --git a/examen_partiel.md b/examen_partiel.md index 000897c..e729280 100644 --- a/examen_partiel.md +++ b/examen_partiel.md @@ -1019,18 +1019,102 @@ $$ Comme il n'est pas pratique d'énumérer tous les chemins possibles et d'estimer leurs probabilités, on utilise la programmation dynamique. +Tableau: +- Lignes: État possible +- Colonnes: Mots +- Treillis reliant les états possibles +- On multiplie les probabilité sur chacun des chemins et on conserve celui avec la probabilité la plus élevée aux noeuds qui recoupent deux chemins. +- $v_t(j)=\max_{i=1}^N v_{t-1}(i)a_{ij}b_j(o_t)$ + +### Extension + +- Utiliser des trigrammes: +$$ +P(t_1^n) \approx \prod_{i=1}^n P(t_i|t_{i-1}t_{i-2}) +$$ +- Lissage des probabilités de transition par interpolation linéaire: +$$ +P(t_i|t_{i-1}t_{i-2}) = \lambda_3 P(t_i|t_{i-1}t_{i-2}) + \lambda_2 P(t_i|t_{i-1}) + \lambda_1 P(t_i) +$$ +- Mots inconnus: + - Utiliser les suffixes des mots + - Probabilité que les suffixes correspondent aux étiquettes: + - Ex: P(-ment|RB) ## MEMM -## Choix d'attributs +- Chaque étiquette dépend du mot et d'autres attributs (étiquettes et mots précédents et suivants, par exemple, ou tout autre attribut du mot, dont la forme) + +$$ +\begin{aligned} +\hat{T} = arg\,max_{T} \prod_{i} P(t_i|t_{i-1},w_i,f_i) +\end{aligned} +$$ + +### Attributs possibles: + +- $w_i$ contient un préfixe particulier (de tous les préfixes de longueur $\leq 4$) +- $w_i$ contient un suffixe particulier (de tous les suffixes de longueur $\leq 4$) +- $w_i$ contient un nombre +- $w_i$ contient une lettre majuscule +- $w_i$ contient un trait d'union +- $w_i$ est tout en majuscules +- la forme du mot $w_i$ +- la forme courte du mot $w_i$ +- $w_i$ est en majuscules et comporte un chiffre et un tiret (comme CFC-12) +- $w_i$ est en majuscules et suivi en 3 mots par Co, Inc. + +### Séquence la plus probable: + +$$ +\begin{aligned} +\hat{T} = arg\,max_{T} \prod_{i}\frac{\exp\left(\sum_{j}\theta_{j}f_{j}(t_i,w_{i-l}^{i+l},t_{i-k}^{i-1})\right)}{\sum_{t^{\prime} \in \text{tagset}}\exp\left(\sum_{j}\theta_{j}f_{j}(t^{\prime},w_{i-l}^{i+l},t_{i-k}^{i-1})\right)} +\end{aligned} +$$ + +- Décodage avec l'algorithme de Viterbi, comme pour les HMM + +$$ +v_t(j) = \max_{i=1}^N v_{t-1}(i)P(q_j|q_i,o_t) +$$ + +- La résolution peut être bidirectionnelle. +- La performance se mesure par l'exactitude. + - Les meilleurs algorithme obtiennent 97% en anglais. # Analyse syntaxique ## Groupes syntaxiques +Groupes de mots formant une seule unité dans la phrase: + +- Nominal +- Verbal +- Prépositionnel +- Adverbial +- Adjectival + +Ils ont une structure interne souvent similaire + +Comportement externe: + +- Par rapport aus autres unités +- On peut changer leur position dans la phrase +- Il est difficile de déplacer les mots individuellement + ## Grammaire +Formalisation: grammaire hors-contexte + +- Règles + - Un non-terminal à gauche et un certain nombre de terminaux et non-terminaux à droite +- Symboles terminaux + - Mots des phrases +- Symboles non-terminaux + - Groupes de mots + + ## Analyseur ## CKY