début analyse syntaxique

This commit is contained in:
François Pelletier 2019-10-20 13:53:01 -04:00
parent 35d79a2164
commit 6aa5dc71f4

View file

@ -1019,18 +1019,102 @@ $$
Comme il n'est pas pratique d'énumérer tous les chemins possibles et d'estimer leurs probabilités, on utilise la programmation dynamique.
Tableau:
- Lignes: État possible
- Colonnes: Mots
- Treillis reliant les états possibles
- On multiplie les probabilité sur chacun des chemins et on conserve celui avec la probabilité la plus élevée aux noeuds qui recoupent deux chemins.
- $v_t(j)=\max_{i=1}^N v_{t-1}(i)a_{ij}b_j(o_t)$
### Extension
- Utiliser des trigrammes:
$$
P(t_1^n) \approx \prod_{i=1}^n P(t_i|t_{i-1}t_{i-2})
$$
- Lissage des probabilités de transition par interpolation linéaire:
$$
P(t_i|t_{i-1}t_{i-2}) = \lambda_3 P(t_i|t_{i-1}t_{i-2}) + \lambda_2 P(t_i|t_{i-1}) + \lambda_1 P(t_i)
$$
- Mots inconnus:
- Utiliser les suffixes des mots
- Probabilité que les suffixes correspondent aux étiquettes:
- Ex: P(-ment|RB)
## MEMM
## Choix d'attributs
- Chaque étiquette dépend du mot et d'autres attributs (étiquettes et mots précédents et suivants, par exemple, ou tout autre attribut du mot, dont la forme)
$$
\begin{aligned}
\hat{T} = arg\,max_{T} \prod_{i} P(t_i|t_{i-1},w_i,f_i)
\end{aligned}
$$
### Attributs possibles:
- $w_i$ contient un préfixe particulier (de tous les préfixes de longueur $\leq 4$)
- $w_i$ contient un suffixe particulier (de tous les suffixes de longueur $\leq 4$)
- $w_i$ contient un nombre
- $w_i$ contient une lettre majuscule
- $w_i$ contient un trait d'union
- $w_i$ est tout en majuscules
- la forme du mot $w_i$
- la forme courte du mot $w_i$
- $w_i$ est en majuscules et comporte un chiffre et un tiret (comme CFC-12)
- $w_i$ est en majuscules et suivi en 3 mots par Co, Inc.
### Séquence la plus probable:
$$
\begin{aligned}
\hat{T} = arg\,max_{T} \prod_{i}\frac{\exp\left(\sum_{j}\theta_{j}f_{j}(t_i,w_{i-l}^{i+l},t_{i-k}^{i-1})\right)}{\sum_{t^{\prime} \in \text{tagset}}\exp\left(\sum_{j}\theta_{j}f_{j}(t^{\prime},w_{i-l}^{i+l},t_{i-k}^{i-1})\right)}
\end{aligned}
$$
- Décodage avec l'algorithme de Viterbi, comme pour les HMM
$$
v_t(j) = \max_{i=1}^N v_{t-1}(i)P(q_j|q_i,o_t)
$$
- La résolution peut être bidirectionnelle.
- La performance se mesure par l'exactitude.
- Les meilleurs algorithme obtiennent 97% en anglais.
# Analyse syntaxique
## Groupes syntaxiques
Groupes de mots formant une seule unité dans la phrase:
- Nominal
- Verbal
- Prépositionnel
- Adverbial
- Adjectival
Ils ont une structure interne souvent similaire
Comportement externe:
- Par rapport aus autres unités
- On peut changer leur position dans la phrase
- Il est difficile de déplacer les mots individuellement
## Grammaire
Formalisation: grammaire hors-contexte
- Règles
- Un non-terminal à gauche et un certain nombre de terminaux et non-terminaux à droite
- Symboles terminaux
- Mots des phrases
- Symboles non-terminaux
- Groupes de mots
## Analyseur
## CKY