début analyse syntaxique
This commit is contained in:
parent
35d79a2164
commit
6aa5dc71f4
1 changed files with 85 additions and 1 deletions
|
@ -1019,18 +1019,102 @@ $$
|
|||
|
||||
Comme il n'est pas pratique d'énumérer tous les chemins possibles et d'estimer leurs probabilités, on utilise la programmation dynamique.
|
||||
|
||||
Tableau:
|
||||
|
||||
- Lignes: État possible
|
||||
- Colonnes: Mots
|
||||
- Treillis reliant les états possibles
|
||||
- On multiplie les probabilité sur chacun des chemins et on conserve celui avec la probabilité la plus élevée aux noeuds qui recoupent deux chemins.
|
||||
- $v_t(j)=\max_{i=1}^N v_{t-1}(i)a_{ij}b_j(o_t)$
|
||||
|
||||
### Extension
|
||||
|
||||
- Utiliser des trigrammes:
|
||||
$$
|
||||
P(t_1^n) \approx \prod_{i=1}^n P(t_i|t_{i-1}t_{i-2})
|
||||
$$
|
||||
- Lissage des probabilités de transition par interpolation linéaire:
|
||||
$$
|
||||
P(t_i|t_{i-1}t_{i-2}) = \lambda_3 P(t_i|t_{i-1}t_{i-2}) + \lambda_2 P(t_i|t_{i-1}) + \lambda_1 P(t_i)
|
||||
$$
|
||||
- Mots inconnus:
|
||||
- Utiliser les suffixes des mots
|
||||
- Probabilité que les suffixes correspondent aux étiquettes:
|
||||
- Ex: P(-ment|RB)
|
||||
|
||||
## MEMM
|
||||
|
||||
## Choix d'attributs
|
||||
- Chaque étiquette dépend du mot et d'autres attributs (étiquettes et mots précédents et suivants, par exemple, ou tout autre attribut du mot, dont la forme)
|
||||
|
||||
$$
|
||||
\begin{aligned}
|
||||
\hat{T} = arg\,max_{T} \prod_{i} P(t_i|t_{i-1},w_i,f_i)
|
||||
\end{aligned}
|
||||
$$
|
||||
|
||||
### Attributs possibles:
|
||||
|
||||
- $w_i$ contient un préfixe particulier (de tous les préfixes de longueur $\leq 4$)
|
||||
- $w_i$ contient un suffixe particulier (de tous les suffixes de longueur $\leq 4$)
|
||||
- $w_i$ contient un nombre
|
||||
- $w_i$ contient une lettre majuscule
|
||||
- $w_i$ contient un trait d'union
|
||||
- $w_i$ est tout en majuscules
|
||||
- la forme du mot $w_i$
|
||||
- la forme courte du mot $w_i$
|
||||
- $w_i$ est en majuscules et comporte un chiffre et un tiret (comme CFC-12)
|
||||
- $w_i$ est en majuscules et suivi en 3 mots par Co, Inc.
|
||||
|
||||
### Séquence la plus probable:
|
||||
|
||||
$$
|
||||
\begin{aligned}
|
||||
\hat{T} = arg\,max_{T} \prod_{i}\frac{\exp\left(\sum_{j}\theta_{j}f_{j}(t_i,w_{i-l}^{i+l},t_{i-k}^{i-1})\right)}{\sum_{t^{\prime} \in \text{tagset}}\exp\left(\sum_{j}\theta_{j}f_{j}(t^{\prime},w_{i-l}^{i+l},t_{i-k}^{i-1})\right)}
|
||||
\end{aligned}
|
||||
$$
|
||||
|
||||
- Décodage avec l'algorithme de Viterbi, comme pour les HMM
|
||||
|
||||
$$
|
||||
v_t(j) = \max_{i=1}^N v_{t-1}(i)P(q_j|q_i,o_t)
|
||||
$$
|
||||
|
||||
- La résolution peut être bidirectionnelle.
|
||||
- La performance se mesure par l'exactitude.
|
||||
- Les meilleurs algorithme obtiennent 97% en anglais.
|
||||
|
||||
# Analyse syntaxique
|
||||
|
||||
## Groupes syntaxiques
|
||||
|
||||
Groupes de mots formant une seule unité dans la phrase:
|
||||
|
||||
- Nominal
|
||||
- Verbal
|
||||
- Prépositionnel
|
||||
- Adverbial
|
||||
- Adjectival
|
||||
|
||||
Ils ont une structure interne souvent similaire
|
||||
|
||||
Comportement externe:
|
||||
|
||||
- Par rapport aus autres unités
|
||||
- On peut changer leur position dans la phrase
|
||||
- Il est difficile de déplacer les mots individuellement
|
||||
|
||||
## Grammaire
|
||||
|
||||
Formalisation: grammaire hors-contexte
|
||||
|
||||
- Règles
|
||||
- Un non-terminal à gauche et un certain nombre de terminaux et non-terminaux à droite
|
||||
- Symboles terminaux
|
||||
- Mots des phrases
|
||||
- Symboles non-terminaux
|
||||
- Groupes de mots
|
||||
|
||||
|
||||
## Analyseur
|
||||
|
||||
## CKY
|
||||
|
|
Loading…
Reference in a new issue