fin partie CKY début recherche info
This commit is contained in:
parent
6aa5dc71f4
commit
69b5713a95
2 changed files with 167 additions and 4 deletions
|
@ -1089,8 +1089,27 @@ $$
|
|||
|
||||
Groupes de mots formant une seule unité dans la phrase:
|
||||
|
||||
- Nominal
|
||||
- Verbal
|
||||
- Nominal (NP)
|
||||
- Exemples de règles
|
||||
- NP -> Pronoun
|
||||
- NP -> ProperNoun
|
||||
- NP -> Det Nominal
|
||||
- Nominal -> Noun | Nominam Noun
|
||||
- Noyau (Head noun): rôle central du groupe nominal
|
||||
- Modifiants:
|
||||
- Déterminants
|
||||
- Nombre
|
||||
- Adjectif
|
||||
- Adjectif indéfini
|
||||
- Groupe prépositionnel
|
||||
- Verbal (VP)
|
||||
- Exemples:
|
||||
- VP -> Verb
|
||||
- VP -> Verb NP
|
||||
- VP -> Verb PP
|
||||
- VP -> Verb NP PP
|
||||
- Verbe de tête (head verb)
|
||||
- Arguments
|
||||
- Prépositionnel
|
||||
- Adverbial
|
||||
- Adjectival
|
||||
|
@ -1113,22 +1132,166 @@ Formalisation: grammaire hors-contexte
|
|||
- Mots des phrases
|
||||
- Symboles non-terminaux
|
||||
- Groupes de mots
|
||||
|
||||
Types de phrases
|
||||
|
||||
- Déclarative
|
||||
- S -> NP VP
|
||||
- Impérative
|
||||
- S -> VP
|
||||
- Question oui-non
|
||||
- S -> Aux NP VP
|
||||
- Question ouverte (WH question)
|
||||
- S -> WH-NP VP
|
||||
- S -> WH-NP Aux NP VP
|
||||
|
||||
## Analyseur
|
||||
|
||||
L'analyseur:
|
||||
|
||||
- Accepte ou rejette une phrase selon le respect de la grammaire d'une langue.
|
||||
- Assigne une structure appropriés à une phrase (parsing):
|
||||
- Arbre
|
||||
- Représentation compacte
|
||||
- Il peut produire plus d'un arbre
|
||||
|
||||
**Dérivation**: Séquence de règles appliquées à une phrase, recouvre tous les mots et seulement ceux-ci.
|
||||
**Treebanks**: corpus de phrases associées à un arbre syntaxique.
|
||||
|
||||
- Analyseur automatique et correction par l'humain.
|
||||
- Sert à définir une grammaire à partir des dérivations.
|
||||
- Grammaire partielle, bonne couverture avec un large corpus
|
||||
|
||||
Approches:
|
||||
|
||||
- Descendant
|
||||
- Explore les arbres qui peuvent être des solutions
|
||||
- Suggère des arbres non-consistants par rapport aux mots
|
||||
- Ascendant
|
||||
- Suggère seulement des arbres compatibles
|
||||
- Les arbres peuvent ne faire aucun sens globalement
|
||||
|
||||
Enjeux du backtracking:
|
||||
|
||||
- Ambiguité (problème de rattachement, groupes de mots qui ne font pas de sens au niveau sémantique)
|
||||
- Répétition de sous-arbres à différents endroits
|
||||
|
||||
Solution: dynamic programming
|
||||
|
||||
- Éviter de refaire du travail inutilement
|
||||
- Résoudre des problèmes exponentiels en temps polynomial
|
||||
- Emmaganiser les sous-structures ambigues avec leurs sous-parties communes
|
||||
- CKY, Earley, Chart Parser
|
||||
|
||||
## CKY
|
||||
|
||||
## Probabiliste
|
||||
- La grammaire doit être composée de règles binaires
|
||||
- Si A, alors B et C existe et il y a un endroit pour les séparer
|
||||
- Réécrire les règles non-binaires sous la forme normale de Chomsky:
|
||||
- Deux symboles non-terminaux ou un symbole terminal
|
||||
- Remplacer les symboles non-terminaux uniques par toutes les formes qu'il peut prendre
|
||||
- Remplacer les symboles non-terminaux au nombre de 3 ou plus par de nouvelles règles et de nouveaux symboles pour faire le découpage:
|
||||
- S -> A B C
|
||||
- S -> X C; X -> A B
|
||||
|
||||
### Algorithme
|
||||
|
||||
1. Construire le tableau. Les mots forment les colonnes.
|
||||
2. Identifier les POS sur la diagonale selon le lexique
|
||||
3. Traverser le tableau et identifier les groupes applicables à partir des règles de la grammaire sans contexte. Il peut y avoir plusieurs combinaison à regarder pour chaque case.
|
||||
|
||||
Les boucles sont imbriquées pour remplir le tableau:
|
||||
|
||||
- Une colonne à la fois
|
||||
- De gauche à droite
|
||||
- Du bas vers le haut
|
||||
|
||||
- Les résultats nécessaires sont déjà présents dans le tableau.
|
||||
- Algorithme en ligne (online).
|
||||
- Approche simplifiée
|
||||
- On connaît tous les mots via un lexique.
|
||||
- La chaîne n'a pas d'étiquette lexicale.
|
||||
- Pas de genre ni de nombre
|
||||
- Pas d'analyse morphologique
|
||||
- En pratique, on devrait considérer ces éléments
|
||||
|
||||
### Approche Probabiliste
|
||||
|
||||
- On ajoute des probabilités à toutes les règles de la grammaire.
|
||||
- On reprend l'algorithme CKY, mais en multipliant les probabilités des règles précédentes et de la règle courante.
|
||||
- On retient la plus grande probabilité pour chaque cellule.
|
||||
|
||||
## Analyseur de dépendances
|
||||
|
||||
- Analyse syntaxique des relations entre les mots d'une phrase.
|
||||
- Arbre dont:
|
||||
- Les noeuds représentent les mots
|
||||
- Les liens représentent les relations de dépendance entre les paires de mots
|
||||
- Avantages:
|
||||
- Plus rapide à construire
|
||||
- Moins dépendant de l'ordre des mots
|
||||
- Capture des relations syntaxiques
|
||||
- Approche vorace (voir Stanford Parser)
|
||||
- Universal Dependancies: différentes langues
|
||||
|
||||
![Universal Dependency Relations](ud_relations.png)
|
||||
|
||||
Liste des dépendances
|
||||
|
||||
- acl: clausal modifier of noun (adjectival clause)
|
||||
- advcl: adverbial clause modifier
|
||||
- advmod: adverbial modifier
|
||||
- amod: adjectival modifier
|
||||
- appos: appositional modifier
|
||||
- aux: auxiliary
|
||||
- case: case marking
|
||||
- cc: coordinating conjunction
|
||||
- ccomp: clausal complement
|
||||
- clf: classifier
|
||||
- compound: compound
|
||||
- conj: conjunct
|
||||
- cop: copula
|
||||
- csubj: clausal subject
|
||||
- dep: unspecified dependency
|
||||
- det: determiner
|
||||
- discourse: discourse element
|
||||
- dislocated: dislocated elements
|
||||
- expl: expletive
|
||||
- fixed: fixed multiword expression
|
||||
- flat: flat multiword expression
|
||||
- goeswith: goes with
|
||||
- iobj: indirect object
|
||||
- list: list
|
||||
- mark: marker
|
||||
- nmod: nominal modifier
|
||||
- nsubj: nominal subject
|
||||
- nummod: numeric modifier
|
||||
- obj: object
|
||||
- obl: oblique nominal
|
||||
- orphan: orphan
|
||||
- parataxis: parataxis
|
||||
- punct: punctuation
|
||||
- reparandum: overridden disfluency
|
||||
- root: root
|
||||
- vocative: vocative
|
||||
- xcomp: open clausal complement
|
||||
|
||||
## Chunking
|
||||
|
||||
Analyse de surface:
|
||||
|
||||
- Début et fin des groupes syntaxiques
|
||||
- Pas d'arbre
|
||||
- Seulement les parties qui nous intéressent
|
||||
|
||||
C'est un problème d'étiquetage
|
||||
|
||||
# Recherche d'information
|
||||
|
||||
|
||||
|
||||
# Wordnet
|
||||
|
||||
# Cooccurences
|
||||
|
||||
|
||||
# Premier travail pratique
|
||||
|
|
BIN
ud_relations.png
Normal file
BIN
ud_relations.png
Normal file
Binary file not shown.
After Width: | Height: | Size: 34 KiB |
Loading…
Reference in a new issue