fin partie CKY début recherche info

This commit is contained in:
François Pelletier 2019-10-20 23:46:43 -04:00
parent 6aa5dc71f4
commit 69b5713a95
2 changed files with 167 additions and 4 deletions

View file

@ -1089,8 +1089,27 @@ $$
Groupes de mots formant une seule unité dans la phrase:
- Nominal
- Verbal
- Nominal (NP)
- Exemples de règles
- NP -> Pronoun
- NP -> ProperNoun
- NP -> Det Nominal
- Nominal -> Noun | Nominam Noun
- Noyau (Head noun): rôle central du groupe nominal
- Modifiants:
- Déterminants
- Nombre
- Adjectif
- Adjectif indéfini
- Groupe prépositionnel
- Verbal (VP)
- Exemples:
- VP -> Verb
- VP -> Verb NP
- VP -> Verb PP
- VP -> Verb NP PP
- Verbe de tête (head verb)
- Arguments
- Prépositionnel
- Adverbial
- Adjectival
@ -1113,22 +1132,166 @@ Formalisation: grammaire hors-contexte
- Mots des phrases
- Symboles non-terminaux
- Groupes de mots
Types de phrases
- Déclarative
- S -> NP VP
- Impérative
- S -> VP
- Question oui-non
- S -> Aux NP VP
- Question ouverte (WH question)
- S -> WH-NP VP
- S -> WH-NP Aux NP VP
## Analyseur
L'analyseur:
- Accepte ou rejette une phrase selon le respect de la grammaire d'une langue.
- Assigne une structure appropriés à une phrase (parsing):
- Arbre
- Représentation compacte
- Il peut produire plus d'un arbre
**Dérivation**: Séquence de règles appliquées à une phrase, recouvre tous les mots et seulement ceux-ci.
**Treebanks**: corpus de phrases associées à un arbre syntaxique.
- Analyseur automatique et correction par l'humain.
- Sert à définir une grammaire à partir des dérivations.
- Grammaire partielle, bonne couverture avec un large corpus
Approches:
- Descendant
- Explore les arbres qui peuvent être des solutions
- Suggère des arbres non-consistants par rapport aux mots
- Ascendant
- Suggère seulement des arbres compatibles
- Les arbres peuvent ne faire aucun sens globalement
Enjeux du backtracking:
- Ambiguité (problème de rattachement, groupes de mots qui ne font pas de sens au niveau sémantique)
- Répétition de sous-arbres à différents endroits
Solution: dynamic programming
- Éviter de refaire du travail inutilement
- Résoudre des problèmes exponentiels en temps polynomial
- Emmaganiser les sous-structures ambigues avec leurs sous-parties communes
- CKY, Earley, Chart Parser
## CKY
## Probabiliste
- La grammaire doit être composée de règles binaires
- Si A, alors B et C existe et il y a un endroit pour les séparer
- Réécrire les règles non-binaires sous la forme normale de Chomsky:
- Deux symboles non-terminaux ou un symbole terminal
- Remplacer les symboles non-terminaux uniques par toutes les formes qu'il peut prendre
- Remplacer les symboles non-terminaux au nombre de 3 ou plus par de nouvelles règles et de nouveaux symboles pour faire le découpage:
- S -> A B C
- S -> X C; X -> A B
### Algorithme
1. Construire le tableau. Les mots forment les colonnes.
2. Identifier les POS sur la diagonale selon le lexique
3. Traverser le tableau et identifier les groupes applicables à partir des règles de la grammaire sans contexte. Il peut y avoir plusieurs combinaison à regarder pour chaque case.
Les boucles sont imbriquées pour remplir le tableau:
- Une colonne à la fois
- De gauche à droite
- Du bas vers le haut
- Les résultats nécessaires sont déjà présents dans le tableau.
- Algorithme en ligne (online).
- Approche simplifiée
- On connaît tous les mots via un lexique.
- La chaîne n'a pas d'étiquette lexicale.
- Pas de genre ni de nombre
- Pas d'analyse morphologique
- En pratique, on devrait considérer ces éléments
### Approche Probabiliste
- On ajoute des probabilités à toutes les règles de la grammaire.
- On reprend l'algorithme CKY, mais en multipliant les probabilités des règles précédentes et de la règle courante.
- On retient la plus grande probabilité pour chaque cellule.
## Analyseur de dépendances
- Analyse syntaxique des relations entre les mots d'une phrase.
- Arbre dont:
- Les noeuds représentent les mots
- Les liens représentent les relations de dépendance entre les paires de mots
- Avantages:
- Plus rapide à construire
- Moins dépendant de l'ordre des mots
- Capture des relations syntaxiques
- Approche vorace (voir Stanford Parser)
- Universal Dependancies: différentes langues
![Universal Dependency Relations](ud_relations.png)
Liste des dépendances
- acl: clausal modifier of noun (adjectival clause)
- advcl: adverbial clause modifier
- advmod: adverbial modifier
- amod: adjectival modifier
- appos: appositional modifier
- aux: auxiliary
- case: case marking
- cc: coordinating conjunction
- ccomp: clausal complement
- clf: classifier
- compound: compound
- conj: conjunct
- cop: copula
- csubj: clausal subject
- dep: unspecified dependency
- det: determiner
- discourse: discourse element
- dislocated: dislocated elements
- expl: expletive
- fixed: fixed multiword expression
- flat: flat multiword expression
- goeswith: goes with
- iobj: indirect object
- list: list
- mark: marker
- nmod: nominal modifier
- nsubj: nominal subject
- nummod: numeric modifier
- obj: object
- obl: oblique nominal
- orphan: orphan
- parataxis: parataxis
- punct: punctuation
- reparandum: overridden disfluency
- root: root
- vocative: vocative
- xcomp: open clausal complement
## Chunking
Analyse de surface:
- Début et fin des groupes syntaxiques
- Pas d'arbre
- Seulement les parties qui nous intéressent
C'est un problème d'étiquetage
# Recherche d'information
# Wordnet
# Cooccurences
# Premier travail pratique

BIN
ud_relations.png Normal file

Binary file not shown.

After

Width:  |  Height:  |  Size: 34 KiB