partage/seminaire_nlp_nicolas_garneau

No description

Find a file

François Pelletier b3418e76cf first commit		2020-12-26 00:11:43 -05:00
README.md	first commit	2020-12-26 00:11:43 -05:00

README.md

Seminaire Act&Risk Nicolas Garneau - Extraction d'information

Petites créances

Informations de base sur la poursuite aux petites créances
Annotation manuelle de documents: Logiciel Brat

Qu'est-ce qu'on extrait

Entités
Relations
Évènements

Pour utilisation dans:

BDs
Modèles

Réseau de neurones

Description de ce qu'est un neurone:
Poids
Fonction d'activation
Sortie
Fonction de perte
Gradient que l'on propage par en arrière
Mise à jour des poids

Architectures

Réseaux de neurones récurrents:
Principalement pour modéliser des séquences
Les variables ont une dépendance à travers le temps ou au fil de la séquence
Exemple: des phrases
Convolutions:
Peut-être aussi utilisé en traitement de la langue (non présenté)

Pourquoi utiliser des réseaux de neurones

Cartes graphiques performantes
Fonctionnent bien en pratique
Extraction de caractéristiques et de représentations intermédiaires

Word embeddings

Plongements de mots
2013 avec Tomas Mikolov
Python: package gensim et word2vec
Contexte: Exemple "Tesgüino"
Représenter un mot de manière sémantique par son contexte
Construite une matrice de cooccurences
Projection de deux mots sur deux espaces: les vecteurs pointent vers la même direction

Skip-Gram

première couche: One hot encoding
couche intermédiaire: Vecteur de poids
couche de droite: probabilité du contexte de mots

Référence

Semantic with dense vectors: [@jurafsky2014speech]
Probabilité que le mot soit dans le même contexte par rapport à l'ensemble du vocabulaire
Negative Sampling

Word2vec

Word2VecKeyedVectors

NER

Séparateur de jetons, pour chacun on lui attribue une étiquette
Word by word feature encoding (manuellement ou dataset préétiqueté)
NeuroNER [@2017neuroner]

Extraction de relations (RE)

Modèle qui associe les entités entre elles
Ensemble de caractéristiques
Une relation par paire d'entité dans le dataset.
On peut utiliser la distance entre les concepts

Classification

Softmax: régression logistique multiclasse
Stochastic gradent descent: minibatch

Problème

Documents légaux francophones
Les modèles préentrainés utilisent des journaux et non des textes légaux
Peu de modèles avec des documents en français

Volume de données

Environ 900 phrases de 40 documents
Pas besoin de tant de documents lorsqu'ils sont similaires
Bootstrapping: entrainer avec les 900 phrases, annoter, faire des corrections et les ajouter au training set

PyToune

Framework pour travailler avec PyTorch. Développé par le GRAAL. Lien
Packages PyTouneNER et PyTouneRE appelés depuis Brat pour faire du tagging automatique. Non disponibles dans la version git.