No description
README.md |
Seminaire Act&Risk Nicolas Garneau - Extraction d'information
Petites créances
- Informations de base sur la poursuite aux petites créances
- Annotation manuelle de documents: Logiciel Brat
Qu'est-ce qu'on extrait
- Entités
- Relations
- Évènements
Pour utilisation dans:
- BDs
- Modèles
Réseau de neurones
- Description de ce qu'est un neurone:
- Poids
- Fonction d'activation
- Sortie
- Fonction de perte
- Gradient que l'on propage par en arrière
- Mise à jour des poids
Architectures
- Réseaux de neurones récurrents:
- Principalement pour modéliser des séquences
- Les variables ont une dépendance à travers le temps ou au fil de la séquence
- Exemple: des phrases
- Convolutions:
- Peut-être aussi utilisé en traitement de la langue (non présenté)
Pourquoi utiliser des réseaux de neurones
- Cartes graphiques performantes
- Fonctionnent bien en pratique
- Extraction de caractéristiques et de représentations intermédiaires
Word embeddings
- Plongements de mots
- 2013 avec Tomas Mikolov
- Python: package gensim et word2vec
- Contexte: Exemple "Tesgüino"
- Représenter un mot de manière sémantique par son contexte
- Construite une matrice de cooccurences
- Projection de deux mots sur deux espaces: les vecteurs pointent vers la même direction
Skip-Gram
- première couche: One hot encoding
- couche intermédiaire: Vecteur de poids
- couche de droite: probabilité du contexte de mots
Référence
- Semantic with dense vectors: [@jurafsky2014speech]
- Probabilité que le mot soit dans le même contexte par rapport à l'ensemble du vocabulaire
- Negative Sampling
Word2vec
NER
- Séparateur de jetons, pour chacun on lui attribue une étiquette
- Word by word feature encoding (manuellement ou dataset préétiqueté)
- NeuroNER [@2017neuroner]
Extraction de relations (RE)
- Modèle qui associe les entités entre elles
- Ensemble de caractéristiques
- Une relation par paire d'entité dans le dataset.
- On peut utiliser la distance entre les concepts
Classification
- Softmax: régression logistique multiclasse
- Stochastic gradent descent: minibatch
Problème
- Documents légaux francophones
- Les modèles préentrainés utilisent des journaux et non des textes légaux
- Peu de modèles avec des documents en français
Volume de données
- Environ 900 phrases de 40 documents
- Pas besoin de tant de documents lorsqu'ils sont similaires
- Bootstrapping: entrainer avec les 900 phrases, annoter, faire des corrections et les ajouter au training set
PyToune
- Framework pour travailler avec PyTorch. Développé par le GRAAL. Lien
- Packages PyTouneNER et PyTouneRE appelés depuis Brat pour faire du tagging automatique. Non disponibles dans la version git.