first commit

This commit is contained in:
François Pelletier 2020-12-26 00:11:43 -05:00
commit b3418e76cf

129
README.md Normal file
View file

@ -0,0 +1,129 @@
Seminaire Act&Risk Nicolas Garneau - Extraction d'information
=============================================================
Petites créances
----------------
- Informations de base sur la poursuite aux petites créances
- Annotation manuelle de documents: [Logiciel
Brat](http://brat.nlplab.org/manual.html)
Qu'est-ce qu'on extrait
-----------------------
- Entités
- Relations
- Évènements
Pour utilisation dans:
- BDs
- Modèles
Réseau de neurones
------------------
- Description de ce qu'est un neurone:
- Poids
- Fonction d'activation
- Sortie
- Fonction de perte
- Gradient que l'on propage par en arrière
- Mise à jour des poids
Architectures
-------------
- Réseaux de neurones récurrents:
- Principalement pour modéliser des séquences
- Les variables ont une dépendance à travers le temps ou au fil de la
séquence
- Exemple: des phrases
- Convolutions:
- Peut-être aussi utilisé en traitement de la langue (non présenté)
Pourquoi utiliser des réseaux de neurones
-----------------------------------------
- Cartes graphiques performantes
- Fonctionnent bien en pratique
- Extraction de caractéristiques et de représentations intermédiaires
Word embeddings
---------------
- Plongements de mots
- 2013 avec [Tomas
Mikolov](https://scholar.google.com/citations?user=oBu8kMMAAAAJ&hl=en)
- Python: [package
gensim](https://radimrehurek.com/gensim/install.html) et
[word2vec](https://www.tensorflow.org/tutorials/word2vec)
- Contexte: Exemple "Tesgüino"
- Représenter un mot de manière sémantique par son contexte
- Construite une matrice de cooccurences
- Projection de deux mots sur deux espaces: les vecteurs pointent vers
la même direction
Skip-Gram
---------
- première couche: One hot encoding
- couche intermédiaire: Vecteur de poids
- couche de droite: probabilité du contexte de mots
### Référence
- Semantic with dense vectors: \[\@jurafsky2014speech\]
- Probabilité que le mot soit dans le même contexte par rapport à
l'ensemble du vocabulaire
- Negative Sampling
Word2vec
--------
- [Word2VecKeyedVectors](https://radimrehurek.com/gensim/models/keyedvectors.html)
NER
---
- Séparateur de jetons, pour chacun on lui attribue une étiquette
- Word by word feature encoding (manuellement ou dataset préétiqueté)
- [NeuroNER](http://neuroner.com/) \[\@2017neuroner\]
Extraction de relations (RE)
----------------------------
- Modèle qui associe les entités entre elles
- Ensemble de caractéristiques
- Une relation par paire d'entité dans le dataset.
- On peut utiliser la distance entre les concepts
Classification
--------------
- Softmax: régression logistique multiclasse
- Stochastic gradent descent: minibatch
Problème
--------
- Documents légaux francophones
- Les modèles préentrainés utilisent des journaux et non des textes
légaux
- Peu de modèles avec des documents en français
Volume de données
-----------------
- Environ 900 phrases de 40 documents
- Pas besoin de tant de documents lorsqu'ils sont similaires
- Bootstrapping: entrainer avec les 900 phrases, annoter, faire des
corrections et les ajouter au training set
PyToune
-------
- Framework pour travailler avec PyTorch. Développé par le GRAAL.
[Lien](http://pytoune.org/en/latest/utils.html)
- Packages PyTouneNER et PyTouneRE appelés depuis Brat pour faire du
tagging automatique. Non disponibles dans la version git.