first commit
This commit is contained in:
commit
b3418e76cf
1 changed files with 129 additions and 0 deletions
129
README.md
Normal file
129
README.md
Normal file
|
@ -0,0 +1,129 @@
|
|||
Seminaire Act&Risk Nicolas Garneau - Extraction d'information
|
||||
=============================================================
|
||||
|
||||
Petites créances
|
||||
----------------
|
||||
|
||||
- Informations de base sur la poursuite aux petites créances
|
||||
- Annotation manuelle de documents: [Logiciel
|
||||
Brat](http://brat.nlplab.org/manual.html)
|
||||
|
||||
Qu'est-ce qu'on extrait
|
||||
-----------------------
|
||||
|
||||
- Entités
|
||||
- Relations
|
||||
- Évènements
|
||||
|
||||
Pour utilisation dans:
|
||||
|
||||
- BDs
|
||||
- Modèles
|
||||
|
||||
Réseau de neurones
|
||||
------------------
|
||||
|
||||
- Description de ce qu'est un neurone:
|
||||
- Poids
|
||||
- Fonction d'activation
|
||||
- Sortie
|
||||
- Fonction de perte
|
||||
- Gradient que l'on propage par en arrière
|
||||
- Mise à jour des poids
|
||||
|
||||
Architectures
|
||||
-------------
|
||||
|
||||
- Réseaux de neurones récurrents:
|
||||
- Principalement pour modéliser des séquences
|
||||
- Les variables ont une dépendance à travers le temps ou au fil de la
|
||||
séquence
|
||||
- Exemple: des phrases
|
||||
- Convolutions:
|
||||
- Peut-être aussi utilisé en traitement de la langue (non présenté)
|
||||
|
||||
Pourquoi utiliser des réseaux de neurones
|
||||
-----------------------------------------
|
||||
|
||||
- Cartes graphiques performantes
|
||||
- Fonctionnent bien en pratique
|
||||
- Extraction de caractéristiques et de représentations intermédiaires
|
||||
|
||||
Word embeddings
|
||||
---------------
|
||||
|
||||
- Plongements de mots
|
||||
- 2013 avec [Tomas
|
||||
Mikolov](https://scholar.google.com/citations?user=oBu8kMMAAAAJ&hl=en)
|
||||
- Python: [package
|
||||
gensim](https://radimrehurek.com/gensim/install.html) et
|
||||
[word2vec](https://www.tensorflow.org/tutorials/word2vec)
|
||||
- Contexte: Exemple "Tesgüino"
|
||||
- Représenter un mot de manière sémantique par son contexte
|
||||
- Construite une matrice de cooccurences
|
||||
- Projection de deux mots sur deux espaces: les vecteurs pointent vers
|
||||
la même direction
|
||||
|
||||
Skip-Gram
|
||||
---------
|
||||
|
||||
- première couche: One hot encoding
|
||||
- couche intermédiaire: Vecteur de poids
|
||||
- couche de droite: probabilité du contexte de mots
|
||||
|
||||
### Référence
|
||||
|
||||
- Semantic with dense vectors: \[\@jurafsky2014speech\]
|
||||
- Probabilité que le mot soit dans le même contexte par rapport à
|
||||
l'ensemble du vocabulaire
|
||||
- Negative Sampling
|
||||
|
||||
Word2vec
|
||||
--------
|
||||
|
||||
- [Word2VecKeyedVectors](https://radimrehurek.com/gensim/models/keyedvectors.html)
|
||||
|
||||
NER
|
||||
---
|
||||
|
||||
- Séparateur de jetons, pour chacun on lui attribue une étiquette
|
||||
- Word by word feature encoding (manuellement ou dataset préétiqueté)
|
||||
- [NeuroNER](http://neuroner.com/) \[\@2017neuroner\]
|
||||
|
||||
Extraction de relations (RE)
|
||||
----------------------------
|
||||
|
||||
- Modèle qui associe les entités entre elles
|
||||
- Ensemble de caractéristiques
|
||||
- Une relation par paire d'entité dans le dataset.
|
||||
- On peut utiliser la distance entre les concepts
|
||||
|
||||
Classification
|
||||
--------------
|
||||
|
||||
- Softmax: régression logistique multiclasse
|
||||
- Stochastic gradent descent: minibatch
|
||||
|
||||
Problème
|
||||
--------
|
||||
|
||||
- Documents légaux francophones
|
||||
- Les modèles préentrainés utilisent des journaux et non des textes
|
||||
légaux
|
||||
- Peu de modèles avec des documents en français
|
||||
|
||||
Volume de données
|
||||
-----------------
|
||||
|
||||
- Environ 900 phrases de 40 documents
|
||||
- Pas besoin de tant de documents lorsqu'ils sont similaires
|
||||
- Bootstrapping: entrainer avec les 900 phrases, annoter, faire des
|
||||
corrections et les ajouter au training set
|
||||
|
||||
PyToune
|
||||
-------
|
||||
|
||||
- Framework pour travailler avec PyTorch. Développé par le GRAAL.
|
||||
[Lien](http://pytoune.org/en/latest/utils.html)
|
||||
- Packages PyTouneNER et PyTouneRE appelés depuis Brat pour faire du
|
||||
tagging automatique. Non disponibles dans la version git.
|
Loading…
Reference in a new issue