No description
Find a file
François Pelletier b3418e76cf first commit
2020-12-26 00:11:43 -05:00
README.md first commit 2020-12-26 00:11:43 -05:00

Seminaire Act&Risk Nicolas Garneau - Extraction d'information

Petites créances

  • Informations de base sur la poursuite aux petites créances
  • Annotation manuelle de documents: Logiciel Brat

Qu'est-ce qu'on extrait

  • Entités
  • Relations
  • Évènements

Pour utilisation dans:

  • BDs
  • Modèles

Réseau de neurones

  • Description de ce qu'est un neurone:
  • Poids
  • Fonction d'activation
  • Sortie
  • Fonction de perte
  • Gradient que l'on propage par en arrière
  • Mise à jour des poids

Architectures

  • Réseaux de neurones récurrents:
  • Principalement pour modéliser des séquences
  • Les variables ont une dépendance à travers le temps ou au fil de la séquence
  • Exemple: des phrases
  • Convolutions:
  • Peut-être aussi utilisé en traitement de la langue (non présenté)

Pourquoi utiliser des réseaux de neurones

  • Cartes graphiques performantes
  • Fonctionnent bien en pratique
  • Extraction de caractéristiques et de représentations intermédiaires

Word embeddings

  • Plongements de mots
  • 2013 avec Tomas Mikolov
  • Python: package gensim et word2vec
  • Contexte: Exemple "Tesgüino"
  • Représenter un mot de manière sémantique par son contexte
  • Construite une matrice de cooccurences
  • Projection de deux mots sur deux espaces: les vecteurs pointent vers la même direction

Skip-Gram

  • première couche: One hot encoding
  • couche intermédiaire: Vecteur de poids
  • couche de droite: probabilité du contexte de mots

Référence

  • Semantic with dense vectors: [@jurafsky2014speech]
  • Probabilité que le mot soit dans le même contexte par rapport à l'ensemble du vocabulaire
  • Negative Sampling

Word2vec

NER

  • Séparateur de jetons, pour chacun on lui attribue une étiquette
  • Word by word feature encoding (manuellement ou dataset préétiqueté)
  • NeuroNER [@2017neuroner]

Extraction de relations (RE)

  • Modèle qui associe les entités entre elles
  • Ensemble de caractéristiques
  • Une relation par paire d'entité dans le dataset.
  • On peut utiliser la distance entre les concepts

Classification

  • Softmax: régression logistique multiclasse
  • Stochastic gradent descent: minibatch

Problème

  • Documents légaux francophones
  • Les modèles préentrainés utilisent des journaux et non des textes légaux
  • Peu de modèles avec des documents en français

Volume de données

  • Environ 900 phrases de 40 documents
  • Pas besoin de tant de documents lorsqu'ils sont similaires
  • Bootstrapping: entrainer avec les 900 phrases, annoter, faire des corrections et les ajouter au training set

PyToune

  • Framework pour travailler avec PyTorch. Développé par le GRAAL. Lien
  • Packages PyTouneNER et PyTouneRE appelés depuis Brat pour faire du tagging automatique. Non disponibles dans la version git.