diff --git a/examen_final.md b/examen_final.md new file mode 100644 index 0000000..01a85e8 --- /dev/null +++ b/examen_final.md @@ -0,0 +1,73 @@ +--- +author: François Pelletier +title: Notes de cours - examen final +fig_caption: yes +highlight: pygments +number_sections: yes +toc: yes +toc_depth: 3 +geometry: "left=2cm,right=2cm,top=2cm,bottom=2cm" +fontsize: 12pt +--- + +# Extraction d'information + +Objectif: obtenir de l'information utile et la structurer. + +## Types d'information: + +- Quasi structurée: texte préformaté, par exemple un bulletin météo +- Semi structurée: texte en points de forme, par exemple une annonce classée +- Non structurée: texte libre, par exemple un article de nouvelles + +## Types d'extraction + +- Reconnaissance d'entitées nommées +- Détection et classification de relations +- Détection et classification d'évènements + +## Reconnaissance d'entitées nommées + +**Entité nommée**: Se désigne par un nom propre, une quantité, une date, une marque temportelle ou un montant d'argent. Peuvent être spécifiques au domaine d'application + +Objectif: Trouver les entitées nommées et les classer selon leur type. + +Usages: + +- Indexation +- Identification de relations +- Résolution de requêtes +- Lien avec une base de connaissances + +Exemples de types d'entités nommées: + +- Personne +- Marques de commerce +- Lieu +- Organisation +- Géopolitique +- Argent +- Temps + +Enjeux: ambiguité du type des entités. Peuvent appartenir à plusieurs catégories + +### Approches de NER + +#### Apprentissage automatique: + +- Étiquetage +- Nécessite des exemples + + + + +#### Base de règles + +- Largement utilisé en pratique +- Fort niveau de précision + + +## Détection et classification de relations + +## Détection et classification d'évènements +