From 5750deab145352c2e98c07db56a10f6bb31c147e Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Fran=C3=A7ois=20Pelletier?= Date: Sat, 21 Dec 2019 17:57:15 -0500 Subject: [PATCH] ajouts sections rapport --- rapport.md | 61 ++++++++++++++++++++++++++++++++++-------------------- 1 file changed, 39 insertions(+), 22 deletions(-) diff --git a/rapport.md b/rapport.md index 8cd3382..50c8810 100644 --- a/rapport.md +++ b/rapport.md @@ -1,15 +1,14 @@ --- -title: IFT7022 - TP 3 - Commentaires Facebook en lien avec la presse écrite. -subtitle: Revue de littérature et quantification de la pertinence. +title: IFT7022 - TP 3 - Commentaires Facebook en lien avec la presse écrite. Revue de littérature et quantification de la pertinence. author: François Pelletier -date: 16 décembre 2019 -output: - pdf_document: - citation_package: natbib - number_sections: yes - toc: yes +date: \today +citation_package: natbib +numbersections: true +toc: yes +toc-depth: 1 +lang: fr-FR documentclass: "article" -fontsize: 11pt +fontsize: 12pt geometry: margin=1in bibliography: NLP-TP3.bib csl: transactions-on-speech-and-language-processing.csl @@ -19,7 +18,7 @@ csl: transactions-on-speech-and-language-processing.csl # Introduction -# Attributs linguistiques des commentaires sur les réseaux sociaux +# Attributs linguistiques Les commentaires extraits des fils de discussions sur des publications Facebook constituent une nouvelle forme de discours, complètement différent des textes formatés et normalisés provenant du domaine journalistique. Il est donc nécessaire de s'y attarder en détail afin de réaliser des analyses pertinences. @@ -36,7 +35,9 @@ Selon Baxter [@baxter_discourse-analytic_2010], l'analyse du discours, qui est p ## Mécanismes d'emphase -Selon Liebeskind [@liebeskind_comment_2018], les commentaires sur les réseaux sociaux présentent de nouvelles caractéristiques sémiotiques et linguistiques. En fait, on parle ici de sémiotique, car le discours n'est plus seulement signifié par des mots, mais aussi par des abréviations, des émojis, des onomatopées, des répétitions de caractères (en particulier la ponctuation). On ajoute une dimension linguistique, car en plus d'un jargon spécifique à ce type de communication, les commentaires sont souvent écrits dans un niveau de langage passant du soutenu au vulgaire dans le même fil de conversation. Ces différents comportements peuvent être rassemblés sous la dénomination de mécanismes d'emphase. +Selon Liebeskind et al. [@liebeskind_comment_2018], les commentaires sur les réseaux sociaux présentent de nouvelles caractéristiques sémiotiques et linguistiques. En fait, on parle ici de sémiotique, car le discours n'est plus seulement signifié par des mots, mais aussi par des abréviations, des émojis, des onomatopées, des répétitions de caractères (en particulier la ponctuation). + +On ajoute une dimension linguistique, car en plus d'un jargon spécifique à ce type de communication, les commentaires sont souvent écrits dans un niveau de langage passant du soutenu au vulgaire dans le même fil de conversation. Ces différents comportements peuvent être rassemblés sous la dénomination de mécanismes d'emphase. ### Émojis et interjections @@ -48,17 +49,23 @@ Halté [@halte_les_2018] a étudié en détail le rôle des émoticônes (tels q ### Majuscules, emphases et répétitions -Les commentaires sur les réseaux sociaux laissent aussi apparaître de nouveaux modes d'expressions basés sur la typographie. L'utilisation de majuscules est intuitive pour l'ajout d'emphase depuis des millénaires, selon le professeur Paul Luna [@robb_how_2014], et était utilisée par les empereurs romains pour illustrer la grandeur de leurs conquêtes. Cependant, leur usage moderne est davantage considéré comme l'expression de la colère. L'ajout d'astérique est aussi un marqueur d'emphase, principalement utilisé dans les groupes de discussion en ligne, et se substitue aux caractères gras ou soulignés disponibles dans les traitements de texte. Plusieurs des auteurs cités dans ce rapport [@georgalou_discourse_2017], [@halte_les_2018], [@liebeskind_comment_2018] notent aussi la présence fréquente de successions de plusieurs signes de ponctuation ou de la même lettre dans un mot comme un moyen additionnel de mettre de l'emphase. Notons que le TweetTokenizer de NLTK [@bird_nltk:_2002] compte même un paramètre pour limiter le nombre de successions d'un même jeton. +Les commentaires sur les réseaux sociaux laissent aussi apparaître de nouveaux modes d'expressions basés sur la typographie. L'utilisation de majuscules est intuitive pour l'ajout d'emphase depuis des millénaires, selon le professeur Paul Luna [@robb_how_2014], et était utilisée par les empereurs romains pour illustrer la grandeur de leurs conquêtes. + +Cependant, leur usage moderne est davantage considéré comme l'expression de la colère. L'ajout d'astérique est aussi un marqueur d'emphase, principalement utilisé dans les groupes de discussion en ligne, et se substitue aux caractères gras ou soulignés disponibles dans les traitements de texte. ### Ponctuations +Plusieurs des auteurs cités dans ce rapport [@georgalou_discourse_2017], [@halte_les_2018], [@liebeskind_comment_2018] notent aussi la présence fréquente de successions de plusieurs signes de ponctuation ou de la même lettre dans un mot comme un moyen additionnel de mettre de l'emphase. Notons que le TweetTokenizer de NLTK [@bird_nltk:_2002] compte même un paramètre pour limiter le nombre de successions d'un même jeton. + ### Impact sur la classification des parties du discours Ces nouveaux attributs font de sorte qu'il ne sera plus possible d'utiliser avec autant de fiabilité les classificateurs de parties du discours (*part of speech*) aussi efficacement, car ils n'ont pas été conçus pour tenir compte de la présence de ces nouveaux éléments dans les phrases. Une approche retenue dans cette analyse pour augmenter la qualité de l'étiquetage est de séparer les émojis du contenu des phrases et de les considérer séparément, tout en conservant un marqueur de leur position dans les phrases. Comme des modèles ne tiennent généralement pas compte de la casse ni de la présence de ponctuation à l'extérieur de la phrase, il n'est pas nécessaire d'apporter d'autres modifications ici. ## Qualité des commentaires -Schultes, Dorner et Lehner [@schultes_leave_2013] ont étudié les commentaires sur la plateforme de partage de vidéos Youtube. Le principal objectif était de classifier les commentaires selon différentes catégories de vidéos, en tenant compte à la fois des types de commentaires et de leur qualité. Les principaux constats de leurs travaux sont que les commentaires sont généralement mal perçus par les utilisateurs du site web, étant perçus comme agressifs, stupides et non-pertinents par près de la moitié des utilisateurs. Environ un utilisateur sur huit serait enclin à laisser des commentaires, alors que plus de la moitié ne liraient que les premiers commentaires. +Schultes et al.[@schultes_leave_2013] ont étudié les commentaires sur la plateforme de partage de vidéos Youtube. Le principal objectif était de classifier les commentaires selon différentes catégories de vidéos, en tenant compte à la fois des types de commentaires et de leur qualité. + +Les principaux constats de leurs travaux sont que les commentaires sont généralement mal perçus par les utilisateurs du site web, étant perçus comme agressifs, stupides et non-pertinents par près de la moitié des utilisateurs. Environ un utilisateur sur huit serait enclin à laisser des commentaires, alors que plus de la moitié ne liraient que les premiers commentaires. Les types de commentaires correspondent à leur rôle: participer à une discussion, décrire son expérience de façon substantielle constitue un commentaire de qualité supérieure ou au contraire, un commentaire avec une forte charge sentimentale serait de qualité inférieure. Pour mesurer la qualité, ils ont utilisé l'outil SentiStrength, un outil d'analyse de sentiment spécialisé dans les commentaires de réseaux sociaux, ainsi qu'une liste de marqueurs émotionnels. Pour mesurer la pertinence, ils ont mesuré l'appariement de mots-clés dans le commentaire avec le titre du vidéo. Enfin, selon cette étude, l'ensemble des commentaires effectués sur un vidéo permettraient en soi de fournir une description adéquate du vidéo. @@ -74,7 +81,9 @@ Georgalou [@georgalou_discourse_2017] décrit différentes approches pour identi ## Temps -Toujours selon Georgalou, différents types de marqueurs temporels sont utilisés dans les commentaires. Ces marqueurs peuvent représenter des durées, des moments, des références à des évènements historiques ou culturels, mais souvent aussi une référence relative à l'âge (anniversaire, vieillissement, évènement de vie, une génération ou une cohorte) ou à une expérience vécue par l'utilisateur. Le temps peut aussi être mesuré avec un nombre d'évènements ou tel qu'une commodité ou une monnaie. Certaines formes de ponctuation ou d'interjections peuvent exagérer la portée d'un marqueur temporel. On pourrait aussi ajouter la présence d'émojis représentant des concepts temporels. Tout comme pour les lieux, on peut aussi retrouver des adverbes. +Toujours selon Georgalou, différents types de marqueurs temporels sont utilisés dans les commentaires. Ces marqueurs peuvent représenter des durées, des moments, des références à des évènements historiques ou culturels, mais souvent aussi une référence relative à l'âge (anniversaire, vieillissement, évènement de vie, une génération ou une cohorte) ou à une expérience vécue par l'utilisateur. + +Le temps peut aussi être mesuré avec un nombre d'évènements ou tel qu'une commodité ou une monnaie. Certaines formes de ponctuation ou d'interjections peuvent exagérer la portée d'un marqueur temporel. On pourrait aussi ajouter la présence d'émojis représentant des concepts temporels. Tout comme pour les lieux, on peut aussi retrouver des adverbes. **Observations**: Pour utiliser ces entités mentionnées dans les commentaires dans la mesure de leur pertinence, il sera nécessaire de bien identifier les marqueurs de temps dans l'article, d'extraire les dates des évènements cités et de mesurer les durées entre ces différents instants. @@ -82,7 +91,9 @@ Toujours selon Georgalou, différents types de marqueurs temporels sont utilisé ## Expertise -Georgalou démontre aussi l'usage des commentaires sur Facebook pour démontrer une forme d'expertise, étaler son éducation et aussi s'approprier la maîtrise d'un sujet. Le réseau social est utilisé pour projeter une image positive du niveau d'éducation par les utilisateurs. Cette expertise est illustrée par un choix de vocabulaire spécifique au domaine professionnel ou éducatif, par des phrases impératives ou interrogatives, par le jugement du travail des autres (parfois sarcastiques) et par l'ajout de références en lien avec le domaine d'expertise. +Georgalou démontre aussi l'usage des commentaires sur Facebook pour démontrer une forme d'expertise, étaler son éducation et aussi s'approprier la maîtrise d'un sujet. Le réseau social est utilisé pour projeter une image positive du niveau d'éducation par les utilisateurs. + +Cette expertise est illustrée par un choix de vocabulaire spécifique au domaine professionnel ou éducatif, par des phrases impératives ou interrogatives, par le jugement du travail des autres (parfois sarcastiques) et par l'ajout de références en lien avec le domaine d'expertise. **Observations**: Pour mesurer la pertinence de cette expertise avec le contenu de l'article, il faudra identifier les principaux sujets de celui-ci, puis constater si au moins un d'entre eux correspond à l'expertise prétendue par l'utilisateur. @@ -102,17 +113,25 @@ Halté [@halte_les_2018] caractérise le tchat par l'intermittence entre la disc Ces types de relations peuvent, en quelque sorte, constituer une mesure qui représente la variable réponse dans un modèle de classification -- L'**intertextualité** se définit comme la relation du commentaire avec les commentaires précédents, ainsi qu'avec la publication originale. C'est le concept qui peut être représenté par une mesure de distance entre les commentaires, ainsi qu'entre un commentaire et la publication. -- L'**interdiscursivité** se définir comme l'entrecroisement de différents dialogues indépendants dans un même fil de discussion. Les commentaires peuvent ainsi parfois être associés à la mauvaise discussion et mener à des quidproquo ou à des interprétations humoristiques. Il sera important de pouvoir associer le commentaire au bon fil de discussion pour en mesurer la pertinence. Il s'agit ici d'apposer une étiquette à un commentaire qui indique à quel dialogue il appartient. -- La **multimodalité** se définit comme l'interchangeabilité des différents modes de communication au sein d'une même discussion. C'est l'aspect multimédia des discussions sur les réseaux sociaux, où le texte, les images et les vidéos se succèdent. On pourrait ici mesurer le nombre de changement de modalité du discours dans une même discussion. +- L'**intertextualité** se définit comme la relation du commentaire avec les commentaires précédents, ainsi qu'avec la publication originale. C'est le concept qui peut être représenté par une mesure de distance entre les commentaires, ainsi qu'entre un commentaire et la publication. Dans Facebook, les commentaires qui répondent à un autre commentaire sont organisés sous une structure parent-enfant. +- L'**interdiscursivité** se définit comme l'entrecroisement de différents dialogues indépendants dans un même fil de discussion. + - Les commentaires peuvent ainsi parfois être associés à la mauvaise discussion et mener à des quidproquo ou à des interprétations humoristiques. C'est pourquoi sur Facebook, fort heureusement, plusieurs utilisateurs vont identifier l'interlocauteur précédent dans un commentaire à l'aide de son nom d'utilisateur. + - Il sera important de pouvoir associer le commentaire au bon fil de discussion pour en mesurer la pertinence. Pour identifier cette propriété dans les commentaires, un classificateur pourra apposer une étiquette à un commentaire qui indique à quel dialogue il appartient. +- La **multimodalité** se définit comme l'interchangeabilité des différents modes de communication au sein d'une même discussion. C'est l'aspect multimédia des discussions sur les réseaux sociaux, où le texte, les images et les vidéos se succèdent. + - On pourrait ici mesurer le nombre de changement de modalité du discours dans une même discussion. Il faut noter cependant que cette fonctionnalité peut être désactivée par le propriétaire de la page. -# Modélisation selon les technique d'analyse et traitement du langage naturel +# Modélisation ## Représentation vectorielle +Étant donné que les commentaires sont de courts textes, souvent formés à partir d'un très lange lexique, en tenant compte des nombreuses fautes d'orthographes et mécanismes d'emphase, leur représentation sous forme vectorielle est très creuse. Il faudra donc nécessairement utiliser une forme de réduction de dimensionnalité. Liebeskind et al. [@liebeskind_comment_2018] propose quatre approches: analyse sémantique latente (LSA), allocation dynamique de Dirichlet (LDA), projection aléatoire (Lemme de Johnson-Lindenstrauss) ou plongements de mots. + +Comme nos commentaires ne sont pas étiquetés, nous devons utiliser un apprentissage non-supervisé. Les deux approches consistent à construire soit un modèle commun pour les articles et les commentaires, ou deux modèles distincts. Afin d'avoir une représentation qui est davantage axée vers les thèmes généraux, les auteurs recommendent d'utiliser des vecteurs denses et cours, tout au plus quelques centaines. ## Classification de la pertinence +Selon les observations de Liebeskind et al. [@liebeskind_comment_2018], les principaux obstacles à la modélisation de la pertinence des commentaires est la présence de salutations et de commentaires obscènes, les nombreux sous-entendus entre les commentaires (contexte latent) ainsi que la présence de sarcasme. Les commentaires qui ont été classés comme non-pertinents étaient principalement des références implicites ou des salutations. + # Exemple d'application @@ -120,9 +139,7 @@ Ces types de relations peuvent, en quelque sorte, constituer une mesure qui repr Nous analyserons les articles provenant des pages Facebook de trois médias écrits francophones : Le Figaro (France), Radio-Canada (Canada) et TVA Nouvelles (Canada). Pour chacun de ces médias, nous avons respectivement 25, 22 et 24 publications contenant un lien vers un article journalistique. -Le premier corpus étudié est constitué du texte de chacun des articles qui sont liés dans les publications (l'utilisateur de Facebook devant cliquer sur le lien pour y accéder). Le titre de l'article n'est pas inclus dans ce corpus. - -Le second corpus est constitué d'un ensemble de commentaires publiés par des utilisateurs du réseau social et associés à chacune des publications précédentes. Il y a respectivement 7155, 2947 et 6262 commentaires pour chacun des trois médias écrits. +Le premier corpus étudié est constitué du texte de chacun des articles qui sont liés dans les publications (l'utilisateur de Facebook devant cliquer sur le lien pour y accéder). Le titre de l'article n'est pas inclus dans ce corpus. Le second corpus est constitué d'un ensemble de commentaires publiés par des utilisateurs du réseau social et associés à chacune des publications précédentes. Il y a respectivement 7155, 2947 et 6262 commentaires pour chacun des trois médias écrits. Ces deux corpus ont été créés à l'aide des données de commentaires extraites depuis l'application en ligne exportcomments.com @noauthor_exportcomments.com_2019 dans des fichiers XLSX. Les fichiers ont par la suite été utilisés par les programmes Python suivants :