From 0d3164a8c94ece95456c6678ad78bfbc66825b6d Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Fran=C3=A7ois=20Pelletier?= Date: Sat, 21 Dec 2019 15:39:12 -0500 Subject: [PATCH] ajout quelques paragraphes au rapport --- Analyse_Articles.ipynb | 2474 ++++++++++++++++++++++++++++++- NLP-TP3.bib | 25 + commentaires_reseaux_sociaux.mm | 23 +- rapport.md | 112 +- 4 files changed, 2522 insertions(+), 112 deletions(-) diff --git a/Analyse_Articles.ipynb b/Analyse_Articles.ipynb index acf2dbf..347f116 100644 --- a/Analyse_Articles.ipynb +++ b/Analyse_Articles.ipynb @@ -11,7 +11,7 @@ }, { "cell_type": "code", - "execution_count": 2, + "execution_count": 41, "metadata": {}, "outputs": [], "source": [ @@ -22,27 +22,794 @@ }, { "cell_type": "code", - "execution_count": 19, + "execution_count": 42, "metadata": {}, "outputs": [ { "data": { + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
mediapost_idtextner_dictpos_dict
0FIG5dc7ac7f359e2-10157143278136339L'ancien international de football Vikash Dhor...{('Vikash', 'PERSON'): 2, ('Dhorasoo', 'PERSON...{('ancien', 'ADJ'): 3, ('international', 'NOUN...
1FIG5dc7acd0d44b1-10157142962296339Les personnes qui iront manifester dimanche 10...{('10', 'NUMBER'): 2, ('La', 'ORGANIZATION'): ...{('personnes', 'NOUN'): 2, ('iront', 'VERB'): ...
2FIG5dc7adde8bd8e-10157142482251339Selon Jason Farago, la Joconde prend le musée ...{('Jason', 'PERSON'): 8, ('Farago', 'PERSON'):...{('Jason', 'PROPN'): 8, ('Farago', 'PROPN'): 8...
3FIG5dc7ab8df19a0-10157144491741339We're just checking that you want to follow a ...{}{('We', 'PROPN'): 1, ('just', 'PROPN'): 1, ('c...
4FIG5dc7ac188a6d6-10157143773291339Les défections se sont enchaînées, et peu de p...{('Jean-Luc', 'PERSON'): 3, ('Mélenchon', 'PER...{('défections', 'NOUN'): 2, ('enchaînées', 'VE...
5FIG5dc7ac51516dc-10157143472656339We're just checking that you want to follow a ...{}{('We', 'PROPN'): 1, ('just', 'PROPN'): 1, ('c...
6FIG5dc7ab9fe4530-10157144373586339FIGAROVOX/TRIBUNE - Les derniers chiffres offi...{('Claude', 'PERSON'): 2, ('Goasguen', 'PERSON...{('FIGAROVOX', 'PROPN'): 1, ('TRIBUNE', 'NOUN'...
7FIG5dc7ae3950eea-10157141592561339La DGSI est chef de file de la lutte antiterro...{('France', 'LOCATION'): 1, ('1200', 'DATE'): ...{('DGSI', 'PROPN'): 2, ('est', 'VERB'): 2, ('c...
8FIG5dc7ac9063012-10157143218116339Le voyage en Chine est devenu en ce début de X...{('Chine', 'ORGANIZATION'): 1, ('New', 'LOCATI...{('voyage', 'NOUN'): 3, ('Chine', 'PROPN'): 1,...
9FIG5dc7adf1bf8ff-10157142446816339Les nouvelles habitudes de consommation font s...{('Carrefour', 'ORGANIZATION'): 2, ('Auchan', ...{('nouvelles', 'NOUN'): 1, ('habitudes', 'ADJ'...
10FIG5dc7ada0ed321-10157142800276339We're just checking that you want to follow a ...{}{('We', 'PROPN'): 1, ('just', 'PROPN'): 1, ('c...
11FIG5dc7ae0c20ca1-10157142413381339GRAND ENTRETIEN - Si le dernier dirigeant sovi...{('GRAND', 'MISC'): 1, ('ENTRETIEN', 'MISC'): ...{('GRAND', 'PROPN'): 1, ('ENTRETIEN', 'PROPN')...
12FIG5dc7ae6404be4-10157141390266339Valentine Monnier a accusé vendredi le réalisa...{('Valentine', 'PERSON'): 5, ('Monnier', 'PERS...{('Valentine', 'PROPN'): 5, ('Monnier', 'PROPN...
13FIG5dc7adb5360a9-10157142683911339Nous recueillons vos données à caractère perso...{('France', 'LOCATION'): 1, ('Figaro', 'PERSON...{('recueillons', 'VERB'): 1, ('données', 'NOUN...
14FIG5dc7ae2406d47-10157141656861339We're just checking that you want to follow a ...{}{('We', 'PROPN'): 1, ('just', 'PROPN'): 1, ('c...
15FIG5dc7abf215a02-10157143927371339L'étudiant était un militant. Il avait expliqu...{('8', 'NUMBER'): 1, ('Lyon', 'LOCATION'): 2, ...{('étudiant', 'NOUN'): 4, ('était', 'VERB'): 3...
16FIG5dc7abb638069-10157144257516339We're just checking that you want to follow a ...{}{('We', 'PROPN'): 1, ('just', 'PROPN'): 1, ('c...
17FIG5dc7ac082e627-10157143841151339We're just checking that you want to follow a ...{}{('We', 'PROPN'): 1, ('just', 'PROPN'): 1, ('c...
18FIG5dc7ace234196-10157142914201339Les prélats de l'Eglise catholique étaient ras...{('France', 'LOCATION'): 3, ('Eric', 'PERSON')...{('prélats', 'NOUN'): 1, ('Eglise', 'NOUN'): 3...
19FIG5dc7add1c9813-10157142518626339FIGAROVOX/ANALYSE - Une partie de la gauche, r...{('Alexandre', 'PERSON'): 1, ('Devecchio', 'PE...{('FIGAROVOX', 'PROPN'): 1, ('ANALYSE', 'NOUN'...
20FIG5dc7adc735aec-10157142568991339Le premier syndicat de la SNCF a décidé de sou...{('SNCF', 'ORGANIZATION'): 2, ('5', 'NUMBER'):...{('premier', 'ADJ'): 1, ('syndicat', 'NOUN'): ...
21FIG5dc7ac72a1bf0-10157143350491339INFO LE FIGARO - Les gendarmes craignent un «r...{('INFO', 'ORGANIZATION'): 1, ('LE', 'ORGANIZA...{('INFO', 'NOUN'): 1, ('FIGARO', 'PROPN'): 1, ...
22FIG5dc7ad0300128-10157142857256339GRAND RÉCIT - Minute par minute, protagonistes...{('Minute', 'DURATION'): 1, ('minute', 'DURATI...{('GRAND', 'PROPN'): 1, ('RÉCIT', 'PROPN'): 1,...
23FIG5dc7ac43321b9-10157143558221339We're just checking that you want to follow a ...{}{('We', 'PROPN'): 1, ('just', 'PROPN'): 1, ('c...
24FIG5dc7acb31aac0-10157143080806339La comédienne qui accuse le réalisateur Christ...{('Christophe', 'PERSON'): 2, ('Ruggia', 'PERS...{('comédienne', 'NOUN'): 3, ('accuse', 'VERB')...
25TVA5dc64d09c57e5-10158117116754095Un trafiquant québécois qui aurait écoulé du f...{('Jason', 'PERSON'): 1, ('Berry', 'PERSON'): ...{('trafiquant', 'NOUN'): 3, ('québécois', 'ADJ...
26TVA5dc64c7083178-10158117755204095L’humoriste, qui avait dû précipitamment mettr...{('Shawinigan', 'LOCATION'): 1, ('Katherine', ...{('humoriste', 'NOUN'): 1, ('précipitamment', ...
27TVA5dc64e13b3bae-10158113849519095Alors que Bill Gates semble s'inquiéter des im...{('Bill', 'PERSON'): 2, ('Gates', 'PERSON'): 3...{('Alors', 'ADV'): 2, ('Bill', 'PROPN'): 2, ('...
28TVA5dc64bab30678-10158118845359095La ministre de la Culture, Nathalie Roy, vient...{('Nathalie', 'PERSON'): 1, ('Roy', 'PERSON'):...{('ministre', 'NOUN'): 2, ('Culture', 'PROPN')...
29TVA5dc64cb623136-10158117349019095Une femme est morte et une autre se trouve dan...{('Mercier', 'PERSON'): 1, ('35', 'NUMBER'): 1...{('femme', 'NOUN'): 1, ('morte', 'VERB'): 1, (...
..................
41TVA5dc64d60c4ff5-10158116759249095Est-ce que c’est un péché d’être gai? Andrew S...{('Andrew', 'PERSON'): 7, ('Scheer', 'PERSON')...{('Est', 'VERB'): 1, ('est', 'VERB'): 12, ('pé...
42TVA5dc64bf3d1e25-10158118481059095Un résident de Sept-Îles passionné d’électroni...{('Holliday', 'PERSON'): 1, ('Xavier', 'PERSON...{('résident', 'NOUN'): 1, ('Sept-Îles', 'PROPN...
43TVA5dc64c9495b6b-10158117462484095La police de Montréal demande l’aide du public...{('30', 'NUMBER'): 1, ('1', 'NUMBER'): 1, ('Ma...{('police', 'NOUN'): 1, ('Montréal', 'PROPN'):...
44TVA5dc64c4173a69-10158118221029095Le gouvernement Legault a finalement renoncé v...{('Legault', 'PERSON'): 4, ('Simon', 'PERSON')...{('gouvernement', 'NOUN'): 8, ('Legault', 'PRO...
45TVA5dc64d1e8b68b-10158117073089095Un camion est entré en collision avec un autob...{('138', 'NUMBER'): 1, ('Rive-Sud', 'LOCATION'...{('camion', 'NOUN'): 3, ('entré', 'VERB'): 1, ...
46TVA5dc64c5168d1a-10158118104844095Fort de son «statut d’intouchable» et «fier» d...{('Colosse', 'MISC'): 6, ('Plamondon', 'PERSON...{('Fort', 'ADJ'): 1, ('statut', 'NOUN'): 2, ('...
48TVA5dc64c8425f5d-10158117605674095La police de Québec recherche activement un su...{('Québec', 'MISC'): 1, ('20', 'NUMBER'): 2, (...{('police', 'NOUN'): 3, ('Québec', 'PROPN'): 3...
49TVA5dc64b6e21cd0-10158118358749095L’ensemble immobilier 1 Square Phillips, dont ...{('1', 'NUMBER'): 8, ('Square', 'ORGANIZATION'...{('ensemble', 'NOUN'): 3, ('immobilier', 'ADJ'...
75RC5dc647471973c-2894560400588948Programmes inexistants, diplômes offerts seule...{('218', 'NUMBER'): 2, ('Université', 'ORGANIZ...{('Programmes', 'NOUN'): 1, ('inexistants', 'A...
76RC5dc649d38b355-2892284630816525Des milliers d'Haïtiens ont fait la file sous ...{('USNC', 'MISC'): 1, ('Comfort', 'MISC'): 1, ...{('milliers', 'NOUN'): 1, ('Haïtiens', 'NOUN')...
77RC5dc64a03bcc6b-2892185304159791Les milieux d’affaires et les établissements d...{('François', 'PERSON'): 3, ('Legault', 'PERSO...{('milieux', 'NOUN'): 1, ('affaires', 'NOUN'):...
79RC5dc646dc3b129-2894861950558793Des dizaines de Canadiens, dont plusieurs qui ...{('Canadiens', 'ORGANIZATION'): 2, ('March', '...{('dizaines', 'NOUN'): 1, ('Canadiens', 'NOUN'...
80RC5dc648bc96149-2893111987400456Une juge de New York a ordonné jeudi au présid...{('New', 'LOCATION'): 4, ('York', 'LOCATION'):...{('juge', 'NOUN'): 2, ('New', 'PROPN'): 4, ('Y...
82RC5dc64b05ccb69-2891191447592510La découverte des restes fossilisés d’un singe...{('David', 'PERSON'): 1, ('R.', 'PERSON'): 1, ...{('découverte', 'NOUN'): 2, ('restes', 'NOUN')...
83RC5dc649ac6724a-2892636637447991En dépit d'une concurrence qui s'accentue cont...{('Québecor', 'PERSON'): 1, ('Jean-François', ...{('dépit', 'NOUN'): 1, ('concurrence', 'NOUN')...
84RC5dc6498adf427-2892680577443597Le premier ministre albertain a défendu, jeudi...{('Saskatoon', 'LOCATION'): 2, ('Jason', 'PERS...{('premier', 'ADJ'): 1, ('ministre', 'NOUN'): ...
85RC5dc646b59ff1a-2895005223877799La réforme des règles entourant le Programme d...{('Legault', 'PERSON'): 4, ('Radio-Canada', 'O...{('réforme', 'NOUN'): 13, ('règles', 'NOUN'): ...
86RC5dc6490722ec2-2893038240741164Depuis 20 ans au Québec, on mise sur les famil...{('20', 'NUMBER'): 1, ('5', 'MONEY'): 1, ('$',...{('ans', 'NOUN'): 1, ('Québec', 'PROPN'): 6, (...
87RC5dc6482f11edc-2893991523979169Depuis un an, le gouvernement de François Lega...{('François', 'PERSON'): 2, ('Legault', 'PERSO...{('an', 'NOUN'): 1, ('gouvernement', 'NOUN'): ...
88RC5dc64701a0769-2894802593898062Dans la communauté rurale de Le Pas, située à ...{('630', 'NUMBER'): 1, ('Winnipeg', 'LOCATION'...{('communauté', 'NOUN'): 2, ('rurale', 'ADJ'):...
89RC5dc647ad2c6ed-2894339060611082Aucune accusation criminelle ne sera finalemen...{('Parti', 'MISC'): 4, ('Frédérick', 'PERSON')...{('accusation', 'NOUN'): 1, ('criminelle', 'AD...
90RC5dc6485ce5ec8-2893925593985762L’accès à l’information atteint des sommets in...{('Nicolas', 'PERSON'): 8, ('Ouellet', 'PERSON...{('accès', 'NOUN'): 1, ('information', 'NOUN')...
91RC5dc647dd809d6-2894162513962070Le géant américain du commerce électronique, A...{('Amazon', 'LOCATION'): 1, ('Lachine', 'LOCAT...{('géant', 'NOUN'): 3, ('américain', 'ADJ'): 2...
93RC5dc64a38d3808-2892115367500118Dans un long entretien publié jeudi dans The E...{('Economist', 'ORGANIZATION'): 1, ('Emmanuel'...{('long', 'NOUN'): 1, ('entretien', 'NOUN'): 1...
94RC5dc64ae6d3a76-2891204684257853Michael Lees cherchait un arbre pour se soulag...{('Michael', 'PERSON'): 4, ('Lees', 'PERSON'):...{('Michael', 'PROPN'): 4, ('Lees', 'PROPN'): 8...
95RC5dc64a62217ee-2892013244176997Un groupe de manifestants se définissant comme...{('Gardiens', 'MISC'): 2, ('de', 'MISC'): 2, (...{('groupe', 'NOUN'): 2, ('manifestants', 'NOUN...
96RC5dc64a926f26d-2891830260861962Au cours des deux dernières années, un total d...{('553', 'NUMBER'): 1, ('Canada', 'LOCATION'):...{('cours', 'NOUN'): 1, ('dernières', 'ADJ'): 1...
97RC5dc6460860c15-2895071827204472Trois femmes victimes d'attaques de chiens sou...{('Dominique', 'PERSON'): 4, ('Alain', 'PERSON...{('femmes', 'NOUN'): 2, ('victimes', 'ADJ'): 2...
98RC5dc645a8cab5a-2895407083837613La demande de sélection permanente d'Émilie Du...{('Émilie', 'PERSON'): 2, ('Dubois', 'PERSON')...{('demande', 'NOUN'): 2, ('sélection', 'NOUN')...
99RC5dc64663dc269-2894961790548809Depuis que la députée Catherine Dorion a comme...{('Catherine', 'PERSON'): 5, ('Dorion', 'PERSO...{('Depuis', 'ADV'): 1, ('députée', 'NOUN'): 3,...
\n", + "

71 rows × 5 columns

\n", + "
" + ], "text/plain": [ - "0 True\n", - "1 True\n", - "2 True\n", - "3 True\n", - "4 True\n", - "Name: media, dtype: bool" + " media post_id \\\n", + "0 FIG 5dc7ac7f359e2-10157143278136339 \n", + "1 FIG 5dc7acd0d44b1-10157142962296339 \n", + "2 FIG 5dc7adde8bd8e-10157142482251339 \n", + "3 FIG 5dc7ab8df19a0-10157144491741339 \n", + "4 FIG 5dc7ac188a6d6-10157143773291339 \n", + "5 FIG 5dc7ac51516dc-10157143472656339 \n", + "6 FIG 5dc7ab9fe4530-10157144373586339 \n", + "7 FIG 5dc7ae3950eea-10157141592561339 \n", + "8 FIG 5dc7ac9063012-10157143218116339 \n", + "9 FIG 5dc7adf1bf8ff-10157142446816339 \n", + "10 FIG 5dc7ada0ed321-10157142800276339 \n", + "11 FIG 5dc7ae0c20ca1-10157142413381339 \n", + "12 FIG 5dc7ae6404be4-10157141390266339 \n", + "13 FIG 5dc7adb5360a9-10157142683911339 \n", + "14 FIG 5dc7ae2406d47-10157141656861339 \n", + "15 FIG 5dc7abf215a02-10157143927371339 \n", + "16 FIG 5dc7abb638069-10157144257516339 \n", + "17 FIG 5dc7ac082e627-10157143841151339 \n", + "18 FIG 5dc7ace234196-10157142914201339 \n", + "19 FIG 5dc7add1c9813-10157142518626339 \n", + "20 FIG 5dc7adc735aec-10157142568991339 \n", + "21 FIG 5dc7ac72a1bf0-10157143350491339 \n", + "22 FIG 5dc7ad0300128-10157142857256339 \n", + "23 FIG 5dc7ac43321b9-10157143558221339 \n", + "24 FIG 5dc7acb31aac0-10157143080806339 \n", + "25 TVA 5dc64d09c57e5-10158117116754095 \n", + "26 TVA 5dc64c7083178-10158117755204095 \n", + "27 TVA 5dc64e13b3bae-10158113849519095 \n", + "28 TVA 5dc64bab30678-10158118845359095 \n", + "29 TVA 5dc64cb623136-10158117349019095 \n", + ".. ... ... \n", + "41 TVA 5dc64d60c4ff5-10158116759249095 \n", + "42 TVA 5dc64bf3d1e25-10158118481059095 \n", + "43 TVA 5dc64c9495b6b-10158117462484095 \n", + "44 TVA 5dc64c4173a69-10158118221029095 \n", + "45 TVA 5dc64d1e8b68b-10158117073089095 \n", + "46 TVA 5dc64c5168d1a-10158118104844095 \n", + "48 TVA 5dc64c8425f5d-10158117605674095 \n", + "49 TVA 5dc64b6e21cd0-10158118358749095 \n", + "75 RC 5dc647471973c-2894560400588948 \n", + "76 RC 5dc649d38b355-2892284630816525 \n", + "77 RC 5dc64a03bcc6b-2892185304159791 \n", + "79 RC 5dc646dc3b129-2894861950558793 \n", + "80 RC 5dc648bc96149-2893111987400456 \n", + "82 RC 5dc64b05ccb69-2891191447592510 \n", + "83 RC 5dc649ac6724a-2892636637447991 \n", + "84 RC 5dc6498adf427-2892680577443597 \n", + "85 RC 5dc646b59ff1a-2895005223877799 \n", + "86 RC 5dc6490722ec2-2893038240741164 \n", + "87 RC 5dc6482f11edc-2893991523979169 \n", + "88 RC 5dc64701a0769-2894802593898062 \n", + "89 RC 5dc647ad2c6ed-2894339060611082 \n", + "90 RC 5dc6485ce5ec8-2893925593985762 \n", + "91 RC 5dc647dd809d6-2894162513962070 \n", + "93 RC 5dc64a38d3808-2892115367500118 \n", + "94 RC 5dc64ae6d3a76-2891204684257853 \n", + "95 RC 5dc64a62217ee-2892013244176997 \n", + "96 RC 5dc64a926f26d-2891830260861962 \n", + "97 RC 5dc6460860c15-2895071827204472 \n", + "98 RC 5dc645a8cab5a-2895407083837613 \n", + "99 RC 5dc64663dc269-2894961790548809 \n", + "\n", + " text \\\n", + "0 L'ancien international de football Vikash Dhor... \n", + "1 Les personnes qui iront manifester dimanche 10... \n", + "2 Selon Jason Farago, la Joconde prend le musée ... \n", + "3 We're just checking that you want to follow a ... \n", + "4 Les défections se sont enchaînées, et peu de p... \n", + "5 We're just checking that you want to follow a ... \n", + "6 FIGAROVOX/TRIBUNE - Les derniers chiffres offi... \n", + "7 La DGSI est chef de file de la lutte antiterro... \n", + "8 Le voyage en Chine est devenu en ce début de X... \n", + "9 Les nouvelles habitudes de consommation font s... \n", + "10 We're just checking that you want to follow a ... \n", + "11 GRAND ENTRETIEN - Si le dernier dirigeant sovi... \n", + "12 Valentine Monnier a accusé vendredi le réalisa... \n", + "13 Nous recueillons vos données à caractère perso... \n", + "14 We're just checking that you want to follow a ... \n", + "15 L'étudiant était un militant. Il avait expliqu... \n", + "16 We're just checking that you want to follow a ... \n", + "17 We're just checking that you want to follow a ... \n", + "18 Les prélats de l'Eglise catholique étaient ras... \n", + "19 FIGAROVOX/ANALYSE - Une partie de la gauche, r... \n", + "20 Le premier syndicat de la SNCF a décidé de sou... \n", + "21 INFO LE FIGARO - Les gendarmes craignent un «r... \n", + "22 GRAND RÉCIT - Minute par minute, protagonistes... \n", + "23 We're just checking that you want to follow a ... \n", + "24 La comédienne qui accuse le réalisateur Christ... \n", + "25 Un trafiquant québécois qui aurait écoulé du f... \n", + "26 L’humoriste, qui avait dû précipitamment mettr... \n", + "27 Alors que Bill Gates semble s'inquiéter des im... \n", + "28 La ministre de la Culture, Nathalie Roy, vient... \n", + "29 Une femme est morte et une autre se trouve dan... \n", + ".. ... \n", + "41 Est-ce que c’est un péché d’être gai? Andrew S... \n", + "42 Un résident de Sept-Îles passionné d’électroni... \n", + "43 La police de Montréal demande l’aide du public... \n", + "44 Le gouvernement Legault a finalement renoncé v... \n", + "45 Un camion est entré en collision avec un autob... \n", + "46 Fort de son «statut d’intouchable» et «fier» d... \n", + "48 La police de Québec recherche activement un su... \n", + "49 L’ensemble immobilier 1 Square Phillips, dont ... \n", + "75 Programmes inexistants, diplômes offerts seule... \n", + "76 Des milliers d'Haïtiens ont fait la file sous ... \n", + "77 Les milieux d’affaires et les établissements d... \n", + "79 Des dizaines de Canadiens, dont plusieurs qui ... \n", + "80 Une juge de New York a ordonné jeudi au présid... \n", + "82 La découverte des restes fossilisés d’un singe... \n", + "83 En dépit d'une concurrence qui s'accentue cont... \n", + "84 Le premier ministre albertain a défendu, jeudi... \n", + "85 La réforme des règles entourant le Programme d... \n", + "86 Depuis 20 ans au Québec, on mise sur les famil... \n", + "87 Depuis un an, le gouvernement de François Lega... \n", + "88 Dans la communauté rurale de Le Pas, située à ... \n", + "89 Aucune accusation criminelle ne sera finalemen... \n", + "90 L’accès à l’information atteint des sommets in... \n", + "91 Le géant américain du commerce électronique, A... \n", + "93 Dans un long entretien publié jeudi dans The E... \n", + "94 Michael Lees cherchait un arbre pour se soulag... \n", + "95 Un groupe de manifestants se définissant comme... \n", + "96 Au cours des deux dernières années, un total d... \n", + "97 Trois femmes victimes d'attaques de chiens sou... \n", + "98 La demande de sélection permanente d'Émilie Du... \n", + "99 Depuis que la députée Catherine Dorion a comme... \n", + "\n", + " ner_dict \\\n", + "0 {('Vikash', 'PERSON'): 2, ('Dhorasoo', 'PERSON... \n", + "1 {('10', 'NUMBER'): 2, ('La', 'ORGANIZATION'): ... \n", + "2 {('Jason', 'PERSON'): 8, ('Farago', 'PERSON'):... \n", + "3 {} \n", + "4 {('Jean-Luc', 'PERSON'): 3, ('Mélenchon', 'PER... \n", + "5 {} \n", + "6 {('Claude', 'PERSON'): 2, ('Goasguen', 'PERSON... \n", + "7 {('France', 'LOCATION'): 1, ('1200', 'DATE'): ... \n", + "8 {('Chine', 'ORGANIZATION'): 1, ('New', 'LOCATI... \n", + "9 {('Carrefour', 'ORGANIZATION'): 2, ('Auchan', ... \n", + "10 {} \n", + "11 {('GRAND', 'MISC'): 1, ('ENTRETIEN', 'MISC'): ... \n", + "12 {('Valentine', 'PERSON'): 5, ('Monnier', 'PERS... \n", + "13 {('France', 'LOCATION'): 1, ('Figaro', 'PERSON... \n", + "14 {} \n", + "15 {('8', 'NUMBER'): 1, ('Lyon', 'LOCATION'): 2, ... \n", + "16 {} \n", + "17 {} \n", + "18 {('France', 'LOCATION'): 3, ('Eric', 'PERSON')... \n", + "19 {('Alexandre', 'PERSON'): 1, ('Devecchio', 'PE... \n", + "20 {('SNCF', 'ORGANIZATION'): 2, ('5', 'NUMBER'):... \n", + "21 {('INFO', 'ORGANIZATION'): 1, ('LE', 'ORGANIZA... \n", + "22 {('Minute', 'DURATION'): 1, ('minute', 'DURATI... \n", + "23 {} \n", + "24 {('Christophe', 'PERSON'): 2, ('Ruggia', 'PERS... \n", + "25 {('Jason', 'PERSON'): 1, ('Berry', 'PERSON'): ... \n", + "26 {('Shawinigan', 'LOCATION'): 1, ('Katherine', ... \n", + "27 {('Bill', 'PERSON'): 2, ('Gates', 'PERSON'): 3... \n", + "28 {('Nathalie', 'PERSON'): 1, ('Roy', 'PERSON'):... \n", + "29 {('Mercier', 'PERSON'): 1, ('35', 'NUMBER'): 1... \n", + ".. ... \n", + "41 {('Andrew', 'PERSON'): 7, ('Scheer', 'PERSON')... \n", + "42 {('Holliday', 'PERSON'): 1, ('Xavier', 'PERSON... \n", + "43 {('30', 'NUMBER'): 1, ('1', 'NUMBER'): 1, ('Ma... \n", + "44 {('Legault', 'PERSON'): 4, ('Simon', 'PERSON')... \n", + "45 {('138', 'NUMBER'): 1, ('Rive-Sud', 'LOCATION'... \n", + "46 {('Colosse', 'MISC'): 6, ('Plamondon', 'PERSON... \n", + "48 {('Québec', 'MISC'): 1, ('20', 'NUMBER'): 2, (... \n", + "49 {('1', 'NUMBER'): 8, ('Square', 'ORGANIZATION'... \n", + "75 {('218', 'NUMBER'): 2, ('Université', 'ORGANIZ... \n", + "76 {('USNC', 'MISC'): 1, ('Comfort', 'MISC'): 1, ... \n", + "77 {('François', 'PERSON'): 3, ('Legault', 'PERSO... \n", + "79 {('Canadiens', 'ORGANIZATION'): 2, ('March', '... \n", + "80 {('New', 'LOCATION'): 4, ('York', 'LOCATION'):... \n", + "82 {('David', 'PERSON'): 1, ('R.', 'PERSON'): 1, ... \n", + "83 {('Québecor', 'PERSON'): 1, ('Jean-François', ... \n", + "84 {('Saskatoon', 'LOCATION'): 2, ('Jason', 'PERS... \n", + "85 {('Legault', 'PERSON'): 4, ('Radio-Canada', 'O... \n", + "86 {('20', 'NUMBER'): 1, ('5', 'MONEY'): 1, ('$',... \n", + "87 {('François', 'PERSON'): 2, ('Legault', 'PERSO... \n", + "88 {('630', 'NUMBER'): 1, ('Winnipeg', 'LOCATION'... \n", + "89 {('Parti', 'MISC'): 4, ('Frédérick', 'PERSON')... \n", + "90 {('Nicolas', 'PERSON'): 8, ('Ouellet', 'PERSON... \n", + "91 {('Amazon', 'LOCATION'): 1, ('Lachine', 'LOCAT... \n", + "93 {('Economist', 'ORGANIZATION'): 1, ('Emmanuel'... \n", + "94 {('Michael', 'PERSON'): 4, ('Lees', 'PERSON'):... \n", + "95 {('Gardiens', 'MISC'): 2, ('de', 'MISC'): 2, (... \n", + "96 {('553', 'NUMBER'): 1, ('Canada', 'LOCATION'):... \n", + "97 {('Dominique', 'PERSON'): 4, ('Alain', 'PERSON... \n", + "98 {('Émilie', 'PERSON'): 2, ('Dubois', 'PERSON')... \n", + "99 {('Catherine', 'PERSON'): 5, ('Dorion', 'PERSO... \n", + "\n", + " pos_dict \n", + "0 {('ancien', 'ADJ'): 3, ('international', 'NOUN... \n", + "1 {('personnes', 'NOUN'): 2, ('iront', 'VERB'): ... \n", + "2 {('Jason', 'PROPN'): 8, ('Farago', 'PROPN'): 8... \n", + "3 {('We', 'PROPN'): 1, ('just', 'PROPN'): 1, ('c... \n", + "4 {('défections', 'NOUN'): 2, ('enchaînées', 'VE... \n", + "5 {('We', 'PROPN'): 1, ('just', 'PROPN'): 1, ('c... \n", + "6 {('FIGAROVOX', 'PROPN'): 1, ('TRIBUNE', 'NOUN'... \n", + "7 {('DGSI', 'PROPN'): 2, ('est', 'VERB'): 2, ('c... \n", + "8 {('voyage', 'NOUN'): 3, ('Chine', 'PROPN'): 1,... \n", + "9 {('nouvelles', 'NOUN'): 1, ('habitudes', 'ADJ'... \n", + "10 {('We', 'PROPN'): 1, ('just', 'PROPN'): 1, ('c... \n", + "11 {('GRAND', 'PROPN'): 1, ('ENTRETIEN', 'PROPN')... \n", + "12 {('Valentine', 'PROPN'): 5, ('Monnier', 'PROPN... \n", + "13 {('recueillons', 'VERB'): 1, ('données', 'NOUN... \n", + "14 {('We', 'PROPN'): 1, ('just', 'PROPN'): 1, ('c... \n", + "15 {('étudiant', 'NOUN'): 4, ('était', 'VERB'): 3... \n", + "16 {('We', 'PROPN'): 1, ('just', 'PROPN'): 1, ('c... \n", + "17 {('We', 'PROPN'): 1, ('just', 'PROPN'): 1, ('c... \n", + "18 {('prélats', 'NOUN'): 1, ('Eglise', 'NOUN'): 3... \n", + "19 {('FIGAROVOX', 'PROPN'): 1, ('ANALYSE', 'NOUN'... \n", + "20 {('premier', 'ADJ'): 1, ('syndicat', 'NOUN'): ... \n", + "21 {('INFO', 'NOUN'): 1, ('FIGARO', 'PROPN'): 1, ... \n", + "22 {('GRAND', 'PROPN'): 1, ('RÉCIT', 'PROPN'): 1,... \n", + "23 {('We', 'PROPN'): 1, ('just', 'PROPN'): 1, ('c... \n", + "24 {('comédienne', 'NOUN'): 3, ('accuse', 'VERB')... \n", + "25 {('trafiquant', 'NOUN'): 3, ('québécois', 'ADJ... \n", + "26 {('humoriste', 'NOUN'): 1, ('précipitamment', ... \n", + "27 {('Alors', 'ADV'): 2, ('Bill', 'PROPN'): 2, ('... \n", + "28 {('ministre', 'NOUN'): 2, ('Culture', 'PROPN')... \n", + "29 {('femme', 'NOUN'): 1, ('morte', 'VERB'): 1, (... \n", + ".. ... \n", + "41 {('Est', 'VERB'): 1, ('est', 'VERB'): 12, ('pé... \n", + "42 {('résident', 'NOUN'): 1, ('Sept-Îles', 'PROPN... \n", + "43 {('police', 'NOUN'): 1, ('Montréal', 'PROPN'):... \n", + "44 {('gouvernement', 'NOUN'): 8, ('Legault', 'PRO... \n", + "45 {('camion', 'NOUN'): 3, ('entré', 'VERB'): 1, ... \n", + "46 {('Fort', 'ADJ'): 1, ('statut', 'NOUN'): 2, ('... \n", + "48 {('police', 'NOUN'): 3, ('Québec', 'PROPN'): 3... \n", + "49 {('ensemble', 'NOUN'): 3, ('immobilier', 'ADJ'... \n", + "75 {('Programmes', 'NOUN'): 1, ('inexistants', 'A... \n", + "76 {('milliers', 'NOUN'): 1, ('Haïtiens', 'NOUN')... \n", + "77 {('milieux', 'NOUN'): 1, ('affaires', 'NOUN'):... \n", + "79 {('dizaines', 'NOUN'): 1, ('Canadiens', 'NOUN'... \n", + "80 {('juge', 'NOUN'): 2, ('New', 'PROPN'): 4, ('Y... \n", + "82 {('découverte', 'NOUN'): 2, ('restes', 'NOUN')... \n", + "83 {('dépit', 'NOUN'): 1, ('concurrence', 'NOUN')... \n", + "84 {('premier', 'ADJ'): 1, ('ministre', 'NOUN'): ... \n", + "85 {('réforme', 'NOUN'): 13, ('règles', 'NOUN'): ... \n", + "86 {('ans', 'NOUN'): 1, ('Québec', 'PROPN'): 6, (... \n", + "87 {('an', 'NOUN'): 1, ('gouvernement', 'NOUN'): ... \n", + "88 {('communauté', 'NOUN'): 2, ('rurale', 'ADJ'):... \n", + "89 {('accusation', 'NOUN'): 1, ('criminelle', 'AD... \n", + "90 {('accès', 'NOUN'): 1, ('information', 'NOUN')... \n", + "91 {('géant', 'NOUN'): 3, ('américain', 'ADJ'): 2... \n", + "93 {('long', 'NOUN'): 1, ('entretien', 'NOUN'): 1... \n", + "94 {('Michael', 'PROPN'): 4, ('Lees', 'PROPN'): 8... \n", + "95 {('groupe', 'NOUN'): 2, ('manifestants', 'NOUN... \n", + "96 {('cours', 'NOUN'): 1, ('dernières', 'ADJ'): 1... \n", + "97 {('femmes', 'NOUN'): 2, ('victimes', 'ADJ'): 2... \n", + "98 {('demande', 'NOUN'): 2, ('sélection', 'NOUN')... \n", + "99 {('Depuis', 'ADV'): 1, ('députée', 'NOUN'): 3,... \n", + "\n", + "[71 rows x 5 columns]" ] }, - "execution_count": 19, + "execution_count": 42, "metadata": {}, "output_type": "execute_result" } ], "source": [ - "textes_articles_df.head()" + "textes_articles_df" ] }, { @@ -67,7 +834,7 @@ }, { "cell_type": "code", - "execution_count": 24, + "execution_count": 44, "metadata": {}, "outputs": [ { @@ -199,75 +966,1660 @@ " {('Paris', 'PROPN'): 1, ('est', 'VERB'): 1, ('...\n", " {}\n", " \n", + " \n", + " 5\n", + " 4.0\n", + " 2\n", + " Pierre Crouzet\n", + " ID: 100000270292007\n", + " 2019-11-09 14:26:37\n", + " 0\n", + " Vasanth Toure le prochain c’est Adrien Rabiot\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Pierre Crouzet, Vasanth Toure]\n", + " ['Vasanth Toure']\n", + " le prochain c’est Adrien Rabiot\n", + " {('Adrien', 'PERSON'): 1, ('Rabiot', 'PERSON')...\n", + " {('prochain', 'ADJ'): 1, ('Adrien', 'PROPN'): ...\n", + " {}\n", + " \n", + " \n", + " 6\n", + " 5.0\n", + " 0\n", + " Stéphane Pirnaci\n", + " ID: 100008541367302\n", + " 2019-11-09 14:18:51\n", + " 0\n", + " Mdr\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Stéphane Pirnaci]\n", + " []\n", + " Mdr\n", + " {}\n", + " {}\n", + " {}\n", + " \n", + " \n", + " 7\n", + " 6.0\n", + " 0\n", + " Adil Bennani\n", + " ID: 100006432917292\n", + " 2019-11-09 14:19:03\n", + " 0\n", + " moi je propose mamadou sissoko\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Adil Bennani]\n", + " []\n", + " moi je propose mamadou sissoko\n", + " {}\n", + " {('propose', 'VERB'): 1, ('mamadou', 'NOUN'): ...\n", + " {}\n", + " \n", + " \n", + " 8\n", + " 7.0\n", + " 0\n", + " Hadrien De Cournon\n", + " ID: 1131290552\n", + " 2019-11-09 14:19:09\n", + " 0\n", + " Louis Prt Corentin Corman Victor Mdv ah ouais?\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Hadrien De Cournon]\n", + " []\n", + " Louis Prt Corentin Corman Victor Mdv ah ouais?\n", + " {('Louis', 'PERSON'): 1, ('Prt', 'PERSON'): 1,...\n", + " {('Louis', 'PROPN'): 1, ('Prt', 'PROPN'): 1, (...\n", + " {}\n", + " \n", + " \n", + " 9\n", + " 8.0\n", + " 0\n", + " Marwa Larose\n", + " ID: 100022577589611\n", + " 2019-11-09 14:19:38\n", + " 0\n", + " Marier le foot à la mairie est génial\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Marwa Larose]\n", + " []\n", + " Marier le foot à la mairie est génial\n", + " {('Marier', 'PERSON'): 1}\n", + " {('Marier', 'VERB'): 1, ('foot', 'NOUN'): 1, (...\n", + " {}\n", + " \n", + " \n", + " 10\n", + " 9.0\n", + " 0\n", + " Luca Spada\n", + " ID: 100002437345150\n", + " 2019-11-09 14:19:52\n", + " 0\n", + " Benoît Zivanovic\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Luca Spada]\n", + " []\n", + " Benoît Zivanovic\n", + " {('Benoît', 'PERSON'): 1, ('Zivanovic', 'PERSO...\n", + " {('Benoît', 'PROPN'): 1, ('Zivanovic', 'PROPN'...\n", + " {}\n", + " \n", + " \n", + " 11\n", + " 10.0\n", + " 0\n", + " Louis Rey\n", + " ID: 1152804021\n", + " 2019-11-09 14:20:00\n", + " 0\n", + " Eugénie Rey avec Simonet !!!\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Louis Rey]\n", + " []\n", + " Eugénie Rey avec Simonet !!!\n", + " {('Eugénie', 'PERSON'): 1, ('Rey', 'PERSON'): ...\n", + " {('Eugénie', 'PROPN'): 1, ('Rey', 'PROPN'): 1,...\n", + " {}\n", + " \n", + " \n", + " 12\n", + " 11.0\n", + " 0\n", + " Mariam Aurelie Koné\n", + " ID: 100001068795352\n", + " 2019-11-09 14:20:02\n", + " 0\n", + " Moi aussi je candidate ras le bol la place est...\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Mariam Aurelie Koné]\n", + " []\n", + " Moi aussi je candidate ras le bol la place est...\n", + " {}\n", + " {('aussi', 'ADV'): 1, ('candidate', 'NOUN'): 1...\n", + " {}\n", + " \n", + " \n", + " 13\n", + " 12.0\n", + " 0\n", + " Cedric Cmn\n", + " ID: 100036764737328\n", + " 2019-11-09 14:20:14\n", + " 5\n", + " Ah bah vu qu’il a déclaré y’a pas longtemps qu...\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Cedric Cmn]\n", + " []\n", + " Ah bah vu qu’il a déclaré y’a pas longtemps qu...\n", + " {}\n", + " {('Ah', 'INTJ'): 1, ('bah', 'INTJ'): 1, ('vu',...\n", + " {}\n", + " \n", + " \n", + " 14\n", + " 13.0\n", + " 0\n", + " Olivia Fuentes\n", + " ID: 1344277880\n", + " 2019-11-09 14:21:08\n", + " 0\n", + " Catheline Lr Victoire Bailly Hannah Jenn ce me...\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Olivia Fuentes]\n", + " []\n", + " Catheline Lr Victoire Bailly Hannah Jenn ce me...\n", + " {('Catheline', 'PERSON'): 1, ('Lr', 'PERSON'):...\n", + " {('Catheline', 'PROPN'): 1, ('Lr', 'PROPN'): 1...\n", + " {}\n", + " \n", + " \n", + " 15\n", + " 14.0\n", + " 0\n", + " Marie Madeleine\n", + " ID: 100011469022790\n", + " 2019-11-09 14:21:15\n", + " 1\n", + " 🤮🤮👎👎\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Marie Madeleine]\n", + " []\n", + " 🤮🤮👎👎\n", + " {}\n", + " {}\n", + " {}\n", + " \n", + " \n", + " 16\n", + " 15.0\n", + " 0\n", + " Yohann Lévêque\n", + " ID: 1239055989\n", + " 2019-11-09 14:21:27\n", + " 2\n", + " CharlesDuquesne, il a pris trop de ballon sur ...\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Yohann Lévêque]\n", + " []\n", + " CharlesDuquesne, il a pris trop de ballon sur ...\n", + " {}\n", + " {('CharlesDuquesne', 'PROPN'): 1, ('pris', 'VE...\n", + " {}\n", + " \n", + " \n", + " 17\n", + " 16.0\n", + " 0\n", + " Pierre Trichet\n", + " ID: 1324601288\n", + " 2019-11-09 14:21:50\n", + " 1\n", + " Martin tu sais pour qui tu vas voter ?\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Pierre Trichet, Martin Trichet]\n", + " []\n", + " Martin tu sais pour qui tu vas voter ?\n", + " {('Martin', 'PERSON'): 1}\n", + " {('Martin', 'PROPN'): 1, ('sais', 'VERB'): 1, ...\n", + " {}\n", + " \n", + " \n", + " 18\n", + " 16.0\n", + " 1\n", + " Martin Trichet\n", + " ID: 1210154685\n", + " 2019-11-09 14:33:19\n", + " 0\n", + " Pierre Trichet j'avais déjà vu, mon bulletin e...\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Pierre Trichet, Martin Trichet]\n", + " ['Pierre Trichet']\n", + " j'avais déjà vu, mon bulletin est prêt depuis...\n", + " {('mon', 'DATE'): 1, ('3', 'NUMBER'): 1}\n", + " {('déjà', 'ADV'): 1, ('vu', 'VERB'): 1, ('bull...\n", + " {}\n", + " \n", + " \n", + " 19\n", + " 17.0\n", + " 0\n", + " Moumou Soussi\n", + " ID: 1607839864\n", + " 2019-11-09 14:22:04\n", + " 0\n", + " Il va jouer le loto avec l'argent de la mairi...\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Moumou Soussi]\n", + " []\n", + " Il va jouer le loto avec l'argent de la mairi...\n", + " {}\n", + " {('jouer', 'VERB'): 1, ('loto', 'NOUN'): 1, ('...\n", + " {':face_with_tears_of_joy:': [25]}\n", + " \n", + " \n", + " 20\n", + " 18.0\n", + " 0\n", + " Alexandre Khadir\n", + " ID: 1269044664\n", + " 2019-11-09 14:22:17\n", + " 28\n", + " En espérant qu’il fasse une meilleure carrière 🤣\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Rosette Delion, Adelaide AF, Yann Gilles, Phi...\n", + " []\n", + " En espérant qu’il fasse une meilleure carrière 🤣\n", + " {}\n", + " {('espérant', 'VERB'): 1, ('fasse', 'VERB'): 1...\n", + " {':rolling_on_the_floor_laughing:': [10]}\n", + " \n", + " \n", + " 21\n", + " 18.0\n", + " 1\n", + " Yann Gilles\n", + " ID: 100004091590140\n", + " 2019-11-09 14:38:14\n", + " 8\n", + " En clubChampion de France en 2003 et en 2004 a...\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Rosette Delion, Adelaide AF, Yann Gilles, Phi...\n", + " []\n", + " En clubChampion de France en 2003 et en 2004 a...\n", + " {('France', 'LOCATION'): 3, ('2003', 'DATE'): ...\n", + " {('clubChampion', 'NOUN'): 1, ('France', 'PROP...\n", + " {}\n", + " \n", + " \n", + " 22\n", + " 18.0\n", + " 2\n", + " Claudine Laurent Girard\n", + " ID: 1211436111\n", + " 2019-11-09 14:46:02\n", + " 2\n", + " Yann Gilles C'est pas pour ça qu'il seras un b...\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Rosette Delion, Adelaide AF, Yann Gilles, Phi...\n", + " ['Yann Gilles']\n", + " C'est pas pour ça qu'il seras un bon Maire 😂😂😂\n", + " {}\n", + " {('est', 'VERB'): 1, ('pas', 'ADV'): 1, ('sera...\n", + " {':face_with_tears_of_joy:': [10, 11, 12]}\n", + " \n", + " \n", + " 23\n", + " 18.0\n", + " 3\n", + " Gen Lys\n", + " ID: 100009846583553\n", + " 2019-11-09 14:49:20\n", + " 0\n", + " Mais où sont les compètences d'un footballeur....\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Rosette Delion, Adelaide AF, Yann Gilles, Phi...\n", + " []\n", + " Mais où sont les compètences d'un footballeur....\n", + " {('France', 'LOCATION'): 1}\n", + " {('sont', 'VERB'): 1, ('compètences', 'NOUN'):...\n", + " {}\n", + " \n", + " \n", + " 24\n", + " 18.0\n", + " 4\n", + " Sylviane Vaudevire\n", + " ID: 100000908768141\n", + " 2019-11-09 14:49:28\n", + " 1\n", + " son palmarès n'a rien à voir avec les qualités...\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Rosette Delion, Adelaide AF, Yann Gilles, Phi...\n", + " []\n", + " son palmarès n'a rien à voir avec les qualités...\n", + " {}\n", + " {('palmarès', 'NOUN'): 1, ('voir', 'VERB'): 1,...\n", + " {}\n", + " \n", + " \n", + " 25\n", + " 18.0\n", + " 5\n", + " Rosette Delion\n", + " ID: 100011283737777\n", + " 2019-11-09 14:54:13\n", + " 1\n", + " Yann Gilles C'est vrai que comme cireur de ban...\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Rosette Delion, Adelaide AF, Yann Gilles, Phi...\n", + " ['Yann Gilles']\n", + " C'est vrai que comme cireur de bancs il a un ...\n", + " {}\n", + " {('est', 'VERB'): 1, ('vrai', 'ADJ'): 1, ('cir...\n", + " {}\n", + " \n", + " \n", + " 26\n", + " 18.0\n", + " 6\n", + " Jackie Petit\n", + " ID: 100000235001486\n", + " 2019-11-09 15:12:01\n", + " 0\n", + " Gen Lys c' est un type extraordinaire... lisez...\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Rosette Delion, Adelaide AF, Yann Gilles, Phi...\n", + " ['Gen Lys']\n", + " c' est un type extraordinaire... lisez sa bio...\n", + " {}\n", + " {('est', 'VERB'): 1, ('type', 'NOUN'): 1, ('ex...\n", + " {}\n", + " \n", + " \n", + " 27\n", + " 18.0\n", + " 7\n", + " Alexandre Khadir\n", + " ID: 1269044664\n", + " 2019-11-09 15:21:45\n", + " 1\n", + " Jacques Poulain d’accord Jacques 🙂 mais je me ...\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Rosette Delion, Adelaide AF, Yann Gilles, Phi...\n", + " []\n", + " Jacques Poulain d’accord Jacques 🙂 mais je me ...\n", + " {('Jacques', 'PERSON'): 1, ('Poulain', 'PERSON...\n", + " {('Jacques', 'PROPN'): 2, ('Poulain', 'PROPN')...\n", + " {':slightly_smiling_face:': [7]}\n", + " \n", + " \n", + " 28\n", + " 18.0\n", + " 8\n", + " Gerard Brunet\n", + " ID: 100022136507326\n", + " 2019-11-09 15:29:26\n", + " 0\n", + " Jackie Petit 😂😂😂😂😂😂😂😂😂\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Rosette Delion, Adelaide AF, Yann Gilles, Phi...\n", + " ['Jackie Petit']\n", + " 😂😂😂😂😂😂😂😂😂\n", + " {}\n", + " {}\n", + " {}\n", + " \n", + " \n", + " 29\n", + " 18.0\n", + " 9\n", + " Gerard Brunet\n", + " ID: 100022136507326\n", + " 2019-11-09 15:29:49\n", + " 0\n", + " Jacques Poulain 😂😂😂😂😂😂😂😂😂😂\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Rosette Delion, Adelaide AF, Yann Gilles, Phi...\n", + " []\n", + " Jacques Poulain 😂😂😂😂😂😂😂😂😂😂\n", + " {('Jacques', 'PERSON'): 1, ('Poulain', 'PERSON...\n", + " {('Jacques', 'PROPN'): 1, ('Poulain', 'PROPN')...\n", + " {':face_with_tears_of_joy:': [3, 4, 5]}\n", + " \n", + " \n", + " ...\n", + " ...\n", + " ...\n", + " ...\n", + " ...\n", + " ...\n", + " ...\n", + " ...\n", + " ...\n", + " ...\n", + " ...\n", + " ...\n", + " ...\n", + " ...\n", + " ...\n", + " ...\n", + " \n", + " \n", + " 70\n", + " 36.0\n", + " 0\n", + " Dicken Shailen Mardaymootoo\n", + " ID: 100009297239757\n", + " 2019-11-09 14:26:54\n", + " 3\n", + " La fierté de l'île Maurice... 🙂❤🇲🇺\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Gerard Brunet, Clarisse Legrand Motee, Sofia ...\n", + " []\n", + " La fierté de l'île Maurice... 🙂❤🇲🇺\n", + " {}\n", + " {('fierté', 'NOUN'): 1, ('île', 'NOUN'): 1, ('...\n", + " {':slightly_smiling_face:': [7], ':red_heart:'...\n", + " \n", + " \n", + " 71\n", + " 36.0\n", + " 1\n", + " Sofia Karolina\n", + " ID: 100010873441444\n", + " 2019-11-09 14:28:56\n", + " 0\n", + " / Ayo vous zot !!!!! 🤣\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Gerard Brunet, Clarisse Legrand Motee, Sofia ...\n", + " []\n", + " / Ayo vous zot !!!!! 🤣\n", + " {('Ayo', 'PERSON'): 1}\n", + " {('Ayo', 'PROPN'): 1, ('zot', 'VERB'): 1}\n", + " {}\n", + " \n", + " \n", + " 72\n", + " 36.0\n", + " 2\n", + " Dicken Shailen Mardaymootoo\n", + " ID: 100009297239757\n", + " 2019-11-09 14:31:47\n", + " 0\n", + " Sofia Karolina Vikash nou lé roi! 🤣\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Gerard Brunet, Clarisse Legrand Motee, Sofia ...\n", + " ['Sofia Karolina']\n", + " Vikash nou lé roi! 🤣\n", + " {('Vikash', 'PERSON'): 1}\n", + " {('Vikash', 'PROPN'): 1, ('nou', 'NOUN'): 1, (...\n", + " {}\n", + " \n", + " \n", + " 73\n", + " 36.0\n", + " 3\n", + " Clarisse Legrand Motee\n", + " ID: 1073890487\n", + " 2019-11-09 14:34:28\n", + " 1\n", + " C'est pourtant les élections en ce moment là b...\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Gerard Brunet, Clarisse Legrand Motee, Sofia ...\n", + " []\n", + " C'est pourtant les élections en ce moment là b...\n", + " {}\n", + " {('est', 'VERB'): 1, ('pourtant', 'ADV'): 1, (...\n", + " {':rolling_on_the_floor_laughing:': [10]}\n", + " \n", + " \n", + " 74\n", + " 36.0\n", + " 4\n", + " Gerard Brunet\n", + " ID: 100022136507326\n", + " 2019-11-09 15:31:35\n", + " 0\n", + " Dicken Shailen Mardaymootoo ou lile à Maurice\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Gerard Brunet, Clarisse Legrand Motee, Sofia ...\n", + " ['Dicken Shailen Mardaymootoo']\n", + " ou lile à Maurice\n", + " {('Maurice', 'PERSON'): 1}\n", + " {('lile', 'NOUN'): 1, ('Maurice', 'PROPN'): 1}\n", + " {}\n", + " \n", + " \n", + " 75\n", + " 37.0\n", + " 0\n", + " Marouan Chamsy\n", + " ID: 1304209940\n", + " 2019-11-09 14:27:09\n", + " 0\n", + " Victor Tranchetti ton pote !!!\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Victor Tranchetti, Marouan Chamsy]\n", + " ['Victor Tranchetti']\n", + " ton pote !!!\n", + " {}\n", + " {('pote', 'NOUN'): 1}\n", + " {}\n", + " \n", + " \n", + " 76\n", + " 37.0\n", + " 1\n", + " Victor Tranchetti\n", + " ID: 100008123413817\n", + " 2019-11-09 15:04:15\n", + " 0\n", + " Marouan Chamsy on parler de lui hier soir le v...\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Victor Tranchetti, Marouan Chamsy]\n", + " ['Marouan Chamsy']\n", + " on parler de lui hier soir le voilà maintenan...\n", + " {}\n", + " {('parler', 'VERB'): 1, ('hier', 'ADV'): 1, ('...\n", + " {':face_with_tears_of_joy:': [10, 11]}\n", + " \n", + " \n", + " 77\n", + " 38.0\n", + " 0\n", + " Salim Igré\n", + " ID: 100024156610876\n", + " 2019-11-09 14:27:15\n", + " 0\n", + " Enfin des personnes compétentes!!!\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Salim Igré]\n", + " []\n", + " Enfin des personnes compétentes!!!\n", + " {}\n", + " {('Enfin', 'ADV'): 1, ('personnes', 'NOUN'): 1...\n", + " {}\n", + " \n", + " \n", + " 78\n", + " 39.0\n", + " 0\n", + " Danielle RM Danielle\n", + " ID: 100004410094648\n", + " 2019-11-09 14:27:18\n", + " 3\n", + " Bon dieu .... n importe quoi\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Danielle RM Danielle]\n", + " []\n", + " Bon dieu .... n importe quoi\n", + " {}\n", + " {('Bon', 'PROPN'): 1, ('dieu', 'NOUN'): 1, ('i...\n", + " {}\n", + " \n", + " \n", + " 79\n", + " 40.0\n", + " 0\n", + " Bilel Madani\n", + " ID: 1173418497\n", + " 2019-11-09 14:27:32\n", + " 1\n", + " Votre future maire Amine Amewouga Oussama Ghe...\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Amine Amewouga, Bilel Madani, Oussama Ghermoul]\n", + " ['Amine Amewouga', 'Oussama Ghermoul']\n", + " Votre future maire Zico Zacharie mdr 😂\n", + " {('future', 'DATE'): 1, ('Zico', 'PERSON'): 1,...\n", + " {('future', 'ADJ'): 1, ('maire', 'NOUN'): 1, (...\n", + " {':face_with_tears_of_joy:': [7]}\n", + " \n", + " \n", + " 80\n", + " 40.0\n", + " 1\n", + " Oussama Ghermoul\n", + " ID: 1316417751\n", + " 2019-11-09 14:34:51\n", + " 1\n", + " Bilel Madani maire de Zico berk hahahah hna on...\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Amine Amewouga, Bilel Madani, Oussama Ghermoul]\n", + " ['Bilel Madani']\n", + " maire de Zico berk hahahah hna on est plus fi...\n", + " {('Zico', 'PERSON'): 1, ('75', 'NUMBER'): 1}\n", + " {('maire', 'NOUN'): 1, ('Zico', 'PROPN'): 1, (...\n", + " {}\n", + " \n", + " \n", + " 81\n", + " 40.0\n", + " 2\n", + " Oussama Ghermoul\n", + " ID: 1316417751\n", + " 2019-11-09 14:35:19\n", + " 3\n", + " son siège sera à port La Chapelle Hahahah\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Amine Amewouga, Bilel Madani, Oussama Ghermoul]\n", + " []\n", + " son siège sera à port La Chapelle Hahahah\n", + " {}\n", + " {('siège', 'NOUN'): 1, ('sera', 'VERB'): 1, ('...\n", + " {}\n", + " \n", + " \n", + " 82\n", + " 40.0\n", + " 3\n", + " Bilel Madani\n", + " ID: 1173418497\n", + " 2019-11-09 14:35:58\n", + " 0\n", + " ما تحشمش هههه\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Amine Amewouga, Bilel Madani, Oussama Ghermoul]\n", + " []\n", + " ما تحشمش هههه\n", + " {}\n", + " {('ما', 'NOUN'): 1, ('ههه', 'VERB'): 1}\n", + " {}\n", + " \n", + " \n", + " 83\n", + " 40.0\n", + " 4\n", + " Amine Amewouga\n", + " ID: 1507567538\n", + " 2019-11-09 16:15:49\n", + " 2\n", + " Bilel Madani hhhhhh ana je l’aime bien ce mec ...\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Amine Amewouga, Bilel Madani, Oussama Ghermoul]\n", + " ['Bilel Madani']\n", + " hhhhhh ana je l’aime bien ce mec ! Kima 9al O...\n", + " {('9', 'NUMBER'): 1, ('Oussama', 'PERSON'): 1,...\n", + " {('hhhhhh', 'VERB'): 1, ('ana', 'NOUN'): 1, ('...\n", + " {':crying_face:': [8], ':loudly_crying_face:':...\n", + " \n", + " \n", + " 84\n", + " 41.0\n", + " 0\n", + " Boura Aïssata Ombotimbé\n", + " ID: 100002878407182\n", + " 2019-11-09 14:28:12\n", + " 1\n", + " C'est votre pays, je préfère me taire.\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Boura Aïssata Ombotimbé, Sylviane Vaudevire]\n", + " []\n", + " C'est votre pays, je préfère me taire.\n", + " {}\n", + " {('est', 'VERB'): 1, ('pays', 'NOUN'): 1, ('pr...\n", + " {}\n", + " \n", + " \n", + " 85\n", + " 41.0\n", + " 1\n", + " Sylviane Vaudevire\n", + " ID: 100000908768141\n", + " 2019-11-09 14:55:09\n", + " 0\n", + " pourquoi chacun a droit de s'exprimer\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Boura Aïssata Ombotimbé, Sylviane Vaudevire]\n", + " []\n", + " pourquoi chacun a droit de s'exprimer\n", + " {}\n", + " {('pourquoi', 'ADV'): 1, ('a', 'VERB'): 1, ('d...\n", + " {}\n", + " \n", + " \n", + " 86\n", + " 42.0\n", + " 0\n", + " Æø Đéstrøyer\n", + " ID: 1320870403\n", + " 2019-11-09 14:28:45\n", + " 0\n", + " nul comme joueur qu'il etait pire comme politi...\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Æø Đéstrøyer]\n", + " []\n", + " nul comme joueur qu'il etait pire comme politi...\n", + " {}\n", + " {('nul', 'NOUN'): 1, ('joueur', 'NOUN'): 1, ('...\n", + " {}\n", + " \n", + " \n", + " 87\n", + " 43.0\n", + " 0\n", + " Kévin Rostan\n", + " ID: 100000616588253\n", + " 2019-11-09 14:29:07\n", + " 0\n", + " Pascal ton pote🤣\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Kévin Rostan]\n", + " []\n", + " Pascal ton pote🤣\n", + " {}\n", + " {('Pascal', 'PROPN'): 1, ('pote', 'NOUN'): 1}\n", + " {':rolling_on_the_floor_laughing:': [4]}\n", + " \n", + " \n", + " 88\n", + " 44.0\n", + " 0\n", + " Eric Parmentier\n", + " ID: 718079918\n", + " 2019-11-09 14:29:14\n", + " 0\n", + " Avec les cocos ! J'adore ces millionnaires ! J...\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Marinette Figaro, Eric Parmentier, Sylviane V...\n", + " []\n", + " Avec les cocos ! J'adore ces millionnaires ! J...\n", + " {('85', 'PERCENT'): 1, ('%', 'PERCENT'): 1, ('...\n", + " {('cocos', 'NOUN'): 1, ('adore', 'VERB'): 1, (...\n", + " {':face_with_tears_of_joy:': [4]}\n", + " \n", + " \n", + " 89\n", + " 44.0\n", + " 1\n", + " Sylviane Vaudevire\n", + " ID: 100000908768141\n", + " 2019-11-09 14:59:31\n", + " 0\n", + " il ne faut pas rêver lol\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Marinette Figaro, Eric Parmentier, Sylviane V...\n", + " []\n", + " il ne faut pas rêver lol\n", + " {}\n", + " {('pas', 'ADV'): 1, ('rêver', 'VERB'): 1, ('lo...\n", + " {}\n", + " \n", + " \n", + " 90\n", + " 44.0\n", + " 2\n", + " Marinette Figaro\n", + " ID: 100006654817988\n", + " 2019-11-09 15:02:46\n", + " 0\n", + " Eric Parmentier il n'est pas millionnaire car ...\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Marinette Figaro, Eric Parmentier, Sylviane V...\n", + " ['Eric Parmentier']\n", + " il n'est pas millionnaire car pour vous tout ...\n", + " {}\n", + " {('est', 'VERB'): 1, ('pas', 'ADV'): 1, ('mill...\n", + " {}\n", + " \n", + " \n", + " 91\n", + " 45.0\n", + " 0\n", + " Jean-François Broquin\n", + " ID: 1391593498\n", + " 2019-11-09 14:29:21\n", + " 5\n", + " il devrait prendre aussi Ribery ...\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Jean-François Broquin, Pascal J Guignard, Rom...\n", + " []\n", + " il devrait prendre aussi Ribery ...\n", + " {('Ribery', 'PERSON'): 1}\n", + " {('prendre', 'VERB'): 1, ('aussi', 'ADV'): 1, ...\n", + " {}\n", + " \n", + " \n", + " 92\n", + " 45.0\n", + " 1\n", + " Romain Courreges\n", + " ID: 1329579211\n", + " 2019-11-09 14:37:41\n", + " 1\n", + " Jean-François Broquin ministre de la culture e...\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Jean-François Broquin, Pascal J Guignard, Rom...\n", + " ['Jean-François Broquin']\n", + " ministre de la culture en 2030:)\n", + " {('2030', 'DATE'): 1}\n", + " {('ministre', 'NOUN'): 1, ('culture', 'NOUN'): 1}\n", + " {':)': [7]}\n", + " \n", + " \n", + " 93\n", + " 45.0\n", + " 2\n", + " Pascal J Guignard\n", + " ID: 653145451\n", + " 2019-11-09 15:32:51\n", + " 0\n", + " Jean-François Broquin ben oui, bonne idée..il ...\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Jean-François Broquin, Pascal J Guignard, Rom...\n", + " ['Jean-François Broquin']\n", + " ben oui, bonne idée..il quitte le Bayern...\n", + " {('Bayern', 'ORGANIZATION'): 1}\n", + " {('oui', 'INTJ'): 1, ('bonne', 'ADJ'): 1, ('id...\n", + " {}\n", + " \n", + " \n", + " 94\n", + " 46.0\n", + " 0\n", + " Maxime Noël\n", + " ID: 1587137215\n", + " 2019-11-09 14:29:30\n", + " 0\n", + " Dylan Ben Ghouzi Mathieu Guédon\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Maxime Noël]\n", + " []\n", + " Dylan Ben Ghouzi Mathieu Guédon\n", + " {('Dylan', 'PERSON'): 1, ('Ben', 'PERSON'): 1,...\n", + " {('Dylan', 'PROPN'): 1, ('Ben', 'PROPN'): 1, (...\n", + " {}\n", + " \n", + " \n", + " 95\n", + " 47.0\n", + " 0\n", + " Jean-pierre Josselin\n", + " ID: 100000151732390\n", + " 2019-11-09 14:29:54\n", + " 6\n", + " Très heureux de l'engagement de Dhorasoo, un f...\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Jean-pierre Josselin, Pascal J Guignard, Phil...\n", + " []\n", + " Très heureux de l'engagement de Dhorasoo, un f...\n", + " {('Dhorasoo', 'PERSON'): 1}\n", + " {('Très', 'ADV'): 1, ('heureux', 'ADJ'): 1, ('...\n", + " {}\n", + " \n", + " \n", + " 96\n", + " 47.0\n", + " 1\n", + " Henry Agada\n", + " ID: 100028942629829\n", + " 2019-11-09 15:18:37\n", + " 3\n", + " le banc de touche. le connaît très bien\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Jean-pierre Josselin, Pascal J Guignard, Phil...\n", + " []\n", + " le banc de touche. le connaît très bien\n", + " {}\n", + " {('banc', 'NOUN'): 1, ('touche', 'NOUN'): 1, (...\n", + " {}\n", + " \n", + " \n", + " 97\n", + " 47.0\n", + " 2\n", + " Jean-pierre Josselin\n", + " ID: 100000151732390\n", + " 2019-11-09 15:22:12\n", + " 1\n", + " International quand même ...\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Jean-pierre Josselin, Pascal J Guignard, Phil...\n", + " []\n", + " International quand même ...\n", + " {}\n", + " {('International', 'ADJ'): 1, ('même', 'ADV'): 1}\n", + " {}\n", + " \n", + " \n", + " 98\n", + " 47.0\n", + " 3\n", + " Gerard Brunet\n", + " ID: 100022136507326\n", + " 2019-11-09 15:30:28\n", + " 0\n", + " NaN\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Jean-pierre Josselin, Pascal J Guignard, Phil...\n", + " []\n", + " nan\n", + " {}\n", + " {('nan', 'NOUN'): 1}\n", + " {}\n", + " \n", + " \n", + " 99\n", + " 47.0\n", + " 4\n", + " Pascal J Guignard\n", + " ID: 653145451\n", + " 2019-11-09 15:30:36\n", + " 1\n", + " Jean-pierre Josselin c’est le moins qu’on puis...\n", + " FIG\n", + " 5dc7ac7f359e2-10157143278136339\n", + " [Jean-pierre Josselin, Pascal J Guignard, Phil...\n", + " ['Jean-pierre Josselin']\n", + " c’est le moins qu’on puisse dire!\n", + " {}\n", + " {('est', 'VERB'): 1, ('moins', 'NOUN'): 1, ('d...\n", + " {}\n", + " \n", " \n", "\n", + "

100 rows × 15 columns

\n", "" ], "text/plain": [ - " comment_id nested_id name id \\\n", - "0 1.0 0 Ycf Bullit ID: 100000615866313 \n", - "1 2.0 0 Steph Alcazar ID: 100001175077263 \n", - "2 3.0 0 Töm Müstäine ID: 1365879404 \n", - "3 4.0 0 Pierre Crouzet ID: 100000270292007 \n", - "4 4.0 1 Vasanth Toure ID: 100001494607801 \n", + " comment_id nested_id name id \\\n", + "0 1.0 0 Ycf Bullit ID: 100000615866313 \n", + "1 2.0 0 Steph Alcazar ID: 100001175077263 \n", + "2 3.0 0 Töm Müstäine ID: 1365879404 \n", + "3 4.0 0 Pierre Crouzet ID: 100000270292007 \n", + "4 4.0 1 Vasanth Toure ID: 100001494607801 \n", + "5 4.0 2 Pierre Crouzet ID: 100000270292007 \n", + "6 5.0 0 Stéphane Pirnaci ID: 100008541367302 \n", + "7 6.0 0 Adil Bennani ID: 100006432917292 \n", + "8 7.0 0 Hadrien De Cournon ID: 1131290552 \n", + "9 8.0 0 Marwa Larose ID: 100022577589611 \n", + "10 9.0 0 Luca Spada ID: 100002437345150 \n", + "11 10.0 0 Louis Rey ID: 1152804021 \n", + "12 11.0 0 Mariam Aurelie Koné ID: 100001068795352 \n", + "13 12.0 0 Cedric Cmn ID: 100036764737328 \n", + "14 13.0 0 Olivia Fuentes ID: 1344277880 \n", + "15 14.0 0 Marie Madeleine ID: 100011469022790 \n", + "16 15.0 0 Yohann Lévêque ID: 1239055989 \n", + "17 16.0 0 Pierre Trichet ID: 1324601288 \n", + "18 16.0 1 Martin Trichet ID: 1210154685 \n", + "19 17.0 0 Moumou Soussi ID: 1607839864 \n", + "20 18.0 0 Alexandre Khadir ID: 1269044664 \n", + "21 18.0 1 Yann Gilles ID: 100004091590140 \n", + "22 18.0 2 Claudine Laurent Girard ID: 1211436111 \n", + "23 18.0 3 Gen Lys ID: 100009846583553 \n", + "24 18.0 4 Sylviane Vaudevire ID: 100000908768141 \n", + "25 18.0 5 Rosette Delion ID: 100011283737777 \n", + "26 18.0 6 Jackie Petit ID: 100000235001486 \n", + "27 18.0 7 Alexandre Khadir ID: 1269044664 \n", + "28 18.0 8 Gerard Brunet ID: 100022136507326 \n", + "29 18.0 9 Gerard Brunet ID: 100022136507326 \n", + ".. ... ... ... ... \n", + "70 36.0 0 Dicken Shailen Mardaymootoo ID: 100009297239757 \n", + "71 36.0 1 Sofia Karolina ID: 100010873441444 \n", + "72 36.0 2 Dicken Shailen Mardaymootoo ID: 100009297239757 \n", + "73 36.0 3 Clarisse Legrand Motee ID: 1073890487 \n", + "74 36.0 4 Gerard Brunet ID: 100022136507326 \n", + "75 37.0 0 Marouan Chamsy ID: 1304209940 \n", + "76 37.0 1 Victor Tranchetti ID: 100008123413817 \n", + "77 38.0 0 Salim Igré ID: 100024156610876 \n", + "78 39.0 0 Danielle RM Danielle ID: 100004410094648 \n", + "79 40.0 0 Bilel Madani ID: 1173418497 \n", + "80 40.0 1 Oussama Ghermoul ID: 1316417751 \n", + "81 40.0 2 Oussama Ghermoul ID: 1316417751 \n", + "82 40.0 3 Bilel Madani ID: 1173418497 \n", + "83 40.0 4 Amine Amewouga ID: 1507567538 \n", + "84 41.0 0 Boura Aïssata Ombotimbé ID: 100002878407182 \n", + "85 41.0 1 Sylviane Vaudevire ID: 100000908768141 \n", + "86 42.0 0 Æø Đéstrøyer ID: 1320870403 \n", + "87 43.0 0 Kévin Rostan ID: 100000616588253 \n", + "88 44.0 0 Eric Parmentier ID: 718079918 \n", + "89 44.0 1 Sylviane Vaudevire ID: 100000908768141 \n", + "90 44.0 2 Marinette Figaro ID: 100006654817988 \n", + "91 45.0 0 Jean-François Broquin ID: 1391593498 \n", + "92 45.0 1 Romain Courreges ID: 1329579211 \n", + "93 45.0 2 Pascal J Guignard ID: 653145451 \n", + "94 46.0 0 Maxime Noël ID: 1587137215 \n", + "95 47.0 0 Jean-pierre Josselin ID: 100000151732390 \n", + "96 47.0 1 Henry Agada ID: 100028942629829 \n", + "97 47.0 2 Jean-pierre Josselin ID: 100000151732390 \n", + "98 47.0 3 Gerard Brunet ID: 100022136507326 \n", + "99 47.0 4 Pascal J Guignard ID: 653145451 \n", "\n", - " date likes \\\n", - "0 2019-11-09 14:17:13 0 \n", - "1 2019-11-09 14:17:34 0 \n", - "2 2019-11-09 14:17:51 0 \n", - "3 2019-11-09 14:18:06 0 \n", - "4 2019-11-09 14:20:57 0 \n", + " date likes \\\n", + "0 2019-11-09 14:17:13 0 \n", + "1 2019-11-09 14:17:34 0 \n", + "2 2019-11-09 14:17:51 0 \n", + "3 2019-11-09 14:18:06 0 \n", + "4 2019-11-09 14:20:57 0 \n", + "5 2019-11-09 14:26:37 0 \n", + "6 2019-11-09 14:18:51 0 \n", + "7 2019-11-09 14:19:03 0 \n", + "8 2019-11-09 14:19:09 0 \n", + "9 2019-11-09 14:19:38 0 \n", + "10 2019-11-09 14:19:52 0 \n", + "11 2019-11-09 14:20:00 0 \n", + "12 2019-11-09 14:20:02 0 \n", + "13 2019-11-09 14:20:14 5 \n", + "14 2019-11-09 14:21:08 0 \n", + "15 2019-11-09 14:21:15 1 \n", + "16 2019-11-09 14:21:27 2 \n", + "17 2019-11-09 14:21:50 1 \n", + "18 2019-11-09 14:33:19 0 \n", + "19 2019-11-09 14:22:04 0 \n", + "20 2019-11-09 14:22:17 28 \n", + "21 2019-11-09 14:38:14 8 \n", + "22 2019-11-09 14:46:02 2 \n", + "23 2019-11-09 14:49:20 0 \n", + "24 2019-11-09 14:49:28 1 \n", + "25 2019-11-09 14:54:13 1 \n", + "26 2019-11-09 15:12:01 0 \n", + "27 2019-11-09 15:21:45 1 \n", + "28 2019-11-09 15:29:26 0 \n", + "29 2019-11-09 15:29:49 0 \n", + ".. ... ... \n", + "70 2019-11-09 14:26:54 3 \n", + "71 2019-11-09 14:28:56 0 \n", + "72 2019-11-09 14:31:47 0 \n", + "73 2019-11-09 14:34:28 1 \n", + "74 2019-11-09 15:31:35 0 \n", + "75 2019-11-09 14:27:09 0 \n", + "76 2019-11-09 15:04:15 0 \n", + "77 2019-11-09 14:27:15 0 \n", + "78 2019-11-09 14:27:18 3 \n", + "79 2019-11-09 14:27:32 1 \n", + "80 2019-11-09 14:34:51 1 \n", + "81 2019-11-09 14:35:19 3 \n", + "82 2019-11-09 14:35:58 0 \n", + "83 2019-11-09 16:15:49 2 \n", + "84 2019-11-09 14:28:12 1 \n", + "85 2019-11-09 14:55:09 0 \n", + "86 2019-11-09 14:28:45 0 \n", + "87 2019-11-09 14:29:07 0 \n", + "88 2019-11-09 14:29:14 0 \n", + "89 2019-11-09 14:59:31 0 \n", + "90 2019-11-09 15:02:46 0 \n", + "91 2019-11-09 14:29:21 5 \n", + "92 2019-11-09 14:37:41 1 \n", + "93 2019-11-09 15:32:51 0 \n", + "94 2019-11-09 14:29:30 0 \n", + "95 2019-11-09 14:29:54 6 \n", + "96 2019-11-09 15:18:37 3 \n", + "97 2019-11-09 15:22:12 1 \n", + "98 2019-11-09 15:30:28 0 \n", + "99 2019-11-09 15:30:36 1 \n", "\n", - " comment media \\\n", - "0 C'est une blague mdr 🤣🤣🤣🤣🤣 FIG \n", - "1 La seule question c'est de savoir s'il fera pl... FIG \n", - "2 Romain Debrigode l info du jour qui fait plaise FIG \n", - "3 Vasanth Toure 😍 FIG \n", - "4 Pierre Crouzet Paris n'est pas prêt encore... FIG \n", + " comment media \\\n", + "0 C'est une blague mdr 🤣🤣🤣🤣🤣 FIG \n", + "1 La seule question c'est de savoir s'il fera pl... FIG \n", + "2 Romain Debrigode l info du jour qui fait plaise FIG \n", + "3 Vasanth Toure 😍 FIG \n", + "4 Pierre Crouzet Paris n'est pas prêt encore... FIG \n", + "5 Vasanth Toure le prochain c’est Adrien Rabiot FIG \n", + "6 Mdr FIG \n", + "7 moi je propose mamadou sissoko FIG \n", + "8 Louis Prt Corentin Corman Victor Mdv ah ouais? FIG \n", + "9 Marier le foot à la mairie est génial FIG \n", + "10 Benoît Zivanovic FIG \n", + "11 Eugénie Rey avec Simonet !!! FIG \n", + "12 Moi aussi je candidate ras le bol la place est... FIG \n", + "13 Ah bah vu qu’il a déclaré y’a pas longtemps qu... FIG \n", + "14 Catheline Lr Victoire Bailly Hannah Jenn ce me... FIG \n", + "15 🤮🤮👎👎 FIG \n", + "16 CharlesDuquesne, il a pris trop de ballon sur ... FIG \n", + "17 Martin tu sais pour qui tu vas voter ? FIG \n", + "18 Pierre Trichet j'avais déjà vu, mon bulletin e... FIG \n", + "19 Il va jouer le loto avec l'argent de la mairi... FIG \n", + "20 En espérant qu’il fasse une meilleure carrière 🤣 FIG \n", + "21 En clubChampion de France en 2003 et en 2004 a... FIG \n", + "22 Yann Gilles C'est pas pour ça qu'il seras un b... FIG \n", + "23 Mais où sont les compètences d'un footballeur.... FIG \n", + "24 son palmarès n'a rien à voir avec les qualités... FIG \n", + "25 Yann Gilles C'est vrai que comme cireur de ban... FIG \n", + "26 Gen Lys c' est un type extraordinaire... lisez... FIG \n", + "27 Jacques Poulain d’accord Jacques 🙂 mais je me ... FIG \n", + "28 Jackie Petit 😂😂😂😂😂😂😂😂😂 FIG \n", + "29 Jacques Poulain 😂😂😂😂😂😂😂😂😂😂 FIG \n", + ".. ... ... \n", + "70 La fierté de l'île Maurice... 🙂❤🇲🇺 FIG \n", + "71 / Ayo vous zot !!!!! 🤣 FIG \n", + "72 Sofia Karolina Vikash nou lé roi! 🤣 FIG \n", + "73 C'est pourtant les élections en ce moment là b... FIG \n", + "74 Dicken Shailen Mardaymootoo ou lile à Maurice FIG \n", + "75 Victor Tranchetti ton pote !!! FIG \n", + "76 Marouan Chamsy on parler de lui hier soir le v... FIG \n", + "77 Enfin des personnes compétentes!!! FIG \n", + "78 Bon dieu .... n importe quoi FIG \n", + "79 Votre future maire Amine Amewouga Oussama Ghe... FIG \n", + "80 Bilel Madani maire de Zico berk hahahah hna on... FIG \n", + "81 son siège sera à port La Chapelle Hahahah FIG \n", + "82 ما تحشمش هههه FIG \n", + "83 Bilel Madani hhhhhh ana je l’aime bien ce mec ... FIG \n", + "84 C'est votre pays, je préfère me taire. FIG \n", + "85 pourquoi chacun a droit de s'exprimer FIG \n", + "86 nul comme joueur qu'il etait pire comme politi... FIG \n", + "87 Pascal ton pote🤣 FIG \n", + "88 Avec les cocos ! J'adore ces millionnaires ! J... FIG \n", + "89 il ne faut pas rêver lol FIG \n", + "90 Eric Parmentier il n'est pas millionnaire car ... FIG \n", + "91 il devrait prendre aussi Ribery ... FIG \n", + "92 Jean-François Broquin ministre de la culture e... FIG \n", + "93 Jean-François Broquin ben oui, bonne idée..il ... FIG \n", + "94 Dylan Ben Ghouzi Mathieu Guédon FIG \n", + "95 Très heureux de l'engagement de Dhorasoo, un f... FIG \n", + "96 le banc de touche. le connaît très bien FIG \n", + "97 International quand même ... FIG \n", + "98 NaN FIG \n", + "99 Jean-pierre Josselin c’est le moins qu’on puis... FIG \n", "\n", - " post_id list_names \\\n", - "0 5dc7ac7f359e2-10157143278136339 [Ycf Bullit] \n", - "1 5dc7ac7f359e2-10157143278136339 [Steph Alcazar] \n", - "2 5dc7ac7f359e2-10157143278136339 [Töm Müstäine] \n", - "3 5dc7ac7f359e2-10157143278136339 [Pierre Crouzet, Vasanth Toure] \n", - "4 5dc7ac7f359e2-10157143278136339 [Pierre Crouzet, Vasanth Toure] \n", + " post_id \\\n", + "0 5dc7ac7f359e2-10157143278136339 \n", + "1 5dc7ac7f359e2-10157143278136339 \n", + "2 5dc7ac7f359e2-10157143278136339 \n", + "3 5dc7ac7f359e2-10157143278136339 \n", + "4 5dc7ac7f359e2-10157143278136339 \n", + "5 5dc7ac7f359e2-10157143278136339 \n", + "6 5dc7ac7f359e2-10157143278136339 \n", + "7 5dc7ac7f359e2-10157143278136339 \n", + "8 5dc7ac7f359e2-10157143278136339 \n", + "9 5dc7ac7f359e2-10157143278136339 \n", + "10 5dc7ac7f359e2-10157143278136339 \n", + "11 5dc7ac7f359e2-10157143278136339 \n", + "12 5dc7ac7f359e2-10157143278136339 \n", + "13 5dc7ac7f359e2-10157143278136339 \n", + "14 5dc7ac7f359e2-10157143278136339 \n", + "15 5dc7ac7f359e2-10157143278136339 \n", + "16 5dc7ac7f359e2-10157143278136339 \n", + "17 5dc7ac7f359e2-10157143278136339 \n", + "18 5dc7ac7f359e2-10157143278136339 \n", + "19 5dc7ac7f359e2-10157143278136339 \n", + "20 5dc7ac7f359e2-10157143278136339 \n", + "21 5dc7ac7f359e2-10157143278136339 \n", + "22 5dc7ac7f359e2-10157143278136339 \n", + "23 5dc7ac7f359e2-10157143278136339 \n", + "24 5dc7ac7f359e2-10157143278136339 \n", + "25 5dc7ac7f359e2-10157143278136339 \n", + "26 5dc7ac7f359e2-10157143278136339 \n", + "27 5dc7ac7f359e2-10157143278136339 \n", + "28 5dc7ac7f359e2-10157143278136339 \n", + "29 5dc7ac7f359e2-10157143278136339 \n", + ".. ... \n", + "70 5dc7ac7f359e2-10157143278136339 \n", + "71 5dc7ac7f359e2-10157143278136339 \n", + "72 5dc7ac7f359e2-10157143278136339 \n", + "73 5dc7ac7f359e2-10157143278136339 \n", + "74 5dc7ac7f359e2-10157143278136339 \n", + "75 5dc7ac7f359e2-10157143278136339 \n", + "76 5dc7ac7f359e2-10157143278136339 \n", + "77 5dc7ac7f359e2-10157143278136339 \n", + "78 5dc7ac7f359e2-10157143278136339 \n", + "79 5dc7ac7f359e2-10157143278136339 \n", + "80 5dc7ac7f359e2-10157143278136339 \n", + "81 5dc7ac7f359e2-10157143278136339 \n", + "82 5dc7ac7f359e2-10157143278136339 \n", + "83 5dc7ac7f359e2-10157143278136339 \n", + "84 5dc7ac7f359e2-10157143278136339 \n", + "85 5dc7ac7f359e2-10157143278136339 \n", + "86 5dc7ac7f359e2-10157143278136339 \n", + "87 5dc7ac7f359e2-10157143278136339 \n", + "88 5dc7ac7f359e2-10157143278136339 \n", + "89 5dc7ac7f359e2-10157143278136339 \n", + "90 5dc7ac7f359e2-10157143278136339 \n", + "91 5dc7ac7f359e2-10157143278136339 \n", + "92 5dc7ac7f359e2-10157143278136339 \n", + "93 5dc7ac7f359e2-10157143278136339 \n", + "94 5dc7ac7f359e2-10157143278136339 \n", + "95 5dc7ac7f359e2-10157143278136339 \n", + "96 5dc7ac7f359e2-10157143278136339 \n", + "97 5dc7ac7f359e2-10157143278136339 \n", + "98 5dc7ac7f359e2-10157143278136339 \n", + "99 5dc7ac7f359e2-10157143278136339 \n", "\n", - " auteurs_referes comment_clean \\\n", - "0 [] C'est une blague mdr 🤣🤣🤣🤣🤣 \n", - "1 [] La seule question c'est de savoir s'il fera pl... \n", - "2 [] Romain Debrigode l info du jour qui fait plaise \n", - "3 ['Vasanth Toure'] 😍 \n", - "4 ['Pierre Crouzet'] Paris n'est pas prêt encore... \n", + " list_names \\\n", + "0 [Ycf Bullit] \n", + "1 [Steph Alcazar] \n", + "2 [Töm Müstäine] \n", + "3 [Pierre Crouzet, Vasanth Toure] \n", + "4 [Pierre Crouzet, Vasanth Toure] \n", + "5 [Pierre Crouzet, Vasanth Toure] \n", + "6 [Stéphane Pirnaci] \n", + "7 [Adil Bennani] \n", + "8 [Hadrien De Cournon] \n", + "9 [Marwa Larose] \n", + "10 [Luca Spada] \n", + "11 [Louis Rey] \n", + "12 [Mariam Aurelie Koné] \n", + "13 [Cedric Cmn] \n", + "14 [Olivia Fuentes] \n", + "15 [Marie Madeleine] \n", + "16 [Yohann Lévêque] \n", + "17 [Pierre Trichet, Martin Trichet] \n", + "18 [Pierre Trichet, Martin Trichet] \n", + "19 [Moumou Soussi] \n", + "20 [Rosette Delion, Adelaide AF, Yann Gilles, Phi... \n", + "21 [Rosette Delion, Adelaide AF, Yann Gilles, Phi... \n", + "22 [Rosette Delion, Adelaide AF, Yann Gilles, Phi... \n", + "23 [Rosette Delion, Adelaide AF, Yann Gilles, Phi... \n", + "24 [Rosette Delion, Adelaide AF, Yann Gilles, Phi... \n", + "25 [Rosette Delion, Adelaide AF, Yann Gilles, Phi... \n", + "26 [Rosette Delion, Adelaide AF, Yann Gilles, Phi... \n", + "27 [Rosette Delion, Adelaide AF, Yann Gilles, Phi... \n", + "28 [Rosette Delion, Adelaide AF, Yann Gilles, Phi... \n", + "29 [Rosette Delion, Adelaide AF, Yann Gilles, Phi... \n", + ".. ... \n", + "70 [Gerard Brunet, Clarisse Legrand Motee, Sofia ... \n", + "71 [Gerard Brunet, Clarisse Legrand Motee, Sofia ... \n", + "72 [Gerard Brunet, Clarisse Legrand Motee, Sofia ... \n", + "73 [Gerard Brunet, Clarisse Legrand Motee, Sofia ... \n", + "74 [Gerard Brunet, Clarisse Legrand Motee, Sofia ... \n", + "75 [Victor Tranchetti, Marouan Chamsy] \n", + "76 [Victor Tranchetti, Marouan Chamsy] \n", + "77 [Salim Igré] \n", + "78 [Danielle RM Danielle] \n", + "79 [Amine Amewouga, Bilel Madani, Oussama Ghermoul] \n", + "80 [Amine Amewouga, Bilel Madani, Oussama Ghermoul] \n", + "81 [Amine Amewouga, Bilel Madani, Oussama Ghermoul] \n", + "82 [Amine Amewouga, Bilel Madani, Oussama Ghermoul] \n", + "83 [Amine Amewouga, Bilel Madani, Oussama Ghermoul] \n", + "84 [Boura Aïssata Ombotimbé, Sylviane Vaudevire] \n", + "85 [Boura Aïssata Ombotimbé, Sylviane Vaudevire] \n", + "86 [Æø Đéstrøyer] \n", + "87 [Kévin Rostan] \n", + "88 [Marinette Figaro, Eric Parmentier, Sylviane V... \n", + "89 [Marinette Figaro, Eric Parmentier, Sylviane V... \n", + "90 [Marinette Figaro, Eric Parmentier, Sylviane V... \n", + "91 [Jean-François Broquin, Pascal J Guignard, Rom... \n", + "92 [Jean-François Broquin, Pascal J Guignard, Rom... \n", + "93 [Jean-François Broquin, Pascal J Guignard, Rom... \n", + "94 [Maxime Noël] \n", + "95 [Jean-pierre Josselin, Pascal J Guignard, Phil... \n", + "96 [Jean-pierre Josselin, Pascal J Guignard, Phil... \n", + "97 [Jean-pierre Josselin, Pascal J Guignard, Phil... \n", + "98 [Jean-pierre Josselin, Pascal J Guignard, Phil... \n", + "99 [Jean-pierre Josselin, Pascal J Guignard, Phil... \n", "\n", - " ner_dict \\\n", - "0 {} \n", - "1 {} \n", - "2 {('Romain', 'PERSON'): 1, ('Debrigode', 'PERSO... \n", - "3 {} \n", - "4 {('Paris', 'LOCATION'): 1} \n", + " auteurs_referes \\\n", + "0 [] \n", + "1 [] \n", + "2 [] \n", + "3 ['Vasanth Toure'] \n", + "4 ['Pierre Crouzet'] \n", + "5 ['Vasanth Toure'] \n", + "6 [] \n", + "7 [] \n", + "8 [] \n", + "9 [] \n", + "10 [] \n", + "11 [] \n", + "12 [] \n", + "13 [] \n", + "14 [] \n", + "15 [] \n", + "16 [] \n", + "17 [] \n", + "18 ['Pierre Trichet'] \n", + "19 [] \n", + "20 [] \n", + "21 [] \n", + "22 ['Yann Gilles'] \n", + "23 [] \n", + "24 [] \n", + "25 ['Yann Gilles'] \n", + "26 ['Gen Lys'] \n", + "27 [] \n", + "28 ['Jackie Petit'] \n", + "29 [] \n", + ".. ... \n", + "70 [] \n", + "71 [] \n", + "72 ['Sofia Karolina'] \n", + "73 [] \n", + "74 ['Dicken Shailen Mardaymootoo'] \n", + "75 ['Victor Tranchetti'] \n", + "76 ['Marouan Chamsy'] \n", + "77 [] \n", + "78 [] \n", + "79 ['Amine Amewouga', 'Oussama Ghermoul'] \n", + "80 ['Bilel Madani'] \n", + "81 [] \n", + "82 [] \n", + "83 ['Bilel Madani'] \n", + "84 [] \n", + "85 [] \n", + "86 [] \n", + "87 [] \n", + "88 [] \n", + "89 [] \n", + "90 ['Eric Parmentier'] \n", + "91 [] \n", + "92 ['Jean-François Broquin'] \n", + "93 ['Jean-François Broquin'] \n", + "94 [] \n", + "95 [] \n", + "96 [] \n", + "97 [] \n", + "98 [] \n", + "99 ['Jean-pierre Josselin'] \n", "\n", - " pos_dict \\\n", - "0 {('est', 'VERB'): 1, ('blague', 'NOUN'): 1, ('... \n", - "1 {('seule', 'ADJ'): 1, ('question', 'NOUN'): 1,... \n", - "2 {('Romain', 'PROPN'): 1, ('Debrigode', 'PROPN'... \n", - "3 {} \n", - "4 {('Paris', 'PROPN'): 1, ('est', 'VERB'): 1, ('... \n", + " comment_clean \\\n", + "0 C'est une blague mdr 🤣🤣🤣🤣🤣 \n", + "1 La seule question c'est de savoir s'il fera pl... \n", + "2 Romain Debrigode l info du jour qui fait plaise \n", + "3 😍 \n", + "4 Paris n'est pas prêt encore... \n", + "5 le prochain c’est Adrien Rabiot \n", + "6 Mdr \n", + "7 moi je propose mamadou sissoko \n", + "8 Louis Prt Corentin Corman Victor Mdv ah ouais? \n", + "9 Marier le foot à la mairie est génial \n", + "10 Benoît Zivanovic \n", + "11 Eugénie Rey avec Simonet !!! \n", + "12 Moi aussi je candidate ras le bol la place est... \n", + "13 Ah bah vu qu’il a déclaré y’a pas longtemps qu... \n", + "14 Catheline Lr Victoire Bailly Hannah Jenn ce me... \n", + "15 🤮🤮👎👎 \n", + "16 CharlesDuquesne, il a pris trop de ballon sur ... \n", + "17 Martin tu sais pour qui tu vas voter ? \n", + "18 j'avais déjà vu, mon bulletin est prêt depuis... \n", + "19 Il va jouer le loto avec l'argent de la mairi... \n", + "20 En espérant qu’il fasse une meilleure carrière 🤣 \n", + "21 En clubChampion de France en 2003 et en 2004 a... \n", + "22 C'est pas pour ça qu'il seras un bon Maire 😂😂😂 \n", + "23 Mais où sont les compètences d'un footballeur.... \n", + "24 son palmarès n'a rien à voir avec les qualités... \n", + "25 C'est vrai que comme cireur de bancs il a un ... \n", + "26 c' est un type extraordinaire... lisez sa bio... \n", + "27 Jacques Poulain d’accord Jacques 🙂 mais je me ... \n", + "28 😂😂😂😂😂😂😂😂😂 \n", + "29 Jacques Poulain 😂😂😂😂😂😂😂😂😂😂 \n", + ".. ... \n", + "70 La fierté de l'île Maurice... 🙂❤🇲🇺 \n", + "71 / Ayo vous zot !!!!! 🤣 \n", + "72 Vikash nou lé roi! 🤣 \n", + "73 C'est pourtant les élections en ce moment là b... \n", + "74 ou lile à Maurice \n", + "75 ton pote !!! \n", + "76 on parler de lui hier soir le voilà maintenan... \n", + "77 Enfin des personnes compétentes!!! \n", + "78 Bon dieu .... n importe quoi \n", + "79 Votre future maire Zico Zacharie mdr 😂 \n", + "80 maire de Zico berk hahahah hna on est plus fi... \n", + "81 son siège sera à port La Chapelle Hahahah \n", + "82 ما تحشمش هههه \n", + "83 hhhhhh ana je l’aime bien ce mec ! Kima 9al O... \n", + "84 C'est votre pays, je préfère me taire. \n", + "85 pourquoi chacun a droit de s'exprimer \n", + "86 nul comme joueur qu'il etait pire comme politi... \n", + "87 Pascal ton pote🤣 \n", + "88 Avec les cocos ! J'adore ces millionnaires ! J... \n", + "89 il ne faut pas rêver lol \n", + "90 il n'est pas millionnaire car pour vous tout ... \n", + "91 il devrait prendre aussi Ribery ... \n", + "92 ministre de la culture en 2030:) \n", + "93 ben oui, bonne idée..il quitte le Bayern... \n", + "94 Dylan Ben Ghouzi Mathieu Guédon \n", + "95 Très heureux de l'engagement de Dhorasoo, un f... \n", + "96 le banc de touche. le connaît très bien \n", + "97 International quand même ... \n", + "98 nan \n", + "99 c’est le moins qu’on puisse dire! \n", "\n", - " emoji_dict \n", - "0 {':rolling_on_the_floor_laughing:': [5, 6, 7]} \n", - "1 {} \n", - "2 {} \n", - "3 {} \n", - "4 {} " + " ner_dict \\\n", + "0 {} \n", + "1 {} \n", + "2 {('Romain', 'PERSON'): 1, ('Debrigode', 'PERSO... \n", + "3 {} \n", + "4 {('Paris', 'LOCATION'): 1} \n", + "5 {('Adrien', 'PERSON'): 1, ('Rabiot', 'PERSON')... \n", + "6 {} \n", + "7 {} \n", + "8 {('Louis', 'PERSON'): 1, ('Prt', 'PERSON'): 1,... \n", + "9 {('Marier', 'PERSON'): 1} \n", + "10 {('Benoît', 'PERSON'): 1, ('Zivanovic', 'PERSO... \n", + "11 {('Eugénie', 'PERSON'): 1, ('Rey', 'PERSON'): ... \n", + "12 {} \n", + "13 {} \n", + "14 {('Catheline', 'PERSON'): 1, ('Lr', 'PERSON'):... \n", + "15 {} \n", + "16 {} \n", + "17 {('Martin', 'PERSON'): 1} \n", + "18 {('mon', 'DATE'): 1, ('3', 'NUMBER'): 1} \n", + "19 {} \n", + "20 {} \n", + "21 {('France', 'LOCATION'): 3, ('2003', 'DATE'): ... \n", + "22 {} \n", + "23 {('France', 'LOCATION'): 1} \n", + "24 {} \n", + "25 {} \n", + "26 {} \n", + "27 {('Jacques', 'PERSON'): 1, ('Poulain', 'PERSON... \n", + "28 {} \n", + "29 {('Jacques', 'PERSON'): 1, ('Poulain', 'PERSON... \n", + ".. ... \n", + "70 {} \n", + "71 {('Ayo', 'PERSON'): 1} \n", + "72 {('Vikash', 'PERSON'): 1} \n", + "73 {} \n", + "74 {('Maurice', 'PERSON'): 1} \n", + "75 {} \n", + "76 {} \n", + "77 {} \n", + "78 {} \n", + "79 {('future', 'DATE'): 1, ('Zico', 'PERSON'): 1,... \n", + "80 {('Zico', 'PERSON'): 1, ('75', 'NUMBER'): 1} \n", + "81 {} \n", + "82 {} \n", + "83 {('9', 'NUMBER'): 1, ('Oussama', 'PERSON'): 1,... \n", + "84 {} \n", + "85 {} \n", + "86 {} \n", + "87 {} \n", + "88 {('85', 'PERCENT'): 1, ('%', 'PERCENT'): 1, ('... \n", + "89 {} \n", + "90 {} \n", + "91 {('Ribery', 'PERSON'): 1} \n", + "92 {('2030', 'DATE'): 1} \n", + "93 {('Bayern', 'ORGANIZATION'): 1} \n", + "94 {('Dylan', 'PERSON'): 1, ('Ben', 'PERSON'): 1,... \n", + "95 {('Dhorasoo', 'PERSON'): 1} \n", + "96 {} \n", + "97 {} \n", + "98 {} \n", + "99 {} \n", + "\n", + " pos_dict \\\n", + "0 {('est', 'VERB'): 1, ('blague', 'NOUN'): 1, ('... \n", + "1 {('seule', 'ADJ'): 1, ('question', 'NOUN'): 1,... \n", + "2 {('Romain', 'PROPN'): 1, ('Debrigode', 'PROPN'... \n", + "3 {} \n", + "4 {('Paris', 'PROPN'): 1, ('est', 'VERB'): 1, ('... \n", + "5 {('prochain', 'ADJ'): 1, ('Adrien', 'PROPN'): ... \n", + "6 {} \n", + "7 {('propose', 'VERB'): 1, ('mamadou', 'NOUN'): ... \n", + "8 {('Louis', 'PROPN'): 1, ('Prt', 'PROPN'): 1, (... \n", + "9 {('Marier', 'VERB'): 1, ('foot', 'NOUN'): 1, (... \n", + "10 {('Benoît', 'PROPN'): 1, ('Zivanovic', 'PROPN'... \n", + "11 {('Eugénie', 'PROPN'): 1, ('Rey', 'PROPN'): 1,... \n", + "12 {('aussi', 'ADV'): 1, ('candidate', 'NOUN'): 1... \n", + "13 {('Ah', 'INTJ'): 1, ('bah', 'INTJ'): 1, ('vu',... \n", + "14 {('Catheline', 'PROPN'): 1, ('Lr', 'PROPN'): 1... \n", + "15 {} \n", + "16 {('CharlesDuquesne', 'PROPN'): 1, ('pris', 'VE... \n", + "17 {('Martin', 'PROPN'): 1, ('sais', 'VERB'): 1, ... \n", + "18 {('déjà', 'ADV'): 1, ('vu', 'VERB'): 1, ('bull... \n", + "19 {('jouer', 'VERB'): 1, ('loto', 'NOUN'): 1, ('... \n", + "20 {('espérant', 'VERB'): 1, ('fasse', 'VERB'): 1... \n", + "21 {('clubChampion', 'NOUN'): 1, ('France', 'PROP... \n", + "22 {('est', 'VERB'): 1, ('pas', 'ADV'): 1, ('sera... \n", + "23 {('sont', 'VERB'): 1, ('compètences', 'NOUN'):... \n", + "24 {('palmarès', 'NOUN'): 1, ('voir', 'VERB'): 1,... \n", + "25 {('est', 'VERB'): 1, ('vrai', 'ADJ'): 1, ('cir... \n", + "26 {('est', 'VERB'): 1, ('type', 'NOUN'): 1, ('ex... \n", + "27 {('Jacques', 'PROPN'): 2, ('Poulain', 'PROPN')... \n", + "28 {} \n", + "29 {('Jacques', 'PROPN'): 1, ('Poulain', 'PROPN')... \n", + ".. ... \n", + "70 {('fierté', 'NOUN'): 1, ('île', 'NOUN'): 1, ('... \n", + "71 {('Ayo', 'PROPN'): 1, ('zot', 'VERB'): 1} \n", + "72 {('Vikash', 'PROPN'): 1, ('nou', 'NOUN'): 1, (... \n", + "73 {('est', 'VERB'): 1, ('pourtant', 'ADV'): 1, (... \n", + "74 {('lile', 'NOUN'): 1, ('Maurice', 'PROPN'): 1} \n", + "75 {('pote', 'NOUN'): 1} \n", + "76 {('parler', 'VERB'): 1, ('hier', 'ADV'): 1, ('... \n", + "77 {('Enfin', 'ADV'): 1, ('personnes', 'NOUN'): 1... \n", + "78 {('Bon', 'PROPN'): 1, ('dieu', 'NOUN'): 1, ('i... \n", + "79 {('future', 'ADJ'): 1, ('maire', 'NOUN'): 1, (... \n", + "80 {('maire', 'NOUN'): 1, ('Zico', 'PROPN'): 1, (... \n", + "81 {('siège', 'NOUN'): 1, ('sera', 'VERB'): 1, ('... \n", + "82 {('ما', 'NOUN'): 1, ('ههه', 'VERB'): 1} \n", + "83 {('hhhhhh', 'VERB'): 1, ('ana', 'NOUN'): 1, ('... \n", + "84 {('est', 'VERB'): 1, ('pays', 'NOUN'): 1, ('pr... \n", + "85 {('pourquoi', 'ADV'): 1, ('a', 'VERB'): 1, ('d... \n", + "86 {('nul', 'NOUN'): 1, ('joueur', 'NOUN'): 1, ('... \n", + "87 {('Pascal', 'PROPN'): 1, ('pote', 'NOUN'): 1} \n", + "88 {('cocos', 'NOUN'): 1, ('adore', 'VERB'): 1, (... \n", + "89 {('pas', 'ADV'): 1, ('rêver', 'VERB'): 1, ('lo... \n", + "90 {('est', 'VERB'): 1, ('pas', 'ADV'): 1, ('mill... \n", + "91 {('prendre', 'VERB'): 1, ('aussi', 'ADV'): 1, ... \n", + "92 {('ministre', 'NOUN'): 1, ('culture', 'NOUN'): 1} \n", + "93 {('oui', 'INTJ'): 1, ('bonne', 'ADJ'): 1, ('id... \n", + "94 {('Dylan', 'PROPN'): 1, ('Ben', 'PROPN'): 1, (... \n", + "95 {('Très', 'ADV'): 1, ('heureux', 'ADJ'): 1, ('... \n", + "96 {('banc', 'NOUN'): 1, ('touche', 'NOUN'): 1, (... \n", + "97 {('International', 'ADJ'): 1, ('même', 'ADV'): 1} \n", + "98 {('nan', 'NOUN'): 1} \n", + "99 {('est', 'VERB'): 1, ('moins', 'NOUN'): 1, ('d... \n", + "\n", + " emoji_dict \n", + "0 {':rolling_on_the_floor_laughing:': [5, 6, 7]} \n", + "1 {} \n", + "2 {} \n", + "3 {} \n", + "4 {} \n", + "5 {} \n", + "6 {} \n", + "7 {} \n", + "8 {} \n", + "9 {} \n", + "10 {} \n", + "11 {} \n", + "12 {} \n", + "13 {} \n", + "14 {} \n", + "15 {} \n", + "16 {} \n", + "17 {} \n", + "18 {} \n", + "19 {':face_with_tears_of_joy:': [25]} \n", + "20 {':rolling_on_the_floor_laughing:': [10]} \n", + "21 {} \n", + "22 {':face_with_tears_of_joy:': [10, 11, 12]} \n", + "23 {} \n", + "24 {} \n", + "25 {} \n", + "26 {} \n", + "27 {':slightly_smiling_face:': [7]} \n", + "28 {} \n", + "29 {':face_with_tears_of_joy:': [3, 4, 5]} \n", + ".. ... \n", + "70 {':slightly_smiling_face:': [7], ':red_heart:'... \n", + "71 {} \n", + "72 {} \n", + "73 {':rolling_on_the_floor_laughing:': [10]} \n", + "74 {} \n", + "75 {} \n", + "76 {':face_with_tears_of_joy:': [10, 11]} \n", + "77 {} \n", + "78 {} \n", + "79 {':face_with_tears_of_joy:': [7]} \n", + "80 {} \n", + "81 {} \n", + "82 {} \n", + "83 {':crying_face:': [8], ':loudly_crying_face:':... \n", + "84 {} \n", + "85 {} \n", + "86 {} \n", + "87 {':rolling_on_the_floor_laughing:': [4]} \n", + "88 {':face_with_tears_of_joy:': [4]} \n", + "89 {} \n", + "90 {} \n", + "91 {} \n", + "92 {':)': [7]} \n", + "93 {} \n", + "94 {} \n", + "95 {} \n", + "96 {} \n", + "97 {} \n", + "98 {} \n", + "99 {} \n", + "\n", + "[100 rows x 15 columns]" ] }, - "execution_count": 24, + "execution_count": 44, "metadata": {}, "output_type": "execute_result" } ], "source": [ - "commentaires_df.head()" + "commentaires_df.head(100)" ] }, { diff --git a/NLP-TP3.bib b/NLP-TP3.bib index bf7b6b6..189fcee 100644 --- a/NLP-TP3.bib +++ b/NLP-TP3.bib @@ -79,4 +79,29 @@ editor = {Litosseliti, Lia}, year = {2010}, pages = {117--137} +} + +@article{robb_how_2014, + title = {How {Capital} {Letters} {Became} {Internet} {Code} for {Yelling}}, + url = {https://newrepublic.com/article/117390/netiquette-capitalization-how-caps-became-code-yelling}, + urldate = {2019-12-21}, + journal = {The New Republic}, + author = {Robb, Alice}, + month = apr, + year = {2014} +} + +@inproceedings{bird_nltk:_2002, + title = {Nltk: {The} natural language toolkit}, + booktitle = {In {Proceedings} of the {ACL} {Workshop} on {Effective} {Tools} and {Methodologies} for {Teaching} {Natural} {Language} {Processing} and {Computational} {Linguistics}. {Philadelphia}: {Association} for {Computational} {Linguistics}}, + author = {Bird, Steven}, + year = {2002} +} + +@book{zeman_universal_2019, + title = {Universal {Dependencies} 2.5}, + copyright = {Licence Universal Dependencies v2.5}, + url = {http://hdl.handle.net/11234/1-3105}, + author = {Collective}, + year = {2019} } \ No newline at end of file diff --git a/commentaires_reseaux_sociaux.mm b/commentaires_reseaux_sociaux.mm index ce736a9..fbcc798 100644 --- a/commentaires_reseaux_sociaux.mm +++ b/commentaires_reseaux_sociaux.mm @@ -2,7 +2,7 @@ - + @@ -63,7 +63,7 @@ - + @@ -214,19 +214,19 @@ - - + + - + - + - + @@ -234,14 +234,14 @@ - + - + @@ -259,7 +259,7 @@ - + @@ -295,5 +295,8 @@ + + + diff --git a/rapport.md b/rapport.md index 724e17a..8cd3382 100644 --- a/rapport.md +++ b/rapport.md @@ -19,91 +19,121 @@ csl: transactions-on-speech-and-language-processing.csl # Introduction -# Description des corpus de textes - -Nous analyserons les articles provenant des pages Facebook de trois médias écrits francophones: Le Figaro (France), Radio-Canada (Canada) et TVA Nouvelles (Canada). Pour chacun de ces médias, nous avons respectivement 25, 22 et 24 publications contenant un lien vers un article journalistique. - -Le premier corpus étudié est constitué du texte de chacun des articles qui sont liés dans les publications (l'utilisateur de Facebook devant cliquer sur le lien pour y accéder). Le titre de l'article n'est pas inclus dans ce corpus. - -Le second corpus est constitué d'un ensemble de commentaires publiés par des utilisateurs du réseau social et associés à chacune des publications précédentes. Il y a respectivement 7155, 2947 et 6262 commentaires pour chacun des trois médias écrits. - -Ces deux corpus ont été créées à l'aide des données de commentaires extraites depuis l'application en ligne exportcomments.com @noauthor_exportcomments.com_2019 dans des fichiers XLSX. Les fichiers ont par la suite été utilisés par les programmes Python suivants: - -- `commentaires.ipynb` pour extraire les commentaires depuis les fichiers téléchargés à l'aide de Pandas @mckinney_data_2010. -- `textes_articles.ipynb` pour extraire les textes depuis les URL disponibles dans les fichiers, par récupération de données (*web scraping*), en utilisant la librairie Python `newspaper` @ou-yang_newspaper3k:_2019. - -\pagebreak - # Attributs linguistiques des commentaires sur les réseaux sociaux -Les commentaires extraits constituent une nouvelle forme de discours, complètement différent des textes formatés et normalisés provenant du domaine journalistique. Il est donc nécessaire de s'y attarder plus longuement avant de poursuivre nos analyse. +Les commentaires extraits des fils de discussions sur des publications Facebook constituent une nouvelle forme de discours, complètement différent des textes formatés et normalisés provenant du domaine journalistique. Il est donc nécessaire de s'y attarder en détail afin de réaliser des analyses pertinences. ## Analyse du discours -Selon Baxter [@baxter_discourse-analytic_2010], l'analyse du discours, qui est principalement dérivée de la sociologie, se découpe en quatre composantes principales (p.11): +Selon Baxter [@baxter_discourse-analytic_2010], l'analyse du discours, qui est principalement dérivée de la sociologie, se découpe en quatre composantes principales (p.11) : - La variabilité du langage (adaptation à l'audience et au contexte) - La nature du langage (descriptif, narratif, expressif ou humoristique) - Le répertoire (vocabulaire, grammaire, figures de style) -- Approches macro et micro-analytiques (contextes sociopolitique et psychologie) +- Approche macro et microanalytiques (contextes sociopolitiques et psychologiques) -Comme le sens propre de chacun des commentaires est influencé par ces éléments, il sera pertinent de pouvoir les représenter sous forme d'attributs dans un modèle de classification de la pertinence par rapport à l'article en référence. Sinon, le modèle pourrait être biaisé, par exemple, en favorisant les commentaires qui ont un vocabulaire soutenu, davantage descriptifs et sur un ton professionnel, c'est-à-dire similaire au style journalistique. Toutefois, ce dernier pourrait ne pas être davantage en lien avec le contenu de l'article qu'un commentaire humoristique avec un niveau grammatical faible. +**Observations**: Comme le sens propre de chacun des commentaires est influencé par ces éléments, il sera pertinent de pouvoir les représenter sous forme d'attributs dans un modèle de classification de la pertinence par rapport à l'article en référence. Sinon, le modèle pourrait être biaisé, par exemple, en favorisant les commentaires qui ont un vocabulaire soutenu, davantage descriptif et sur un ton professionnel, c'est-à-dire similaire au style journalistique. Toutefois, ce dernier pourrait ne pas être davantage en lien avec le contenu de l'article qu'un commentaire humoristique avec un niveau grammatical faible. -## Sémiotique +## Mécanismes d'emphase -Selon Liebeskind [@liebeskind_comment_2018], les commentaires sur les réseaux sociaux présentent de nouvelles caractéristiques sémiotiques et linguistiques. En fait, on parle ici de sémiotique, car le discours n'est plus seulement signifié par des mots, mais aussi par des abbréviations, des émojis, des onomatopées, des répétitions de caractères (en particulier la ponctuation). On ajoute une dimension linguistique, car en plus d'un jargon spécifique à ce type de communication, les commentaires sont souvent écrits dans un niveau de langage passant du soutenu au vulgaire dans le même fil de conversation. +Selon Liebeskind [@liebeskind_comment_2018], les commentaires sur les réseaux sociaux présentent de nouvelles caractéristiques sémiotiques et linguistiques. En fait, on parle ici de sémiotique, car le discours n'est plus seulement signifié par des mots, mais aussi par des abréviations, des émojis, des onomatopées, des répétitions de caractères (en particulier la ponctuation). On ajoute une dimension linguistique, car en plus d'un jargon spécifique à ce type de communication, les commentaires sont souvent écrits dans un niveau de langage passant du soutenu au vulgaire dans le même fil de conversation. Ces différents comportements peuvent être rassemblés sous la dénomination de mécanismes d'emphase. -### Emojis et interjections +### Émojis et interjections Les émojis et les interjections sont une composante essentielle des commentaires retrouvés sur les réseaux sociaux. Plus d'un commentaire sur huit contient un émoji. -Halté [@halte_les_2018] a étudié en détail le rôle des émoticones (tels que `:-)`) et des interjections (tels que le fameux *lol*), ainsi que leur normalisation inspirée des caractères japonais nommés pour l'occasion `emojis` (néologisme qui relie l'anglais *emotion* et la racine japonaise *-ji* représentant la notion de symbole). Il précise d'ailleurs que des tests de substitution ou de suppression permettent d'identifier le rôle modalisateur de ces expression (une sorte de multiplicateur de la polarité ou valence du texte). La portée d'une émoticone, tout comme la portée d'une négation, peut être déterminée en effectuant une analyse syntaxique par relations ou par constituants. Mais, règle générale, l'auteur remarque que la portée s'étend toujours sur les éléments qui précèdent l'émoticone, ce qui peut parfois limiter la recherche des fragments de la phrase qui en sont affectés (lorsqu'ils ne sont pas à la fin du commentaire). +Halté [@halte_les_2018] a étudié en détail le rôle des émoticônes (tels que `:-)`) et des interjections (tels que le fameux *lol*), ainsi que leur normalisation inspirée des caractères japonais nommés pour l'occasion `émojis` (néologisme qui relie l'anglais *emotion* et la racine japonaise *-ji* représentant la notion de symbole). Il précise d'ailleurs que des tests de substitution ou de suppression permettent d'identifier le rôle modalisateur de ces expressions (une sorte de multiplicateur de la polarité ou valence du texte). -### Majuscules et répétitions +**Observations**: La portée d'une émoticône, tout comme la portée d'une négation, peut être déterminée en effectuant une analyse syntaxique par relations ou par constituants. Mais, règle générale, l'auteur remarque que la portée s'étend toujours sur les éléments qui précèdent l'émoticône, ce qui peut parfois limiter la recherche des fragments de la phrase qui en sont affectés (lorsqu'ils ne sont pas à la fin du commentaire). -Georgalou [@georgalou_discourse_2017] +### Majuscules, emphases et répétitions + +Les commentaires sur les réseaux sociaux laissent aussi apparaître de nouveaux modes d'expressions basés sur la typographie. L'utilisation de majuscules est intuitive pour l'ajout d'emphase depuis des millénaires, selon le professeur Paul Luna [@robb_how_2014], et était utilisée par les empereurs romains pour illustrer la grandeur de leurs conquêtes. Cependant, leur usage moderne est davantage considéré comme l'expression de la colère. L'ajout d'astérique est aussi un marqueur d'emphase, principalement utilisé dans les groupes de discussion en ligne, et se substitue aux caractères gras ou soulignés disponibles dans les traitements de texte. Plusieurs des auteurs cités dans ce rapport [@georgalou_discourse_2017], [@halte_les_2018], [@liebeskind_comment_2018] notent aussi la présence fréquente de successions de plusieurs signes de ponctuation ou de la même lettre dans un mot comme un moyen additionnel de mettre de l'emphase. Notons que le TweetTokenizer de NLTK [@bird_nltk:_2002] compte même un paramètre pour limiter le nombre de successions d'un même jeton. ### Ponctuations ### Impact sur la classification des parties du discours -La présence de ces nouveaux attributs fait de sorte qu'il ne sera plus possible d'utiliser avec autant de fiabilité les classificateurs de parties du discours (*part of speech*) aussi efficacement, car ils n'ont pas été conçus pour tenir compte de la présence de ces nouveaux éléments dans les phrases. Une approche retenue dans cette analyse pour augmenter la qualité de l'étiquetage est de séparer les émojis du contenu des phrases et de les considérer séparément, tout en conservant un marqueur de leur position dans les phrases. Comme des modèles ne tiennent généralement pas compte de la casse ni de la présence de ponctuation à l'extérieur de la phrase, il n'est pas nécessaire d'apporter d'autres modifications ici. +Ces nouveaux attributs font de sorte qu'il ne sera plus possible d'utiliser avec autant de fiabilité les classificateurs de parties du discours (*part of speech*) aussi efficacement, car ils n'ont pas été conçus pour tenir compte de la présence de ces nouveaux éléments dans les phrases. Une approche retenue dans cette analyse pour augmenter la qualité de l'étiquetage est de séparer les émojis du contenu des phrases et de les considérer séparément, tout en conservant un marqueur de leur position dans les phrases. Comme des modèles ne tiennent généralement pas compte de la casse ni de la présence de ponctuation à l'extérieur de la phrase, il n'est pas nécessaire d'apporter d'autres modifications ici. ## Qualité des commentaires -### Syntaxique +Schultes, Dorner et Lehner [@schultes_leave_2013] ont étudié les commentaires sur la plateforme de partage de vidéos Youtube. Le principal objectif était de classifier les commentaires selon différentes catégories de vidéos, en tenant compte à la fois des types de commentaires et de leur qualité. Les principaux constats de leurs travaux sont que les commentaires sont généralement mal perçus par les utilisateurs du site web, étant perçus comme agressifs, stupides et non-pertinents par près de la moitié des utilisateurs. Environ un utilisateur sur huit serait enclin à laisser des commentaires, alors que plus de la moitié ne liraient que les premiers commentaires. -### Lexicale +Les types de commentaires correspondent à leur rôle: participer à une discussion, décrire son expérience de façon substantielle constitue un commentaire de qualité supérieure ou au contraire, un commentaire avec une forte charge sentimentale serait de qualité inférieure. Pour mesurer la qualité, ils ont utilisé l'outil SentiStrength, un outil d'analyse de sentiment spécialisé dans les commentaires de réseaux sociaux, ainsi qu'une liste de marqueurs émotionnels. Pour mesurer la pertinence, ils ont mesuré l'appariement de mots-clés dans le commentaire avec le titre du vidéo. Enfin, selon cette étude, l'ensemble des commentaires effectués sur un vidéo permettraient en soi de fournir une description adéquate du vidéo. -\pagebreak +**Observations**: On pourrait donc déduire, depuis ces travaux, que la pertinence d'un commentaire pourrait être mesurée par la contribution d'un commentaire individuel à cette représentation collective. Une hypothèse à valider serait de voir s'il est possible d'avoir cette même représentation du contenu d'articles journalistiques à travers l'ensemble des commentaires qui leurs sont associés. -# Entités et parties du discours +# Entités nommées -## Lieu et temps +## Lieu + +Georgalou [@georgalou_discourse_2017] décrit différentes approches pour identifier les marqueurs de localisation dans les commentaires sur Facebook, dans un rapport à l'identité de l'utilisateur. Tout d'abord, il y a l'usage de toponymes et d'anthroponymes (en particulier les gentilés). La localisation peut aussi être liée à un élément culturel (site touristique, régime alimentaire, évènement), à une personnification (nationalité, appartenance ou personnalités politiques) ou à une relativisation (par des adverbes ou adjectifs démonstratifs). + +**Observations**: Il sera essentiel de pouvoir ramener ces différents marqueurs de localisation à une forme normalisée pour en faire l'analyse et la comparaison avec les entités présentes dans le texte de l'article en question. De plus, il sera nécessaire ici de pouvoir utiliser une notion de méronymie ou d'holonymie dans la représentation pour en établir la pertinence. Un index géographique composé de données sémantiques telles que la base de données GeoNames sera très utile pour cette tâche. + +## Temps + +Toujours selon Georgalou, différents types de marqueurs temporels sont utilisés dans les commentaires. Ces marqueurs peuvent représenter des durées, des moments, des références à des évènements historiques ou culturels, mais souvent aussi une référence relative à l'âge (anniversaire, vieillissement, évènement de vie, une génération ou une cohorte) ou à une expérience vécue par l'utilisateur. Le temps peut aussi être mesuré avec un nombre d'évènements ou tel qu'une commodité ou une monnaie. Certaines formes de ponctuation ou d'interjections peuvent exagérer la portée d'un marqueur temporel. On pourrait aussi ajouter la présence d'émojis représentant des concepts temporels. Tout comme pour les lieux, on peut aussi retrouver des adverbes. + +**Observations**: Pour utiliser ces entités mentionnées dans les commentaires dans la mesure de leur pertinence, il sera nécessaire de bien identifier les marqueurs de temps dans l'article, d'extraire les dates des évènements cités et de mesurer les durées entre ces différents instants. + +# Prise de parole ## Expertise -## Positionnement +Georgalou démontre aussi l'usage des commentaires sur Facebook pour démontrer une forme d'expertise, étaler son éducation et aussi s'approprier la maîtrise d'un sujet. Le réseau social est utilisé pour projeter une image positive du niveau d'éducation par les utilisateurs. Cette expertise est illustrée par un choix de vocabulaire spécifique au domaine professionnel ou éducatif, par des phrases impératives ou interrogatives, par le jugement du travail des autres (parfois sarcastiques) et par l'ajout de références en lien avec le domaine d'expertise. -\pagebreak +**Observations**: Pour mesurer la pertinence de cette expertise avec le contenu de l'article, il faudra identifier les principaux sujets de celui-ci, puis constater si au moins un d'entre eux correspond à l'expertise prétendue par l'utilisateur. + +## Position + +La prise de position relie le commentaire aux réalités socio-culturelles traitées dans l'article journalistique. Ces positions sont exprimées par des adjectifs et des adverbes évaluatifs, des verbes affectifs et cognitifs, des modalités, des pronoms génériques, de l'ironie, des questions rhétoriques, des citations et des paroles de chansons ainsi que l'utilisations de mécanismes d'emphase. On notera aussi l'usage de nombreuses images, notamment les *memes*, quoique ce n'est pas le sujet de ce rapport. + +**Observations**: On remarque ici que l'on devra utiliser des étiquettes plus détaillés que celles qu'on retrouve notamment dans Universal Dependancies [@zeman_universal_2019] pour identifier les parties du discours impliquées dans la prise de position. Pour ce faire, il sera nécessaire d'utiliser conjointement les parties du discours et une base sémantique telle que WordNet pour augmenter le niveau de détail contenu dans les étiquettes. # Relations entre les commentaires -## Intertextualité +Halté [@halte_les_2018] caractérise le tchat par l'intermittence entre la discussion synchrone et asynchrone, la forte présence d'indices contextuels, des tours de parole segmentés, des conversations entrelacées, la présence ou l'absence de séparations syntaxiques et le présence de mécanismes d'emphase. -## Interdiscursivité +**Observations**: Toutes ces caractéristiques du tchat, qui peut s'apparenter fortement aux fils de discussion sur les réseaux sociaux, sont ainsi à considérer dans l'étude de la pertinence des commentaire par rapport à un article, car on ne retrouve pas seulement qu'une relation unidirectionnelle entre le commentaire et l'article, mais aussi un ensemble de relations entre les commentaires. -## Multimodalité +## Les types de relations -\pagebreak +Ces types de relations peuvent, en quelque sorte, constituer une mesure qui représente la variable réponse dans un modèle de classification -# Représentation vectorielle +- L'**intertextualité** se définit comme la relation du commentaire avec les commentaires précédents, ainsi qu'avec la publication originale. C'est le concept qui peut être représenté par une mesure de distance entre les commentaires, ainsi qu'entre un commentaire et la publication. +- L'**interdiscursivité** se définir comme l'entrecroisement de différents dialogues indépendants dans un même fil de discussion. Les commentaires peuvent ainsi parfois être associés à la mauvaise discussion et mener à des quidproquo ou à des interprétations humoristiques. Il sera important de pouvoir associer le commentaire au bon fil de discussion pour en mesurer la pertinence. Il s'agit ici d'apposer une étiquette à un commentaire qui indique à quel dialogue il appartient. +- La **multimodalité** se définit comme l'interchangeabilité des différents modes de communication au sein d'une même discussion. C'est l'aspect multimédia des discussions sur les réseaux sociaux, où le texte, les images et les vidéos se succèdent. On pourrait ici mesurer le nombre de changement de modalité du discours dans une même discussion. -\pagebreak +# Modélisation selon les technique d'analyse et traitement du langage naturel -# Classification de la pertinence +## Représentation vectorielle -\pagebreak + +## Classification de la pertinence + + +# Exemple d'application + +## Description des corpus de textes + +Nous analyserons les articles provenant des pages Facebook de trois médias écrits francophones : Le Figaro (France), Radio-Canada (Canada) et TVA Nouvelles (Canada). Pour chacun de ces médias, nous avons respectivement 25, 22 et 24 publications contenant un lien vers un article journalistique. + +Le premier corpus étudié est constitué du texte de chacun des articles qui sont liés dans les publications (l'utilisateur de Facebook devant cliquer sur le lien pour y accéder). Le titre de l'article n'est pas inclus dans ce corpus. + +Le second corpus est constitué d'un ensemble de commentaires publiés par des utilisateurs du réseau social et associés à chacune des publications précédentes. Il y a respectivement 7155, 2947 et 6262 commentaires pour chacun des trois médias écrits. + +Ces deux corpus ont été créés à l'aide des données de commentaires extraites depuis l'application en ligne exportcomments.com @noauthor_exportcomments.com_2019 dans des fichiers XLSX. Les fichiers ont par la suite été utilisés par les programmes Python suivants : + +- `commentaires.ipynb` pour extraire les commentaires depuis les fichiers téléchargés à l'aide de Pandas @mckinney_data_2010. +- `textes_articles.ipynb` pour extraire les textes depuis les URL disponibles dans les fichiers, par récupération de données (*web scraping*), en utilisant la librairie Python `newspaper` @ou-yang_newspaper3k:_2019. Du même coup, cette librairie permet d'extraction d'entités nommées et l'étiquetage des parties du discours. + +## Métriques considérées + +## Méthodologie et algorithmes + +## Quelques résultats # Conclusion