From 916941958a9ed3e9fcbb720b81ca8ca7cc04b616 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Fran=C3=A7ois=20Pelletier?= Date: Sun, 28 Jan 2018 15:20:19 -0500 Subject: [PATCH] premiere version --- bigdata.bib | 194 ++++++++++++++++++++++++++++++++++ presentation.md | 275 ++++++++++++++++++++++++++++++++++++++++++++++++ 2 files changed, 469 insertions(+) create mode 100644 bigdata.bib create mode 100644 presentation.md diff --git a/bigdata.bib b/bigdata.bib new file mode 100644 index 0000000..f575f55 --- /dev/null +++ b/bigdata.bib @@ -0,0 +1,194 @@ +@inproceedings{yang2013turn, + title={Turn on, tune in, drop out: Anticipating student dropouts in massive open online courses}, + author={Yang, Diyi and Sinha, Tanmay and Adamson, David and Ros{\'e}, Carolyn Penstein} +} + +@inproceedings{han2011survey, + title={Survey on NoSQL database}, + author={Han, Jing and Haihong, E and Le, Guan and Du, Jian}, + booktitle={Pervasive computing and applications (ICPCA), 2011 6th international conference on}, + pages={363--366}, + year={2011}, + organization={IEEE} +} + +@article{moniruzzaman2013nosql, + title={Nosql database: New era of databases for big data analytics-classification, characteristics and comparison}, + author={Moniruzzaman, ABM and Hossain, Syed Akhter}, + journal={arXiv preprint arXiv:1307.0191}, + year={2013} +} + +@article{angles2008survey, + title={Survey of graph database models}, + author={Angles, Renzo and Gutierrez, Claudio}, + journal={ACM Computing Surveys (CSUR)}, + volume={40}, + number={1}, + pages={1}, + year={2008}, + publisher={ACM} +} + +@article{berners2001semantic, + title={The semantic web}, + author={Berners-Lee, Tim and Hendler, James and Lassila, Ora}, + journal={Scientific american}, + volume={284}, + number={5}, + pages={34--43}, + year={2001}, + publisher={JSTOR} +} + +@article{chang2008bigtable, + title={Bigtable: A distributed storage system for structured data}, + author={Chang, Fay and Dean, Jeffrey and Ghemawat, Sanjay and Hsieh, Wilson C and Wallach, Deborah A and Burrows, Mike and Chandra, Tushar and Fikes, Andrew and Gruber, Robert E}, + journal={ACM Transactions on Computer Systems (TOCS)}, + volume={26}, + number={2}, + pages={4}, + year={2008}, + publisher={ACM} +} + +@inproceedings{manning2014stanford, + title={The Stanford CoreNLP natural language processing toolkit}, + author={Manning, Christopher and Surdeanu, Mihai and Bauer, John and Finkel, Jenny and Bethard, Steven and McClosky, David}, + booktitle={Proceedings of 52nd annual meeting of the association for computational linguistics: system demonstrations}, + pages={55--60}, + year={2014} +} + +@article{sivic2009efficient, + title={Efficient visual search of videos cast as text retrieval}, + author={Sivic, Josef and Zisserman, Andrew}, + journal={IEEE transactions on pattern analysis and machine intelligence}, + volume={31}, + number={4}, + pages={591--606}, + year={2009}, + publisher={IEEE} +} + +@article{vinyals2017show, + title={Show and tell: Lessons learned from the 2015 mscoco image captioning challenge}, + author={Vinyals, Oriol and Toshev, Alexander and Bengio, Samy and Erhan, Dumitru}, + journal={IEEE transactions on pattern analysis and machine intelligence}, + volume={39}, + number={4}, + pages={652--663}, + year={2017}, + publisher={IEEE} +} + +@article{doi:10.1080/00031305.1973.10478966, +author = { F. J. Anscombe }, +title = {Graphs in Statistical Analysis}, +journal = {The American Statistician}, +volume = {27}, +number = {1}, +pages = {17-21}, +year = {1973}, +publisher = {Taylor & Francis}, +doi = {10.1080/00031305.1973.10478966}, +URL = {http://www.tandfonline.com/doi/abs/10.1080/00031305.1973.10478966}, +eprint = {http://www.tandfonline.com/doi/pdf/10.1080/00031305.1973.10478966} +} + +@article{terveen2001beyond, + title={Beyond recommender systems: Helping people help each other}, + author={Terveen, Loren and Hill, Will}, + journal={HCI in the New Millennium}, + volume={1}, + number={2001}, + pages={487--509}, + year={2001}, + publisher={Addison-Wesley, Reading, MA} +} + +@inproceedings{nguyen2014exploring, + title={Exploring the filter bubble: the effect of using recommender systems on content diversity}, + author={Nguyen, Tien T and Hui, Pik-Mai and Harper, F Maxwell and Terveen, Loren and Konstan, Joseph A}, + booktitle={Proceedings of the 23rd international conference on World wide web}, + pages={677--686}, + year={2014}, + organization={ACM} +} + +@article{doi:10.1177/2053951714541861, +author = {David Lyon}, +title ={Surveillance, Snowden, and Big Data: Capacities, consequences, critique}, +journal = {Big Data \& Society}, +volume = {1}, +number = {2}, +pages = {2053951714541861}, +year = {2014}, +doi = {10.1177/2053951714541861}, + +URL = { + https://doi.org/10.1177/2053951714541861 + +}, +eprint = { + https://doi.org/10.1177/2053951714541861 + +} +, + abstract = { The Snowden revelations about National Security Agency surveillance, starting in 2013, along with the ambiguous complicity of internet companies and the international controversies that followed provide a perfect segue into contemporary conundrums of surveillance and Big Data. Attention has shifted from late C20th information technologies and networks to a C21st focus on data, currently crystallized in “Big Data.” Big Data intensifies certain surveillance trends associated with information technology and networks, and is thus implicated in fresh but fluid configurations. This is considered in three main ways: One, the capacities of Big Data (including metadata) intensify surveillance by expanding interconnected datasets and analytical tools. Existing dynamics of influence, risk-management, and control increase their speed and scope through new techniques, especially predictive analytics. Two, while Big Data appears to be about size, qualitative change in surveillance practices is also perceptible, accenting consequences. Important trends persist – the control motif, faith in technology, public-private synergies, and user-involvement – but the future-orientation increasingly severs surveillance from history and memory and the quest for pattern-discovery is used to justify unprecedented access to data. Three, the ethical turn becomes more urgent as a mode of critique. Modernity's predilection for certain definitions of privacy betrays the subjects of surveillance who, so far from conforming to the abstract, disembodied image of both computing and legal practices, are engaged and embodied users-in-relation whose activities both fuel and foreclose surveillance. } +} + +@inproceedings{ribeiro2016should, + title={Why should i trust you?: Explaining the predictions of any classifier}, + author={Ribeiro, Marco Tulio and Singh, Sameer and Guestrin, Carlos}, + booktitle={Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining}, + pages={1135--1144}, + year={2016}, + organization={ACM} +} + +@article{garcia2006simap, + title={SIMAP: Intelligent System for Predictive Maintenance: Application to the health condition monitoring of a windturbine gearbox}, + author={Garcia, Mari Cruz and Sanz-Bobi, Miguel A and del Pico, Javier}, + journal={Computers in Industry}, + volume={57}, + number={6}, + pages={552--568}, + year={2006}, + publisher={Elsevier} +} + +@inproceedings{zhang2016road, + title={Road crack detection using deep convolutional neural network}, + author={Zhang, Lei and Yang, Fan and Zhang, Yimin Daniel and Zhu, Ying Julie}, + booktitle={Image Processing (ICIP), 2016 IEEE International Conference on}, + pages={3708--3712}, + year={2016}, + organization={IEEE} +} + +@article{el2014artificial, + title={Artificial neural network models for predicting condition of offshore oil and gas pipelines}, + author={El-Abbasy, Mohammed S and Senouci, Ahmed and Zayed, Tarek and Mirahadi, Farid and Parvizsedghy, Laya}, + journal={Automation in construction}, + volume={45}, + pages={50--65}, + year={2014}, + publisher={Elsevier} +} + +@inproceedings{menk2015hybrid, + title={A hybrid recommendation system based on human curiosity}, + author={Menk dos Santos, Alan}, + booktitle={Proceedings of the 9th ACM Conference on Recommender Systems}, + pages={367--370}, + year={2015}, + organization={ACM} +} + + + + + + + diff --git a/presentation.md b/presentation.md new file mode 100644 index 0000000..ecf35f1 --- /dev/null +++ b/presentation.md @@ -0,0 +1,275 @@ +--- +author: François Pelletier +title: Données massives, apprentissage automatique et éthique +bibliography: bigdata.bib +--- + +## Comment sont entreposées les données massives ? + +- SGBDR traditionnels: ne permettent pas de stocker ni d'exploiter efficacement des données massives. +- NoSQL: + - puissance de calcul + - parallélisme + - grappes de calcul. +- Compromis: + - Fusion de sources de données est plus difficile. + - Absence de jointures de tables. - Indexation doit être effectuée par un autre logiciel tel que Lucene +- Référence: [@han2011survey;@moniruzzaman2013nosql] + +### Bases de données analytiques + +- Optimisées pour effectuer des calculs statistiques sur des ensembles de données. +- On les appelle parfois bases de données en colonnes. +- La plus connue est [Apache HBase](https://hbase.apache.org/) +![](hbase_replication_overview.png)[Source](https://hbase.apache.org/book.html) +- Référence: [@chang2008bigtable] + +### Les bases de données de documents + +- Permettent d'entreposer toute l'information par rapport à un évènement ou une profil dans un seul enregistrement. +- Pas de schémas au préalable. +- Données faciles à consommer pour une application web. +- La plus connue est [MongoDB](https://www.mongodb.com/mongodb-architecture) +![Data Model Design](data-model-denormalized.bakedsvg.svg)[Source](https://docs.mongodb.com/manual/core/data-model-design/) + +### Les graphes + +- Deux types de composantes: des noeuds et des arcs. +- Chacunes d'elles possède des étiquettes et des propriétés. +- Représenter des relations entre des entités et des concepts (graphe de propriétés). +- Web sémantique: associer de la connaissance et des capacités de inférence logique aux pages web +- [@angles2008survey; berners2001semantic] +- La plus connue est [Neo4j](https://neo4j.com/) +![](neo4jgraph.png) + +### Les lacs de données + +- Le lac de données stocke tout type d'information non-structurées: + - journaux applicatifs de serveurs web, + - textes, images, vidéos, voix +- Le plus connu est HDFS, le système de fichiers distribué de [Apache Hadoop](https://hadoop.apache.org/) +![hadoop](Big-data-concepts-20-638.jpg) + +## On fait quoi de ces données non-structurées? + +### Journaux applicatifs + +Utilisation d'expressions régulières. +- Par exemple: [Logstash](https://www.elastic.co/products/logstash) +![Capture d'écran de la fonctionnalité Grok](LogstashGrok.png) + +Géo-localisation +- Par exemple: [Logstash](https://www.elastic.co/products/logstash) +![Capture d'écran de la fonctionnalité GeoIP](LogstashGeoIP.png) + +### Textes et voix +#### Analyse et traitement du langage naturel: +- Phonologie, Morphologie, Syntaxe, Sémantique,Raisonnement +- Reconnaissance d'entités +[@manning2014stanford]. +- Par exemple: [Stanford CoreNLP](https://stanfordnlp.github.io/CoreNLP/) +![](CoreNLP-Xi-Jinping.png) + +#### Encodage + +- Sac de mots ou index inversé +![](InvertedIndex.jpg) + +### Images et vidéos +#### Filtres convolutionnels +![](cnnweights.jpeg)[Source](http://cs231n.github.io/convolutional-networks/) +#### Palettes de couleurs +![colour analysis of google images](8542284473_14a87218ef_b.jpg)[Source: Steven Kay CC BY 2.0](https://www.flickr.com/photos/stevefaeembra/8542284473) +#### Identification d'objets +![Illustration of the bag of words model for images along with the images clustering procedure](Fig-3-Illustration-of-the-bag-of-words-model-for-images-along-with-the-images.png)[Source](https://www.researchgate.net/figure/Illustration-of-the-bag-of-words-model-for-images-along-with-the-images-clustering_261855448) +#### Description textuelle +![models/research/im2txt at master tensorflow/models GitHub](example_captions.jpg) +[Source](https://github.com/tensorflow/models/tree/master/research/im2txt) +[@vinyals2017show;@sivic2009efficient] + +## Quels algorithmes d'apprentissage automatique sont utilisés sur ces données ? + +### Regroupement (Clustering) + +- Rassembler des individus en un nombre déterminé de groupes. +- Avantage: Permet de créer des étiquettes lorsqu'on n'a pas de variable réponse +- Inconvénient: Le nombre de groupes est choisi à l'avance +![Iris flower data set, clustered using k means (left) and true species in the data set (right)](Iris_Flowers_Clustering_kMeans.svg.png)[Source](https://commons.wikimedia.org/wiki/File:Iris_Flowers_Clustering_kMeans.svg) + +### Modèles linéaires (GLM) + +- Identifie une relation linéaire entre plusieurs caractéristiques et une variable réponse. +- Avantage: Tous les coefficient numériques peuvent être expliqués un par un. +- Inconvénient: Prend pour hypothèse que la relation est linéaire. + +![Illustration of linear regression on a data set.](300px-LinearRegression.svg.png)[Source](https://commons.wikimedia.org/wiki/File:LinearRegression.svg) + +### Arbres de décisions + +- Crée un modèle de décision discret +- Prédire une variable réponse à partir de décisions +- Hiérarchique, facile à expliquer +![Example diagram for decision tree. Picture created and uploaded by author.](Factory2.png)[Source](https://en.wikipedia.org/wiki/File:Factory2.png) +- Note: Les modèles de forêts aléatoires et de gradient boosting construisent plusieurs arbres pour obtenir davantage de précision. Ce sont des modèles très performants, mais difficiles à expliquer. + +### Réseaux de neurones + +- Formés de composantes appelées neurones (modèles linéaires) +- Populaires pour l'apprentissage profond. +- Résultats très difficiles à expliquer (boîte noire) +- Permettent un très grand nombre de caractéristiques en entrée + +![HDLTex: Hierarchical Deep Learning for Text Classification](HDLTex.jpg)[Source](https://commons.wikimedia.org/wiki/File:HDLTex.jpg) + +### Analyse de réseaux sociaux +#### Traversée de graphes + +Trouver le chemin le plus court répondant à une ou plusieurs contraintes. + +![A non-verbal description of three graph traversal algorithms: randomly, depth-first search, and breadth-first search.](800px-Graph-scan.png)[Source](https://commons.wikimedia.org/wiki/File:Graph-scan.png) + +#### Segmentation de graphes + +Séparer un graphe en plusieurs sous-graphes en coupant le moins de liens possible. +![](Graph_comparison.jpg) + +### Systèmes de recommendation +#### Filtrage collaboratif + +- Utiliser les opinions et évaluations d'un groupe pour émettre des recommendations à un individu de ce groupe. [@terveen2001beyond] + +Exemple: Easyrec ![Easyrec_architecture](Easyrec_architecture.png)[Source](https://en.wikipedia.org/wiki/Easyrec) + +## Quelles sont les limites actuelles des algorithmes d'apprentissage automatique ? + +### Quartet d'Anscombe + +- Quatre ensemble de données [@doi:10.1080/00031305.1973.10478966] +- Caractéristiques statistiques quasiment identiques +- En réalité très différents +- Illustre l'importance de l'exploration des données avant la modélisation +![](1280px-Anscombe's_quartet_3.svg.png)[Source: https://en.wikipedia.org/wiki/Anscombe%27s_quartet] + +### Le biais systémique et la discrimination + +Il est de plus en plus facile de cacher la discrimination au travers d'algorithmes. Il suffit d'entraîner l'algorithme sur des données basées sur des décisions passées pour y inclure tous les biais des personnes qui ont prises ces décisions. + +- [Joy Buolamwini - MIT Media Lab](https://www.media.mit.edu/people/joyab/overview/) +- [Algorithmic Justice League](https://www.ajlunited.org/) + +### Les données en arrière-plan + +![Why Should I Trust You?](Can+we+trust+the+predictions+of+classifiers.jpg)[Source](http://slideplayer.com/slide/12389629/) + +[@ribeiro2016should] + +## Comment vos données sont réellement utilisées ? + +### La bonne façon + +#### Prévenir la fraude + +- Détection d'anomalies +- Algorithmes rapides qui évoluent avec les nouveaux modèles de fraude: apprentissage machine et service web pour livrer les résultats lors de la transaction. +- Inconvénient: Les modèles doivent être simples. + +[Airbnb Engineering & Data Science: Architecting a Machine Learning System for Risk](https://medium.com/airbnb-engineering/architecting-a-machine-learning-system-for-risk-941abbba5a60) + +- Enjeu chez AirBNB: Les valeurs réponses observées (Ground truth) ne sont pas exactes, ce qui biaise le modèle et n'identifie pas correctement la fraude potentielle. +- Leur conseil: Enregistrer toutes les transactions, si une nouvelle variable est identifiée comme vecteur de fraude potentielle, il y a un historique de disponible. +- Conséquence: AirBNB conserve sur une longue période l'ensemble de leurs données transactionnelles. +- Avantage: Ce sont des données issues d'une relation d'affaires. + +#### Éducation: Parcours de l'étudiant + +- Types de données recueillies + - Travaux, examens, notes + - Préférence et style d'apprentissage + - Inscriptions + - Échecs et reprises + - Enseignant +- Utilisations + - Modéliser la probabilité d'un échec ou d'un décrochage [@yang2013turn] + - Suggérer du matériel personnalisé à l'étudiant + > it uses clustering algorithms to categories the students according to their learning capacity, needs, style and preferences + Référence: [How Machine Learning is Making Learning Interactive?](https://www.entrepreneur.com/article/307032) + +#### Éducation: Adapter la pratique de l'enseignant + +- Aide à la résolution de problèmes + +> Much of our current educational system can be described as "memorize, regurgitate, and forget." Students learn to "study for the test. [...] Computers are very good in storage, retention, and regurgitation." + +Référence: [Moursund, D.G. (2005, 2006). Brief introduction to educational implications of Artificial Intelligence. (CC BY-NC)](http://pages.uoregon.edu/moursund/Books/AIBook/index.htm) + +#### Le futur de l'éducation + +- L'humain ne peut plus compétitionner l'ordinateur pour plusieurs tâches +- Nouveaux modes d'enseignement: ce qui différencie l'humain + +[Jack Ma on the future of education](https://www.youtube.com/watch?v=rHt-5-RyrJk) + +#### Soins de santé + +Les algorithmes d'apprentissage profond peuvent identifier des tumeurs cancéreuses dans l'imagerie médicale. + +Ex: Meilleure détection du cancer du sein +![Deep Learning System Improves Breast Cancer Detection](DL-Breast-Cancer-Detection-Image-768x433.png)[Source](https://news.developer.nvidia.com/deep-learning-system-improves-breast-cancer-detection/) + +Enjeu: il faut le consentement du patient pour partager les images. + +#### Entretien préventif + +- Manufacture: bris d'équipement +- Services publics: électricité, aqueduc, voirie. Exemple: [@garcia2006simap;@zhang2016road] +- Énergie: oléoducs et gazoducs [@el2014artificial] +- Services publics: usage par les citoyens + +[Machine Learning for Predictive Maintenance](https://www.iotone.com/guide/machine-learning-for-predictive-maintenance/g202) + +### La mauvaise façon + +#### Weapons of math destruction + +> Weapons of math destruction, which O’Neil refers to throughout the book as WMDs, are mathematical models or algorithms that claim to quantify important traits: teacher quality, recidivism risk, creditworthiness but have harmful outcomes and often reinforce inequality, keeping the poor poor and the rich rich. They have three things in common: opacity, scale, and damage. They are often proprietary or otherwise shielded from prying eyes, so they have the effect of being a black box. They affect large numbers of people, increasing the chances that they get it wrong for some of them. And they have a negative effect on people, perhaps by encoding racism or other biases into an algorithm or enabling predatory companies to advertise selectively to vulnerable people, or even by causing a global financial crisis. +[Review: Weapons of Math Destruction](https://blogs.scientificamerican.com/roots-of-unity/review-weapons-of-math-destruction/) + +#### La bulle de confort + +Systèmes de recommendations: +- Vont limiter la curiosité et l'exploration en maximisant la probabilité que le prochain choix de l'algorithme soit apprécié. +Ex: Amazon, Netflix +Solution potentielle: tenir compte de la cusiosité et de la diversité dans l'algorithme [Poster](https://www.researchgate.net/publication/304625514_A_Hybrid_Recommendation_System_based_on_Human_Curiosity_for_Tourism) +[@menk2015hybrid] + +- Vont éviter de choquer l'utilisateur avec des opinions divergentes des siennes. Ex: Facebook [@nguyen2014exploring] + +Segmentation de graphe: +- Les réseaux sociaux vont utiliser cette technique pour limiter les interactions dans un sous-graphe. +- Ex: Malgré des milliers d'abonnements Facebook ou Twitter, on voit toujours des publications des mêmes comptes. + +#### La surveillance de masse + +Les gouvernements utilisent le prétexte de la détection de nouveaux modèles de criminalité pour demander de plus en plus de données sur l'usage des moyens de communications par les citoyens. + +> the future-orientation increasingly severs surveillance from history and memory and the quest for pattern-discovery is used to justify unprecedented access to data + +[@doi:10.1177/2053951714541861] + +> The NYPD is notorious for its intransigence on open records requests from the press and the public, particularly concerning documentation about the department’s extensive use of surveillance technology. In recent years, lawsuits have been filed to disclose information about the department’s network of surveillance cameras, its use of X-ray scanners in public, and the deployment of facial recognition technology + +[Transparency Advocates Win Release of NYPD “Predictive Policing” Documents](https://theintercept.com/2018/01/27/nypd-predictive-policing-documents-lawsuit-crime-forecasting-brennan/) + +#### La prédiction des récidivistes + +- Le modèle le plus utilisé (COMPAS) est secret, propriété de l'entreprise Northpointe, et n'est précis qu'à 60% +- Le modèle a un fort biais ethnique + +#### Les "Fake News" + +Le combat contre la "fausse actualité" pourrait glisser facilement vers la censure. En particulier si les données d'entraînements sont étiquetées de façon subjective avec des listes de [faux sites](https://docs.google.com/document/d/10eA5-mCZLSS4MQY5QGb5ewC3VAL6pLkT53V_81ZyitM/preview) ou de sites de confiance absolue (Snopes, PolitiFact). + +> Modern machine learning for natural language processing is able to do things like translate from one language to another, because everything it needs to know is in the sentence its processing - Ian Goodfellow, OpenAI + +Peut-on vraiment faire confiance à Facebook pour régler le problème des "Fake news"? +[Facebook's Latest Fix for Fake News: Ask Users What They Trust](https://www.wired.com/story/facebooks-latest-fix-for-fake-news-ask-users-what-they-trust/) \ No newline at end of file