corrections pour que ca compile bien en pdf

This commit is contained in:
François Pelletier 2018-01-28 19:25:11 -05:00
parent 7acc624ec3
commit 6c7a5f2278
5 changed files with 82 additions and 34 deletions

4
.gitignore vendored
View file

@ -1,2 +1,4 @@
.html
*.html
*.pdf
*.txt

File diff suppressed because one or more lines are too long

Before

Width:  |  Height:  |  Size: 33 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 41 KiB

3
generer.sh Executable file
View file

@ -0,0 +1,3 @@
pandoc --filter pandoc-citeproc -f markdown -t dokuwiki -o presentation.txt -s -S presentation.md
pandoc --filter pandoc-citeproc -f markdown -t slidy -o presentation.html -s -S presentation.md
pandoc --filter pandoc-citeproc -f markdown -t latex -o presentation.pdf -s -S presentation.md

View file

@ -21,7 +21,9 @@ bibliography: bigdata.bib
- Optimisées pour effectuer des calculs statistiques sur des ensembles de données.
- On les appelle parfois bases de données en colonnes.
- La plus connue est [Apache HBase](https://hbase.apache.org/)
![](hbase_replication_overview.png)[Source](https://hbase.apache.org/book.html)
![hbase_replication_overview](hbase_replication_overview.png)
[Source](https://hbase.apache.org/book.html)
- Référence: [@chang2008bigtable]
### Les bases de données de documents
@ -30,7 +32,9 @@ bibliography: bigdata.bib
- Pas de schémas au préalable.
- Données faciles à consommer pour une application web.
- La plus connue est [MongoDB](https://www.mongodb.com/mongodb-architecture)
![Data Model Design](data-model-denormalized.bakedsvg.svg)[Source](https://docs.mongodb.com/manual/core/data-model-design/)
![Data Model Design](data-model-denormalized.bakedsvg.svg.png)
[Source](https://docs.mongodb.com/manual/core/data-model-design/)
### Les graphes
@ -40,7 +44,9 @@ bibliography: bigdata.bib
- Web sémantique: associer de la connaissance et des capacités de inférence logique aux pages web
- [@angles2008survey; berners2001semantic]
- La plus connue est [Neo4j](https://neo4j.com/)
![](neo4jgraph.png)
[Source](https://neo4j.com/blog/musicbrainz-in-neo4j-part-1/)
### Les lacs de données
@ -48,7 +54,9 @@ bibliography: bigdata.bib
- journaux applicatifs de serveurs web,
- textes, images, vidéos, voix
- Le plus connu est HDFS, le système de fichiers distribué de [Apache Hadoop](https://hadoop.apache.org/)
![hadoop](Big-data-concepts-20-638.jpg)
[Source](https://commons.wikimedia.org/wiki/File:Big-data-concepts-20-638.jpg)
## On fait quoi de ces données non-structurées?
@ -56,33 +64,48 @@ bibliography: bigdata.bib
Utilisation d'expressions régulières.
- Par exemple: [Logstash](https://www.elastic.co/products/logstash)
![Capture d'écran de la fonctionnalité Grok](LogstashGrok.png)
Géo-localisation
- Par exemple: [Logstash](https://www.elastic.co/products/logstash)
![Capture d'écran de la fonctionnalité GeoIP](LogstashGeoIP.png)
### Textes et voix
#### Analyse et traitement du langage naturel:
#### Analyse et traitement du langage naturel
- Phonologie, Morphologie, Syntaxe, Sémantique,Raisonnement
- Reconnaissance d'entités
[@manning2014stanford].
- Par exemple: [Stanford CoreNLP](https://stanfordnlp.github.io/CoreNLP/)
![](CoreNLP-Xi-Jinping.png)
#### Encodage
- Sac de mots ou index inversé
![](InvertedIndex.jpg)
### Images et vidéos
#### Filtres convolutionnels
![](cnnweights.jpeg)[Source](http://cs231n.github.io/convolutional-networks/)
![](cnnweights.jpeg)
[Source](http://cs231n.github.io/convolutional-networks/)
#### Palettes de couleurs
![colour analysis of google images](8542284473_14a87218ef_b.jpg)[Source: Steven Kay CC BY 2.0](https://www.flickr.com/photos/stevefaeembra/8542284473)
![colour analysis of google images](8542284473_14a87218ef_b.jpg)
[Source: Steven Kay CC BY 2.0](https://www.flickr.com/photos/stevefaeembra/8542284473)
#### Identification d'objets
![Illustration of the bag of words model for images along with the images clustering procedure](Fig-3-Illustration-of-the-bag-of-words-model-for-images-along-with-the-images.png)[Source](https://www.researchgate.net/figure/Illustration-of-the-bag-of-words-model-for-images-along-with-the-images-clustering_261855448)
![Illustration of the bag of words model for images along with the images clustering procedure](Fig-3-Illustration-of-the-bag-of-words-model-for-images-along-with-the-images.png)
[Source](https://www.researchgate.net/figure/Illustration-of-the-bag-of-words-model-for-images-along-with-the-images-clustering_261855448)
#### Description textuelle
![models/research/im2txt at master tensorflow/models GitHub](example_captions.jpg)
[Source](https://github.com/tensorflow/models/tree/master/research/im2txt)
[@vinyals2017show;@sivic2009efficient]
@ -94,7 +117,9 @@ Géo-localisation
- Rassembler des individus en un nombre déterminé de groupes.
- Avantage: Permet de créer des étiquettes lorsqu'on n'a pas de variable réponse
- Inconvénient: Le nombre de groupes est choisi à l'avance
![Iris flower data set, clustered using k means (left) and true species in the data set (right)](Iris_Flowers_Clustering_kMeans.svg.png)[Source](https://commons.wikimedia.org/wiki/File:Iris_Flowers_Clustering_kMeans.svg)
![Iris flower data set, clustered using k means (left) and true species in the data set (right)](Iris_Flowers_Clustering_kMeans.svg.png)
[Source](https://commons.wikimedia.org/wiki/File:Iris_Flowers_Clustering_kMeans.svg)
### Modèles linéaires (GLM)
@ -102,6 +127,7 @@ Géo-localisation
- Avantage: Tous les coefficient numériques peuvent être expliqués un par un.
- Inconvénient: Prend pour hypothèse que la relation est linéaire.
![Illustration of linear regression on a data set.](300px-LinearRegression.svg.png)[Source](https://commons.wikimedia.org/wiki/File:LinearRegression.svg)
### Arbres de décisions
@ -109,6 +135,7 @@ Géo-localisation
- Crée un modèle de décision discret
- Prédire une variable réponse à partir de décisions
- Hiérarchique, facile à expliquer
![Example diagram for decision tree. Picture created and uploaded by author.](Factory2.png)[Source](https://en.wikipedia.org/wiki/File:Factory2.png)
- Note: Les modèles de forêts aléatoires et de gradient boosting construisent plusieurs arbres pour obtenir davantage de précision. Ce sont des modèles très performants, mais difficiles à expliquer.
@ -119,18 +146,23 @@ Géo-localisation
- Résultats très difficiles à expliquer (boîte noire)
- Permettent un très grand nombre de caractéristiques en entrée
![HDLTex: Hierarchical Deep Learning for Text Classification](HDLTex.jpg)[Source](https://commons.wikimedia.org/wiki/File:HDLTex.jpg)
![HDLTex: Hierarchical Deep Learning for Text Classification](HDLTex.jpg)
[Source](https://commons.wikimedia.org/wiki/File:HDLTex.jpg)
### Analyse de réseaux sociaux
#### Traversée de graphes
Trouver le chemin le plus court répondant à une ou plusieurs contraintes.
![A non-verbal description of three graph traversal algorithms: randomly, depth-first search, and breadth-first search.](800px-Graph-scan.png)[Source](https://commons.wikimedia.org/wiki/File:Graph-scan.png)
![A non-verbal description of three graph traversal algorithms: randomly, depth-first search, and breadth-first search.](800px-Graph-scan.png)
[Source](https://commons.wikimedia.org/wiki/File:Graph-scan.png)
#### Segmentation de graphes
Séparer un graphe en plusieurs sous-graphes en coupant le moins de liens possible.
![](Graph_comparison.jpg)
### Systèmes de recommendation
@ -138,7 +170,9 @@ Séparer un graphe en plusieurs sous-graphes en coupant le moins de liens possib
- Utiliser les opinions et évaluations d'un groupe pour émettre des recommendations à un individu de ce groupe. [@terveen2001beyond]
Exemple: Easyrec ![Easyrec_architecture](Easyrec_architecture.png)[Source](https://en.wikipedia.org/wiki/Easyrec)
Exemple: Easyrec
![Easyrec_architecture](Easyrec_architecture.png)
[Source](https://en.wikipedia.org/wiki/Easyrec)
## Quelles sont les limites actuelles des algorithmes d'apprentissage automatique ?
@ -148,6 +182,7 @@ Exemple: Easyrec ![Easyrec_architecture](Easyrec_architecture.png)[Source](https
- Caractéristiques statistiques quasiment identiques
- En réalité très différents
- Illustre l'importance de l'exploration des données avant la modélisation
![](1280px-Anscombe's_quartet_3.svg.png)[Source: https://en.wikipedia.org/wiki/Anscombe%27s_quartet]
### Le biais systémique et la discrimination
@ -159,15 +194,15 @@ Il est de plus en plus facile de cacher la discrimination au travers d'algorithm
### Les données en arrière-plan
![Why Should I Trust You?](Can+we+trust+the+predictions+of+classifiers.jpg)[Source](http://slideplayer.com/slide/12389629/)
![Why Should I Trust You?](Can+we+trust+the+predictions+of+classifiers.jpg)
[Source](http://slideplayer.com/slide/12389629/)
[@ribeiro2016should]
## Comment vos données sont réellement utilisées ?
## Comment vos données sont réellement utilisées ? La bonne façon
### La bonne façon
#### Prévenir la fraude
### Prévenir la fraude
- Détection d'anomalies
- Algorithmes rapides qui évoluent avec les nouveaux modèles de fraude: apprentissage machine et service web pour livrer les résultats lors de la transaction.
@ -180,7 +215,7 @@ Il est de plus en plus facile de cacher la discrimination au travers d'algorithm
- Conséquence: AirBNB conserve sur une longue période l'ensemble de leurs données transactionnelles.
- Avantage: Ce sont des données issues d'une relation d'affaires.
#### Éducation: Parcours de l'étudiant
### Éducation: Parcours de l'étudiant
- Types de données recueillies
- Travaux, examens, notes
@ -194,7 +229,7 @@ Il est de plus en plus facile de cacher la discrimination au travers d'algorithm
> it uses clustering algorithms to categories the students according to their learning capacity, needs, style and preferences
Référence: [How Machine Learning is Making Learning Interactive?](https://www.entrepreneur.com/article/307032)
#### Éducation: Adapter la pratique de l'enseignant
### Éducation: Adapter la pratique de l'enseignant
- Aide à la résolution de problèmes
@ -202,23 +237,25 @@ Il est de plus en plus facile de cacher la discrimination au travers d'algorithm
Référence: [Moursund, D.G. (2005, 2006). Brief introduction to educational implications of Artificial Intelligence. (CC BY-NC)](http://pages.uoregon.edu/moursund/Books/AIBook/index.htm)
#### Le futur de l'éducation
### Le futur de l'éducation
- L'humain ne peut plus compétitionner l'ordinateur pour plusieurs tâches
- Nouveaux modes d'enseignement: ce qui différencie l'humain
[Jack Ma on the future of education](https://www.youtube.com/watch?v=rHt-5-RyrJk)
#### Soins de santé
### Soins de santé
Les algorithmes d'apprentissage profond peuvent identifier des tumeurs cancéreuses dans l'imagerie médicale.
Ex: Meilleure détection du cancer du sein
![Deep Learning System Improves Breast Cancer Detection](DL-Breast-Cancer-Detection-Image-768x433.png)[Source](https://news.developer.nvidia.com/deep-learning-system-improves-breast-cancer-detection/)
![Deep Learning System Improves Breast Cancer Detection](DL-Breast-Cancer-Detection-Image-768x433.png)
[Source](https://news.developer.nvidia.com/deep-learning-system-improves-breast-cancer-detection/)
Enjeu: il faut le consentement du patient pour partager les images.
#### Entretien préventif
### Entretien préventif
- Manufacture: bris d'équipement
- Services publics: électricité, aqueduc, voirie. Exemple: [@garcia2006simap;@zhang2016road]
@ -227,28 +264,30 @@ Enjeu: il faut le consentement du patient pour partager les images.
[Machine Learning for Predictive Maintenance](https://www.iotone.com/guide/machine-learning-for-predictive-maintenance/g202)
### La mauvaise façon
## Comment vos données sont réellement utilisées ? La mauvaise façon
#### Weapons of math destruction
### Weapons of math destruction
> Weapons of math destruction, which ONeil refers to throughout the book as WMDs, are mathematical models or algorithms that claim to quantify important traits: teacher quality, recidivism risk, creditworthiness but have harmful outcomes and often reinforce inequality, keeping the poor poor and the rich rich. They have three things in common: opacity, scale, and damage. They are often proprietary or otherwise shielded from prying eyes, so they have the effect of being a black box. They affect large numbers of people, increasing the chances that they get it wrong for some of them. And they have a negative effect on people, perhaps by encoding racism or other biases into an algorithm or enabling predatory companies to advertise selectively to vulnerable people, or even by causing a global financial crisis.
[Review: Weapons of Math Destruction](https://blogs.scientificamerican.com/roots-of-unity/review-weapons-of-math-destruction/)
#### La bulle de confort
### La bulle de confort
Systèmes de recommendations:
- Vont limiter la curiosité et l'exploration en maximisant la probabilité que le prochain choix de l'algorithme soit apprécié.
Ex: Amazon, Netflix
Solution potentielle: tenir compte de la cusiosité et de la diversité dans l'algorithme [Poster](https://www.researchgate.net/publication/304625514_A_Hybrid_Recommendation_System_based_on_Human_Curiosity_for_Tourism)
- Solution potentielle: tenir compte de la cusiosité et de la diversité dans l'algorithme
[Poster](https://www.researchgate.net/publication/304625514_A_Hybrid_Recommendation_System_based_on_Human_Curiosity_for_Tourism)
[@menk2015hybrid]
- Vont éviter de choquer l'utilisateur avec des opinions divergentes des siennes. Ex: Facebook [@nguyen2014exploring]
Segmentation de graphe:
- Les réseaux sociaux vont utiliser cette technique pour limiter les interactions dans un sous-graphe.
- Ex: Malgré des milliers d'abonnements Facebook ou Twitter, on voit toujours des publications des mêmes comptes.
#### La surveillance de masse
### La surveillance de masse
Les gouvernements utilisent le prétexte de la détection de nouveaux modèles de criminalité pour demander de plus en plus de données sur l'usage des moyens de communications par les citoyens.
@ -260,16 +299,21 @@ Les gouvernements utilisent le prétexte de la détection de nouveaux modèles d
[Transparency Advocates Win Release of NYPD “Predictive Policing” Documents](https://theintercept.com/2018/01/27/nypd-predictive-policing-documents-lawsuit-crime-forecasting-brennan/)
#### La prédiction des récidivistes
### La prédiction des récidivistes
- Le modèle le plus utilisé (COMPAS) est secret, propriété de l'entreprise Northpointe, et n'est précis qu'à 60%
- Le modèle a un fort biais ethnique
#### Les "Fake News"
### Les "Fake News"
Le combat contre la "fausse actualité" pourrait glisser facilement vers la censure. En particulier si les données d'entraînements sont étiquetées de façon subjective avec des listes de [faux sites](https://docs.google.com/document/d/10eA5-mCZLSS4MQY5QGb5ewC3VAL6pLkT53V_81ZyitM/preview) ou de sites de confiance absolue (Snopes, PolitiFact).
- Le combat contre la "fausse actualité" pourrait glisser facilement vers la censure.
- En particulier si les données d'entraînements sont étiquetées de façon subjective avec:
- des listes de [sites de contenus absolument faux](https://docs.google.com/document/d/10eA5-mCZLSS4MQY5QGb5ewC3VAL6pLkT53V_81ZyitM/preview)
- La nomination de sites de confiance absolue (Snopes, PolitiFact).
> Modern machine learning for natural language processing is able to do things like translate from one language to another, because everything it needs to know is in the sentence its processing - Ian Goodfellow, OpenAI
Peut-on vraiment faire confiance à Facebook pour régler le problème des "Fake news"?
[Facebook's Latest Fix for Fake News: Ask Users What They Trust](https://www.wired.com/story/facebooks-latest-fix-for-fake-news-ask-users-what-they-trust/)
- Peut-on vraiment faire confiance à Facebook pour régler le problème des "Fake news"?
[Facebook's Latest Fix for Fake News: Ask Users What They Trust](https://www.wired.com/story/facebooks-latest-fix-for-fake-news-ask-users-what-they-trust/)
## References