From f1f9e34cc84ccb92deb4d3a64bca08b320219703 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Fran=C3=A7ois=20Pelletier?= <francois@francoispelletier.org>
Date: Wed, 23 Jan 2019 16:52:56 -0500
Subject: [PATCH] =?UTF-8?q?Pass=C3=A9=20Antidote=20sur=20la=20pr=C3=A9sent?=
 =?UTF-8?q?ation?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 README.md | 150 +++++++++++++++++++++++++++---------------------------
 1 file changed, 75 insertions(+), 75 deletions(-)

diff --git a/README.md b/README.md
index 8d3fc9e..7c7f8de 100644
--- a/README.md
+++ b/README.md
@@ -1,44 +1,44 @@
 # Données et éthique
 
-Cette présentation est un résumé de mes notes prises dans le cours en ligne (MOOC) sur edX [MichiganX: DS101x](https://courses.edx.org/courses/course-v1:MichiganX+DS101x+1T2018/course/)
+Cette présentation résume mes notes prises dans le cours en ligne (MOOC) sur edX [MichiganX : DS101x](https://courses.edx.org/courses/course-v1:MichiganX+DS101x+1T2018/course/)
 
 ## Introduction
 
 ### Motivation
 
-Pourquoi les scientifiques de données doivent s'intéresser à l'aspect éthique de leur travail'
+Pourquoi les scientifiques de données devraient-ils s'intéresser à l'aspect éthique de leur travail ?
 
-1. Pour ne pas se faire dire quoi faire par des gens hors du domaine (avocats par exemple)
-2. Révolution industrielle => impacts environnementaux ...  Révolution des données => Impacts sociaux 
+1. Ne pas se faire dire quoi faire par des gens hors du domaine (avocats par exemple)
+2. Révolution industrielle et impacts environnementaux... Révolution des données et impacts sociaux 
 
 ### Éthique
 
 - La moralité définit ce qui est bon
 - Il est difficile d'appliquer la moralité aux entreprises
-- Il existe plusieurs problèmes éthiques, mais ils sont trop difficiles pour une introduction (ex: Voiture autonome qui doit frapper un étudiant ou une dame agée)
-- Cadre utilitariste: suffisamment simple pour les besoins du cours
+- Il existe plusieurs problèmes éthiques, mais ils sont trop difficiles pour une introduction (ex. : Voiture autonome qui doit frapper un étudiant ou une dame âgée)
+- Cadre utilitariste : suffisamment simple pour les besoins du cours
 
 ### Data science
 
 - Offre une meilleure façon de faire les choses
-- Conséquences:
+- Conséquences :
     - Inégalités
     - Vie privée
-    - Nuisances: spam par courriel
+    - Nuisances : pourriel
 
 ## Consentement
 
 Le consentement doit être éclairé, tel qu'énoncé lors d'études cliniques par exemple
 
 - Revue par un comité d'éthique
-- Situation dans lesquelles ce n'est pas requis
-    - AB testing: les deux choix sont jugés également présentables par l'entreprise
+- Situations dans lesquelles ce n'est pas requis
+    - AB testing: les deux choix sont également présentables par l'entreprise
 - Situation problématique
-    - OK Cupid: Menti à propos d'une expérience qui modifie le comportement du site web ([The Guardian](https://www.theguardian.com/technology/2014/jul/29/okcupid-experiment-human-beings-dating))
+    - OK Cupid a menti à propos d'une expérience qui modifie le comportement du site web. [The Guardian](https://www.theguardian.com/technology/2014/jul/29/okcupid-experiment-human-beings-dating)
 
 ### Limites
 
-- analyse rétrospective vs. collecte prospective
+- analyse rétrospective vs collecte prospective
     - Les données n'ont pas été amassées pour l'usage qu'on veut maintenant en faire
 
 - Volonté d'améliorer le produit dans le cadre de pratiques habituelles
@@ -46,24 +46,24 @@ Le consentement doit être éclairé, tel qu'énoncé lors d'études cliniques p
 
 ## Propriété des données
 
-- Droit d'enregistrer en opposition au droit de faire ce qu'on veut avec.
+- Place le droit d'enregistrer en opposition au droit de faire ce qu'on veut avec ensuite.
     - Prendre une photo et l'utiliser comme chantage
 - Droit d'auteur
-    - Si on utilise les données et qu'on y mélange différentes sources externes et de la connaissance, on devient l'auteur d'une oeuvre originale.
-    - La source exacte des données et leur interprétation est par nature floue
-- Le travail d'amasser des donnéesm de les préparer et de les nettoyer en fait la propriété du créateur du jeu de données.
+    - Si on utilise les données et qu'on y mélange différentes sources externes et de la connaissance, on devient l'auteur d'une œuvre originale.
+    - La source exacte des données et leur interprétation sont par nature floues
+- Le travail effectué pour amasser des données, les préparer et les nettoyer en fait la propriété du créateur du jeu de données.
     - La fondation Wikimedia possède le contenu de Wikipédia, et non ses usagers.
-    - Ils pourraient charger un abonnement (Trip Advisor, ...)
+    - Ils pourraient charger un abonnement (Trip Advisor, …)
 
 ### Enregistrement et utilisation
 
-Lorsque les données sont à propos de nous, on doit avoir un certain pouvoir sur ce qui en est fait.
-- Ex: l'enseignant mentionne "Rate My Professors"
+- Lorsque les données sont à propos de nous, on doit avoir un certain pouvoir sur ce qui en est fait.
+    - Ex. : l'enseignant mentionne "Rate My Professors"
 
-Cas d'usage
-- Un chercheur possède les données de ses expériences. Un contrat légal peut en changer les conditions.
-- Caméra de surveillance: Consent à être filmé, mais pas à être diffusé
-- Agences de renseignement: ne connaissent pas les besoins d'avance donc enregistrent tout. L'usage doit être contrôlé (mandat)
+- Cas d'usage
+    - Un chercheur possède les données de ses expériences. Un contrat légal peut en changer les conditions.
+    - Caméra de surveillance : Consens à être filmé, mais pas à être diffusé
+    - Agences de renseignement : ne connaissant pas les besoins d'avance donc enregistrent tout. L'usage doit être contrôlé (mandat)
 
 ### Destruction
 
@@ -72,20 +72,20 @@ Cas d'usage
 
 ## Vie privée
 
-- Le panoptique ([Wikipedia](https://fr.wikipedia.org/wiki/Panoptique))
-- Rien à cacher ... intimité
+- Le panoptique ([Wikipédia](https://fr.wikipedia.org/wiki/Panoptique))
+- Rien à cacher... intimité
 - L'anonymat permet la démocratie
 
 ### Histoire de la vie privée
 
 - 1879 Law of Torts [Thomas Cooley](https://repository.law.umich.edu/books/11/)
-- 1890 The right to privacy [Samuel Warren, Louis Brendeis, Harvard Law Review](https://dx.doi.org/10.2307/1321160)
+- 1890 The Right to Privacy par [Samuel Warren, Louis Brendeis, Harvard Law Review](https://dx.doi.org/10.2307/1321160)
 - 1928 [OLMSTEAD et al. v. UNITED STATES](http://cdn.loc.gov/service/ll/usrep/usrep277/usrep277438/usrep277438.pdf)
 - 1960 [William M. Prosser, Privacy](https://scholarship.law.berkeley.edu/californialawreview/vol48/iss3/1/)
-    - l'intrusion dans l'intimité ou la solitude du demandeur ou dans ses affaires privées;
-    - le fait de rendre publics des faits privés embarrassants sur le demandeur;
-    - la publicité qui met le demandeur sous les projecteurs pour des raisons fautives;
-    - l'appropriation, pour le bénéfice du défendeur, du nom ou de l'apparence du demandeur.
+    - l'intrusion dans l'intimité ou la solitude du demandeur ou dans ses affaires privées ;
+    - le fait de rendre publics des faits privés embarrassants sur le demandeur ;
+    - la publicité qui met le demandeur sous les projecteurs pour des raisons fautives ;
+    - l'appropriation, au bénéfice du défendeur, du nom ou de l'apparence du demandeur.
 - 1967 [Katz v. United States, Justice John Marshall Harlan II](https://www.law.cornell.edu/supremecourt/text/389/347)
     - Exhibited an expectation of privacy
     - Society is prepared to recognize that this expectation is objectively reasonable
@@ -95,8 +95,8 @@ Au Canada
 - Perception change entre les générations
 - Option de sortie
     - Petite ville vs grande ville
-    - Avec les données masisves, il n'y a pas de porte de sortie.
-    - Le droit à l'oubli 9europe) très difficile à appliquer
+    - Avec les données massives, il n'y a pas de porte de sortie.
+    - Le droit à l'oubli (Europe) très difficile à appliquer
 
 ### Niveaux de vie privée
 
@@ -105,27 +105,27 @@ Au Canada
     - Un ami qui demande de l'aide pour toi (psychologue par exemple)
     - Collègues qui discutent d'un cas client
 - Données utilisées par le marchand qui les a accumulées
-- Exercice de contrôle (collecte vs. usage)
+- Exercice de contrôle (collecte vs usage)
     - Services gratuits avec publicité
     - Photos d'un évènement privé partagées par un ami
-    - En donnant ton ADN, tu partage aussi celle de ta famille sans leur consentement
+    - En donnant ton ADN, tu partages aussi celle de ta famille sans leur consentement
 
 ### Risques modernes
 
 - Données ouvertes par les gouvernements
-    - Peuvent être utilisées par des entités commerciales et enrichies par des courtiers de données
-- "Waste data": copie d'une carte d'identité à des fins de vérification d'âge dans un bar
+    - Elles peuvent être utilisées par des entités commerciales et enrichies par des courtiers de données
+- "Waste data" : copie d'une carte d'identité à des fins de vérification d'âge dans un bar
 - Métadonnées (Numéro de téléphone, adresse IP, MAC Address Bluetooth)
-- Sous-estimer le pouvoir de l'analyse de données. Compteur d'eau ou d'électricité, on sait quand tu prends ta douche, ...
-- Usage de données encryptées en étudiant le CPU
+- Sous-estimer le pouvoir de l'analyse de données. Compteur d'eau ou d'électricité, on sait quand tu prends ta douche...
+- Usage de données cryptées en étudiant le microprocesseur
 - Sans confiance, on a des contrats complexes. Nécessité de protection "par design".
 
 ### Cas d'usages
 
-- Déterminer quand la publicité d'est plus utile et devient énervante
+- Déterminer quand la publicité n'est plus utile et devient énervante
 - Censure d'évènements pour ne pas être pris en photo ou filmé (Naked mile)
 - Applications mobiles qui demandent beaucoup trop de permissions pour "rien" (pour partager à Facebook et Google en réalité)
-- [BBB - Data Privacy Day](https://www.bbb.org/article/tips/14023-bbb-tip-data-privacy)
+- [BBB —Data Privacy Day](https://www.bbb.org/article/tips/14023-bbb-tip-data-privacy)
 
 ## Anonymat
 
@@ -138,20 +138,20 @@ Au Canada
 
 -  Retrait des données d'identification personnelles d'un jeu de données
     - Pas évident de prime abord, mais assez facile à retrouver
-    - Sexe, date de naissance, code postal = 87% unique aux USA
+    - Sexe, date de naissance, code postal = 87 % unique aux É.-U.
     - Netflix: User ID, horodateur, titre du film. Combiné avec IMDB, on a le match entre les deux et on peut identifier la personne.
 - Données sous la forme de graphe. On recherche des motifs.
-- Fuites:
+- Fuites :
     - Identité
     - Attributs cachés
     - Lien entre des entités
-    - Appartenance à un groupe
-- voir ça comme une protection de base, comme barrer la porte en quittant sa maison.
+    - Appartenance à un groupe. 
+- On peut voir ça comme une protection de base, comme barrer la porte en quittant sa maison.
 
 ### Anonymat presque impossible
 
 - l'anonymat va être brisé
-- Solution la plus forte: ne pas publier les données
+- Solution la plus forte : ne pas publier les données
 - Mais des données sont souvent cruciales en recherche et pour la sécurité publique
 
 ### Contrôle de l'identité
@@ -163,22 +163,22 @@ Au Canada
 
 ### Unité de mesure
 
-- Erreur d'interprétation (3x vs 3%)
-- Conversion mesurée en ventes vs. en visites vs. en impressions
-- Erreur d'échelle (1 ou 5 est la meilleur note?)
+- Erreur d'interprétation (3x vs 3 %)
+- Conversion mesurée en ventes ; en visites ; en impressions
+- Erreur d'échelle (lequel entre 1 ou 5 est la meilleure note ?)
 
 ### Représentativité
 
-- Est-ce que les usagers de Twitter sont représentatifs de la population?
-- données que l'on vs. les données que l'on aimerait avoir
+- Est-ce que les usagers de Twitter sont représentatifs de la population ?
+- données que l'on a vs les données que l'on aimerait avoir
 
 ### Gestion du changement
 
 - Google Flu
-- Est-ce que réentrainer un modèle est suffisant?
-- Loi de Campbell: Plus un indicateur est important, plus il est sujet à corrompre le processus qu'il cherche à surveiller. [Assessing the impact of planned social change](https://doi.org/10.1016/0149-7189(79)90048-X)
-    - Durée moyenne d'appel
-    - Satisfaction client (NPS)
+- Est-ce que réentrainer un modèle est suffisant ?
+- Loi de Campbell : Plus un indicateur est important, plus il est sujet à corrompre le processus qu'il cherche à surveiller. [Assessing the impact of planned social change](https://doi.org/10.1016/0149-7189(79)90048-X)
+- Durée moyenne d'appel
+- Satisfaction client (NPS)
 - Mentir si on se sent écouté
     - Faux courriel
 
@@ -186,32 +186,32 @@ Au Canada
 
 - Deux personnes dans des bases de données différentes
 - Analyse de sentiments avec des textes incluant des sarcasmes
-- 26% des consommateurs ont des erreurs dans les données servant à calculer leur score de crédit
+- 26 % des consommateurs ont des erreurs dans les données servant à calculer leur score de crédit
     - Les corrections sont souvent faites seulement lorsqu'il y a un problème de remboursement
 - Un bon moyen de nettoyer des données est de les montrer au sujet
-- Acxion: Personnalise les publicités, mais le destinataire peur modifier les données pour recevoir celles ciblées pour un autre groupe
+- Acxion : Personnalise les publicités, mais le destinataire peut modifier les données pour recevoir celles ciblées pour un autre groupe
 
 ### Erreurs dans les modèles
 
 - On choisit souvent le modèle le plus simple
 - [Paradoxe de Simpson](https://fr.wikipedia.org/wiki/Paradoxe_de_Simpson)
     - Un phénomène observé de plusieurs groupes semble s'inverser lorsque les groupes sont combinés
-    - Exemple: [écart salarial](http://employmentblog.practicallaw.com/gender-pay-gap-reporting-beware-simpsons-paradox/)
+    - Exemple : [écart salarial](http://employmentblog.practicallaw.com/gender-pay-gap-reporting-beware-simpsons-paradox/)
 
 ## Impact social
 
-- Poids associés aux différentes mesures d'un algorithme (F-score, recall, precision, ...)
+- Poids associés aux différentes mesures d'un algorithme (F-score, recall, precision, …)
     - Assumés égaux parce qu'on ne sait pas les mesurer
     - On pourrait faire mieux
 - Ossification
     - Biais de confirmation dans les médias
-    - S'insère dans les algorithmes:
+    - S'insère dans les algorithmes :
         - Reflète les biais du processus que l'on cherche à améliorer ou à remplacer
-        - Si on change les processus, l'argorithme prendra beaucoup plus de temps à s'adapter
-        - Ex: Discrimination basée sur la distance entre la maison et le bureau. Dans la sélection des candidats en entrevue.
-- Exemples:
-    - Nids de poule mieux détectés là ou les gens ont des voitures et des téléphones intelligents
-    - Predictive policing
+        - Si on change les processus, l'algorithme prendra beaucoup plus de temps à s'adapter
+        - Ex. : Discrimination basée sur la distance entre la maison et le bureau dans la sélection des candidats en entrevue.
+- Exemples :
+    - Nids de poule mieux détectés là où les gens ont des voitures et des téléphones intelligents
+    - Predictive policing:
         - Prédiction qui se réalise automatiquement en provoquant le comportement
         - [Prophétie autoréalisatrice](https://fr.wikipedia.org/wiki/Proph%C3%A9tie_autor%C3%A9alisatrice)
     - Score de crédit social (Chine)
@@ -219,7 +219,7 @@ Au Canada
         - Historique d'achats
         - Partage d'articles critiques du gouvernement sur les médias sociaux
         - Algorithme privé et peu transparent
-    - Surveillance de masse par corrélation spatio-temporelle.
+    - La surveillance de masse se fait par corrélation spatio-temporelle.
         - Exemple de Netflix et IMDB plus haut
 
 ## Équité algorithmique
@@ -227,21 +227,21 @@ Au Canada
 ### Biais
     
 - Le jeu d'entrainement n'est pas représentatif de la population
-- La population actuelle n'est pas représentative de la population future
-- Processus concurrents qui mènent à de fausses corrélations
+- La population actuelle n'est pas représentative du futur.
+- Des processus concurrents mènent à de fausses corrélations.
 
 ### Mauvaise analyse des données
 
 - Attributs corrélés
     - Discrimination raciale
-    - Quotas de minorités contournés en échantillonant par quartier
+    - Quotas de minorités contournés en échantillonnant par quartier
     - Pas difficile de trouver d'autres attributs avec un algorithme et beaucoup de données
-- Localisation des concurrents:
-    - Meilleurs prix que le concurrent lorsqu'il y en a une à proximité
+- Localisation des concurrents :
+    - On offre de meilleurs prix que le concurrent lorsqu'il y en a un à proximité
     - Mais les concurrents sont seulement dans les quartiers aisés
 - P-hacking
-    - Tests d'hypothèses en parallèle, le pourcentage de la p-value sera le pourcentage d'essais qui sont concluants par chance seulement
-    - Nous avons les données avant de formuler l'hypothèse, on peut formuler n'importe quoi comme hypothèse
+    - Tests d'hypothèses parallèles, le pourcentage du p-valeur sera égal au pourcentage d'essais qui sont concluants par chance seulement
+    - Nous avons les données avant de formuler l'hypothèse, elle peut dont être n'importe quoi que l'on veut prouver.
     - Puce à ADN
 
 ## Code d'éthique
@@ -252,8 +252,8 @@ Au Canada
 - Gouvernance
     - Les entreprises vont faire le strict minimum
 - Association professionnelle
-    - Les professionnels ne veulent pas d'avocats pour décider à leur place
-- Si trop long ou couvre trop large, il ne sera pas facile à mémoriser ni appliquer
-- Proposition de l'enseignant:
+    - Les professionnels ne veulent pas d'avocat pour décider à leur place
+- S’il est trop long ou couvre trop large, il ne sera pas facile à mémoriser ni appliquer
+- Proposition de l'enseignant :
     - Ne surprends pas
     - Sois responsable des résultats
\ No newline at end of file