diff --git a/README.md b/README.md index 8d3fc9e..7c7f8de 100644 --- a/README.md +++ b/README.md @@ -1,44 +1,44 @@ # Données et éthique -Cette présentation est un résumé de mes notes prises dans le cours en ligne (MOOC) sur edX [MichiganX: DS101x](https://courses.edx.org/courses/course-v1:MichiganX+DS101x+1T2018/course/) +Cette présentation résume mes notes prises dans le cours en ligne (MOOC) sur edX [MichiganX : DS101x](https://courses.edx.org/courses/course-v1:MichiganX+DS101x+1T2018/course/) ## Introduction ### Motivation -Pourquoi les scientifiques de données doivent s'intéresser à l'aspect éthique de leur travail' +Pourquoi les scientifiques de données devraient-ils s'intéresser à l'aspect éthique de leur travail ? -1. Pour ne pas se faire dire quoi faire par des gens hors du domaine (avocats par exemple) -2. Révolution industrielle => impacts environnementaux ... Révolution des données => Impacts sociaux +1. Ne pas se faire dire quoi faire par des gens hors du domaine (avocats par exemple) +2. Révolution industrielle et impacts environnementaux... Révolution des données et impacts sociaux ### Éthique - La moralité définit ce qui est bon - Il est difficile d'appliquer la moralité aux entreprises -- Il existe plusieurs problèmes éthiques, mais ils sont trop difficiles pour une introduction (ex: Voiture autonome qui doit frapper un étudiant ou une dame agée) -- Cadre utilitariste: suffisamment simple pour les besoins du cours +- Il existe plusieurs problèmes éthiques, mais ils sont trop difficiles pour une introduction (ex. : Voiture autonome qui doit frapper un étudiant ou une dame âgée) +- Cadre utilitariste : suffisamment simple pour les besoins du cours ### Data science - Offre une meilleure façon de faire les choses -- Conséquences: +- Conséquences : - Inégalités - Vie privée - - Nuisances: spam par courriel + - Nuisances : pourriel ## Consentement Le consentement doit être éclairé, tel qu'énoncé lors d'études cliniques par exemple - Revue par un comité d'éthique -- Situation dans lesquelles ce n'est pas requis - - AB testing: les deux choix sont jugés également présentables par l'entreprise +- Situations dans lesquelles ce n'est pas requis + - AB testing: les deux choix sont également présentables par l'entreprise - Situation problématique - - OK Cupid: Menti à propos d'une expérience qui modifie le comportement du site web ([The Guardian](https://www.theguardian.com/technology/2014/jul/29/okcupid-experiment-human-beings-dating)) + - OK Cupid a menti à propos d'une expérience qui modifie le comportement du site web. [The Guardian](https://www.theguardian.com/technology/2014/jul/29/okcupid-experiment-human-beings-dating) ### Limites -- analyse rétrospective vs. collecte prospective +- analyse rétrospective vs collecte prospective - Les données n'ont pas été amassées pour l'usage qu'on veut maintenant en faire - Volonté d'améliorer le produit dans le cadre de pratiques habituelles @@ -46,24 +46,24 @@ Le consentement doit être éclairé, tel qu'énoncé lors d'études cliniques p ## Propriété des données -- Droit d'enregistrer en opposition au droit de faire ce qu'on veut avec. +- Place le droit d'enregistrer en opposition au droit de faire ce qu'on veut avec ensuite. - Prendre une photo et l'utiliser comme chantage - Droit d'auteur - - Si on utilise les données et qu'on y mélange différentes sources externes et de la connaissance, on devient l'auteur d'une oeuvre originale. - - La source exacte des données et leur interprétation est par nature floue -- Le travail d'amasser des donnéesm de les préparer et de les nettoyer en fait la propriété du créateur du jeu de données. + - Si on utilise les données et qu'on y mélange différentes sources externes et de la connaissance, on devient l'auteur d'une œuvre originale. + - La source exacte des données et leur interprétation sont par nature floues +- Le travail effectué pour amasser des données, les préparer et les nettoyer en fait la propriété du créateur du jeu de données. - La fondation Wikimedia possède le contenu de Wikipédia, et non ses usagers. - - Ils pourraient charger un abonnement (Trip Advisor, ...) + - Ils pourraient charger un abonnement (Trip Advisor, …) ### Enregistrement et utilisation -Lorsque les données sont à propos de nous, on doit avoir un certain pouvoir sur ce qui en est fait. -- Ex: l'enseignant mentionne "Rate My Professors" +- Lorsque les données sont à propos de nous, on doit avoir un certain pouvoir sur ce qui en est fait. + - Ex. : l'enseignant mentionne "Rate My Professors" -Cas d'usage -- Un chercheur possède les données de ses expériences. Un contrat légal peut en changer les conditions. -- Caméra de surveillance: Consent à être filmé, mais pas à être diffusé -- Agences de renseignement: ne connaissent pas les besoins d'avance donc enregistrent tout. L'usage doit être contrôlé (mandat) +- Cas d'usage + - Un chercheur possède les données de ses expériences. Un contrat légal peut en changer les conditions. + - Caméra de surveillance : Consens à être filmé, mais pas à être diffusé + - Agences de renseignement : ne connaissant pas les besoins d'avance donc enregistrent tout. L'usage doit être contrôlé (mandat) ### Destruction @@ -72,20 +72,20 @@ Cas d'usage ## Vie privée -- Le panoptique ([Wikipedia](https://fr.wikipedia.org/wiki/Panoptique)) -- Rien à cacher ... intimité +- Le panoptique ([Wikipédia](https://fr.wikipedia.org/wiki/Panoptique)) +- Rien à cacher... intimité - L'anonymat permet la démocratie ### Histoire de la vie privée - 1879 Law of Torts [Thomas Cooley](https://repository.law.umich.edu/books/11/) -- 1890 The right to privacy [Samuel Warren, Louis Brendeis, Harvard Law Review](https://dx.doi.org/10.2307/1321160) +- 1890 The Right to Privacy par [Samuel Warren, Louis Brendeis, Harvard Law Review](https://dx.doi.org/10.2307/1321160) - 1928 [OLMSTEAD et al. v. UNITED STATES](http://cdn.loc.gov/service/ll/usrep/usrep277/usrep277438/usrep277438.pdf) - 1960 [William M. Prosser, Privacy](https://scholarship.law.berkeley.edu/californialawreview/vol48/iss3/1/) - - l'intrusion dans l'intimité ou la solitude du demandeur ou dans ses affaires privées; - - le fait de rendre publics des faits privés embarrassants sur le demandeur; - - la publicité qui met le demandeur sous les projecteurs pour des raisons fautives; - - l'appropriation, pour le bénéfice du défendeur, du nom ou de l'apparence du demandeur. + - l'intrusion dans l'intimité ou la solitude du demandeur ou dans ses affaires privées ; + - le fait de rendre publics des faits privés embarrassants sur le demandeur ; + - la publicité qui met le demandeur sous les projecteurs pour des raisons fautives ; + - l'appropriation, au bénéfice du défendeur, du nom ou de l'apparence du demandeur. - 1967 [Katz v. United States, Justice John Marshall Harlan II](https://www.law.cornell.edu/supremecourt/text/389/347) - Exhibited an expectation of privacy - Society is prepared to recognize that this expectation is objectively reasonable @@ -95,8 +95,8 @@ Au Canada - Perception change entre les générations - Option de sortie - Petite ville vs grande ville - - Avec les données masisves, il n'y a pas de porte de sortie. - - Le droit à l'oubli 9europe) très difficile à appliquer + - Avec les données massives, il n'y a pas de porte de sortie. + - Le droit à l'oubli (Europe) très difficile à appliquer ### Niveaux de vie privée @@ -105,27 +105,27 @@ Au Canada - Un ami qui demande de l'aide pour toi (psychologue par exemple) - Collègues qui discutent d'un cas client - Données utilisées par le marchand qui les a accumulées -- Exercice de contrôle (collecte vs. usage) +- Exercice de contrôle (collecte vs usage) - Services gratuits avec publicité - Photos d'un évènement privé partagées par un ami - - En donnant ton ADN, tu partage aussi celle de ta famille sans leur consentement + - En donnant ton ADN, tu partages aussi celle de ta famille sans leur consentement ### Risques modernes - Données ouvertes par les gouvernements - - Peuvent être utilisées par des entités commerciales et enrichies par des courtiers de données -- "Waste data": copie d'une carte d'identité à des fins de vérification d'âge dans un bar + - Elles peuvent être utilisées par des entités commerciales et enrichies par des courtiers de données +- "Waste data" : copie d'une carte d'identité à des fins de vérification d'âge dans un bar - Métadonnées (Numéro de téléphone, adresse IP, MAC Address Bluetooth) -- Sous-estimer le pouvoir de l'analyse de données. Compteur d'eau ou d'électricité, on sait quand tu prends ta douche, ... -- Usage de données encryptées en étudiant le CPU +- Sous-estimer le pouvoir de l'analyse de données. Compteur d'eau ou d'électricité, on sait quand tu prends ta douche... +- Usage de données cryptées en étudiant le microprocesseur - Sans confiance, on a des contrats complexes. Nécessité de protection "par design". ### Cas d'usages -- Déterminer quand la publicité d'est plus utile et devient énervante +- Déterminer quand la publicité n'est plus utile et devient énervante - Censure d'évènements pour ne pas être pris en photo ou filmé (Naked mile) - Applications mobiles qui demandent beaucoup trop de permissions pour "rien" (pour partager à Facebook et Google en réalité) -- [BBB - Data Privacy Day](https://www.bbb.org/article/tips/14023-bbb-tip-data-privacy) +- [BBB —Data Privacy Day](https://www.bbb.org/article/tips/14023-bbb-tip-data-privacy) ## Anonymat @@ -138,20 +138,20 @@ Au Canada - Retrait des données d'identification personnelles d'un jeu de données - Pas évident de prime abord, mais assez facile à retrouver - - Sexe, date de naissance, code postal = 87% unique aux USA + - Sexe, date de naissance, code postal = 87 % unique aux É.-U. - Netflix: User ID, horodateur, titre du film. Combiné avec IMDB, on a le match entre les deux et on peut identifier la personne. - Données sous la forme de graphe. On recherche des motifs. -- Fuites: +- Fuites : - Identité - Attributs cachés - Lien entre des entités - - Appartenance à un groupe -- voir ça comme une protection de base, comme barrer la porte en quittant sa maison. + - Appartenance à un groupe. +- On peut voir ça comme une protection de base, comme barrer la porte en quittant sa maison. ### Anonymat presque impossible - l'anonymat va être brisé -- Solution la plus forte: ne pas publier les données +- Solution la plus forte : ne pas publier les données - Mais des données sont souvent cruciales en recherche et pour la sécurité publique ### Contrôle de l'identité @@ -163,22 +163,22 @@ Au Canada ### Unité de mesure -- Erreur d'interprétation (3x vs 3%) -- Conversion mesurée en ventes vs. en visites vs. en impressions -- Erreur d'échelle (1 ou 5 est la meilleur note?) +- Erreur d'interprétation (3x vs 3 %) +- Conversion mesurée en ventes ; en visites ; en impressions +- Erreur d'échelle (lequel entre 1 ou 5 est la meilleure note ?) ### Représentativité -- Est-ce que les usagers de Twitter sont représentatifs de la population? -- données que l'on vs. les données que l'on aimerait avoir +- Est-ce que les usagers de Twitter sont représentatifs de la population ? +- données que l'on a vs les données que l'on aimerait avoir ### Gestion du changement - Google Flu -- Est-ce que réentrainer un modèle est suffisant? -- Loi de Campbell: Plus un indicateur est important, plus il est sujet à corrompre le processus qu'il cherche à surveiller. [Assessing the impact of planned social change](https://doi.org/10.1016/0149-7189(79)90048-X) - - Durée moyenne d'appel - - Satisfaction client (NPS) +- Est-ce que réentrainer un modèle est suffisant ? +- Loi de Campbell : Plus un indicateur est important, plus il est sujet à corrompre le processus qu'il cherche à surveiller. [Assessing the impact of planned social change](https://doi.org/10.1016/0149-7189(79)90048-X) +- Durée moyenne d'appel +- Satisfaction client (NPS) - Mentir si on se sent écouté - Faux courriel @@ -186,32 +186,32 @@ Au Canada - Deux personnes dans des bases de données différentes - Analyse de sentiments avec des textes incluant des sarcasmes -- 26% des consommateurs ont des erreurs dans les données servant à calculer leur score de crédit +- 26 % des consommateurs ont des erreurs dans les données servant à calculer leur score de crédit - Les corrections sont souvent faites seulement lorsqu'il y a un problème de remboursement - Un bon moyen de nettoyer des données est de les montrer au sujet -- Acxion: Personnalise les publicités, mais le destinataire peur modifier les données pour recevoir celles ciblées pour un autre groupe +- Acxion : Personnalise les publicités, mais le destinataire peut modifier les données pour recevoir celles ciblées pour un autre groupe ### Erreurs dans les modèles - On choisit souvent le modèle le plus simple - [Paradoxe de Simpson](https://fr.wikipedia.org/wiki/Paradoxe_de_Simpson) - Un phénomène observé de plusieurs groupes semble s'inverser lorsque les groupes sont combinés - - Exemple: [écart salarial](http://employmentblog.practicallaw.com/gender-pay-gap-reporting-beware-simpsons-paradox/) + - Exemple : [écart salarial](http://employmentblog.practicallaw.com/gender-pay-gap-reporting-beware-simpsons-paradox/) ## Impact social -- Poids associés aux différentes mesures d'un algorithme (F-score, recall, precision, ...) +- Poids associés aux différentes mesures d'un algorithme (F-score, recall, precision, …) - Assumés égaux parce qu'on ne sait pas les mesurer - On pourrait faire mieux - Ossification - Biais de confirmation dans les médias - - S'insère dans les algorithmes: + - S'insère dans les algorithmes : - Reflète les biais du processus que l'on cherche à améliorer ou à remplacer - - Si on change les processus, l'argorithme prendra beaucoup plus de temps à s'adapter - - Ex: Discrimination basée sur la distance entre la maison et le bureau. Dans la sélection des candidats en entrevue. -- Exemples: - - Nids de poule mieux détectés là ou les gens ont des voitures et des téléphones intelligents - - Predictive policing + - Si on change les processus, l'algorithme prendra beaucoup plus de temps à s'adapter + - Ex. : Discrimination basée sur la distance entre la maison et le bureau dans la sélection des candidats en entrevue. +- Exemples : + - Nids de poule mieux détectés là où les gens ont des voitures et des téléphones intelligents + - Predictive policing: - Prédiction qui se réalise automatiquement en provoquant le comportement - [Prophétie autoréalisatrice](https://fr.wikipedia.org/wiki/Proph%C3%A9tie_autor%C3%A9alisatrice) - Score de crédit social (Chine) @@ -219,7 +219,7 @@ Au Canada - Historique d'achats - Partage d'articles critiques du gouvernement sur les médias sociaux - Algorithme privé et peu transparent - - Surveillance de masse par corrélation spatio-temporelle. + - La surveillance de masse se fait par corrélation spatio-temporelle. - Exemple de Netflix et IMDB plus haut ## Équité algorithmique @@ -227,21 +227,21 @@ Au Canada ### Biais - Le jeu d'entrainement n'est pas représentatif de la population -- La population actuelle n'est pas représentative de la population future -- Processus concurrents qui mènent à de fausses corrélations +- La population actuelle n'est pas représentative du futur. +- Des processus concurrents mènent à de fausses corrélations. ### Mauvaise analyse des données - Attributs corrélés - Discrimination raciale - - Quotas de minorités contournés en échantillonant par quartier + - Quotas de minorités contournés en échantillonnant par quartier - Pas difficile de trouver d'autres attributs avec un algorithme et beaucoup de données -- Localisation des concurrents: - - Meilleurs prix que le concurrent lorsqu'il y en a une à proximité +- Localisation des concurrents : + - On offre de meilleurs prix que le concurrent lorsqu'il y en a un à proximité - Mais les concurrents sont seulement dans les quartiers aisés - P-hacking - - Tests d'hypothèses en parallèle, le pourcentage de la p-value sera le pourcentage d'essais qui sont concluants par chance seulement - - Nous avons les données avant de formuler l'hypothèse, on peut formuler n'importe quoi comme hypothèse + - Tests d'hypothèses parallèles, le pourcentage du p-valeur sera égal au pourcentage d'essais qui sont concluants par chance seulement + - Nous avons les données avant de formuler l'hypothèse, elle peut dont être n'importe quoi que l'on veut prouver. - Puce à ADN ## Code d'éthique @@ -252,8 +252,8 @@ Au Canada - Gouvernance - Les entreprises vont faire le strict minimum - Association professionnelle - - Les professionnels ne veulent pas d'avocats pour décider à leur place -- Si trop long ou couvre trop large, il ne sera pas facile à mémoriser ni appliquer -- Proposition de l'enseignant: + - Les professionnels ne veulent pas d'avocat pour décider à leur place +- S’il est trop long ou couvre trop large, il ne sera pas facile à mémoriser ni appliquer +- Proposition de l'enseignant : - Ne surprends pas - Sois responsable des résultats \ No newline at end of file