diff --git a/README.md b/README.md index 2933ac8..8265b01 100644 --- a/README.md +++ b/README.md @@ -1,2 +1,265 @@ -# notes-michiganx-ds101x-ethics-data-science +--- +author: François Pelletier +date: 23 janvier 2019 +title: Données et éthique +--- +# Données et éthique + +Cette présentation est un résumé de mes notes prises dans le cours en ligne (MOOC) sur edX [MichiganX: DS101x](https://courses.edx.org/courses/course-v1:MichiganX+DS101x+1T2018/course/) + +## Introduction + +### Motivation + +Pourquoi les scientifiques de données doivent s'intéresser à l'aspect éthique de leur travail' + +1. Pour ne pas se faire dire quoi faire par des gens hors du domaine (avocats par exemple) +2. Révolution industrielle => impacts environnementaux ... Révolution des données => Impacts sociaux + +### Éthique + +- La moralité définit ce qui est bon +- Il est difficile d'appliquer la moralité aux entreprises +- Il existe plusieurs problèmes éthiques, mais ils sont trop difficiles pour une introduction (ex: Voiture autonome qui doit frapper un étudiant ou une dame agée) +- Cadre utilitariste: suffisamment simple pour les besoins du cours + +### Data science + +- Offre une meilleure façon de faire les choses +- Conséquences: + - Inégalités + - Vie privée + - Nuisances: spam par courriel + +## Consentement + +Le consentement doit être éclairé, tel qu'énoncé lors d'études cliniques par exemple + +- Revue par un comité d'éthique +- Situation dans lesquelles ce n'est pas requis + - AB testing: les deux choix sont jugés également présentables par l'entreprise +- Situation problématique + - OK Cupid: Menti à propos d'une expérience qui modifie le comportement du site web ([The Guardian](https://www.theguardian.com/technology/2014/jul/29/okcupid-experiment-human-beings-dating)) + +### Limites + +- analyse rétrospective vs. collecte prospective + - Les données n'ont pas été amassées pour l'usage qu'on veut maintenant en faire + +- Volonté d'améliorer le produit dans le cadre de pratiques habituelles + - Et non faire des expériences pour le plaisir auprès des utilisateurs + +## Propriété des données + +- Droit d'enregistrer en opposition au droit de faire ce qu'on veut avec. + - Prendre une photo et l'utiliser comme chantage +- Droit d'auteur + - Si on utilise les données et qu'on y mélange différentes sources externes et de la connaissance, on devient l'auteur d'une oeuvre originale. + - La source exacte des données et leur interprétation est par nature floue +- Le travail d'amasser des donnéesm de les préparer et de les nettoyer en fait la propriété du créateur du jeu de données. + - La fondation Wikimedia possède le contenu de Wikipédia, et non ses usagers. + - Ils pourraient charger un abonnement (Trip Advisor, ...) + +### Enregistrement et utilisation + +Lorsque les données sont à propos de nous, on doit avoir un certain pouvoir sur ce qui en est fait. +- Ex: l'enseignant mentionne "Rate My Professors" + +Cas d'usage +- Un chercheur possède les données de ses expériences. Un contrat légal peut en changer les conditions. +- Caméra de surveillance: Consent à être filmé, mais pas à être diffusé +- Agences de renseignement: ne connaissent pas les besoins d'avance donc enregistrent tout. L'usage doit être contrôlé (mandat) + +### Destruction + +- Lorsqu'une compagnie fait faillite, les données sont un actif. +- Le contrat de protection des données doit survivre à l'entreprise. + +## Vie privée + +- Le panoptique ([Wikipedia](https://fr.wikipedia.org/wiki/Panoptique)) +- Rien à cacher ... intimité +- L'anonymat permet la démocratie + +### Histoire de la vie privée + +- 1879 Law of Torts [Thomas Cooley](https://repository.law.umich.edu/books/11/) +- 1890 The right to privacy [Samuel Warren, Louis Brendeis, Harvard Law Review](https://dx.doi.org/10.2307/1321160) +- 1928 [OLMSTEAD et al. v. UNITED STATES](http://cdn.loc.gov/service/ll/usrep/usrep277/usrep277438/usrep277438.pdf) +- 1960 [William M. Prosser, Privacy](https://scholarship.law.berkeley.edu/californialawreview/vol48/iss3/1/) + - l'intrusion dans l'intimité ou la solitude du demandeur ou dans ses affaires privées; + - le fait de rendre publics des faits privés embarrassants sur le demandeur; + - la publicité qui met le demandeur sous les projecteurs pour des raisons fautives; + - l'appropriation, pour le bénéfice du défendeur, du nom ou de l'apparence du demandeur. +- 1967 [Katz v. United States, Justice John Marshall Harlan II](https://www.law.cornell.edu/supremecourt/text/389/347) + - Exhibited an expectation of privacy + - Society is prepared to recognize that this expectation is objectively reasonable +- 2006 [A taxonomy of privacy](https://www.cs.indiana.edu/~kapadia/internal/SSRN_ID920281_code249137.pdf) +Au Canada +- [La Cour d'appel de l'Ontario reconnaît une cause d'action pour atteinte à la vie privée : Jones v. Tsige](https://www.mccarthy.ca/fr/references/articles/la-cour-dappel-de-lontario-reconnait-une-cause-daction-pour-atteinte-la-vie-privee-jones-v-tsige) +- Perception change entre les générations +- Option de sortie + - Petite ville vs grande ville + - Avec les données masisves, il n'y a pas de porte de sortie. + - Le droit à l'oubli 9europe) très difficile à appliquer + +### Niveaux de vie privée + +- Le respect de la vie privée n'égale pas l'absence de mention + - Secret professionnel + - Un ami qui demande de l'aide pour toi (psychologue par exemple) + - Collègues qui discutent d'un cas client +- Données utilisées par le marchand qui les a accumulées +- Exercice de contrôle (collecte vs. usage) + - Services gratuits avec publicité + - Photos d'un évènement privé partagées par un ami + - En donnant ton ADN, tu partage aussi celle de ta famille sans leur consentement + +### Risques modernes + +- Données ouvertes par les gouvernements + - Peuvent être utilisées par des entités commerciales et enrichies par des courtiers de données +- "Waste data": copie d'une carte d'identité à des fins de vérification d'âge dans un bar +- Métadonnées (Numéro de téléphone, adresse IP, MAC Address Bluetooth) +- Sous-estimer le pouvoir de l'analyse de données. Compteur d'eau ou d'électricité, on sait quand tu prends ta douche, ... +- Usage de données encryptées en étudiant le CPU +- Sans confiance, on a des contrats complexes. Nécessité de protection "par design". + +### Cas d'usages + +- Déterminer quand la publicité d'est plus utile et devient énervante +- Censure d'évènements pour ne pas être pris en photo ou filmé (Naked mile) +- Applications mobiles qui demandent beaucoup trop de permissions pour "rien" (pour partager à Facebook et Google en réalité) +- [BBB - Data Privacy Day](https://www.bbb.org/article/tips/14023-bbb-tip-data-privacy) + +## Anonymat + +### Ego Search + +- Recherches web permettant d'identifier quelqu'un. +- [AOL search data leak](https://en.wikipedia.org/wiki/AOL_search_data_leak): 3 mois de données de navigation suffisent. + +### Dé-identification + +- Retrait des données d'identification personnelles d'un jeu de données + - Pas évident de prime abord, mais assez facile à retrouver + - Sexe, date de naissance, code postal = 87% unique aux USA + - Netflix: User ID, horodateur, titre du film. Combiné avec IMDB, on a le match entre les deux et on peut identifier la personne. +- Données sous la forme de graphe. On recherche des motifs. +- Fuites: + - Identité + - Attributs cachés + - Lien entre des entités + - Appartenance à un groupe +- voir ça comme une protection de base, comme barrer la porte en quittant sa maison. + +### Anonymat presque impossible + +- l'anonymat va être brisé +- Solution la plus forte: ne pas publier les données +- Mais des données sont souvent cruciales en recherche et pour la sécurité publique + +### Contrôle de l'identité + +- Les gens veulent plutôt pouvoir contrôler leur identité sur le web +- Difficile à gérer + +## Validité des données + +### Unité de mesure + +- Erreur d'interprétation (3x vs 3%) +- Conversion mesurée en ventes vs. en visites vs. en impressions +- Erreur d'échelle (1 ou 5 est la meilleur note?) + +### Représentativité + +- Est-ce que les usagers de Twitter sont représentatifs de la population? +- données que l'on vs. les données que l'on aimerait avoir + +### Gestion du changement + +- Google Flu +- Est-ce que réentrainer un modèle est suffisant? +- Loi de Campbell: Plus un indicateur est important, plus il est sujet à corrompre le processus qu'il cherche à surveiller. [Assessing the impact of planned social change](https://doi.org/10.1016/0149-7189(79)90048-X) + - Durée moyenne d'appel + - Satisfaction client (NPS) +- Mentir si on se sent écouté + - Faux courriel + +### Erreurs dans les données + +- Deux personnes dans des bases de données différentes +- Analyse de sentiments avec des textes incluant des sarcasmes +- 26% des consommateurs ont des erreurs dans les données servant à calculer leur score de crédit + - Les corrections sont souvent faites seulement lorsqu'il y a un problème de remboursement +- Un bon moyen de nettoyer des données est de les montrer au sujet +- Acxion: Personnalise les publicités, mais le destinataire peur modifier les données pour recevoir celles ciblées pour un autre groupe + +### Erreurs dans les modèles + +- On choisit souvent le modèle le plus simple +- [Paradoxe de Simpson](https://fr.wikipedia.org/wiki/Paradoxe_de_Simpson) + - Un phénomène observé de plusieurs groupes semble s'inverser lorsque les groupes sont combinés + - Exemple: [écart salarial](http://employmentblog.practicallaw.com/gender-pay-gap-reporting-beware-simpsons-paradox/) + +## Impact social + +- Poids associés aux différentes mesures d'un algorithme (F-score, recall, precision, ...) + - Assumés égaux parce qu'on ne sait pas les mesurer + - On pourrait faire mieux +- Ossification + - Biais de confirmation dans les médias + - S'insère dans les algorithmes: + - Reflète les biais du processus que l'on cherche à améliorer ou à remplacer + - Si on change les processus, l'argorithme prendra beaucoup plus de temps à s'adapter + - Ex: Discrimination basée sur la distance entre la maison et le bureau. Dans la sélection des candidats en entrevue. +- Exemples: + - Nids de poule mieux détectés là ou les gens ont des voitures et des téléphones intelligents + - Predictive policing + - Prédiction qui se réalise automatiquement en provoquant le comportement + - [Prophétie autoréalisatrice](https://fr.wikipedia.org/wiki/Proph%C3%A9tie_autor%C3%A9alisatrice) + - Score de crédit social (Chine) + - Sesame Credit chez Alibaba + - Historique d'achats + - Partage d'articles critiques du gouvernement sur les médias sociaux + - Algorithme privé et peu transparent + - Surveillance de masse par corrélation spatio-temporelle. + - Exemple de Netflix et IMDB plus haut + +## Équité algorithmique + +### Biais + +- Le jeu d'entrainement n'est pas représentatif de la population +- La population actuelle n'est pas représentative de la population future +- Processus concurrents qui mènent à de fausses corrélations + +### Mauvaise analyse des données + +- Attributs corrélés + - Discrimination raciale + - Quotas de minorités contournés en échantillonant par quartier + - Pas difficile de trouver d'autres attributs avec un algorithme et beaucoup de données +- Localisation des concurrents: + - Meilleurs prix que le concurrent lorsqu'il y en a une à proximité + - Mais les concurrents sont seulement dans les quartiers aisés +- P-hacking + - Tests d'hypothèses en parallèle, le pourcentage de la p-value sera le pourcentage d'essais qui sont concluants par chance seulement + - Nous avons les données avant de formuler l'hypothèse, on peut formuler n'importe quoi comme hypothèse + - Puce à ADN + +## Code d'éthique + +- La réglementation n'est pas la bonne solution + - La technologie est rapide et la législation est lente + - Bon lorsqu'il y a un consensus social +- Gouvernance + - Les entreprises vont faire le strict minimum +- Association professionnelle + - Les professionnels ne veulent pas d'avocats pour décider à leur place +- Si trop long ou couvre trop large, il ne sera pas facile à mémoriser ni appliquer +- Proposition de l'enseignant: + - Ne surprends pas + - Sois responsable des résultats \ No newline at end of file