265 lines
No EOL
12 KiB
Markdown
265 lines
No EOL
12 KiB
Markdown
---
|
|
author: François Pelletier
|
|
date: 23 janvier 2019
|
|
title: Données et éthique
|
|
---
|
|
|
|
# Données et éthique
|
|
|
|
Cette présentation est un résumé de mes notes prises dans le cours en ligne (MOOC) sur edX [MichiganX: DS101x](https://courses.edx.org/courses/course-v1:MichiganX+DS101x+1T2018/course/)
|
|
|
|
## Introduction
|
|
|
|
### Motivation
|
|
|
|
Pourquoi les scientifiques de données doivent s'intéresser à l'aspect éthique de leur travail'
|
|
|
|
1. Pour ne pas se faire dire quoi faire par des gens hors du domaine (avocats par exemple)
|
|
2. Révolution industrielle => impacts environnementaux ... Révolution des données => Impacts sociaux
|
|
|
|
### Éthique
|
|
|
|
- La moralité définit ce qui est bon
|
|
- Il est difficile d'appliquer la moralité aux entreprises
|
|
- Il existe plusieurs problèmes éthiques, mais ils sont trop difficiles pour une introduction (ex: Voiture autonome qui doit frapper un étudiant ou une dame agée)
|
|
- Cadre utilitariste: suffisamment simple pour les besoins du cours
|
|
|
|
### Data science
|
|
|
|
- Offre une meilleure façon de faire les choses
|
|
- Conséquences:
|
|
- Inégalités
|
|
- Vie privée
|
|
- Nuisances: spam par courriel
|
|
|
|
## Consentement
|
|
|
|
Le consentement doit être éclairé, tel qu'énoncé lors d'études cliniques par exemple
|
|
|
|
- Revue par un comité d'éthique
|
|
- Situation dans lesquelles ce n'est pas requis
|
|
- AB testing: les deux choix sont jugés également présentables par l'entreprise
|
|
- Situation problématique
|
|
- OK Cupid: Menti à propos d'une expérience qui modifie le comportement du site web ([The Guardian](https://www.theguardian.com/technology/2014/jul/29/okcupid-experiment-human-beings-dating))
|
|
|
|
### Limites
|
|
|
|
- analyse rétrospective vs. collecte prospective
|
|
- Les données n'ont pas été amassées pour l'usage qu'on veut maintenant en faire
|
|
|
|
- Volonté d'améliorer le produit dans le cadre de pratiques habituelles
|
|
- Et non faire des expériences pour le plaisir auprès des utilisateurs
|
|
|
|
## Propriété des données
|
|
|
|
- Droit d'enregistrer en opposition au droit de faire ce qu'on veut avec.
|
|
- Prendre une photo et l'utiliser comme chantage
|
|
- Droit d'auteur
|
|
- Si on utilise les données et qu'on y mélange différentes sources externes et de la connaissance, on devient l'auteur d'une oeuvre originale.
|
|
- La source exacte des données et leur interprétation est par nature floue
|
|
- Le travail d'amasser des donnéesm de les préparer et de les nettoyer en fait la propriété du créateur du jeu de données.
|
|
- La fondation Wikimedia possède le contenu de Wikipédia, et non ses usagers.
|
|
- Ils pourraient charger un abonnement (Trip Advisor, ...)
|
|
|
|
### Enregistrement et utilisation
|
|
|
|
Lorsque les données sont à propos de nous, on doit avoir un certain pouvoir sur ce qui en est fait.
|
|
- Ex: l'enseignant mentionne "Rate My Professors"
|
|
|
|
Cas d'usage
|
|
- Un chercheur possède les données de ses expériences. Un contrat légal peut en changer les conditions.
|
|
- Caméra de surveillance: Consent à être filmé, mais pas à être diffusé
|
|
- Agences de renseignement: ne connaissent pas les besoins d'avance donc enregistrent tout. L'usage doit être contrôlé (mandat)
|
|
|
|
### Destruction
|
|
|
|
- Lorsqu'une compagnie fait faillite, les données sont un actif.
|
|
- Le contrat de protection des données doit survivre à l'entreprise.
|
|
|
|
## Vie privée
|
|
|
|
- Le panoptique ([Wikipedia](https://fr.wikipedia.org/wiki/Panoptique))
|
|
- Rien à cacher ... intimité
|
|
- L'anonymat permet la démocratie
|
|
|
|
### Histoire de la vie privée
|
|
|
|
- 1879 Law of Torts [Thomas Cooley](https://repository.law.umich.edu/books/11/)
|
|
- 1890 The right to privacy [Samuel Warren, Louis Brendeis, Harvard Law Review](https://dx.doi.org/10.2307/1321160)
|
|
- 1928 [OLMSTEAD et al. v. UNITED STATES](http://cdn.loc.gov/service/ll/usrep/usrep277/usrep277438/usrep277438.pdf)
|
|
- 1960 [William M. Prosser, Privacy](https://scholarship.law.berkeley.edu/californialawreview/vol48/iss3/1/)
|
|
- l'intrusion dans l'intimité ou la solitude du demandeur ou dans ses affaires privées;
|
|
- le fait de rendre publics des faits privés embarrassants sur le demandeur;
|
|
- la publicité qui met le demandeur sous les projecteurs pour des raisons fautives;
|
|
- l'appropriation, pour le bénéfice du défendeur, du nom ou de l'apparence du demandeur.
|
|
- 1967 [Katz v. United States, Justice John Marshall Harlan II](https://www.law.cornell.edu/supremecourt/text/389/347)
|
|
- Exhibited an expectation of privacy
|
|
- Society is prepared to recognize that this expectation is objectively reasonable
|
|
- 2006 [A taxonomy of privacy](https://www.cs.indiana.edu/~kapadia/internal/SSRN_ID920281_code249137.pdf)
|
|
Au Canada
|
|
- [La Cour d'appel de l'Ontario reconnaît une cause d'action pour atteinte à la vie privée : Jones v. Tsige](https://www.mccarthy.ca/fr/references/articles/la-cour-dappel-de-lontario-reconnait-une-cause-daction-pour-atteinte-la-vie-privee-jones-v-tsige)
|
|
- Perception change entre les générations
|
|
- Option de sortie
|
|
- Petite ville vs grande ville
|
|
- Avec les données masisves, il n'y a pas de porte de sortie.
|
|
- Le droit à l'oubli 9europe) très difficile à appliquer
|
|
|
|
### Niveaux de vie privée
|
|
|
|
- Le respect de la vie privée n'égale pas l'absence de mention
|
|
- Secret professionnel
|
|
- Un ami qui demande de l'aide pour toi (psychologue par exemple)
|
|
- Collègues qui discutent d'un cas client
|
|
- Données utilisées par le marchand qui les a accumulées
|
|
- Exercice de contrôle (collecte vs. usage)
|
|
- Services gratuits avec publicité
|
|
- Photos d'un évènement privé partagées par un ami
|
|
- En donnant ton ADN, tu partage aussi celle de ta famille sans leur consentement
|
|
|
|
### Risques modernes
|
|
|
|
- Données ouvertes par les gouvernements
|
|
- Peuvent être utilisées par des entités commerciales et enrichies par des courtiers de données
|
|
- "Waste data": copie d'une carte d'identité à des fins de vérification d'âge dans un bar
|
|
- Métadonnées (Numéro de téléphone, adresse IP, MAC Address Bluetooth)
|
|
- Sous-estimer le pouvoir de l'analyse de données. Compteur d'eau ou d'électricité, on sait quand tu prends ta douche, ...
|
|
- Usage de données encryptées en étudiant le CPU
|
|
- Sans confiance, on a des contrats complexes. Nécessité de protection "par design".
|
|
|
|
### Cas d'usages
|
|
|
|
- Déterminer quand la publicité d'est plus utile et devient énervante
|
|
- Censure d'évènements pour ne pas être pris en photo ou filmé (Naked mile)
|
|
- Applications mobiles qui demandent beaucoup trop de permissions pour "rien" (pour partager à Facebook et Google en réalité)
|
|
- [BBB - Data Privacy Day](https://www.bbb.org/article/tips/14023-bbb-tip-data-privacy)
|
|
|
|
## Anonymat
|
|
|
|
### Ego Search
|
|
|
|
- Recherches web permettant d'identifier quelqu'un.
|
|
- [AOL search data leak](https://en.wikipedia.org/wiki/AOL_search_data_leak): 3 mois de données de navigation suffisent.
|
|
|
|
### Dé-identification
|
|
|
|
- Retrait des données d'identification personnelles d'un jeu de données
|
|
- Pas évident de prime abord, mais assez facile à retrouver
|
|
- Sexe, date de naissance, code postal = 87% unique aux USA
|
|
- Netflix: User ID, horodateur, titre du film. Combiné avec IMDB, on a le match entre les deux et on peut identifier la personne.
|
|
- Données sous la forme de graphe. On recherche des motifs.
|
|
- Fuites:
|
|
- Identité
|
|
- Attributs cachés
|
|
- Lien entre des entités
|
|
- Appartenance à un groupe
|
|
- voir ça comme une protection de base, comme barrer la porte en quittant sa maison.
|
|
|
|
### Anonymat presque impossible
|
|
|
|
- l'anonymat va être brisé
|
|
- Solution la plus forte: ne pas publier les données
|
|
- Mais des données sont souvent cruciales en recherche et pour la sécurité publique
|
|
|
|
### Contrôle de l'identité
|
|
|
|
- Les gens veulent plutôt pouvoir contrôler leur identité sur le web
|
|
- Difficile à gérer
|
|
|
|
## Validité des données
|
|
|
|
### Unité de mesure
|
|
|
|
- Erreur d'interprétation (3x vs 3%)
|
|
- Conversion mesurée en ventes vs. en visites vs. en impressions
|
|
- Erreur d'échelle (1 ou 5 est la meilleur note?)
|
|
|
|
### Représentativité
|
|
|
|
- Est-ce que les usagers de Twitter sont représentatifs de la population?
|
|
- données que l'on vs. les données que l'on aimerait avoir
|
|
|
|
### Gestion du changement
|
|
|
|
- Google Flu
|
|
- Est-ce que réentrainer un modèle est suffisant?
|
|
- Loi de Campbell: Plus un indicateur est important, plus il est sujet à corrompre le processus qu'il cherche à surveiller. [Assessing the impact of planned social change](https://doi.org/10.1016/0149-7189(79)90048-X)
|
|
- Durée moyenne d'appel
|
|
- Satisfaction client (NPS)
|
|
- Mentir si on se sent écouté
|
|
- Faux courriel
|
|
|
|
### Erreurs dans les données
|
|
|
|
- Deux personnes dans des bases de données différentes
|
|
- Analyse de sentiments avec des textes incluant des sarcasmes
|
|
- 26% des consommateurs ont des erreurs dans les données servant à calculer leur score de crédit
|
|
- Les corrections sont souvent faites seulement lorsqu'il y a un problème de remboursement
|
|
- Un bon moyen de nettoyer des données est de les montrer au sujet
|
|
- Acxion: Personnalise les publicités, mais le destinataire peur modifier les données pour recevoir celles ciblées pour un autre groupe
|
|
|
|
### Erreurs dans les modèles
|
|
|
|
- On choisit souvent le modèle le plus simple
|
|
- [Paradoxe de Simpson](https://fr.wikipedia.org/wiki/Paradoxe_de_Simpson)
|
|
- Un phénomène observé de plusieurs groupes semble s'inverser lorsque les groupes sont combinés
|
|
- Exemple: [écart salarial](http://employmentblog.practicallaw.com/gender-pay-gap-reporting-beware-simpsons-paradox/)
|
|
|
|
## Impact social
|
|
|
|
- Poids associés aux différentes mesures d'un algorithme (F-score, recall, precision, ...)
|
|
- Assumés égaux parce qu'on ne sait pas les mesurer
|
|
- On pourrait faire mieux
|
|
- Ossification
|
|
- Biais de confirmation dans les médias
|
|
- S'insère dans les algorithmes:
|
|
- Reflète les biais du processus que l'on cherche à améliorer ou à remplacer
|
|
- Si on change les processus, l'argorithme prendra beaucoup plus de temps à s'adapter
|
|
- Ex: Discrimination basée sur la distance entre la maison et le bureau. Dans la sélection des candidats en entrevue.
|
|
- Exemples:
|
|
- Nids de poule mieux détectés là ou les gens ont des voitures et des téléphones intelligents
|
|
- Predictive policing
|
|
- Prédiction qui se réalise automatiquement en provoquant le comportement
|
|
- [Prophétie autoréalisatrice](https://fr.wikipedia.org/wiki/Proph%C3%A9tie_autor%C3%A9alisatrice)
|
|
- Score de crédit social (Chine)
|
|
- Sesame Credit chez Alibaba
|
|
- Historique d'achats
|
|
- Partage d'articles critiques du gouvernement sur les médias sociaux
|
|
- Algorithme privé et peu transparent
|
|
- Surveillance de masse par corrélation spatio-temporelle.
|
|
- Exemple de Netflix et IMDB plus haut
|
|
|
|
## Équité algorithmique
|
|
|
|
### Biais
|
|
|
|
- Le jeu d'entrainement n'est pas représentatif de la population
|
|
- La population actuelle n'est pas représentative de la population future
|
|
- Processus concurrents qui mènent à de fausses corrélations
|
|
|
|
### Mauvaise analyse des données
|
|
|
|
- Attributs corrélés
|
|
- Discrimination raciale
|
|
- Quotas de minorités contournés en échantillonant par quartier
|
|
- Pas difficile de trouver d'autres attributs avec un algorithme et beaucoup de données
|
|
- Localisation des concurrents:
|
|
- Meilleurs prix que le concurrent lorsqu'il y en a une à proximité
|
|
- Mais les concurrents sont seulement dans les quartiers aisés
|
|
- P-hacking
|
|
- Tests d'hypothèses en parallèle, le pourcentage de la p-value sera le pourcentage d'essais qui sont concluants par chance seulement
|
|
- Nous avons les données avant de formuler l'hypothèse, on peut formuler n'importe quoi comme hypothèse
|
|
- Puce à ADN
|
|
|
|
## Code d'éthique
|
|
|
|
- La réglementation n'est pas la bonne solution
|
|
- La technologie est rapide et la législation est lente
|
|
- Bon lorsqu'il y a un consensus social
|
|
- Gouvernance
|
|
- Les entreprises vont faire le strict minimum
|
|
- Association professionnelle
|
|
- Les professionnels ne veulent pas d'avocats pour décider à leur place
|
|
- Si trop long ou couvre trop large, il ne sera pas facile à mémoriser ni appliquer
|
|
- Proposition de l'enseignant:
|
|
- Ne surprends pas
|
|
- Sois responsable des résultats |