2019-01-23 16:05:39 -05:00
# Données et éthique
2019-01-23 16:52:56 -05:00
Cette présentation résume mes notes prises dans le cours en ligne (MOOC) sur edX [MichiganX : DS101x ](https://courses.edx.org/courses/course-v1:MichiganX+DS101x+1T2018/course/ )
2019-01-23 16:05:39 -05:00
## Introduction
### Motivation
2019-01-23 16:52:56 -05:00
Pourquoi les scientifiques de données devraient-ils s'intéresser à l'aspect éthique de leur travail ?
2019-01-23 16:05:39 -05:00
2019-01-23 16:52:56 -05:00
1. Ne pas se faire dire quoi faire par des gens hors du domaine (avocats par exemple)
2. Révolution industrielle et impacts environnementaux... Révolution des données et impacts sociaux
2019-01-23 16:05:39 -05:00
### Éthique
- La moralité définit ce qui est bon
- Il est difficile d'appliquer la moralité aux entreprises
2019-01-23 16:52:56 -05:00
- Il existe plusieurs problèmes éthiques, mais ils sont trop difficiles pour une introduction (ex. : Voiture autonome qui doit frapper un étudiant ou une dame âgée)
- Cadre utilitariste : suffisamment simple pour les besoins du cours
2019-01-23 16:05:39 -05:00
### Data science
- Offre une meilleure façon de faire les choses
2019-01-23 16:52:56 -05:00
- Conséquences :
2019-01-23 16:05:39 -05:00
- Inégalités
- Vie privée
2019-01-23 16:52:56 -05:00
- Nuisances : pourriel
2019-01-23 16:05:39 -05:00
## Consentement
Le consentement doit être éclairé, tel qu'énoncé lors d'études cliniques par exemple
- Revue par un comité d'éthique
2019-01-23 16:52:56 -05:00
- Situations dans lesquelles ce n'est pas requis
- AB testing: les deux choix sont également présentables par l'entreprise
2019-01-23 16:05:39 -05:00
- Situation problématique
2019-01-23 16:52:56 -05:00
- OK Cupid a menti à propos d'une expérience qui modifie le comportement du site web. [The Guardian ](https://www.theguardian.com/technology/2014/jul/29/okcupid-experiment-human-beings-dating )
2019-01-23 16:05:39 -05:00
### Limites
2019-01-23 16:52:56 -05:00
- analyse rétrospective vs collecte prospective
2019-01-23 16:05:39 -05:00
- Les données n'ont pas été amassées pour l'usage qu'on veut maintenant en faire
- Volonté d'améliorer le produit dans le cadre de pratiques habituelles
- Et non faire des expériences pour le plaisir auprès des utilisateurs
## Propriété des données
2019-01-23 16:52:56 -05:00
- Place le droit d'enregistrer en opposition au droit de faire ce qu'on veut avec ensuite.
2019-01-23 16:05:39 -05:00
- Prendre une photo et l'utiliser comme chantage
- Droit d'auteur
2019-01-23 16:52:56 -05:00
- Si on utilise les données et qu'on y mélange différentes sources externes et de la connaissance, on devient l'auteur d'une œuvre originale.
- La source exacte des données et leur interprétation sont par nature floues
- Le travail effectué pour amasser des données, les préparer et les nettoyer en fait la propriété du créateur du jeu de données.
2019-01-23 16:05:39 -05:00
- La fondation Wikimedia possède le contenu de Wikipédia, et non ses usagers.
2019-01-23 16:52:56 -05:00
- Ils pourraient charger un abonnement (Trip Advisor, …)
2019-01-23 16:05:39 -05:00
### Enregistrement et utilisation
2019-01-23 16:52:56 -05:00
- Lorsque les données sont à propos de nous, on doit avoir un certain pouvoir sur ce qui en est fait.
- Ex. : l'enseignant mentionne "Rate My Professors"
2019-01-23 16:05:39 -05:00
2019-01-23 16:52:56 -05:00
- Cas d'usage
- Un chercheur possède les données de ses expériences. Un contrat légal peut en changer les conditions.
- Caméra de surveillance : Consens à être filmé, mais pas à être diffusé
- Agences de renseignement : ne connaissant pas les besoins d'avance donc enregistrent tout. L'usage doit être contrôlé (mandat)
2019-01-23 16:05:39 -05:00
### Destruction
- Lorsqu'une compagnie fait faillite, les données sont un actif.
- Le contrat de protection des données doit survivre à l'entreprise.
## Vie privée
2019-01-23 16:52:56 -05:00
- Le panoptique ([Wikipédia ](https://fr.wikipedia.org/wiki/Panoptique ))
- Rien à cacher... intimité
2019-01-23 16:05:39 -05:00
- L'anonymat permet la démocratie
### Histoire de la vie privée
- 1879 Law of Torts [Thomas Cooley ](https://repository.law.umich.edu/books/11/ )
2019-01-23 16:52:56 -05:00
- 1890 The Right to Privacy par [Samuel Warren, Louis Brendeis, Harvard Law Review ](https://dx.doi.org/10.2307/1321160 )
2019-01-23 16:05:39 -05:00
- 1928 [OLMSTEAD et al. v. UNITED STATES ](http://cdn.loc.gov/service/ll/usrep/usrep277/usrep277438/usrep277438.pdf )
- 1960 [William M. Prosser, Privacy ](https://scholarship.law.berkeley.edu/californialawreview/vol48/iss3/1/ )
2019-01-23 16:52:56 -05:00
- l'intrusion dans l'intimité ou la solitude du demandeur ou dans ses affaires privées ;
- le fait de rendre publics des faits privés embarrassants sur le demandeur ;
- la publicité qui met le demandeur sous les projecteurs pour des raisons fautives ;
- l'appropriation, au bénéfice du défendeur, du nom ou de l'apparence du demandeur.
2019-01-23 16:05:39 -05:00
- 1967 [Katz v. United States, Justice John Marshall Harlan II ](https://www.law.cornell.edu/supremecourt/text/389/347 )
- Exhibited an expectation of privacy
- Society is prepared to recognize that this expectation is objectively reasonable
- 2006 [A taxonomy of privacy ](https://www.cs.indiana.edu/~kapadia/internal/SSRN_ID920281_code249137.pdf )
Au Canada
- [La Cour d'appel de l'Ontario reconnaît une cause d'action pour atteinte à la vie privée : Jones v. Tsige ](https://www.mccarthy.ca/fr/references/articles/la-cour-dappel-de-lontario-reconnait-une-cause-daction-pour-atteinte-la-vie-privee-jones-v-tsige )
- Perception change entre les générations
- Option de sortie
- Petite ville vs grande ville
2019-01-23 16:52:56 -05:00
- Avec les données massives, il n'y a pas de porte de sortie.
- Le droit à l'oubli (Europe) très difficile à appliquer
2019-01-23 16:05:39 -05:00
### Niveaux de vie privée
- Le respect de la vie privée n'égale pas l'absence de mention
- Secret professionnel
- Un ami qui demande de l'aide pour toi (psychologue par exemple)
- Collègues qui discutent d'un cas client
- Données utilisées par le marchand qui les a accumulées
2019-01-23 16:52:56 -05:00
- Exercice de contrôle (collecte vs usage)
2019-01-23 16:05:39 -05:00
- Services gratuits avec publicité
- Photos d'un évènement privé partagées par un ami
2019-01-23 16:52:56 -05:00
- En donnant ton ADN, tu partages aussi celle de ta famille sans leur consentement
2019-01-23 16:05:39 -05:00
### Risques modernes
- Données ouvertes par les gouvernements
2019-01-23 16:52:56 -05:00
- Elles peuvent être utilisées par des entités commerciales et enrichies par des courtiers de données
- "Waste data" : copie d'une carte d'identité à des fins de vérification d'âge dans un bar
2019-01-23 16:05:39 -05:00
- Métadonnées (Numéro de téléphone, adresse IP, MAC Address Bluetooth)
2019-01-23 16:52:56 -05:00
- Sous-estimer le pouvoir de l'analyse de données. Compteur d'eau ou d'électricité, on sait quand tu prends ta douche...
- Usage de données cryptées en étudiant le microprocesseur
2019-01-23 16:05:39 -05:00
- Sans confiance, on a des contrats complexes. Nécessité de protection "par design".
### Cas d'usages
2019-01-23 16:52:56 -05:00
- Déterminer quand la publicité n'est plus utile et devient énervante
2019-01-23 16:05:39 -05:00
- Censure d'évènements pour ne pas être pris en photo ou filmé (Naked mile)
- Applications mobiles qui demandent beaucoup trop de permissions pour "rien" (pour partager à Facebook et Google en réalité)
2019-01-23 16:52:56 -05:00
- [BBB —Data Privacy Day ](https://www.bbb.org/article/tips/14023-bbb-tip-data-privacy )
2019-01-23 16:05:39 -05:00
## Anonymat
### Ego Search
- Recherches web permettant d'identifier quelqu'un.
- [AOL search data leak ](https://en.wikipedia.org/wiki/AOL_search_data_leak ): 3 mois de données de navigation suffisent.
### Dé-identification
- Retrait des données d'identification personnelles d'un jeu de données
- Pas évident de prime abord, mais assez facile à retrouver
2019-01-23 16:52:56 -05:00
- Sexe, date de naissance, code postal = 87 % unique aux É.-U.
2019-01-23 16:05:39 -05:00
- Netflix: User ID, horodateur, titre du film. Combiné avec IMDB, on a le match entre les deux et on peut identifier la personne.
- Données sous la forme de graphe. On recherche des motifs.
2019-01-23 16:52:56 -05:00
- Fuites :
2019-01-23 16:05:39 -05:00
- Identité
- Attributs cachés
- Lien entre des entités
2019-01-23 16:52:56 -05:00
- Appartenance à un groupe.
- On peut voir ça comme une protection de base, comme barrer la porte en quittant sa maison.
2019-01-23 16:05:39 -05:00
### Anonymat presque impossible
- l'anonymat va être brisé
2019-01-23 16:52:56 -05:00
- Solution la plus forte : ne pas publier les données
2019-01-23 16:05:39 -05:00
- Mais des données sont souvent cruciales en recherche et pour la sécurité publique
### Contrôle de l'identité
- Les gens veulent plutôt pouvoir contrôler leur identité sur le web
- Difficile à gérer
## Validité des données
### Unité de mesure
2019-01-23 16:52:56 -05:00
- Erreur d'interprétation (3x vs 3 %)
- Conversion mesurée en ventes ; en visites ; en impressions
- Erreur d'échelle (lequel entre 1 ou 5 est la meilleure note ?)
2019-01-23 16:05:39 -05:00
### Représentativité
2019-01-23 16:52:56 -05:00
- Est-ce que les usagers de Twitter sont représentatifs de la population ?
- données que l'on a vs les données que l'on aimerait avoir
2019-01-23 16:05:39 -05:00
### Gestion du changement
- Google Flu
2019-01-23 16:52:56 -05:00
- Est-ce que réentrainer un modèle est suffisant ?
- Loi de Campbell : Plus un indicateur est important, plus il est sujet à corrompre le processus qu'il cherche à surveiller. [Assessing the impact of planned social change ](https://doi.org/10.1016/0149-7189(79 )90048-X)
- Durée moyenne d'appel
- Satisfaction client (NPS)
2019-01-23 16:05:39 -05:00
- Mentir si on se sent écouté
- Faux courriel
### Erreurs dans les données
- Deux personnes dans des bases de données différentes
- Analyse de sentiments avec des textes incluant des sarcasmes
2019-01-23 16:52:56 -05:00
- 26 % des consommateurs ont des erreurs dans les données servant à calculer leur score de crédit
2019-01-23 16:05:39 -05:00
- Les corrections sont souvent faites seulement lorsqu'il y a un problème de remboursement
- Un bon moyen de nettoyer des données est de les montrer au sujet
2019-01-23 16:52:56 -05:00
- Acxion : Personnalise les publicités, mais le destinataire peut modifier les données pour recevoir celles ciblées pour un autre groupe
2019-01-23 16:05:39 -05:00
### Erreurs dans les modèles
- On choisit souvent le modèle le plus simple
- [Paradoxe de Simpson ](https://fr.wikipedia.org/wiki/Paradoxe_de_Simpson )
- Un phénomène observé de plusieurs groupes semble s'inverser lorsque les groupes sont combinés
2019-01-23 16:52:56 -05:00
- Exemple : [écart salarial ](http://employmentblog.practicallaw.com/gender-pay-gap-reporting-beware-simpsons-paradox/ )
2019-01-23 16:05:39 -05:00
## Impact social
2019-01-23 16:52:56 -05:00
- Poids associés aux différentes mesures d'un algorithme (F-score, recall, precision, …)
2019-01-23 16:05:39 -05:00
- Assumés égaux parce qu'on ne sait pas les mesurer
- On pourrait faire mieux
- Ossification
- Biais de confirmation dans les médias
2019-01-23 16:52:56 -05:00
- S'insère dans les algorithmes :
2019-01-23 16:05:39 -05:00
- Reflète les biais du processus que l'on cherche à améliorer ou à remplacer
2019-01-23 16:52:56 -05:00
- Si on change les processus, l'algorithme prendra beaucoup plus de temps à s'adapter
- Ex. : Discrimination basée sur la distance entre la maison et le bureau dans la sélection des candidats en entrevue.
- Exemples :
- Nids de poule mieux détectés là où les gens ont des voitures et des téléphones intelligents
- Predictive policing:
2019-01-23 16:05:39 -05:00
- Prédiction qui se réalise automatiquement en provoquant le comportement
- [Prophétie autoréalisatrice ](https://fr.wikipedia.org/wiki/Proph%C3%A9tie_autor%C3%A9alisatrice )
- Score de crédit social (Chine)
- Sesame Credit chez Alibaba
- Historique d'achats
- Partage d'articles critiques du gouvernement sur les médias sociaux
- Algorithme privé et peu transparent
2019-01-23 16:52:56 -05:00
- La surveillance de masse se fait par corrélation spatio-temporelle.
2019-01-23 16:05:39 -05:00
- Exemple de Netflix et IMDB plus haut
## Équité algorithmique
### Biais
- Le jeu d'entrainement n'est pas représentatif de la population
2019-01-23 16:52:56 -05:00
- La population actuelle n'est pas représentative du futur.
- Des processus concurrents mènent à de fausses corrélations.
2019-01-23 16:05:39 -05:00
### Mauvaise analyse des données
- Attributs corrélés
- Discrimination raciale
2019-01-23 16:52:56 -05:00
- Quotas de minorités contournés en échantillonnant par quartier
2019-01-23 16:05:39 -05:00
- Pas difficile de trouver d'autres attributs avec un algorithme et beaucoup de données
2019-01-23 16:52:56 -05:00
- Localisation des concurrents :
- On offre de meilleurs prix que le concurrent lorsqu'il y en a un à proximité
2019-01-23 16:05:39 -05:00
- Mais les concurrents sont seulement dans les quartiers aisés
- P-hacking
2019-01-23 16:52:56 -05:00
- Tests d'hypothèses parallèles, le pourcentage du p-valeur sera égal au pourcentage d'essais qui sont concluants par chance seulement
- Nous avons les données avant de formuler l'hypothèse, elle peut dont être n'importe quoi que l'on veut prouver.
2019-01-23 16:05:39 -05:00
- Puce à ADN
## Code d'éthique
- La réglementation n'est pas la bonne solution
- La technologie est rapide et la législation est lente
- Bon lorsqu'il y a un consensus social
- Gouvernance
- Les entreprises vont faire le strict minimum
- Association professionnelle
2019-01-23 16:52:56 -05:00
- Les professionnels ne veulent pas d'avocat pour décider à leur place
- S’ il est trop long ou couvre trop large, il ne sera pas facile à mémoriser ni appliquer
- Proposition de l'enseignant :
2019-01-23 16:05:39 -05:00
- Ne surprends pas
- Sois responsable des résultats