Passé Antidote sur la présentation

This commit is contained in:
François Pelletier 2019-01-23 16:52:56 -05:00
parent 48c788c294
commit f1f9e34cc8

150
README.md
View file

@ -1,44 +1,44 @@
# Données et éthique
Cette présentation est un résumé de mes notes prises dans le cours en ligne (MOOC) sur edX [MichiganX: DS101x](https://courses.edx.org/courses/course-v1:MichiganX+DS101x+1T2018/course/)
Cette présentation résume mes notes prises dans le cours en ligne (MOOC) sur edX [MichiganX : DS101x](https://courses.edx.org/courses/course-v1:MichiganX+DS101x+1T2018/course/)
## Introduction
### Motivation
Pourquoi les scientifiques de données doivent s'intéresser à l'aspect éthique de leur travail'
Pourquoi les scientifiques de données devraient-ils s'intéresser à l'aspect éthique de leur travail ?
1. Pour ne pas se faire dire quoi faire par des gens hors du domaine (avocats par exemple)
2. Révolution industrielle => impacts environnementaux ... Révolution des données => Impacts sociaux
1. Ne pas se faire dire quoi faire par des gens hors du domaine (avocats par exemple)
2. Révolution industrielle et impacts environnementaux... Révolution des données et impacts sociaux
### Éthique
- La moralité définit ce qui est bon
- Il est difficile d'appliquer la moralité aux entreprises
- Il existe plusieurs problèmes éthiques, mais ils sont trop difficiles pour une introduction (ex: Voiture autonome qui doit frapper un étudiant ou une dame agée)
- Cadre utilitariste: suffisamment simple pour les besoins du cours
- Il existe plusieurs problèmes éthiques, mais ils sont trop difficiles pour une introduction (ex. : Voiture autonome qui doit frapper un étudiant ou une dame âgée)
- Cadre utilitariste : suffisamment simple pour les besoins du cours
### Data science
- Offre une meilleure façon de faire les choses
- Conséquences:
- Conséquences :
- Inégalités
- Vie privée
- Nuisances: spam par courriel
- Nuisances : pourriel
## Consentement
Le consentement doit être éclairé, tel qu'énoncé lors d'études cliniques par exemple
- Revue par un comité d'éthique
- Situation dans lesquelles ce n'est pas requis
- AB testing: les deux choix sont jugés également présentables par l'entreprise
- Situations dans lesquelles ce n'est pas requis
- AB testing: les deux choix sont également présentables par l'entreprise
- Situation problématique
- OK Cupid: Menti à propos d'une expérience qui modifie le comportement du site web ([The Guardian](https://www.theguardian.com/technology/2014/jul/29/okcupid-experiment-human-beings-dating))
- OK Cupid a menti à propos d'une expérience qui modifie le comportement du site web. [The Guardian](https://www.theguardian.com/technology/2014/jul/29/okcupid-experiment-human-beings-dating)
### Limites
- analyse rétrospective vs. collecte prospective
- analyse rétrospective vs collecte prospective
- Les données n'ont pas été amassées pour l'usage qu'on veut maintenant en faire
- Volonté d'améliorer le produit dans le cadre de pratiques habituelles
@ -46,24 +46,24 @@ Le consentement doit être éclairé, tel qu'énoncé lors d'études cliniques p
## Propriété des données
- Droit d'enregistrer en opposition au droit de faire ce qu'on veut avec.
- Place le droit d'enregistrer en opposition au droit de faire ce qu'on veut avec ensuite.
- Prendre une photo et l'utiliser comme chantage
- Droit d'auteur
- Si on utilise les données et qu'on y mélange différentes sources externes et de la connaissance, on devient l'auteur d'une oeuvre originale.
- La source exacte des données et leur interprétation est par nature floue
- Le travail d'amasser des donnéesm de les préparer et de les nettoyer en fait la propriété du créateur du jeu de données.
- Si on utilise les données et qu'on y mélange différentes sources externes et de la connaissance, on devient l'auteur d'une œuvre originale.
- La source exacte des données et leur interprétation sont par nature floues
- Le travail effectué pour amasser des données, les préparer et les nettoyer en fait la propriété du créateur du jeu de données.
- La fondation Wikimedia possède le contenu de Wikipédia, et non ses usagers.
- Ils pourraient charger un abonnement (Trip Advisor, ...)
- Ils pourraient charger un abonnement (Trip Advisor, )
### Enregistrement et utilisation
Lorsque les données sont à propos de nous, on doit avoir un certain pouvoir sur ce qui en est fait.
- Ex: l'enseignant mentionne "Rate My Professors"
- Lorsque les données sont à propos de nous, on doit avoir un certain pouvoir sur ce qui en est fait.
- Ex. : l'enseignant mentionne "Rate My Professors"
Cas d'usage
- Un chercheur possède les données de ses expériences. Un contrat légal peut en changer les conditions.
- Caméra de surveillance: Consent à être filmé, mais pas à être diffusé
- Agences de renseignement: ne connaissent pas les besoins d'avance donc enregistrent tout. L'usage doit être contrôlé (mandat)
- Cas d'usage
- Un chercheur possède les données de ses expériences. Un contrat légal peut en changer les conditions.
- Caméra de surveillance : Consens à être filmé, mais pas à être diffusé
- Agences de renseignement : ne connaissant pas les besoins d'avance donc enregistrent tout. L'usage doit être contrôlé (mandat)
### Destruction
@ -72,20 +72,20 @@ Cas d'usage
## Vie privée
- Le panoptique ([Wikipedia](https://fr.wikipedia.org/wiki/Panoptique))
- Rien à cacher ... intimité
- Le panoptique ([Wikipédia](https://fr.wikipedia.org/wiki/Panoptique))
- Rien à cacher... intimité
- L'anonymat permet la démocratie
### Histoire de la vie privée
- 1879 Law of Torts [Thomas Cooley](https://repository.law.umich.edu/books/11/)
- 1890 The right to privacy [Samuel Warren, Louis Brendeis, Harvard Law Review](https://dx.doi.org/10.2307/1321160)
- 1890 The Right to Privacy par [Samuel Warren, Louis Brendeis, Harvard Law Review](https://dx.doi.org/10.2307/1321160)
- 1928 [OLMSTEAD et al. v. UNITED STATES](http://cdn.loc.gov/service/ll/usrep/usrep277/usrep277438/usrep277438.pdf)
- 1960 [William M. Prosser, Privacy](https://scholarship.law.berkeley.edu/californialawreview/vol48/iss3/1/)
- l'intrusion dans l'intimité ou la solitude du demandeur ou dans ses affaires privées;
- le fait de rendre publics des faits privés embarrassants sur le demandeur;
- la publicité qui met le demandeur sous les projecteurs pour des raisons fautives;
- l'appropriation, pour le bénéfice du défendeur, du nom ou de l'apparence du demandeur.
- l'intrusion dans l'intimité ou la solitude du demandeur ou dans ses affaires privées ;
- le fait de rendre publics des faits privés embarrassants sur le demandeur ;
- la publicité qui met le demandeur sous les projecteurs pour des raisons fautives ;
- l'appropriation, au bénéfice du défendeur, du nom ou de l'apparence du demandeur.
- 1967 [Katz v. United States, Justice John Marshall Harlan II](https://www.law.cornell.edu/supremecourt/text/389/347)
- Exhibited an expectation of privacy
- Society is prepared to recognize that this expectation is objectively reasonable
@ -95,8 +95,8 @@ Au Canada
- Perception change entre les générations
- Option de sortie
- Petite ville vs grande ville
- Avec les données masisves, il n'y a pas de porte de sortie.
- Le droit à l'oubli 9europe) très difficile à appliquer
- Avec les données massives, il n'y a pas de porte de sortie.
- Le droit à l'oubli (Europe) très difficile à appliquer
### Niveaux de vie privée
@ -105,27 +105,27 @@ Au Canada
- Un ami qui demande de l'aide pour toi (psychologue par exemple)
- Collègues qui discutent d'un cas client
- Données utilisées par le marchand qui les a accumulées
- Exercice de contrôle (collecte vs. usage)
- Exercice de contrôle (collecte vs usage)
- Services gratuits avec publicité
- Photos d'un évènement privé partagées par un ami
- En donnant ton ADN, tu partage aussi celle de ta famille sans leur consentement
- En donnant ton ADN, tu partages aussi celle de ta famille sans leur consentement
### Risques modernes
- Données ouvertes par les gouvernements
- Peuvent être utilisées par des entités commerciales et enrichies par des courtiers de données
- "Waste data": copie d'une carte d'identité à des fins de vérification d'âge dans un bar
- Elles peuvent être utilisées par des entités commerciales et enrichies par des courtiers de données
- "Waste data" : copie d'une carte d'identité à des fins de vérification d'âge dans un bar
- Métadonnées (Numéro de téléphone, adresse IP, MAC Address Bluetooth)
- Sous-estimer le pouvoir de l'analyse de données. Compteur d'eau ou d'électricité, on sait quand tu prends ta douche, ...
- Usage de données encryptées en étudiant le CPU
- Sous-estimer le pouvoir de l'analyse de données. Compteur d'eau ou d'électricité, on sait quand tu prends ta douche...
- Usage de données cryptées en étudiant le microprocesseur
- Sans confiance, on a des contrats complexes. Nécessité de protection "par design".
### Cas d'usages
- Déterminer quand la publicité d'est plus utile et devient énervante
- Déterminer quand la publicité n'est plus utile et devient énervante
- Censure d'évènements pour ne pas être pris en photo ou filmé (Naked mile)
- Applications mobiles qui demandent beaucoup trop de permissions pour "rien" (pour partager à Facebook et Google en réalité)
- [BBB - Data Privacy Day](https://www.bbb.org/article/tips/14023-bbb-tip-data-privacy)
- [BBB Data Privacy Day](https://www.bbb.org/article/tips/14023-bbb-tip-data-privacy)
## Anonymat
@ -138,20 +138,20 @@ Au Canada
- Retrait des données d'identification personnelles d'un jeu de données
- Pas évident de prime abord, mais assez facile à retrouver
- Sexe, date de naissance, code postal = 87% unique aux USA
- Sexe, date de naissance, code postal = 87 % unique aux É.-U.
- Netflix: User ID, horodateur, titre du film. Combiné avec IMDB, on a le match entre les deux et on peut identifier la personne.
- Données sous la forme de graphe. On recherche des motifs.
- Fuites:
- Fuites :
- Identité
- Attributs cachés
- Lien entre des entités
- Appartenance à un groupe
- voir ça comme une protection de base, comme barrer la porte en quittant sa maison.
- Appartenance à un groupe.
- On peut voir ça comme une protection de base, comme barrer la porte en quittant sa maison.
### Anonymat presque impossible
- l'anonymat va être brisé
- Solution la plus forte: ne pas publier les données
- Solution la plus forte : ne pas publier les données
- Mais des données sont souvent cruciales en recherche et pour la sécurité publique
### Contrôle de l'identité
@ -163,22 +163,22 @@ Au Canada
### Unité de mesure
- Erreur d'interprétation (3x vs 3%)
- Conversion mesurée en ventes vs. en visites vs. en impressions
- Erreur d'échelle (1 ou 5 est la meilleur note?)
- Erreur d'interprétation (3x vs 3 %)
- Conversion mesurée en ventes ; en visites ; en impressions
- Erreur d'échelle (lequel entre 1 ou 5 est la meilleure note ?)
### Représentativité
- Est-ce que les usagers de Twitter sont représentatifs de la population?
- données que l'on vs. les données que l'on aimerait avoir
- Est-ce que les usagers de Twitter sont représentatifs de la population ?
- données que l'on a vs les données que l'on aimerait avoir
### Gestion du changement
- Google Flu
- Est-ce que réentrainer un modèle est suffisant?
- Loi de Campbell: Plus un indicateur est important, plus il est sujet à corrompre le processus qu'il cherche à surveiller. [Assessing the impact of planned social change](https://doi.org/10.1016/0149-7189(79)90048-X)
- Durée moyenne d'appel
- Satisfaction client (NPS)
- Est-ce que réentrainer un modèle est suffisant ?
- Loi de Campbell : Plus un indicateur est important, plus il est sujet à corrompre le processus qu'il cherche à surveiller. [Assessing the impact of planned social change](https://doi.org/10.1016/0149-7189(79)90048-X)
- Durée moyenne d'appel
- Satisfaction client (NPS)
- Mentir si on se sent écouté
- Faux courriel
@ -186,32 +186,32 @@ Au Canada
- Deux personnes dans des bases de données différentes
- Analyse de sentiments avec des textes incluant des sarcasmes
- 26% des consommateurs ont des erreurs dans les données servant à calculer leur score de crédit
- 26 % des consommateurs ont des erreurs dans les données servant à calculer leur score de crédit
- Les corrections sont souvent faites seulement lorsqu'il y a un problème de remboursement
- Un bon moyen de nettoyer des données est de les montrer au sujet
- Acxion: Personnalise les publicités, mais le destinataire peur modifier les données pour recevoir celles ciblées pour un autre groupe
- Acxion : Personnalise les publicités, mais le destinataire peut modifier les données pour recevoir celles ciblées pour un autre groupe
### Erreurs dans les modèles
- On choisit souvent le modèle le plus simple
- [Paradoxe de Simpson](https://fr.wikipedia.org/wiki/Paradoxe_de_Simpson)
- Un phénomène observé de plusieurs groupes semble s'inverser lorsque les groupes sont combinés
- Exemple: [écart salarial](http://employmentblog.practicallaw.com/gender-pay-gap-reporting-beware-simpsons-paradox/)
- Exemple : [écart salarial](http://employmentblog.practicallaw.com/gender-pay-gap-reporting-beware-simpsons-paradox/)
## Impact social
- Poids associés aux différentes mesures d'un algorithme (F-score, recall, precision, ...)
- Poids associés aux différentes mesures d'un algorithme (F-score, recall, precision, )
- Assumés égaux parce qu'on ne sait pas les mesurer
- On pourrait faire mieux
- Ossification
- Biais de confirmation dans les médias
- S'insère dans les algorithmes:
- S'insère dans les algorithmes :
- Reflète les biais du processus que l'on cherche à améliorer ou à remplacer
- Si on change les processus, l'argorithme prendra beaucoup plus de temps à s'adapter
- Ex: Discrimination basée sur la distance entre la maison et le bureau. Dans la sélection des candidats en entrevue.
- Exemples:
- Nids de poule mieux détectés là ou les gens ont des voitures et des téléphones intelligents
- Predictive policing
- Si on change les processus, l'algorithme prendra beaucoup plus de temps à s'adapter
- Ex. : Discrimination basée sur la distance entre la maison et le bureau dans la sélection des candidats en entrevue.
- Exemples :
- Nids de poule mieux détectés là où les gens ont des voitures et des téléphones intelligents
- Predictive policing:
- Prédiction qui se réalise automatiquement en provoquant le comportement
- [Prophétie autoréalisatrice](https://fr.wikipedia.org/wiki/Proph%C3%A9tie_autor%C3%A9alisatrice)
- Score de crédit social (Chine)
@ -219,7 +219,7 @@ Au Canada
- Historique d'achats
- Partage d'articles critiques du gouvernement sur les médias sociaux
- Algorithme privé et peu transparent
- Surveillance de masse par corrélation spatio-temporelle.
- La surveillance de masse se fait par corrélation spatio-temporelle.
- Exemple de Netflix et IMDB plus haut
## Équité algorithmique
@ -227,21 +227,21 @@ Au Canada
### Biais
- Le jeu d'entrainement n'est pas représentatif de la population
- La population actuelle n'est pas représentative de la population future
- Processus concurrents qui mènent à de fausses corrélations
- La population actuelle n'est pas représentative du futur.
- Des processus concurrents mènent à de fausses corrélations.
### Mauvaise analyse des données
- Attributs corrélés
- Discrimination raciale
- Quotas de minorités contournés en échantillonant par quartier
- Quotas de minorités contournés en échantillonnant par quartier
- Pas difficile de trouver d'autres attributs avec un algorithme et beaucoup de données
- Localisation des concurrents:
- Meilleurs prix que le concurrent lorsqu'il y en a une à proximité
- Localisation des concurrents :
- On offre de meilleurs prix que le concurrent lorsqu'il y en a un à proximité
- Mais les concurrents sont seulement dans les quartiers aisés
- P-hacking
- Tests d'hypothèses en parallèle, le pourcentage de la p-value sera le pourcentage d'essais qui sont concluants par chance seulement
- Nous avons les données avant de formuler l'hypothèse, on peut formuler n'importe quoi comme hypothèse
- Tests d'hypothèses parallèles, le pourcentage du p-valeur sera égal au pourcentage d'essais qui sont concluants par chance seulement
- Nous avons les données avant de formuler l'hypothèse, elle peut dont être n'importe quoi que l'on veut prouver.
- Puce à ADN
## Code d'éthique
@ -252,8 +252,8 @@ Au Canada
- Gouvernance
- Les entreprises vont faire le strict minimum
- Association professionnelle
- Les professionnels ne veulent pas d'avocats pour décider à leur place
- Si trop long ou couvre trop large, il ne sera pas facile à mémoriser ni appliquer
- Proposition de l'enseignant:
- Les professionnels ne veulent pas d'avocat pour décider à leur place
- Sil est trop long ou couvre trop large, il ne sera pas facile à mémoriser ni appliquer
- Proposition de l'enseignant :
- Ne surprends pas
- Sois responsable des résultats