No description
Find a file
2019-01-23 16:52:56 -05:00
Données et éthique.mm Ajout du mindmap original 2019-01-23 16:10:08 -05:00
LICENSE Initial commit 2019-01-23 16:04:52 -05:00
README.md Passé Antidote sur la présentation 2019-01-23 16:52:56 -05:00

Données et éthique

Cette présentation résume mes notes prises dans le cours en ligne (MOOC) sur edX MichiganX : DS101x

Introduction

Motivation

Pourquoi les scientifiques de données devraient-ils s'intéresser à l'aspect éthique de leur travail ?

  1. Ne pas se faire dire quoi faire par des gens hors du domaine (avocats par exemple)
  2. Révolution industrielle et impacts environnementaux... Révolution des données et impacts sociaux

Éthique

  • La moralité définit ce qui est bon
  • Il est difficile d'appliquer la moralité aux entreprises
  • Il existe plusieurs problèmes éthiques, mais ils sont trop difficiles pour une introduction (ex. : Voiture autonome qui doit frapper un étudiant ou une dame âgée)
  • Cadre utilitariste : suffisamment simple pour les besoins du cours

Data science

  • Offre une meilleure façon de faire les choses
  • Conséquences :
    • Inégalités
    • Vie privée
    • Nuisances : pourriel

Consentement

Le consentement doit être éclairé, tel qu'énoncé lors d'études cliniques par exemple

  • Revue par un comité d'éthique
  • Situations dans lesquelles ce n'est pas requis
    • AB testing: les deux choix sont également présentables par l'entreprise
  • Situation problématique
    • OK Cupid a menti à propos d'une expérience qui modifie le comportement du site web. The Guardian

Limites

  • analyse rétrospective vs collecte prospective

    • Les données n'ont pas été amassées pour l'usage qu'on veut maintenant en faire
  • Volonté d'améliorer le produit dans le cadre de pratiques habituelles

    • Et non faire des expériences pour le plaisir auprès des utilisateurs

Propriété des données

  • Place le droit d'enregistrer en opposition au droit de faire ce qu'on veut avec ensuite.
    • Prendre une photo et l'utiliser comme chantage
  • Droit d'auteur
    • Si on utilise les données et qu'on y mélange différentes sources externes et de la connaissance, on devient l'auteur d'une œuvre originale.
    • La source exacte des données et leur interprétation sont par nature floues
  • Le travail effectué pour amasser des données, les préparer et les nettoyer en fait la propriété du créateur du jeu de données.
    • La fondation Wikimedia possède le contenu de Wikipédia, et non ses usagers.
    • Ils pourraient charger un abonnement (Trip Advisor, …)

Enregistrement et utilisation

  • Lorsque les données sont à propos de nous, on doit avoir un certain pouvoir sur ce qui en est fait.

    • Ex. : l'enseignant mentionne "Rate My Professors"
  • Cas d'usage

    • Un chercheur possède les données de ses expériences. Un contrat légal peut en changer les conditions.
    • Caméra de surveillance : Consens à être filmé, mais pas à être diffusé
    • Agences de renseignement : ne connaissant pas les besoins d'avance donc enregistrent tout. L'usage doit être contrôlé (mandat)

Destruction

  • Lorsqu'une compagnie fait faillite, les données sont un actif.
  • Le contrat de protection des données doit survivre à l'entreprise.

Vie privée

  • Le panoptique (Wikipédia)
  • Rien à cacher... intimité
  • L'anonymat permet la démocratie

Histoire de la vie privée

Niveaux de vie privée

  • Le respect de la vie privée n'égale pas l'absence de mention
    • Secret professionnel
    • Un ami qui demande de l'aide pour toi (psychologue par exemple)
    • Collègues qui discutent d'un cas client
  • Données utilisées par le marchand qui les a accumulées
  • Exercice de contrôle (collecte vs usage)
    • Services gratuits avec publicité
    • Photos d'un évènement privé partagées par un ami
    • En donnant ton ADN, tu partages aussi celle de ta famille sans leur consentement

Risques modernes

  • Données ouvertes par les gouvernements
    • Elles peuvent être utilisées par des entités commerciales et enrichies par des courtiers de données
  • "Waste data" : copie d'une carte d'identité à des fins de vérification d'âge dans un bar
  • Métadonnées (Numéro de téléphone, adresse IP, MAC Address Bluetooth)
  • Sous-estimer le pouvoir de l'analyse de données. Compteur d'eau ou d'électricité, on sait quand tu prends ta douche...
  • Usage de données cryptées en étudiant le microprocesseur
  • Sans confiance, on a des contrats complexes. Nécessité de protection "par design".

Cas d'usages

  • Déterminer quand la publicité n'est plus utile et devient énervante
  • Censure d'évènements pour ne pas être pris en photo ou filmé (Naked mile)
  • Applications mobiles qui demandent beaucoup trop de permissions pour "rien" (pour partager à Facebook et Google en réalité)
  • BBB —Data Privacy Day

Anonymat

  • Recherches web permettant d'identifier quelqu'un.
  • AOL search data leak: 3 mois de données de navigation suffisent.

Dé-identification

  • Retrait des données d'identification personnelles d'un jeu de données
    • Pas évident de prime abord, mais assez facile à retrouver
    • Sexe, date de naissance, code postal = 87 % unique aux É.-U.
    • Netflix: User ID, horodateur, titre du film. Combiné avec IMDB, on a le match entre les deux et on peut identifier la personne.
  • Données sous la forme de graphe. On recherche des motifs.
  • Fuites :
    • Identité
    • Attributs cachés
    • Lien entre des entités
    • Appartenance à un groupe.
  • On peut voir ça comme une protection de base, comme barrer la porte en quittant sa maison.

Anonymat presque impossible

  • l'anonymat va être brisé
  • Solution la plus forte : ne pas publier les données
  • Mais des données sont souvent cruciales en recherche et pour la sécurité publique

Contrôle de l'identité

  • Les gens veulent plutôt pouvoir contrôler leur identité sur le web
  • Difficile à gérer

Validité des données

Unité de mesure

  • Erreur d'interprétation (3x vs 3 %)
  • Conversion mesurée en ventes ; en visites ; en impressions
  • Erreur d'échelle (lequel entre 1 ou 5 est la meilleure note ?)

Représentativité

  • Est-ce que les usagers de Twitter sont représentatifs de la population ?
  • données que l'on a vs les données que l'on aimerait avoir

Gestion du changement

  • Google Flu
  • Est-ce que réentrainer un modèle est suffisant ?
  • Loi de Campbell : Plus un indicateur est important, plus il est sujet à corrompre le processus qu'il cherche à surveiller. Assessing the impact of planned social change
  • Durée moyenne d'appel
  • Satisfaction client (NPS)
  • Mentir si on se sent écouté
    • Faux courriel

Erreurs dans les données

  • Deux personnes dans des bases de données différentes
  • Analyse de sentiments avec des textes incluant des sarcasmes
  • 26 % des consommateurs ont des erreurs dans les données servant à calculer leur score de crédit
    • Les corrections sont souvent faites seulement lorsqu'il y a un problème de remboursement
  • Un bon moyen de nettoyer des données est de les montrer au sujet
  • Acxion : Personnalise les publicités, mais le destinataire peut modifier les données pour recevoir celles ciblées pour un autre groupe

Erreurs dans les modèles

  • On choisit souvent le modèle le plus simple
  • Paradoxe de Simpson
    • Un phénomène observé de plusieurs groupes semble s'inverser lorsque les groupes sont combinés
    • Exemple : écart salarial

Impact social

  • Poids associés aux différentes mesures d'un algorithme (F-score, recall, precision, …)
    • Assumés égaux parce qu'on ne sait pas les mesurer
    • On pourrait faire mieux
  • Ossification
    • Biais de confirmation dans les médias
    • S'insère dans les algorithmes :
      • Reflète les biais du processus que l'on cherche à améliorer ou à remplacer
      • Si on change les processus, l'algorithme prendra beaucoup plus de temps à s'adapter
      • Ex. : Discrimination basée sur la distance entre la maison et le bureau dans la sélection des candidats en entrevue.
  • Exemples :
    • Nids de poule mieux détectés là où les gens ont des voitures et des téléphones intelligents
    • Predictive policing:
    • Score de crédit social (Chine)
      • Sesame Credit chez Alibaba
      • Historique d'achats
      • Partage d'articles critiques du gouvernement sur les médias sociaux
      • Algorithme privé et peu transparent
    • La surveillance de masse se fait par corrélation spatio-temporelle.
      • Exemple de Netflix et IMDB plus haut

Équité algorithmique

Biais

  • Le jeu d'entrainement n'est pas représentatif de la population
  • La population actuelle n'est pas représentative du futur.
  • Des processus concurrents mènent à de fausses corrélations.

Mauvaise analyse des données

  • Attributs corrélés
    • Discrimination raciale
    • Quotas de minorités contournés en échantillonnant par quartier
    • Pas difficile de trouver d'autres attributs avec un algorithme et beaucoup de données
  • Localisation des concurrents :
    • On offre de meilleurs prix que le concurrent lorsqu'il y en a un à proximité
    • Mais les concurrents sont seulement dans les quartiers aisés
  • P-hacking
    • Tests d'hypothèses parallèles, le pourcentage du p-valeur sera égal au pourcentage d'essais qui sont concluants par chance seulement
    • Nous avons les données avant de formuler l'hypothèse, elle peut dont être n'importe quoi que l'on veut prouver.
    • Puce à ADN

Code d'éthique

  • La réglementation n'est pas la bonne solution
    • La technologie est rapide et la législation est lente
    • Bon lorsqu'il y a un consensus social
  • Gouvernance
    • Les entreprises vont faire le strict minimum
  • Association professionnelle
    • Les professionnels ne veulent pas d'avocat pour décider à leur place
  • Sil est trop long ou couvre trop large, il ne sera pas facile à mémoriser ni appliquer
  • Proposition de l'enseignant :
    • Ne surprends pas
    • Sois responsable des résultats