notes-michiganx-ds101x-ethi.../README.md
2019-01-23 16:06:05 -05:00

12 KiB

Données et éthique

Cette présentation est un résumé de mes notes prises dans le cours en ligne (MOOC) sur edX MichiganX: DS101x

Introduction

Motivation

Pourquoi les scientifiques de données doivent s'intéresser à l'aspect éthique de leur travail'

  1. Pour ne pas se faire dire quoi faire par des gens hors du domaine (avocats par exemple)
  2. Révolution industrielle => impacts environnementaux ... Révolution des données => Impacts sociaux

Éthique

  • La moralité définit ce qui est bon
  • Il est difficile d'appliquer la moralité aux entreprises
  • Il existe plusieurs problèmes éthiques, mais ils sont trop difficiles pour une introduction (ex: Voiture autonome qui doit frapper un étudiant ou une dame agée)
  • Cadre utilitariste: suffisamment simple pour les besoins du cours

Data science

  • Offre une meilleure façon de faire les choses
  • Conséquences:
    • Inégalités
    • Vie privée
    • Nuisances: spam par courriel

Consentement

Le consentement doit être éclairé, tel qu'énoncé lors d'études cliniques par exemple

  • Revue par un comité d'éthique
  • Situation dans lesquelles ce n'est pas requis
    • AB testing: les deux choix sont jugés également présentables par l'entreprise
  • Situation problématique
    • OK Cupid: Menti à propos d'une expérience qui modifie le comportement du site web (The Guardian)

Limites

  • analyse rétrospective vs. collecte prospective

    • Les données n'ont pas été amassées pour l'usage qu'on veut maintenant en faire
  • Volonté d'améliorer le produit dans le cadre de pratiques habituelles

    • Et non faire des expériences pour le plaisir auprès des utilisateurs

Propriété des données

  • Droit d'enregistrer en opposition au droit de faire ce qu'on veut avec.
    • Prendre une photo et l'utiliser comme chantage
  • Droit d'auteur
    • Si on utilise les données et qu'on y mélange différentes sources externes et de la connaissance, on devient l'auteur d'une oeuvre originale.
    • La source exacte des données et leur interprétation est par nature floue
  • Le travail d'amasser des donnéesm de les préparer et de les nettoyer en fait la propriété du créateur du jeu de données.
    • La fondation Wikimedia possède le contenu de Wikipédia, et non ses usagers.
    • Ils pourraient charger un abonnement (Trip Advisor, ...)

Enregistrement et utilisation

Lorsque les données sont à propos de nous, on doit avoir un certain pouvoir sur ce qui en est fait.

  • Ex: l'enseignant mentionne "Rate My Professors"

Cas d'usage

  • Un chercheur possède les données de ses expériences. Un contrat légal peut en changer les conditions.
  • Caméra de surveillance: Consent à être filmé, mais pas à être diffusé
  • Agences de renseignement: ne connaissent pas les besoins d'avance donc enregistrent tout. L'usage doit être contrôlé (mandat)

Destruction

  • Lorsqu'une compagnie fait faillite, les données sont un actif.
  • Le contrat de protection des données doit survivre à l'entreprise.

Vie privée

  • Le panoptique (Wikipedia)
  • Rien à cacher ... intimité
  • L'anonymat permet la démocratie

Histoire de la vie privée

Niveaux de vie privée

  • Le respect de la vie privée n'égale pas l'absence de mention
    • Secret professionnel
    • Un ami qui demande de l'aide pour toi (psychologue par exemple)
    • Collègues qui discutent d'un cas client
  • Données utilisées par le marchand qui les a accumulées
  • Exercice de contrôle (collecte vs. usage)
    • Services gratuits avec publicité
    • Photos d'un évènement privé partagées par un ami
    • En donnant ton ADN, tu partage aussi celle de ta famille sans leur consentement

Risques modernes

  • Données ouvertes par les gouvernements
    • Peuvent être utilisées par des entités commerciales et enrichies par des courtiers de données
  • "Waste data": copie d'une carte d'identité à des fins de vérification d'âge dans un bar
  • Métadonnées (Numéro de téléphone, adresse IP, MAC Address Bluetooth)
  • Sous-estimer le pouvoir de l'analyse de données. Compteur d'eau ou d'électricité, on sait quand tu prends ta douche, ...
  • Usage de données encryptées en étudiant le CPU
  • Sans confiance, on a des contrats complexes. Nécessité de protection "par design".

Cas d'usages

  • Déterminer quand la publicité d'est plus utile et devient énervante
  • Censure d'évènements pour ne pas être pris en photo ou filmé (Naked mile)
  • Applications mobiles qui demandent beaucoup trop de permissions pour "rien" (pour partager à Facebook et Google en réalité)
  • BBB - Data Privacy Day

Anonymat

  • Recherches web permettant d'identifier quelqu'un.
  • AOL search data leak: 3 mois de données de navigation suffisent.

Dé-identification

  • Retrait des données d'identification personnelles d'un jeu de données
    • Pas évident de prime abord, mais assez facile à retrouver
    • Sexe, date de naissance, code postal = 87% unique aux USA
    • Netflix: User ID, horodateur, titre du film. Combiné avec IMDB, on a le match entre les deux et on peut identifier la personne.
  • Données sous la forme de graphe. On recherche des motifs.
  • Fuites:
    • Identité
    • Attributs cachés
    • Lien entre des entités
    • Appartenance à un groupe
  • voir ça comme une protection de base, comme barrer la porte en quittant sa maison.

Anonymat presque impossible

  • l'anonymat va être brisé
  • Solution la plus forte: ne pas publier les données
  • Mais des données sont souvent cruciales en recherche et pour la sécurité publique

Contrôle de l'identité

  • Les gens veulent plutôt pouvoir contrôler leur identité sur le web
  • Difficile à gérer

Validité des données

Unité de mesure

  • Erreur d'interprétation (3x vs 3%)
  • Conversion mesurée en ventes vs. en visites vs. en impressions
  • Erreur d'échelle (1 ou 5 est la meilleur note?)

Représentativité

  • Est-ce que les usagers de Twitter sont représentatifs de la population?
  • données que l'on vs. les données que l'on aimerait avoir

Gestion du changement

  • Google Flu
  • Est-ce que réentrainer un modèle est suffisant?
  • Loi de Campbell: Plus un indicateur est important, plus il est sujet à corrompre le processus qu'il cherche à surveiller. Assessing the impact of planned social change
    • Durée moyenne d'appel
    • Satisfaction client (NPS)
  • Mentir si on se sent écouté
    • Faux courriel

Erreurs dans les données

  • Deux personnes dans des bases de données différentes
  • Analyse de sentiments avec des textes incluant des sarcasmes
  • 26% des consommateurs ont des erreurs dans les données servant à calculer leur score de crédit
    • Les corrections sont souvent faites seulement lorsqu'il y a un problème de remboursement
  • Un bon moyen de nettoyer des données est de les montrer au sujet
  • Acxion: Personnalise les publicités, mais le destinataire peur modifier les données pour recevoir celles ciblées pour un autre groupe

Erreurs dans les modèles

  • On choisit souvent le modèle le plus simple
  • Paradoxe de Simpson
    • Un phénomène observé de plusieurs groupes semble s'inverser lorsque les groupes sont combinés
    • Exemple: écart salarial

Impact social

  • Poids associés aux différentes mesures d'un algorithme (F-score, recall, precision, ...)
    • Assumés égaux parce qu'on ne sait pas les mesurer
    • On pourrait faire mieux
  • Ossification
    • Biais de confirmation dans les médias
    • S'insère dans les algorithmes:
      • Reflète les biais du processus que l'on cherche à améliorer ou à remplacer
      • Si on change les processus, l'argorithme prendra beaucoup plus de temps à s'adapter
      • Ex: Discrimination basée sur la distance entre la maison et le bureau. Dans la sélection des candidats en entrevue.
  • Exemples:
    • Nids de poule mieux détectés là ou les gens ont des voitures et des téléphones intelligents
    • Predictive policing
    • Score de crédit social (Chine)
      • Sesame Credit chez Alibaba
      • Historique d'achats
      • Partage d'articles critiques du gouvernement sur les médias sociaux
      • Algorithme privé et peu transparent
    • Surveillance de masse par corrélation spatio-temporelle.
      • Exemple de Netflix et IMDB plus haut

Équité algorithmique

Biais

  • Le jeu d'entrainement n'est pas représentatif de la population
  • La population actuelle n'est pas représentative de la population future
  • Processus concurrents qui mènent à de fausses corrélations

Mauvaise analyse des données

  • Attributs corrélés
    • Discrimination raciale
    • Quotas de minorités contournés en échantillonant par quartier
    • Pas difficile de trouver d'autres attributs avec un algorithme et beaucoup de données
  • Localisation des concurrents:
    • Meilleurs prix que le concurrent lorsqu'il y en a une à proximité
    • Mais les concurrents sont seulement dans les quartiers aisés
  • P-hacking
    • Tests d'hypothèses en parallèle, le pourcentage de la p-value sera le pourcentage d'essais qui sont concluants par chance seulement
    • Nous avons les données avant de formuler l'hypothèse, on peut formuler n'importe quoi comme hypothèse
    • Puce à ADN

Code d'éthique

  • La réglementation n'est pas la bonne solution
    • La technologie est rapide et la législation est lente
    • Bon lorsqu'il y a un consensus social
  • Gouvernance
    • Les entreprises vont faire le strict minimum
  • Association professionnelle
    • Les professionnels ne veulent pas d'avocats pour décider à leur place
  • Si trop long ou couvre trop large, il ne sera pas facile à mémoriser ni appliquer
  • Proposition de l'enseignant:
    • Ne surprends pas
    • Sois responsable des résultats