Les principes FAIR

François Pelletier

28 novembre 2023

Les principes FAIR

Objectif

Rendre les données de recherche réutilisables par les individus et les machines.

Enjeux actuels avec les données

  • Données massives
  • Complexité des données
  • Trouver ce qui existe déjà
  • Déplacer et stocker les données

Données massives

- Volume - Variété - Vélocité - Véracité - Valeur

Complexité des données

  • Multidisciplinaires
  • Méthodes et instruments complexes
  • Logiciels et matériel requis
  • Environnement légal et éthique

Trouver ce qui existe déjà

  • Trouver un article
  • Télécharger l’article
    • Bibliothèque 📚,
    • Payer 💸
    • 🐦‍⬛

Trouver ce qui existe déjà

  • Trouver les données qui vont avec:
    • Pas évident 🧗
  • Ouvrir les données:
    • Surprise 🤡

Déplacer et stocker les données

  • Médias physiques: Livres, Microfiches, VHS, Disques 🦣︎
    • Enjeu de dégradation des supports
  • Logiciels partagés Microsoft 365: SharePoint, Teams, … 🌩︎
    • Enjeu de pérennité et d’authenticité
    • Risque de fouillis

Déplacer et stocker les données

  • Serveurs: VALERIA, Alliance (Calcul Canada), SFTP, GLOBUS, S3, GitLab, Pixel/Subversion 🖥︎
    • Enjeux d’accès, permissions, complexité … ça s’apprend, mais c’est moins intuitif !
    • En savoir plus après aujourd’hui !

Que signifie FAIR ?

Findable, Accessible, Interoperable, Reusable dans un diagramme de Venn. L’intersection est FAIR 

Définitions formelles

Qu’est-ce qui est concerné par FAIR?

Tous les actifs numériques produits par des activités de recherche

  • Données quantitatives et qualitatives
  • Figures
  • Multimédia
  • Texte
  • Code informatique
  • Protocole de recherche
  • Plans et instructions de fabrication

Findable (découvrable)

  • Identifiant unique
    • DOI: Digital object identifier
    • URI: Uniform Resource Identifier:
      • Pour tout ce qui est accessible sur le web
      • Inclus tous les fichiers et pages web
      • S’applique aussi à des concepts et des entités.
      • Fondement du web sémantique (web 3.0)

Findable (découvrable)

  • Métadonnées
    • Plus elles sont détaillées, plus elles renseignent les moteurs de recherche

Findable (découvrable)

  • Indexation
    • Dépôts de données
      • Borealis
      • Dataverse
      • Zenodo
      • CKAN - À installer sur son propre serveur. Utilisé dans plusieurs gouvernements dont le Canada, le Québec et la Ville de Montréal.

Findable (découvrable)

  • Indexation
    • Moteurs de recherche
    • Plateformes grand public
      • Data World - Dépôt de données commercial
      • Kaggle - Données de concours, la documentation et les métadonnées peuvent être limitées

Accessible (accessible)

Accessible (accessible)

  • Protocole d’accès aux métadonnées
    • Caractéristiques
      • Libre: Aucune restriction d’usage
      • Ouvert: Documenté
      • Universel: Utilisable avec plusieurs médias
    • Permission: Authentification et Autorisation
    • Exemples: HTTPS, FTP, Courriel, Téléphone, Poste

Accessible (accessible)

  • Métadonnées indépendantes des données
    • Si les données expirent ou on reçoit une demande de suppression, les métadonnées gardent trace
    • Publiques (si les données sont confidentielles)

Interoperable (interoperable)

  • Représentation des connaissances
    • Formalisé
    • Accessible
    • Partagé
    • Applicables à plusieurs contextes

Interoperable (interoperable)

crayola-excel.png

Interoperable (interoperable)

Interoperable (interoperable)

langfr-800px-Taxonomic_hierarchy.svg.png

Interoperable (interoperable)

Reusable (réutilisable)

  • Description riche
    • Pourquoi les données ont été collectées
    • Enjeux et limitations des données
    • Dates, conditions, personnel, paramètres de collecte
    • Données brutes ou traitées
    • Expliquer les noms des variables (si pas dans un vocabulaire contrôlé)
    • Version

Reusable (réutilisable)

  • Licence d’utilisation claire et accessible (interopérabilité légale)
  • Source
    • Références
    • Lignage (qui, quand, comment, avec quoi)
    • Code informatique de traitement
    • Encodage (ISO-8859-1, UTF-8 …)

Reusable (réutilisable)

  • Normes de pratique du domaine
    • Schémas de métadonnées
      • Mentionner quel standard suivent les données

Pourquoi appliquer les principes FAIR

  • Qualité des données
  • Revalorisation
  • Pérennité
  • Méta-analyses
  • Cycle de vie
  • Transparence

Qualité des données

  • Augmenter la qualité des données de recherche
    • Données complètes et intègres
    • Sources vérifiables
    • Validité (domaines de valeurs)
    • Temporalité (cycle de vie, on y revient)

Revalorisation

  • Créer des collections de données de recherche

Pérennité

  • Assurer la pérennité des résultats de recherche et des publications.
  • Reproductibilité
  • Autonomie dans l’usage de données de recherche

Méta-analyses

  • L’interopérabilité permet de faire des méta-analyses sans devoir convertir les données dans d’autres formats ou trouver des équivalences de vocabulaire

Cycle de vie

Génération, Collecte, Traitement, Entreposage, Gestion, Analyse, Visualisation, Interprétation 

Cycle de vie

  • Gestion de projet
  • Gestion des consentements (gouvernance)
  • Facilite l’élaboration de plan de gestion de données
  • Facilite la mise à jour des résultats (automatisation)

Transparence

  • Favoriser la reddition de compte et la demande de financement public
  • Augmenter la valeur et l’impact à long terme de la recherche
    • Réduire les rétractations
    • Améliorer l’opinion publique et l’acceptabilité sociale (surtout avec les données médicales, ex: Cancer)

Références

Licence

Les principes FAIR (c) par François Pelletier

Les principes FAIR est disponible sous la licence Creative Commons Attribution 4.0 International License. Vous devriez avoir reçu une copie de la licence avec cette oeuvre. Sinon, voir https://creativecommons.org/licenses/by/4.0/.