8.8 KiB
author | title | date | fragments | parallaxBackgroundImage | parallaxBackgroundSize | title-slide-attributes | ||||
---|---|---|---|---|---|---|---|---|---|---|
François Pelletier | Les principes FAIR | 28 novembre 2023 | false | bg-slide.jpg | contain |
|
Les principes FAIR
Objectif
Rendre les données de recherche réutilisables par les individus et les machines.
Enjeux actuels avec les données
- Données massives
- Complexité des données
- Trouver ce qui existe déjà
- Déplacer et stocker les données
Données massives
Complexité des données
- Multidisciplinaires
- Méthodes et instruments complexes
- Logiciels et matériel requis
- Environnement légal et éthique
Trouver ce qui existe déjà
- Trouver un article
- Bibliothèque: Sofia 🎯
- Google Scholar
- arXiv
- Télécharger l'article
- Bibliothèque 📚,
- Payer 💸
- 🐦⬛
Trouver ce qui existe déjà
- Trouver les données qui vont avec:
- Pas évident 🧗
- Ouvrir les données:
- Surprise 🤡
Déplacer et stocker les données
- Médias physiques: Livres, Microfiches, VHS, Disques 🦣︎
- Enjeu de dégradation des supports
- Logiciels partagés Microsoft 365: SharePoint, Teams, ... 🌩︎
- Enjeu de pérennité et d'authenticité
- Risque de fouillis
Déplacer et stocker les données
- Serveurs: VALERIA, Alliance (Calcul Canada), SFTP, GLOBUS, S3, GitLab, Pixel/Subversion 🖥︎
- Enjeux d'accès, permissions, complexité ... ça s'apprend, mais c'est moins intuitif !
- En savoir plus après aujourd'hui !
Que signifie FAIR ?
![Findable, Accessible, Interoperable, Reusable dans un diagramme de Venn. L'intersection est FAIR](Principes FAIR.png "Principes FAIR"){ height=640px }\
Définitions formelles
- FAIR a été défini par Wilkinson, M. D. et al. (2016)
- Définition du Savoir Libre qui a inspiré FAIR, par l'Open Knowledge Foundation.
Qu'est-ce qui est concerné par FAIR?
Tous les actifs numériques produits par des activités de recherche
- Données quantitatives et qualitatives
- Figures
- Multimédia
- Texte
- Code informatique
- Protocole de recherche
- Plans et instructions de fabrication
Findable (découvrable)
- Identifiant unique
- DOI: Digital object identifier
- Pour des actifs numériques de recherche
- DOI Handbook
- URI: Uniform Resource Identifier:
- Pour tout ce qui est accessible sur le web
- Inclus tous les fichiers et pages web
- S'applique aussi à des concepts et des entités.
- Fondement du web sémantique (web 3.0)
- DOI: Digital object identifier
Findable (découvrable)
- Métadonnées
- Plus elles sont détaillées, plus elles renseignent les moteurs de recherche
- Schema.org: Guide de métadonnées et vocabulaires
- Wikidata: Un exemple de structure
- DataCite
- Plus elles sont détaillées, plus elles renseignent les moteurs de recherche
Findable (découvrable)
- Indexation
Findable (découvrable)
- Indexation
- Moteurs de recherche
- Plateformes grand public
- Data World - Dépôt de données commercial
- Kaggle - Données de concours, la documentation et les métadonnées peuvent être limitées
Accessible
- Métadonnées
- Normalisées (j'y reviens)
- Identifiant unique (URI, mentionné ci-haut)
- Licence d'utilisation
Accessible
- Protocole d'accès aux métadonnées
- Caractéristiques
- Libre: Aucune restriction d'usage
- Ouvert: Documenté
- Universel: Utilisable avec plusieurs médias
- Permission: Authentification et Autorisation
- Exemples: HTTPS, FTP, Courriel, Téléphone, Poste
- Caractéristiques
Accessible
- Métadonnées indépendantes des données
- Si les données expirent ou on reçoit une demande de suppression, les métadonnées gardent trace
- Publiques (si les données sont confidentielles)
Interoperable
- Représentation des connaissances
- Formalisé
- Accessible
- Partagé
- Applicables à plusieurs contextes
Interoperable
Interoperable
- Formats de données ouverts
- Référentiel général d'interopérabilité (France)
- CSV, JSON, XML, formats spécialisés (DICOM en médecine)
- Dites non aux fichiers Excel "Crayola" Junk Charts
Interoperable
Interoperable
- Vocabulaire
- Taxonomie (vient de la biologie, utilisé dans d'autres sciences)
- Ontologies
- FAIR aussi (récursivité)
- Enjeu souvent rencontré, le papier existe, l'ontologie n'a jamais été publiée 😭
Reusable (réutilisable)
- Description riche
- Pourquoi les données ont été collectées
- Enjeux et limitations des données
- Dates, conditions, personnel, paramètres de collecte
- Données brutes ou traitées
- Expliquer les noms des variables (si pas dans un vocabulaire contrôlé)
- Version
Reusable (réutilisable)
- Licence d'utilisation claire et accessible (interopérabilité légale)
- Source
- Références
- Lignage (qui, quand, comment, avec quoi)
- Code informatique de traitement
- Encodage (ISO-8859-1, UTF-8 ...)
Reusable (réutilisable)
- Normes de pratique du domaine
- Schémas de métadonnées
- Mentionner quel standard suivent les données
- Schémas de métadonnées
Pourquoi appliquer les principes FAIR
- Qualité des données
- Revalorisation
- Pérennité
- Méta-analyses
- Cycle de vie
- Transparence
Qualité des données
- Augmenter la qualité des données de recherche
- Données complètes et intègres
- Sources vérifiables
- Validité (domaines de valeurs)
- Temporalité (cycle de vie, on y revient)
Revalorisation
- Créer des collections de données de recherche
Pérennité
- Assurer la pérennité des résultats de recherche et des publications.
- Reproductibilité
- Autonomie dans l'usage de données de recherche
Méta-analyses
- L'interopérabilité permet de faire des méta-analyses sans devoir convertir les données dans d'autres formats ou trouver des équivalences de vocabulaire
Cycle de vie
![Génération, Collecte, Traitement, Entreposage, Gestion, Analyse, Visualisation, Interprétation](Cycle de vie des données.png "Cycle de vie des données"){ height=640px }\
Cycle de vie
- Gestion de projet
- Gestion des consentements (gouvernance)
- Facilite l'élaboration de plan de gestion de données
- Facilite la mise à jour des résultats (automatisation)
Transparence
- Favoriser la reddition de compte et la demande de financement public
- Augmenter la valeur et l'impact à long terme de la recherche
- Réduire les rétractations
- Améliorer l'opinion publique et l'acceptabilité sociale (surtout avec les données médicales, ex: Cancer)
Références
- Wilkinson, M. D. et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci. Data 3:160018 doi: https://dx.doi.org/10.1038/sdata.2016.18 (2016).
- Open Knowledge Foundation. Définition du Savoir Libre. Version: 1.1 https://opendefinition.org/od/1.1/fr/
- Go FAIR. FAIR Principles https://www.go-fair.org/fair-principles/
- OpenAIRE. How to make your data FAIR. https://www.openaire.eu/how-to-make-your-data-fair
Licence
Les principes FAIR (c) par François Pelletier
francois.pelletier.6@ulaval.ca
Les principes FAIR est disponible sous la licence Creative Commons Attribution 4.0 International License. Vous devriez avoir reçu une copie de la licence avec cette oeuvre. Sinon, voir https://creativecommons.org/licenses/by/4.0/.