Les principes FAIR
François Pelletier
28 novembre 2023
Objectif
Rendre les données de recherche réutilisables par les individus et
les machines.
Enjeux actuels avec les données
- Données massives
- Complexité des données
- Trouver ce qui existe déjà
- Déplacer et stocker les données
Données massives
Données massives
- Volume
- Variété
- Vélocité
- Véracité
- Valeur
Complexité des données
- Multidisciplinaires
- Méthodes et instruments complexes
- Logiciels et matériel requis
- Environnement légal et éthique
Trouver ce qui existe déjà
- Trouver un article
- Télécharger l’article
- Bibliothèque 📚,
- Payer 💸
- 🐦⬛
Trouver ce qui existe déjà
- Trouver les données qui vont avec:
- Ouvrir les données:
Déplacer et stocker les données
À l’Université Laval, nous avons:
- Médias physiques: Livres, Microfiches, VHS, Disques
🦣︎
- Enjeu de dégradation des supports
- Serveurs: Sites web, FTP, GLOBUS, S3, GitLab,
Subversion 🖥︎
- Enjeux d’accès, permissions …
- Logiciels partagés Microsoft 365: SharePoint,
Teams, … 🌩︎
- Enjeu de persistance et d’authenticité
Que signifie FAIR ?
Que signifie FAIR ?
- Findable (découvrable)
- Accessible (accessible)
- Interoperable (interoperable)
- Reusable (réutilisable)
Qu’est-ce qui est concerné par FAIR?
Tous les actifs numériques produits par des activités de
recherche
- Données quantitatives et qualitatives
- Figures
- Multimédia
- Texte
- Code informatique
- Protocole de recherche
- Plans et instructions de fabrication
Findable (découvrable)
- Identifiant unique
- DOI: Digital object identifier
- URI: Uniform Resource Identifier:
- Pour tout ce qui est accessible sur le web
- Inclus tous les fichiers et pages web
- S’applique aussi à des concepts et des
entités.
- Fondement du web sémantique (web 3.0)
Findable (découvrable)
- Métadonnées
- Plus elles sont détaillées, plus elles renseignent
les moteurs de recherche
Findable (découvrable)
- Indexation
- Dépôts de données
- Borealis
- Dataverse
- Zenodo
- CKAN - À installer
sur son propre serveur. Utilisé dans plusieurs gouvernements dont le
Canada, le Québec et la Ville de Montréal.
Findable (découvrable)
- Indexation
- Moteurs de recherche
- Plateformes grand public
- Data World -
Dépôt de données commercial
- Kaggle -
Données de concours, la documentation et les métadonnées peuvent être
limitées
Accessible (accessible)
- Métadonnées
- Normalisées
- Identifiant unique
- Licence d’utilisation
Accessible (accessible)
- Protocole d’accès aux métadonnées
- Caractéristiques
- Libre: Aucune restriction d’usage
- Ouvert: Documenté
- Universel: Utilisable avec plusieurs médias
- Permission: Authentification et Autorisation
- Exemples: HTTPS, FTP, Courriel, Téléphone,
Poste
Accessible (accessible)
- Métadonnées indépendantes des données
- Si les données expirent ou on reçoit une demande de
suppression
- Sensibilité des données (confidentiel)
Interoperable (interoperable)
- Représentation des connaissances
- Formalisé
- Accessible
- Partagé
- Applicables à plusieurs contextes
Interoperable (interoperable)
- Vocabulaire
- (vient de la biologie, utilisé dans d’autres
sciences)
- Ontologies
- FAIR aussi (récursivité)
Interoperable (interoperable)
Interoperable (interoperable)
- Références
- Toile de données
- Concerne les données et les métadonnées
Reusable (réutilisable)
- Description riche
- Pourquoi les données ont été collectées
- Enjeux et limitations des données
- Dates, conditions, personnel, paramètres de
collecte
- Données brutes ou traitées
- Expliquer les noms des variables (si pas dans un
vocabulaire contrôlé)
- Version des données
Reusable (réutilisable)
- Licence d’utilisation claire et accessible
(interopérabilité légale)
- Source
- Références
- Lignage (qui, quand, comment, avec quoi)
- Code informatique de traitement
- Encodage (ISO-8859-1, UTF-8 …)
Reusable (réutilisable)
- Normes de pratique du domaine
- Schémas de métadonnées
- Mentionner quel standard suivent les données
Pourquoi appliquer les principes FAIR
- Qualité des données
- Revalorisation
- Pérennité
- Méta-analyses
- Cycle de vie
- Transparence
Qualité des données
- Augmenter la qualité des données de recherche
- Données complètes
- Intégrité des données
- Sources vérifiables
- Éliminer la duplication
- Validité (domaines de valeurs)
- Temporalité (âge des données)
Revalorisation
- Créer des collections de données de recherche
Pérennité
- Assurer la pérennité des résultats de recherche et
des publications.
- Reproductibilité
- Autonomie dans l’usage de données de recherche
Méta-analyses
- L’interopérabilité permet de faire des
méta-analyses sans devoir convertir les données dans d’autres formats ou
trouver des équivalences de vocabulaire
Cycle de vie
Cycle de vie
- Génération
- Collecte
- Traitement
- Entreposage
- Gestion
- Analyse
- Visualisation
- Interprétation
Cycle de vie
- Aider les chercheur.es à organiser leurs données
tout au long du cycle de vie
- Gestion des consentements
- Facilite l’élaboration de plan de gestion de
données
- Mise à jour des résultats
Transparence
- Favoriser la reddition de compte et la demande de
financement public
- Augmenter la valeur et l’impact à long terme de la
recherche
- Réduire les rétractations
- Opinion publique
Licence
Les principes FAIR (c) par François Pelletier
Les principes FAIR est disponible sous la licence Creative Commons
Attribution 4.0 International License. Vous devriez avoir reçu une copie
de la licence avec cette oeuvre. Sinon, voir https://creativecommons.org/licenses/by/4.0/.