--- author: François Pelletier title: Les principes FAIR date: 28 novembre 2023 fragments: false --- ## Les principes FAIR ## Objectif Rendre les données de recherche réutilisables par les individus et les machines. ## Enjeux actuels avec les données - Données massives - Complexité des données - Trouver ce qui existe déjà - Déplacer et stocker les données ## Données massives ![donnees-massives.drawio.svg](donnees-massives.drawio.svg){ height=512px }\ ## Données massives - Volume - Variété - Vélocité - Véracité - Valeur ## Complexité des données - Multidisciplinaires - Méthodes et instruments complexes - Logiciels et matériel requis - Environnement légal et éthique ## Trouver ce qui existe déjà - Trouver un article - Bibliothèque: [Sofia](https://www.bibl.ulaval.ca/) 🎯 - [Google Scholar](https://scholar.google.ca/) - [arXiv](https://arxiv.org/) - Télécharger l'article - Bibliothèque 📚, - Payer 💸 - 🐦‍⬛ ## Trouver ce qui existe déjà - Trouver les données qui vont avec: - Pas évident 🧗 - Ouvrir les données: - Surprise 🤡 ## Déplacer et stocker les données À l'Université Laval, nous avons: - Médias physiques: Livres, Microfiches, VHS, Disques 🦣︎ - Enjeu de dégradation des supports - Serveurs: Sites web, FTP, GLOBUS, S3, GitLab, Subversion 🖥︎ - Enjeux d'accès, permissions ... - Logiciels partagés Microsoft 365: SharePoint, Teams, ... 🌩︎ - Enjeu de persistance et d'authenticité ## Que signifie FAIR ? ![Principes FAIR.drawio.svg](Principes%20FAIR.drawio.svg){ height=512px }\ ## Que signifie FAIR ? - **F**indable (découvrable) - **A**ccessible (accessible) - **I**nteroperable (interoperable) - **R**eusable (réutilisable) ## Définitions formelles - FAIR a été défini par [Wilkinson, M. D. et al. (2016)](https://www.nature.com/articles/sdata201618) - Le concept d'Open Data est défini par l'Open Knowledge Foundation, via la [Définition du Savoir Libre](https://opendefinition.org/od/1.1/fr/). ## Qu'est-ce qui est concerné par FAIR? Tous les actifs numériques produits par des activités de recherche - Données quantitatives et qualitatives - Figures - Multimédia - Texte - Code informatique - Protocole de recherche - Plans et instructions de fabrication ## Findable (découvrable) - Identifiant unique - DOI: Digital object identifier - Pour des actifs numériques de recherche - [DOI Handbook](https://doi.org/10.1000/182) - URI: Uniform Resource Identifier: - Pour tout ce qui est accessible sur le web - Inclus tous les fichiers et pages web - S'applique aussi à des concepts et des entités. - Fondement du [web sémantique (web 3.0)](https://www.w3.org/2001/sw/) ## Findable (découvrable) - Métadonnées - Plus elles sont détaillées, plus elles renseignent les moteurs de recherche - [Schema.org](https://schema.org/): Guide de métadonnées et vocabulaires - [Wikidata](https://www.wikidata.org/): Un exemple de structure - [DataCite](https://schema.datacite.org/) ## Findable (découvrable) - Indexation - Dépôts de données - [Borealis](https://borealisdata.ca/) - [Dataverse](https://dataverse.org/) - [Zenodo](https://zenodo.org/) - [CKAN](https://ckan.org/) - À installer sur son propre serveur. Utilisé dans plusieurs gouvernements dont le Canada, le Québec et la Ville de Montréal. ## Findable (découvrable) - Indexation - Moteurs de recherche - [Google Datasets](https://datasetsearch.research.google.com/) - Plateformes grand public - [Data World](https://data.world/) - Dépôt de données commercial - [Kaggle](https://www.kaggle.com/) - Données de concours, la documentation et les métadonnées peuvent être limitées ## Accessible (accessible) - Métadonnées - Normalisées - Identifiant unique - Licence d'utilisation - [Open Database License](https://opendatacommons.org/licenses/odbl/) - [Creative Commons License](https://creativecommons.org/share-your-work/cclicenses/) ## Accessible (accessible) - Protocole d'accès aux métadonnées - Caractéristiques - Libre: Aucune restriction d'usage - Ouvert: Documenté - Universel: Utilisable avec plusieurs médias - Permission: Authentification et Autorisation - Exemples: HTTPS, FTP, Courriel, Téléphone, Poste ## Accessible (accessible) - Métadonnées indépendantes des données - Si les données expirent ou on reçoit une demande de suppression - Sensibilité des données (confidentiel) ## Interoperable (interoperable) - Représentation des connaissances - Formalisé - Accessible - Partagé - Applicables à plusieurs contextes ## Interoperable (interoperable) - Vocabulaire - (vient de la biologie, utilisé dans d'autres sciences) - Ontologies - [BioPortal](https://bioportal.bioontology.org/ontologies) - [EU Semantic Interoperability Catalogue](https://joinup.ec.europa.eu/collection/eu-semantic-interoperability-catalogue) - [Logiciel Protégé](https://protege.stanford.edu/) - FAIR aussi (récursivité) ## Interoperable (interoperable) ![langfr-800px-Taxonomic_hierarchy.svg.png](langfr-800px-Taxonomic_hierarchy.svg.png){ height=512px }\ ## Interoperable (interoperable) - Références - Identifiants uniques - Toile de données - Linked Data - Concerne les données et les métadonnées ## Reusable (réutilisable) - Description riche - Pourquoi les données ont été collectées - Enjeux et limitations des données - Dates, conditions, personnel, paramètres de collecte - Données brutes ou traitées - Expliquer les noms des variables (si pas dans un vocabulaire contrôlé) - Version des données ## Reusable (réutilisable) - Licence d'utilisation claire et accessible (interopérabilité légale) - Source - Références - Lignage (qui, quand, comment, avec quoi) - Code informatique de traitement - Encodage (ISO-8859-1, UTF-8 ...) ## Reusable (réutilisable) - Normes de pratique du domaine - Schémas de métadonnées - Mentionner quel standard suivent les données ## Pourquoi appliquer les principes FAIR - Qualité des données - Revalorisation - Pérennité - Méta-analyses - Cycle de vie - Transparence ## Qualité des données - Augmenter la qualité des données de recherche - Données complètes - Intégrité des données - Sources vérifiables - Éliminer la duplication - Validité (domaines de valeurs) - Temporalité (âge des données) ## Revalorisation - Créer des collections de données de recherche ## Pérennité - Assurer la pérennité des résultats de recherche et des publications. - Reproductibilité - Autonomie dans l'usage de données de recherche ## Méta-analyses - L'interopérabilité permet de faire des méta-analyses sans devoir convertir les données dans d'autres formats ou trouver des équivalences de vocabulaire ## Cycle de vie ![Cycle de vie des données.drawio.svg](Cycle%20de%20vie%20des%20donn%C3%A9es.drawio.svg){ height=512px }\ ## Cycle de vie - Génération - Collecte - Traitement - Entreposage - Gestion - Analyse - Visualisation - Interprétation ## Cycle de vie - Aider les chercheur.es à organiser leurs données tout au long du cycle de vie - Gestion des consentements - Facilite l'élaboration de plan de gestion de données - Mise à jour des résultats ## Transparence - Favoriser la reddition de compte et la demande de financement public - Augmenter la valeur et l'impact à long terme de la recherche - Réduire les rétractations - Opinion publique ## Références - Wilkinson, M. D. et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci. Data 3:160018 doi: (2016). - Open Knowledge Foundation. Définition du Savoir Libre. Version: 1.1 ## Références - Go FAIR. FAIR Principles - OpenAIRE. How to make your data FAIR. ## Licence Les principes FAIR (c) par François Pelletier Les principes FAIR est disponible sous la licence Creative Commons Attribution 4.0 International License. Vous devriez avoir reçu une copie de la licence avec cette oeuvre. Sinon, voir .