--- author: François Pelletier title: Les principes FAIR date: 28 novembre 2023 fragments: false parallaxBackgroundImage: bg-slide.jpg parallaxBackgroundSize: contain title-slide-attributes: data-background-image: bg-cover.jpg data-background-size: contain --- ## Les principes FAIR ## Objectif Rendre les données de recherche réutilisables par les individus et les machines. ## Enjeux actuels avec les données - Données massives - Complexité des données - Trouver ce qui existe déjà - Déplacer et stocker les données ## Données massives ![- Volume - Variété - Vélocité - Véracité - Valeur](donnees-massives.png "Les 5 V des données massives"){ height=640px }\ ## Complexité des données - Multidisciplinaires - Méthodes et instruments complexes - Logiciels et matériel requis - Environnement légal et éthique ## Trouver ce qui existe déjà - Trouver un article - Bibliothèque: [Sofia](https://www.bibl.ulaval.ca/) 🎯 - [Google Scholar](https://scholar.google.ca/) - [arXiv](https://arxiv.org/) - Télécharger l'article - Bibliothèque 📚, - Payer 💸 - 🐦‍⬛ ## Trouver ce qui existe déjà - Trouver les données qui vont avec: - Pas évident 🧗 - Ouvrir les données: - Surprise 🤡 ## Déplacer et stocker les données - Médias physiques: Livres, Microfiches, VHS, Disques 🦣︎ - Enjeu de dégradation des supports - Logiciels partagés Microsoft 365: SharePoint, Teams, ... 🌩︎ - Enjeu de pérennité et d'authenticité - Risque de fouillis ## Déplacer et stocker les données - Serveurs: VALERIA, Alliance (Calcul Canada), SFTP, GLOBUS, S3, GitLab, Pixel/Subversion 🖥︎ - Enjeux d'accès, permissions, complexité ... ça s'apprend, mais c'est moins intuitif ! - En savoir plus après aujourd'hui ! ## Que signifie FAIR ? ![Findable, Accessible, Interoperable, Reusable dans un diagramme de Venn. L'intersection est FAIR](Principes FAIR.png "Principes FAIR"){ height=640px }\ ## Définitions formelles - FAIR a été défini par [Wilkinson, M. D. et al. (2016)](https://www.nature.com/articles/sdata201618) - [Définition du Savoir Libre](https://opendefinition.org/od/1.1/fr/) qui a inspiré FAIR, par l'Open Knowledge Foundation. ## Qu'est-ce qui est concerné par FAIR? Tous les actifs numériques produits par des activités de recherche - Données quantitatives et qualitatives - Figures - Multimédia - Texte - Code informatique - Protocole de recherche - Plans et instructions de fabrication ## Findable (découvrable) - Identifiant unique - DOI: Digital object identifier - Pour des actifs numériques de recherche - [DOI Handbook](https://doi.org/10.1000/182) - URI: Uniform Resource Identifier: - Pour tout ce qui est accessible sur le web - Inclus tous les fichiers et pages web - S'applique aussi à des concepts et des entités. - Fondement du [web sémantique (web 3.0)](https://www.w3.org/2001/sw/) ## Findable (découvrable) - Métadonnées - Plus elles sont détaillées, plus elles renseignent les moteurs de recherche - [Schema.org](https://schema.org/): Guide de métadonnées et vocabulaires - [Wikidata](https://www.wikidata.org/): Un exemple de structure - [DataCite](https://schema.datacite.org/) ## Findable (découvrable) - Indexation - Dépôts de données - [Borealis](https://borealisdata.ca/) - [Dataverse](https://dataverse.org/) - [Zenodo](https://zenodo.org/) - [CKAN](https://ckan.org/) - À installer sur son propre serveur. Utilisé dans plusieurs gouvernements dont le Canada, le Québec et la Ville de Montréal. ## Findable (découvrable) - Indexation - Moteurs de recherche - [Google Datasets](https://datasetsearch.research.google.com/) - Plateformes grand public - [Data World](https://data.world/) - Dépôt de données commercial - [Kaggle](https://www.kaggle.com/) - Données de concours, la documentation et les métadonnées peuvent être limitées ## Accessible - Métadonnées - **Normalisées** (j'y reviens) - Identifiant **unique** (URI, mentionné ci-haut) - **Licence** d'utilisation - [Open Database License](https://opendatacommons.org/licenses/odbl/) - [Creative Commons License](https://creativecommons.org/share-your-work/cclicenses/) ## Accessible - Protocole d'accès aux métadonnées - Caractéristiques - **Libre**: Aucune restriction d'usage - **Ouvert**: Documenté - **Universel**: Utilisable avec plusieurs médias - Permission: Authentification et Autorisation - Exemples: HTTPS, FTP, Courriel, Téléphone, Poste ## Accessible - Métadonnées indépendantes des données - Si les données expirent ou on reçoit une demande de suppression, les métadonnées gardent trace - Publiques (si les données sont confidentielles) ## Interoperable - Représentation des connaissances - Formalisé - Accessible - Partagé - Applicables à plusieurs contextes ## Interoperable ![crayola-excel.png](crayola-excel.png) ## Interoperable - Formats de données ouverts - [Référentiel général d'interopérabilité (France)](https://www.numerique.gouv.fr/publications/interoperabilite/) - CSV, JSON, XML, formats spécialisés (DICOM en médecine) - Dites non aux fichiers Excel "Crayola" [Junk Charts](https://junkcharts.typepad.com/junk_charts/) ## Interoperable ![langfr-800px-Taxonomic_hierarchy.svg.png](langfr-800px-Taxonomic_hierarchy.svg.png){ height=640px }\ ## Interoperable - Vocabulaire - Taxonomie (vient de la biologie, utilisé dans d'autres sciences) - Ontologies - [BioPortal](https://bioportal.bioontology.org/ontologies) - [EU Semantic Interoperability Catalogue](https://joinup.ec.europa.eu/collection/eu-semantic-interoperability-catalogue) - [Logiciel Protégé](https://protege.stanford.edu/) - FAIR aussi (récursivité) - Enjeu souvent rencontré, le papier existe, l'ontologie n'a jamais été publiée 😭 ## Reusable (réutilisable) - Description riche - **Pourquoi** les données ont été collectées - **Enjeux et limitations** des données - **Dates, conditions, personnel, paramètres** de collecte - Données **brutes ou traitées** - **Expliquer les noms des variables** (si pas dans un vocabulaire contrôlé) - Version ## Reusable (réutilisable) - Licence d'utilisation claire et accessible (interopérabilité légale) - Source - Références - Lignage (qui, quand, comment, avec quoi) - Code informatique de traitement - Encodage (ISO-8859-1, UTF-8 ...) ## Reusable (réutilisable) - Normes de pratique du domaine - Schémas de métadonnées - Mentionner quel standard suivent les données ## Pourquoi appliquer les principes FAIR - Qualité des données - Revalorisation - Pérennité - Méta-analyses - Cycle de vie - Transparence ## Qualité des données - Augmenter la qualité des données de recherche - Données complètes et intègres - Sources vérifiables - Validité (domaines de valeurs) - Temporalité (cycle de vie, on y revient) ## Revalorisation - Créer des collections de données de recherche ## Pérennité - Assurer la pérennité des résultats de recherche et des publications. - Reproductibilité - Autonomie dans l'usage de données de recherche ## Méta-analyses - L'interopérabilité permet de faire des méta-analyses sans devoir convertir les données dans d'autres formats ou trouver des équivalences de vocabulaire ## Cycle de vie ![Génération, Collecte, Traitement, Entreposage, Gestion, Analyse, Visualisation, Interprétation](Cycle de vie des données.png "Cycle de vie des données"){ height=640px }\ ## Cycle de vie - Gestion de projet - Gestion des consentements (gouvernance) - Facilite l'élaboration de plan de gestion de données - Facilite la mise à jour des résultats (automatisation) ## Transparence - Favoriser la reddition de compte et la demande de financement public - Augmenter la valeur et l'impact à long terme de la recherche - Réduire les rétractations - Améliorer l'opinion publique et l'acceptabilité sociale (surtout avec les données médicales, ex: Cancer) ## Références - Wilkinson, M. D. et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci. Data 3:160018 doi: (2016). - Open Knowledge Foundation. Définition du Savoir Libre. Version: 1.1 - Go FAIR. FAIR Principles - OpenAIRE. How to make your data FAIR. ## Licence Les principes FAIR (c) par François Pelletier [francois.pelletier.6@ulaval.ca](mailto:francois.pelletier.6@ulaval.ca) Les principes FAIR est disponible sous la licence Creative Commons Attribution 4.0 International License. Vous devriez avoir reçu une copie de la licence avec cette oeuvre. Sinon, voir .