Action Gestion de métadonnées sur des espaces de stockage

Motivations

  • Répondre aux enjeux de l’organisation, de la documentation, du stockage et du partage des données d’un site, d’un projet ou d’un collectif (unité de recherche, plateforme…).
  • S’inscrire dans une démarche qualité de science ouverte pour le partage et la reproductibilité.

Objectifs

  • Avoir une visibilité de ce qui est produit au sein du collectif : ensembles de données, logiciels, bases de données, images, sons, vidéos, analyses, codes…
  • Proposer une alternative/complément aux dépôts de données externes ou autres entrepôts thématiques pour avoir connaissance et accès à TOUTES les données, pas seulement celles qui sont publiées
  • Favoriser le FAIR (au moins les critères Findable & Accessible) au sein du collectif
  • Sensibiliser les nouveaux arrivants et les étudiants à une meilleure description de ce qu’ils produisent

Méthodologie

  • Ajout de métadonnées au sein des répertoires de données afin de pouvoir retrouver plus facilement des projets et/ou des données :
    • L’idée centrale est de faire en sorte que l’espace de stockage devienne le référentiel de données, et ce sont donc les métadonnées qui doivent aller vers les données et non l’inverse
    • Le choix s’est porté sur le format JSON qui est très approprié pour décrire des métadonnées, lisibles tant par les humains que par les machines
    • En revanche, la production de fichiers au format JSON étant délicate, une interface web permet de les créer
    • Utilisation de métadonnées basées sur un vocabulaire contrôlé spécifié par le gestionnaire de données d’une structure (unité, plateforme…)
  • Le paramétrage complet d’un profil de métadonnées (sections, champs, type) ainsi que les listes des terminologies prédéfinies éventuelles se fait à l’aide d’un fichier tabulé pouvant être produit facilement à partir d’un tableur type MS Excel

Production

  • Mise à disposition dans un dépôt (Github/Gitlab) d’une infrastructure logicielle permettant la mise en place d’une interface de saisie des métadonnées. Celle-ci permet de décrire l’ensemble des jeux de données (via leurs métadonnées) produits par la structure. Cette interface permet donc de:
    • Décrire un jeu de données à l’aide de métadonnées de différents types (Description)
    • Rechercher des jeux de données à partir de leurs métadonnées (Accessibilité)
  • Tests sur des Use-cases
    • Avec différents profils
    • Avec différents type d’espace de stockage (local, NextCloud, NAS, NFS… )
  • Use-Case 1 :
    • Gestion des métadonnées descriptives de données gérées par l’UMR Biodiversité Gènes et Communautés (BioGECO)
    • Origine des données
  • Use-Case 2 :
    • Gestion des métadonnées descriptives de données gérées par ODAM
    • PROD : Les données et les métadonnées sont directement copiées dans l’espace d’une machine virtuelle (INRAE Ariane Toulouse)
    • TEST : Les métadonnées descriptives uniquement sont copiées dans un espace NextCloud (INRAE Ariane Paris) alors que la machine virtuelle est hébergée ailleurs (INRAE Ariane Toulouse)
  • Use-Case 3 :
    • Infrastructure Nationale de Recherche pour la lutte contre les maladies infectieuses animales émergentes ou zoonotiques par l’exploration in vivo (Emerg’IN, https://www.emergin.fr/)
    • Plateforme d’infectiologie expérimentale : Gestion des métadonnées descriptives de données gérées par ODAM (https://inrae.github.io/ODAM/)
    • PROD : Les données et les métadonnées sont directement copiées dans l’espace d’une machine virtuelle (INRAE Ariane Paris)
    • Accès en intranet actuellement (accès en internet prévu ultérieurement)

Perspectives

  • Atelier(s) lors des journées RDO
  • Mettre en place une gestion de profils (par domaine et/ou site) dans le cadre de projets à long terme impliquant un vaste collectif
  • Aller vers le « machine-actionable » : Pré-remplir un jeu de données dans le dataverse INRAE DATA (via API), en établissant un mapping du fichier JSON de métadonnées vers un format JSON-LD impliquant l’utilisation d’une sémantique (schema.org)

Contributeurs

  • François EHRENMANN (UMR BioGECO) | CATI GEDEOP
  • Philippe CHAUMEIL (UMR BioGECO)
  • Daniel JACOB (UMR BFP) | CATI PROSODIe
  • Edouard GUITTON (INRAE Dept. SA, Emerg’IN)