Action Gestion de métadonnées sur des espaces de stockage

Nom du projet : Maggot

Motivations

  • Répondre aux enjeux de l’organisation, de la documentation, du stockage et du partage des données d’un site, d’un projet ou d’un collectif (unité de recherche, plateforme…).
  • S’inscrire dans une démarche qualité de science ouverte pour le partage et la reproductibilité.

Objectifs

  • Avoir une visibilité de ce qui est produit au sein du collectif : ensembles de données, logiciels, bases de données, images, sons, vidéos, analyses, codes…
  • Proposer une alternative/complément aux dépôts de données externes ou autres entrepôts thématiques pour avoir connaissance et accès à TOUTES les données, pas seulement celles qui sont publiées
  • Favoriser le FAIR au sein du collectif
  • Sensibiliser les nouveaux arrivants et les étudiants à une meilleure description de ce qu’ils produisent

Méthodologie

  • Ajout de métadonnées au sein des répertoires de données afin de pouvoir retrouver plus facilement des projets et/ou des données :
    • L’idée centrale est de faire en sorte que l’espace de stockage devienne le référentiel de données, et ce sont donc les métadonnées qui doivent aller vers les données et non l’inverse
    • Le choix s’est porté sur le format JSON qui est très approprié pour décrire des métadonnées, lisibles tant par les humains que par les machines
    • En revanche, la production de fichiers au format JSON étant délicate, une interface web permet de les créer
    • Les métadonnées sont basées sur un vocabulaire contrôlé spécifié par le gestionnaire de données d’une structure (unité, plateforme…) sous la forme de dictionnaires, thésaurus ou ontologies.
  • Le paramétrage complet d’un profil de métadonnées (sections, champs, type) ainsi que les listes des terminologies prédéfinies éventuelles se fait à l’aide d’un fichier tabulé pouvant être produit facilement à partir d’un tableur type MS Excel
  • Mise en place d’une interface de saisie des métadonnées. Celle-ci permet de décrire l’ensemble des jeux de données (via leurs métadonnées) produits par la structure. Cette interface permet donc de :
    • Décrire un jeu de données à l’aide de métadonnées de différents types (Description)
    • Rechercher des jeux de données à partir de leurs métadonnées (Accessibilité)
    • Publier ses métadonnées avec les données dans des dépôts reconnues par l’INRAE, l’ANR ainsi que l’Europe (Dataverse, Zenodo)
    • Moissonnage éventuel (option) des données, basé sur des protocoles (OAI-PMH) et formats (JSON-LD, XML) standards

Production

Perspectives

  • Aller vers le « machine-actionable » : Préremplir un jeu de métadonnées basé sur un PGD machine-actionnable (maDMP).
  • Export des métadonnées et des données au format RO-Crate

Concepteurs/développeurs

  • Daniel Jacob (UMR BFP) | CATI PROSODIe
  • François Ehrenmann (UMR BioGECO) | CATI GEDEOP
  • Philippe Chaumeil (UMR BioGECO)

Contributeurs

  • Edouard Guitton (INRAE Dept. SA, Emerg’IN)
  • Stéphane Bernillon (INRAE UR MycSA)
  • Joseph Tran (INRAE UMR EGFV) | CATI BARIC