Atelier « Work4Graph’Int »

Sophie et François-Xavier ont participé à l’atelier Work4Graph Integration, dédié à l’intégration de données hétérogènes dans les graphes, qui était organisé par des membres des CATI BARIC, BOOM, EMPREINTE, GREP et SYSMICS, avec le soutien de la DipSO et de la DSI.

À retenir :
Les solutions logicielles utilisées visent à répondre du mieux possible aux principales attentes: relier et structurer les données; interroger les graphes, les annoter, les visualiser; identifier automatiquement des associations entre données.

Au coeur du dispositif, le triple store orienté graphe: Neo4j, Openlink Virtuoso, GraphDB (produits de type serveur); ontop et RDFox (triple stores in-memory). A noter une exploitation possible des bases de données relationnelles, associées à des outils permettant de les manipuler sous forme de graphes (D2RQ).

Le langage Cypher peut être utilisé pour parcourir un graphe de manière simple, alors que sa visualisation dans un navigateur peut être facilitée par l’usage de la bibliothèque JavaScript cytoscape.js.

La plupart des applications présentées s’appuient sur des ontologies partagées dans des entrepôts publics. Parmi les plus citées : Gene Ontology, Chebi, MesH, Sequence Ontology, FALDO et taxref (taxonomie). Deux problématiques récurrentes : 1) des questionnements sur la réutilisation des ressources sémantiques existantes (import, extension, alignements, mises à jour, confiance…) et 2) quels outils pour sémantiser les données de manière efficace, i.e. créer une correspondance entre une variable et le concept dans une ressource sémantique (ontologie, taxonomie, thésaurus).

La variété des acteurs, des applications et des solutions présentées pendant cet atelier appelle à poursuivre les échanges, au sein de l’inter-CATI notamment. Quelques actions ont été envisagées, dont :

  • Référencer les bases de données graphes produites pour leur donner de la visibilité, faciliter leur réutilisation et limiter la duplication des efforts de conversion. Référencer également les ressources sémantiques utilisées au sein de ces bases. Catalogues identifiés : data INRAE, Elixir, FAIRsharing ;
  • Lancer un groupe de travail dédié à l’évaluation des triple stores orientés graphe, et d’une manière plus large aux retours d’expérience techniques sur l’usage des graphes (parcours, visualisation, …).

Le programme et les supports de présentations sont consultables en ligne : https://work4graph.pages.mia.inra.fr/work4graph-integration/page/programme/

Pour les novices, une courte introduction aux bases de données graphes : https://www.zdnet.fr/actualites-partenaires/3-questions-pour-comprendre-les-bases-de-donnees-graphe-et-leurs-applications-39873523.htm