Gérer et partager ses données de recherche

Avec l’explosion de la quantité de données numériques produites par les projets de recherche, la gestion des données est devenue un enjeu majeur pour les organismes de recherche.
Bien gérer ses données est essentiel pour pouvoir les retrouver, les sécuriser, les exploiter et les partager.

Les fondamentaux de la gestion des données

Les données de recherche : de quoi s'agit-il ?

Selon l’OCDE, les données de la recherche sont des enregistrements de type chiffres, textes, images et sons, qui sont utilisés comme source principale pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche. Ainsi, les documents (carnets de laboratoire, analyses préliminaires, projets de documents scientifiques, communications personnelles…) et  les objets  matériels (souches bactériennes, animaux de laboratoire…) ne sont pas considérés comme des données de recherche.

 

Le cycle de vie des données

Le cycle de vie des données comporte globalement 6 étapes : création ou collecte, traitement, analyse, conservation, accès, réutilisation. A chaque phase du cycle, des actions de gestion des données doivent être entreprises. Ces actions sont représentées sur le schéma du cycle de vie des données ci-contre (cliquer sur l'image pour l'agrandir).

Image adaptée à partir du cycle de vie des données de UK Data Archive : https://ukdataservice.ac.uk/learning-hub/research-data-management/

Les principes FAIR : Facile à trouver, Accessible, Interopérable, Réutilisable

Les principes FAIR correspondent à des lignes directrices dont l’objectif premier est d’améliorer la réutilisation des données de la recherche. Ils ont été publiés en 2016 dans dans Scientific Data. A chaque lettre de l’acronyme FAIR sont associées des bonnes pratiques qu’il est bon de suivre pour rendre ses données réutilisables, qu’elles soient partagées ou non. Des données peuvent donc être “FAIR” sans être librement accessibles.

Retrouvez sur DORANum une explication simplifiée de chaque item des principes FAIR

FAIR data principles by SangyaPundir, CC BY 4.0 license

Des attentes aux niveaux institutionnel, national et international

La recherche internationale se mobilise pour assurer la préservation, le partage et la réutilisation des produits de la recherche scientifique. Ce mouvement global mobilisant chercheurs, politiques et financeurs a pour objectif d’améliorer la qualité, l’intégrité et la reproductibilité de la recherche.

La politique de gestion et partage des données et codes logiciels de l’Institut Pasteur

 

Cette politique fixe les lignes directrices de l’Institut Pasteur sur la gestion et le partage des données de la recherche et des codes logiciels. Elle a pour objectif de faciliter le partage et la réutilisation des données et codes logiciels selon les principes FAIR (Findable, Accessible, Interoperable, Reusable).

Elle résume les bonnes pratiques à mettre en œuvre tout au long du processus de recherche et renvoie vers des fiches pratiques qui donnent aux scientifiques les moyens opérationnels de mettre en œuvre ces bonnes pratiques.

Cette politique a été mise en place dans le cadre d’un projet collaboratif et transversal mené par le CeRIS et la plateforme de data management.

Contact : rdm-policy@pasteur.fr

 

Une politique nationale

Les données de la recherche sont au cœur de deux politiques nationales : le Plan national pour la science ouverte et la politique des données, des algorithmes et des codes sources. Leur ambition : faire en sorte que les données produites par la recherche publique française soient progressivement structurées en conformité avec les principes FAIR, préservées et, quand cela est possible, ouvertes.

Une exigence des organismes financeurs

Depuis quelques années, les financeurs de la recherche (Commission européenne, ANR, NIH, Wellcome Trust et de nombreux autres) mettent en place de nouvelles exigences pour s’assurer que les données produites dans le cadre de projets qu’ils financent sont bien préservées, réutilisables, et quand cela est possible, ouvertes.

Zoom sur les exigences de la Commission européenne :

Les obligations de la Commission européennes :  rédiger un Plan de Gestion des Données, déposer ses données dans un entrepôt, rendre ses données accessibles et exploitables librement - Bibliothèque du CeRIS - Institut Pasteur

Pour plus d'information sur les exigences des financeurs, consulter la fiche réalisée par le CeRIS

Rédiger un plan de gestion des données

Qu'est-ce qu'un Plan de Gestion des Données ?

Un Plan de Gestion des Données (PGD) ou Data Management Plan (DMP) est un  document synthétique qui aide à organiser et anticiper toutes les étapes du cycle de vie de la donnée. Il peut être établi aussi bien dans une optique de partage des données que pour des données en accès restreint ou fermé. Ce document est évolutif et doit être régulièrement mis à jour.

Le PGD aborde les aspects suivants :

Les informations demandées dans un PGD :  description des données, documentation et métadonnées, stockage, sauvegarde et sécurité, partage, conservation et archivage, aspects éthiques et juridiques, coûts et ressources, responsabilités

Un PGD peut être mis en place pour un projet de recherche ou pour une entité de recherche.

Pour un projet de recherche, le PGD permet de :

  • Planifier / anticiper : réfléchir en début de projet aux données qui vont être générées ou collectées, aux problématiques juridiques et de sécurité à prendre en compte, aux démarches à effectuer à chaque étape du projet.
     
  • Harmoniser les pratiques : se mettre d’accord entre partenaires sur la façon d’organiser, décrire, stocker, partager les données… Définir qui s’occupe de quoi, quels outils sont utilisés etc.
     
  • Constituer un document de synthèse sur les données du projet : la version finale du PGD, en fin de projet, sert de document de référence qui décrit les données du projet, leur lieu de stockage, leur accessibilité, etc. Il permet ainsi de faciliter la réutilisation des données du projet.

Pour une entité de recherche, le PGD permet de :

  • Échanger en équipe sur la façon dont chacun s’organise et gère ses données. Bénéficier de l’expérience des autres sur certains sujets.
     
  • Harmoniser les pratiques : se mettre d’accord sur la façon dont les différents types de données produits ou collectés dans l’entité doivent être gérés, définir des règles et bonnes pratiques : règles de sécurité pour gérer certains types de données sensibles, recommandations sur les formats privilégiés pour conserver et partager ses données, règles quand quelqu’un part de l’entité…
     
  • Constituer un document de référence sur les bonnes pratiques à suivre dans l’entité et ainsi guider les nouveaux arrivants sur la façon de gérer et partager leurs données.

Comment faire en pratique ?

Le CeRIS accompagne les chercheurs de l’Institut Pasteur dans la rédaction de leur PGD, en mettant à leur disposition des documents et en leur proposant de relire et commenter leur PGD.

Partager ses données de recherche

Pour partager ses données à un large public, la solution la plus efficace est de les déposer dans un entrepôt de données.

Qu'est-ce qu'un entrepôt de données ?

Un entrepôt est un service en ligne pour la collecte, la description, la préservation, la découverte et la diffusion de données scientifiques. Il existe plus de 1 700 entrepôts de données en sciences de la vie (d’après Re3data) et ils peuvent être catégorisés selon deux grandes types :

  • les entrepôts disciplinaires ou thématiques (en imagerie, chimie, neuroscience, protéomique…) ;
  • les entrepôts généralistes ou pluridisciplinaires, ouverts à tous types de données.

Comment choisir un entrepôt de données ?

Première recommandation : chercher en premier lieu s’il existe un entrepôt disciplinaire adapté

Pour identifier un entrepôt disciplinaire qui pourrait être adapté à son type de données ou à sa thématique de recherche et analyser ses caractéristiques, deux répertoires sont recommandés :

Registry of research data repository (Re3data) - Bibliothèque du CeRIS - Institut Pasteur

Très complet, re3data indexe plus de 3 000 entrepôts de données dans toutes les disciplines. Chaque entrepôt est décrit par des métadonnées précises et de qualité.

Fairsharing - Biblbiothèque du CeRIS - Institut Pasteur

La section Databases de FAIRsharing fournit des informations complémentaires sur chaque entrepôt : financeurs/éditeurs qui recommandent ce dernier, standards utilisés...

Pour analyser les caractéristiques d’un entrepôt et vérifier qu’il répond à ses besoins et aux principes FAIR, le CeRIS met à disposition des chercheurs de l’Institut Pasteur une grille d’analyse qui liste les questions à se poser avant de faire son choix.

Télécharger la grille d’analyse d’un entrepôt de données proposée par le CeRIS

S’il n’existe pas d’entrepôt disciplinaire adapté : le choix s’oriente vers un entrepôt généraliste

Dans ce cas, le CeRIS recommande aux chercheurs pasteuriens le dépôt des données dans l’espace Institut Pasteur sur l'entrepôt national Recherche Data Gouv.

Quelle évolution des pratiques de partage à l'Institut Pasteur ?

Le volet « données de la recherche » du baromètre français de la science ouverte a pour objectif de mesurer l'évolution des pratiques de partage des données en France.

Selon la déclinaison pasteurienne de ce baromètre, parmi les publications pasteuriennes parues en 2021 qui mentionnent la production de données, 35% mentionnent le partage de données. Par comparaison, cette proportion est de 22% au niveau national (tous domaines condonfus).

En savoir plus

Questions / Réponses

Où puis-je me former en ligne à la gestion des données de la recherche ?

Le site DoRANum (Données de la Recherche : Apprentissage NUMérique à la gestion et au partage) propose diverses ressources d’auto-formation sur la gestion et le partage des données de la recherche. Le site est organisé en 9 thématiques (enjeux, aspects juridiques et éthiques, plan de gestion des données, identifiant pérenne, métadonnées…) et chaque thématique est traitée sous différents formats : fiches synthétiques, vidéos, quizz, documents plus complets, etc.

Quel est l’intérêt de rédiger un Plan de Gestion des Données si ce n’est pas obligatoire ?

Rédiger un Plan de Gestion des Données avant de débuter un projet vous permet de vous poser les bonnes questions et d’adopter des bonnes pratiques de gestion des données. Des données bien gérées sont des données faciles à retrouver et à réutiliser, décrites précisément par des métadonnées, sécurisées et pérennes. Si la revue dans laquelle vous publiez un article vous demande de déposer les données accompagnant la publication dans un entrepôt, vos métadonnées seront donc déjà prêtes et vous n’aurez plus qu’à les renseigner dans les différents champs. De plus, vous pourrez facilement valoriser vos données en les publiant dans un data paper.

Existe-il un moteur de recherche permettant de rechercher des données dans différents entrepôts ?

Il existe plusieurs moteurs de recherche de jeux de données :  

  • DataMed permet d'accéder à des données de types variés dans le domaine biomédical.
  • Omics Discovery Index permet de rechercher des données dans les domaines de la génomique, protéomique, transcriptomique et métabolomique.
  • OpenAire Explore permet de trouver des jeux de données dans tous les domaines scientifiques.
  • DataCite Commons indexe tous les produits de recherche auxquels un DOI a été attribué.

 

Contacts

 

 

 

Lettre d'information Science ouverte

Toutes les deux semaines, la lettre d'information Science Ouverte de l’Institut Pasteur vous informera et vous éclairera sur les évolutions,  les enjeux et les nouvelles pratiques dans trois grands domaines de la science ouverte : l'édition scientifique à l'ère de l’Open Access, la gestion et le partage des données et des logiciels, l'évaluation et le pilotage de la recherche.

 

Retour en haut