Gérer ses données de recherche

Avec l’explosion de la quantité de données numériques produites par les projets de recherche, la gestion des données est devenue un enjeu majeur pour les organismes de recherche.
Bien gérer ses données est essentiel pour pouvoir les retrouver, les sécuriser, les exploiter et les partager.

Les fondamentaux

Données et jeux de données : quelques définitions

Selon l’OCDE, les données de la recherche sont des enregistrements de type chiffres, textes, images et sons, qui sont utilisés comme source principale pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche. Ainsi, les documents (carnets de laboratoire, analyses préliminaires, projets de documents scientifiques, communications personnelles…) et  les objets  matériels (souches bactériennes, animaux de laboratoire…) ne sont pas considérés comme des données de recherche.

Les données sont généralement regroupées pour former un jeu de données présentant une certaine unité et formant un ensemble cohérent.

 


Le cycle de vie des données

Le cycle de vie des données comporte globalement 6 étapes : création ou collecte des données, traitement des données, analyse des données, conservation des données, accès aux données, réutilisation des données. A chaque phase du cycle, des actions de gestion des données doivent être entreprises. Ces actions sont représentées sur le schéma du cycle de vie des données ci-contre (cliquer sur l'image pour l'agrandir).

Image adaptée à partir du cycle de vie des données de UK Data Archive : https://www.ukdataservice.ac.uk/manage-data/lifecycle


Pourquoi gérer ses données ?

Bien gérer ses données, c’est essentiel ! Oui, mais pourquoi ? Parce que des données bien gérées pourront être trouvées et réutilisées par la communauté scientifique. Parce qu’une bonne gestion des données est bénéfique pour les chercheurs eux-même et pour leur institution. Et enfin, parce que c’est obligatoire dans certains cas, en particulier pour les projets européens.

Les principes FAIR : Findable, Accessible, Interoperable, Reusable

Un des objectifs de la gestion des données est de faciliter la découverte et la réutilisation des connaissances scientifiques par les humains et par les systèmes informatiques. Les principes FAIR fonctionnent comme une ligne directrice pour ceux qui veulent atteindre cet objectif. Les 4 principes FAIR sont les suivants :

 

Findable

Les données doivent être faciles à trouver à la fois par les humains et par les systèmes informatiques.

Accessible

Les données doivent être stockées à long terme de façon à ce qu’elles puissent être facilement accessibles et/ou téléchargées.

Interoperable

Les données doivent être lisibles et utilisables par différents systèmes informatiques pour permettre le partage et la réutilisation.

Reusable

Les données doivent être prêtes à être réutilisées pour une future recherche et à être traitées en utilisant des méthodes informatiques.

 


Des bénéfices pour les chercheurs et l’institution

 

Bien gérer ses données en respectant les principes FAIR a de multiples bénéfices :

  • Rendre les données de la recherche précises, complètes et fiables
  • Améliorer la sécurité des données et minimiser le risque de perte des données
  • Assurer l'intégrité et la reproductibilité de la recherche
  • Eviter la duplication des données, d'où un gain de temps et de ressources
  • Augmenter la visibilité et l'impact du travail de chercheur
  • Favoriser la réutilisation et l'innovation par le partage
  • Contribuer à la mise en place de collaborations scientifiques

 

Une politique de l'Institut Pasteur

 

Cette politique fixe les lignes directrices de l’Institut Pasteur sur la gestion et le partage des données de la recherche et des codes logiciels. Elle a pour objectif de faciliter le partage et la réutilisation des données et codes logiciels selon les principes FAIR (Findable, Accessible, Interoperable, Reusable).

Elle résume les bonnes pratiques à mettre en œuvre tout au long du processus de recherche et renvoie vers des fiches pratiques qui donnent aux scientifiques les moyens opérationnels de mettre en œuvre ces bonnes pratiques.

Cette politique a été mise en place dans le cadre d’un projet collaboratif et transversal mené par le CeRIS et la plateforme de data management.

Contact : rdm-policy@pasteur.fr

 

 

Une exigence des organismes financeurs

L’Agence Nationale de la Recherche (ANR)

Depuis 2019, l’ANR a mis en place des obligations Science Ouverte. Ces obligations font partie de la stratégie nationale française pour la Science Ouverte, initiée avec le Plan National pour la Science Ouverte en 2018. L’ANR attire l’attention des coordinateurs sur l’importance de considérer la question de la gestion et du partage des données dès le montage du projet, en suivant le principe « aussi ouvert que possible, aussi fermé que nécessaire ».  L'Agence demande l’élaboration d’un Plan de Gestion des Données (PGD) pour les projets financés à partir de 2019.

La Commission européenne

Depuis le 1er janvier 2017, tous les lauréats des appels à projet de la Commission européenne sont incités à prendre des mesures concernant les données nécessaires à la validation des résultats présentés dans les publications :

Les obligations européennes :  rédiger un Plan de Gestion des Données, déposer ses données dans un entrepôt, rendre ses données accessibles et exploitables librement - Bibliothèque du CeRIS - Institut Pasteur

Dans le programme H2020, il était possible de ne pas suivre ces obligations (opt-out), sans que cela ait d’impact sur l’évaluation des projets.

Dans le programme Horizon Europe (couvrant la période de 2021 à 2027), la rédaction d’un plan de gestion des données devient obligatoire pour tous les projets européens. De plus, il est possible que qu'il soit progressivement demandé des preuves effectives de la diffusion des données.

Pour plus d'informations sur les exigences des financeurs, consulter la fiche réalisée par le CeRIS

Rédiger un plan de gestion des données

Qu'est-ce qu'un Plan de Gestion des Données ?

Un Plan de Gestion des Données (PGD) ou Data Management Plan (DMP) est un  document rédigé au commencement d'un projet de recherche et qui définit comment seront gérées les données pendant et après ce projet : depuis leur création ou leur collecte jusqu’à leur partage et leur archivage. Il s’agit d’un document non figé qui doit être régulièrement mis à jour au cours du projet de recherche.

Le PGD aborde les aspects suivants :

Comment rédiger un PGD ?

Le CeRIS accompagne les chercheurs de l'Institut Pasteur dans la rédaction de leur Plan de Gestion des Données, en leur proposant une trame de PGD constituée d’un ensemble de questions que tout chercheur devrait se poser au commencement d’un projet de recherche. Chaque question est accompagnée d'exemples de réponses et de conseils rédigés par les services compétents de l’Institut Pasteur. La structure du modèle de PGD s’appuie sur le modèle proposé par la Commission européenne et a été complétée par plusieurs services de l’Institut Pasteur : la bibliothèque et les archives du CeRIS, la DSI, la Direction juridique, la Cellule Ethique, le Service des Brevets et Inventions, le Pôle qualité et le Centre de Recherche Translationnelle.

Le CeRIS met à disposition des chercheurs la trame de PGD ainsi que plusieurs documents pour les aider dans la rédaction de leur PGD :

Valoriser et partager ses données

Publier ses données dans un entrepôt de données

Les entrepôts de données sont des services en ligne permettant le dépôt, la description, la conservation, la recherche et la diffusion de jeux de données. Les jeux de données sont décrits par des métadonnées de façon à pouvoir être retrouvés.

Pour choisir un entrepôt, il est important de tenir compte de plusieurs facteurs. D’une part, l’entrepôt doit répondre aux exigences de l’organisme financeur ou de l’éditeur. D’autre part, il devrait disposer de toutes les caractéristiques nécessaires pour accueillir des données FAIR (Facile à trouver, Accessible, Interopérable, Reutilisable). Il est également recommandé de privilégier un « entrepôt de confiance » certifié.

Pour trouver un entrepôt adapté à sa thématique de recherche, plusieurs répertoires peuvent être consultés :

 

La liste d’entrepôts dans le domaine biomédical proposée par le CeRIS comprend des entrepôts qui sont soit certifiés, soit recommandés par un éditeur ou un financeur

Re3data est un répertoire d’entrepôts multidisciplinaire (sciences sociales, sciences de la vie, médecine...), qui permet de trier les résultats pour n’afficher que les entrepôts certifiés.


FAIRsharing est un répertoire d’entrepôts en sciences de la vie, qui permet de trier les résultats pour n’afficher que les entrepôts recommandés par des éditeurs ou financeurs.

 

Publier un data paper

Le data paper (ou data article) est une publication scientifique examinée par les pairs dont le but principal est de décrire un ou plusieurs jeux de données, plutôt que des résultats d'analyse. Les données décrites doivent être accessibles, soit sous forme de fichiers annexés, soit plus généralement par un lien pérenne (URL, DOI) vers l’entrepôt de données où elles sont déposées. Le data paper peut être publié dans un data journal (une revue contenant exclusivement des data papers) ou dans une revue scientifique classique (publiant différentes formes d’articles dont des data papers).

Publier un data paper permet d’informer la communauté scientifique de l’existence d’un jeu de données déposé dans un entrepôt de données. Les données sont donc plus facilement repérables et citables. De plus, cela permet de décrire précisément les données et donc de les valoriser en précisant leur potentiel de réutilisation.

Quelques exemples de data journals :

 

Questions / Réponses

Où puis-je me former en ligne à la gestion des données de la recherche ?

Le site DoRANum (Données de la Recherche : Apprentissage NUMérique à la gestion et au partage) propose diverses ressources d’auto-formation sur la gestion et le partage des données de la recherche. Le site est organisé en 9 thématiques (enjeux, aspects juridiques et éthiques, plan de gestion des données, identifiant pérenne, métadonnées…) et chaque thématique est traitée sous différents formats : fiches synthétiques, vidéos, quizz, documents plus complets, etc.

Quel est l’intérêt de rédiger un Plan de Gestion des Données si ce n’est pas obligatoire ?

Rédiger un Plan de Gestion des Données avant de débuter un projet vous permet de vous poser les bonnes questions et d’adopter des bonnes pratiques de gestion des données. Des données bien gérées sont des données faciles à retrouver et à réutiliser, décrites précisément par des métadonnées, sécurisées et pérennes. Si la revue dans laquelle vous publiez un article vous demande de déposer les données accompagnant la publication dans un entrepôt, vos métadonnées seront donc déjà prêtes et vous n’aurez plus qu’à les renseigner dans les différents champs. De plus, vous pourrez facilement valoriser vos données en les publiant dans un data paper.

Existe-il un moteur de recherche permettant de rechercher des données dans différents entrepôts ?

Il existe plusieurs moteurs de recherche de données :  

  • DataMed permet d'accéder à des données de types variés dans le domaine biomédical. Il couvre pour le moment 75 entrepôts et propose une recherche avancée assez puissante.
  • Omics Discovery Index permet de rechercher des données dans les domaines de la génomique, protéomique, transcriptomique et métabolomique. Il propose également des fonctions de recherche avancées (par organisme, par maladie…).
  • Elsevier DataSearch couvre des domaines scientifiques plus variés. Il permet d'accéder aux données d'un nombre plus restreint d'entrepôts mais également à certaines données des supplementary data.
  • Google Dataset Search  est le moins performant. Il propose une recherche basique et très peu de fonctionnalités.

 

Contacts

 

 

Lettre d'information Science ouverte

Toutes les deux semaines, la lettre d'information Science Ouverte de l’Institut Pasteur vous informera et vous éclairera sur les évolutions,  les enjeux et les nouvelles pratiques dans trois grands domaines de la science ouverte : l'édition scientifique à l'ère de l’Open Access, la gestion et le partage des données et des logiciels, l'évaluation et le pilotage de la recherche.

 

Retour en haut