Avertissement : LA BIBLIOTHÈQUE EST TEMPORAIREMENT FERMÉE AU PUBLIC EXTÉRIEUR

Gérer ses données de recherche

Avec l’explosion de la quantité de données numériques produites par les projets de recherche, la gestion des données est devenue un enjeu majeur pour les organismes de recherche.
Bien gérer ses données est essentiel pour pouvoir les retrouver, les sécuriser, les exploiter et les partager.

Les fondamentaux

Données et jeux de données : quelques définitions

Selon l’OCDE, les données de la recherche sont des enregistrements de type chiffres, textes, images et sons, qui sont utilisés comme source principale pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche. Ainsi, les documents (carnets de laboratoire, analyses préliminaires, projets de documents scientifiques, communications personnelles…) et  les objets  matériels (souches bactériennes, animaux de laboratoire…) ne sont pas considérés comme des données de recherche.

Les données sont généralement regroupées pour former un jeu de données présentant une certaine unité et formant un ensemble cohérent.

 


Le cycle de vie des données

Le cycle de vie des données comporte globalement 6 étapes : création ou collecte des données, traitement des données, analyse des données, conservation des données, accès aux données, réutilisation des données. A chaque phase du cycle, des actions de gestion des données doivent être entreprises. Ces actions sont représentées sur le schéma du cycle de vie des données ci-contre (cliquer sur l'image pour l'agrandir).

Image adaptée à partir du cycle de vie des données de UK Data Archive : https://www.ukdataservice.ac.uk/manage-data/lifecycle


Pourquoi gérer ses données

Bien gérer ses données, c’est essentiel ! Oui, mais pourquoi ? Parce que des données bien gérées pourront être trouvées et réutilisées par la communauté scientifique. Parce qu’une bonne gestion des données est bénéfique pour les chercheurs eux-même et pour leur institution. Et enfin, parce que c’est obligatoire dans certains cas, en particulier pour les projets européens.

 

Les principes FAIR : Findable, Accessible, Interoperable, Reusable

Un des objectifs de la gestion des données est de faciliter la découverte et la réutilisation des connaissances scientifiques par les humains et par les systèmes informatiques. Les principes FAIR fonctionnent comme une ligne directrice pour ceux qui veulent atteindre cet objectif. Les 4 principes FAIR sont les suivants :

 

Findable

Les données doivent être faciles à trouver à la fois par les humains et par les systèmes informatiques.

Accessible

Les données doivent être stockées à long terme de façon à ce qu’elles puissent être facilement accessibles et/ou téléchargées.

Interoperable

Les données doivent être lisibles et utilisables par différents systèmes informatiques pour permettre le partage et la réutilisation.

Reusable

Les données doivent être prêtes à être réutilisées pour une future recherche et à être traitées en utilisant des méthodes informatiques.

 

Pour plus d'informations sur les principes FAIR, consulter la fiche réalisée par le CeRIS


Des bénéfices pour les chercheurs et l’institution

 

Bien gérer ses données en respectant les principes FAIR a de multiples bénéfices :

  • Rendre les données de la recherche précises, complètes et fiables
  • Améliorer la sécurité des données et minimiser le risque de perte des données
  • Assurer l'intégrité et la reproductibilité de la recherche
  • Eviter la duplication des données, d'où un gain de temps et de ressources
  • Augmenter la visibilité et l'impact du travail de chercheur
  • Favoriser la réutilisation et l'innovation par le partage
  • Contribuer à la mise en place de collaborations scientifiques

 

Une exigence des organismes financeurs

L’Agence Nationale de la Recherche (ANR)

Dans son plan d’action 2019, l’ANR attire l’attention des chercheurs sur l’importance de considérer la question des données de recherche au moment du montage et tout au long du projet. De plus, le plan de gestion des données est devenu obligatoire pour tous les projets financés à partir de 2019. Celui-ci doit être rédigé dans les 6 premiers mois du projet.

Le programme H2020 de la Commission européenne

Depuis le 1er janvier 2017, tous les lauréats des appels à projet H2020 de la Commission européenne doivent prendre des mesures concernant les données nécessaires à la validation des résultats présentés dans les publications :
 


Actuellement, il est possible de ne pas suivre ces obligations (opt-out), sans que cela ait d’impact sur l’évaluation des projets. Toutefois, la rédaction d’un plan de gestion des données deviendra obligatoire pour tous les projets européens lors du prochain programme cadre de recherche Horizon Europe (couvrant la période de 2021 à 2027).

Rédiger un plan de gestion des données

Qu'est-ce qu'un Plan de Gestion des Données ?

Un Plan de Gestion des Données (PGD) ou Data Management Plan (DMP) est un  document rédigé au commencement d'un projet de recherche et qui définit comment seront gérées les données pendant et après ce projet : depuis leur création ou leur collecte jusqu’à leur partage et leur archivage. Il s’agit d’un document non figé qui doit être régulièrement mis à jour au cours du projet de recherche.

Le PGD aborde les aspects suivants :

Comment rédiger un PGD ?

Le CeRIS accompagne les chercheurs de l'Institut Pasteur dans la rédaction de leur Plan de Gestion des Données, en leur proposant une trame de PGD constituée d’un ensemble de questions que tout chercheur devrait se poser au commencement d’un projet de recherche. Chaque question est accompagnée d'exemples de réponses et de conseils rédigés par les services compétents de l’Institut Pasteur. La structure du modèle de PGD s’appuie sur le modèle proposé par la Commission européenne et a été complétée par plusieurs services de l’Institut Pasteur : la bibliothèque et les archives du CeRIS, la DSI, la Direction juridique, la Cellule Ethique, le Service des Brevets et Inventions, le Pôle qualité et le Centre de Recherche Translationnelle.

Le CeRIS met à disposition des chercheurs la trame de PGD ainsi que plusieurs documents pour les aider dans la rédaction de leur PGD :

Valoriser et partager ses données

Publier ses données dans un entrepôt de données

Un entrepôt de données est un réservoir constitué de données de recherche, brutes ou élaborées, qui sont décrites par des métadonnées de façon à pouvoir être retrouvées.

Pour choisir un entrepôt, il est important de tenir compte de plusieurs facteurs. D’une part, l’entrepôt doit répondre aux exigences de l’organisme financeur ou de l’éditeur. D’autre part, il devrait disposer de toutes les caractéristiques nécessaires pour accueillir des données FAIR (Findable, Accessible, Interoperable, Reusable). Il est également recommandé de privilégier un « entrepôt de confiance » certifié (Data Seal of Approval, ISO 16363, Trustworthy Repositories Audit & Certification…).

Pour trouver un entrepôt adapté à sa thématique de recherche, plusieurs répertoires peuvent être consultés :

 

La liste d’entrepôts dans le domaine biomédical proposée par le CeRIS comprend des entrepôts qui sont soit certifiés, soit recommandés par un éditeur ou un financeur

Re3data est un répertoire d’entrepôts multidisciplinaire (sciences sociales, sciences de la vie, médecine...), qui permet de trier les résultats pour n’afficher que les entrepôts certifiés.


FAIRsharing est un répertoire d’entrepôts en sciences de la vie, qui permet de trier les résultats pour n’afficher que les entrepôts recommandés par des éditeurs ou financeurs.

 

Publier ses données dans un data paper

Le data paper (ou data article) est une publication scientifique examinée par les pairs dont le but principal est de décrire un ou plusieurs jeux de données, plutôt que des résultats d'analyse. Les données décrites doivent être accessibles, soit sous forme de fichiers annexés, soit plus généralement par un lien pérenne (URL, DOI) vers l’entrepôt de données où elles sont déposées. Le data paper peut être publié dans un data journal (une revue contenant exclusivement des data papers) ou dans une revue scientifique classique (publiant différentes formes d’articles dont des data papers).

Publier un data paper permet d’informer la communauté scientifique de l’existence d’un jeu de données déposé dans un entrepôt de données. Les données sont donc plus facilement repérables et citables. De plus, cela permet de décrire précisément les données et donc de les valoriser en précisant leur potentiel de réutilisation.

Quelques exemples de data journals :

 

 

Questions / Réponses

Où puis-je me former en ligne à la gestion des données de la recherche ?

Le site DoRANum (Données de la Recherche : Apprentissage NUMérique à la gestion et au partage) propose diverses ressources d’auto-formation sur la gestion et le partage des données de la recherche. Le site est organisé en 9 thématiques (enjeux, aspects juridiques et éthiques, plan de gestion des données, identifiant pérenne, métadonnées…) et chaque thématique est traitée sous différents formats : fiches synthétiques, vidéos, quizz, documents plus complets, etc.

Quel est l’intérêt de rédiger un Plan de Gestion des Données si ce n’est pas obligatoire ?

Rédiger un Plan de Gestion des Données avant de débuter un projet vous permet de vous poser les bonnes questions et d’adopter des bonnes pratiques de gestion des données. Des données bien gérées sont des données faciles à retrouver et à réutiliser, décrites précisément par des métadonnées, sécurisées et pérennes. Si la revue dans laquelle vous publiez un article vous demande de déposer les données accompagnant la publication dans un entrepôt, vos métadonnées seront donc déjà prêtes et vous n’aurez plus qu’à les renseigner dans les différents champs. De plus, vous pourrez facilement valoriser vos données en les publiant dans un data paper.

Existe-il un moteur de recherche permettant de rechercher des données dans différents entrepôts ?

Le moteur de recherche DataSearch d’Elsevier permet d'accéder aux données stockées dans certains entrepôts et à certaines données des supplementary data. Ci-dessous, des exemples de sources que couvre DataSearch :

  • Supplementary data des articles disponibles dans : ScienceDirect et arXiv.

  • Entrepôts de données : Dryad, Zenodo, Mendeley Data, Harvard Dataverse, NeuroElectro, ClinVar, RCSB-PDB, Gene Expression Omnibus, PetDB, ArrayExpress, Biological Magnetic Resonance Data Bank, MetPetDB…

 

Contacts

 

Retour en haut