Comme beaucoup d’autres équipes de recherche à l’Institut Pasteur, le Hub Bioinformatique et Biostatistique se mobilise face à la pandémie de Covid-19, en participant à la curation des données du GISAID (Global Initiative on Sharing All Influenza Data). Le Hub est la partie service du département de Biologie computationnelle, composée de 50 experts en biostatistique et bioinformatique.
Fin mars 2020, à la suite d’échanges avec l’unité de Bioinformatique évolutive de l’Institut Pasteur sur des questions de phylodynamique, le GISAID demande de l’aide pour le traitement des données de plus en plus abondantes qui lui sont soumises et maintenir la qualité de cette ressource essentielle. Un accord est rapidement trouvé. Le Hub accepte de prendre en charge cette demande, et depuis le 1er avril, treize de ses membres contribuent activement à la curation des données reçues quotidiennement par ce consortium.
L’initiative GISAID, lancée en 2006 à la suite de l’épidémie de grippe aviaire, encourage le partage international de toutes les séquences, données géographiques, cliniques et épidémiologiques connexes associées à ce virus. Elle s’étend maintenant aux espèces associées aux virus aviaires et autres virus animaux, dont aujourd’hui le SARS-CoV-2, pour aider la communauté scientifique à comprendre comment les virus évoluent, se propagent et potentiellement déclenchent des pandémies. Le 30 janvier 2020, le Centre national de référence (CNR) « virus des infections respiratoires » à l’Institut Pasteur partageait d’ailleurs les deux séquences complètes des virus prélevés sur deux des premiers cas français sur cette plateforme. L’Initiative garantit que l’accès ouvert aux données dans GISAID est fourni gratuitement et à tout le monde, à condition que les individus s’identifient et acceptent de respecter le mécanisme de partage GISAID régi par son accord d’accès à la base de données. Au 15 avril 2020, plus de 130 génomes du SARS-CoV-2 ont été soumis depuis le mois de janvier par les équipes de l’Institut Pasteur.
Concrètement, les membres du Hub sont mobilisés chaque jour de midi à minuit pour traiter les nombreux génomes de SARS-CoV-2 soumis (de quelques dizaines à plusieurs centaines par jour) afin de valider la qualité et la fiabilité des séquences et leurs métadonnées. Il s’agit d’une part d’uniformiser les métadonnées afin de faciliter la recherche dans la base de données, et d’autre part de vérifier la cohérence des assemblages. Plus de 9000 génomes sont accessibles (au 15 avril 2020) sur le GISAID, dont près de 3000 ont été validés depuis le 1er avril avec l’aide du Hub. Ces données sont entre autres utilisées par nextstrain, un projet open source visant à proposer un instantané de l’évolution de populations de pathogènes via une interface moderne et réactive.
Outre cette action, le Hub reste à la disposition des scientifiques du campus et est plus que jamais prêt à apporter toutes ses compétences en design expérimental, en traitement, analyse et modélisation de données, ou encore en développement de logiciels, pipelines et applications web sur les projets prioritaires liés aux recherches sur Covid-19.