Malgré d'intenses efforts planétaires sur le séquençage et l'analyse de SARS-CoV-2, la compréhension de ce virus est limitée par un manque de données génomiques sur les coronavirus. Des chercheurs, qui ont commencé à travailler ensemble dans le cadre d’un hackaton, ont analysé toutes les données de séquençages ARN disponibles en libre accès à l'échelle planétaire, découvrant ainsi de nouveaux coronavirus.
Les outils biotechnologiques actuels ont permis de séquencer les génomes de nombreux virus et de leurs hôtes. Les séquençages réalisés par des laboratoires à travers le monde sont disponibles en accès libre sur le site "Sequence Read Archive" du NCBI (National Center for Biotechnology information), hébergé par l’Institut national de la santé aux Etats-Unis.
Une infrastructure pour exploiter les séquences virales disponibles
Cela représente une quantité de données impressionnante, mais encore faut-il pouvoir exploiter ces données. Lors d’un hackaton nommé HackSeqRNA organisé par l’Université de Colombie-Britannique à Vancouver, des chercheurs d’horizons différents se rencontrent et commencent à travailler sur un projet proposé par Artem Babaian, chercheur indépendant et l’un des organisateurs de l’hackaton. Ce projet est une banque de données nommée Serratus, qui sera rendue disponible en libre accès. « Serratus est un projet de science ouverte pour la découverte de nouvelles séquences virales, via une recherche à très large échelle dans toutes les données de séquençage ARN, méta-génomiques, méta-transcriptomiques, et environnementales disponibles publiquement » explique Rayan Chikhi, responsable du laboratoire Algorithmes pour les séquences biologiques à l’Institut Pasteur et l’un des principaux auteurs de l’étude.
Pour effectuer cette recherche à très haut débit, les chercheurs ont utilisé le "cloud" Amazon, et lancé des analyses sur plus de 22,000 processeurs simultanément. Grâce à des méthodes innovantes, ils ont pu atteindre un taux de traitement de plus de 1 million d’échantillons par jour, pour un coût très faible, d'environ 0,01 $ par échantillon.
Serratus a permis la découverte de nouveaux coronavirus
Grâce aux algorithmes développés, les chercheurs ont pu analyser 5,7 millions d'échantillons de séquences. Ils ont alors identifié des milliers d'échantillons contenant des coronavirus et découvert plusieurs espèces de Coronavirus qui n’étaient pas répertoriées auparavant. Cette analyse a aussi décuplé le nombre d’espèces de virus à ARN connus.
En plus des codes sources, toutes les données brutes et traitées générées par Serratus sont disponibles gratuitement sur une base de données ouverte que l’équipe a construit, afin que les séquences virales puissent être analysées plus rapidement par d’autres scientifiques.
« L'élargissement du répertoire connu des coronavirus et des autres virus permet de surveiller leur propagation entre animaux et vers l’humain, et ainsi aidera à éviter d’autres pandémies » conclut Rayan Chikhi.
Source :
Petabase-scale sequence alignment catalyses viral discovery, Nature, 26 Janvier 2022
Robert C. Edgar1 , Jeff Taylor1 , Victor Lin1 , Tomer Altman2 , Pierre Barbera3 , Dmitry Meleshko4,5, Dan Lohr1 , Gherman Novakovsky6 , Benjamin Buchfink7 , Basem Al-Shayeb8 , Jillian F. Banfield9 , Marcos de la Peña10, Anton Korobeynikov4,11, Rayan Chikhi12, and Artem Babaian1,
1 Unaffiliated
2 Altman Analytics LLC, San Francisco, California, USA
3 Computational Molecular Evolution Group, Heidelberg Institute for Theoretical Studies, Heidelberg, Germany
4 Center for Algorithmic Biotechnology, St. Petersburg State University, St. Petersburg, Russia
5 Tri-Institutional PhD Program in Computational Biology and Medicine, Weill Cornell Medical College, New York, USA
6 Department of Medical Genetics, University of British Columbia. Vancouver, BC, Canada
7 Computational Biology Group, Max Planck Institute for Developmental Biology, T¨ubingen, Germany
8 Department of Plant and Microbial Biology, University of California, Berkeley, USA
9 Department of Earth and Planetary Science, University of California, Berkeley, USA
10 Instituto de Biolog´ıa Molecular y Celular de Plantas, Universidad Polit´ecnica de Valencia-CSIC, Valencia, Spain
11 Department of Statistical Modelling, St. Petersburg State University, St. Petersburg, Russia
12 Institut Pasteur, CNRS, Paris, France