« En analysant l’entièreté de l’ADN séquencé disponible sur Terre, nous avons ouvert une nouvelle ère pour la recherche en santé. »
Afin de naviguer dans le labyrinthe des données génétiques, le responsable de l’unité Algorithmes pour les séquences biologiques à l’Institut Pasteur a fait le pari d’amener l’informatique de recherche au cœur des laboratoires de biologie.
L'informatique est une seconde nature pour Rayan Chikhi :
« Mes parents avaient une petite entreprise de vente d’ordinateurs, j’aidais à les assembler à 8 ans et j’ai commencé la programmation pendant l’école primaire, en autodidacte. »
C’est néanmoins par la voie préparatoire des mathématiques qu’il parviendra jusqu’à l’École Nationale Supérieure de Rennes :
« Difficile pour moi de ne pas mentionner mon enseignante, Mme Chevallier, qui m’a aidé à aller aussi loin. »
Féru de math-info, Rayan découvre la biologie lors d’un stage choisi presque au hasard sur l’étude des structures de protéines, et décide de se spécialiser dans l’analyse des séquences ADN, produites en quantité par de nombreux domaines de recherche.

J’ai toujours voulu faire des choses utiles, si possible avoir un impact sociétal. L’enseignement en France est fort d’une culture mathématique de l’informatique, très orientée vers les problèmes théoriques. Mais le revers de la médaille est une certaine distance des informaticiens envers les applications pratiques comme les maladies et la santé.
Après une thèse puis un postdoctorat aux États-Unis, Rayan rejoint le CNRS à Lille en 2014. Il postule alors à l’Institut Pasteur pour créer un groupe à 5 ans soutenu par le programme INCEPTION, qui vise à promouvoir l’interdisciplinarité entre les méthodes informatiques et l’étude des maladies infectieuses.
« Il est assez rare en France qu’un laboratoire d’informatique de recherche soit intégré à un institut de biologie. »
Ce contexte permet à Rayan d’aller au fond de questions qui taraudent les biologistes, de la reconstruction de génomes viraux ou bactériens à la détection de variations entre génomes humains. Pour aligner des séquences génétiques ou les analyser, son équipe développe des outils informatiques toujours associés à une démarche de recherche :
« Nous faisons de la science informatique, pas seulement de la technique ; nos algorithmes produisent des choses nouvelles, font avancer simultané- ment les connaissances en informatique et en biologie. »
Le chercheur emploie la notion de l’Intelligence Artificielle avec prudence :
« Dire qu’on fait de l’IA est souvent un abus de langage, on l’utilise, mais pour nous aider à développer nos méthodes plutôt qu’à contribuer au développement de l’IA à proprement dit. Pour moi l’IA est un outil essentiel pour avancer plus rapidement vers un but scientifique. Mon objectif est d’explorer le monde microbien, pas de mener des recherches pour explorer le monde de l’IA. »
À 40 ans, Rayan coordonne plusieurs projets de recherche nationaux et européens de développement de nouveaux algorithmes, visant notamment à analyser d’immenses bases de données. « Les données génétiques massives ouvrent une nouvelle ère pour la recherche en biologie-santé. »
En 2022, le chercheur et son équipe ont recensé tous les virus à ARN, ainsi que toutes les versions de coronavirus disponibles dans les bases de données mondiales. En deux semaines de calcul et quelques mois d’analyse, ils ont découvert près de 10 fois plus de nouvelles espèces que ce qui était connu. Ces travaux ont valu à Rayan le prix 2023 Mme Victor Noury de l’Académie des Sciences, mais ses distinctions ne s’arrêtent pas là.

© DR - Remise du prix 2023 Mme Victor Noury de l’Académie des Sciences.
Plusieurs prix ont également récompensé le projet IndexThePlanet : « Nous avons recensé l’entièreté de l’ADN séquencé sur Terre, une énorme masse de données de 50 Pétaoctets
(1 015 octets) en seulement 30 heures ; il aurait fallu 3 400 ans sur un seul ordinateur ! » Les résultats de ces calculs ont été mis à la disposition de la communauté scientifique, et permettent déjà de découvrir de nouveaux virus et d’autres espèces microbiennes encore inconnues auparavant.