Intelligence artificielle : l’IA en sciences, un outil pour explorer de nouvelles frontières
Accélérer les découvertes, décrypter les mécanismes du vivant, anticiper les crises sanitaires, former les chercheurs de demain et ouvrir de nouvelles voies thérapeutiques : autant de défis que l'Intelligence artificielle (IA) commence déjà à transformer en résultats tangibles dans la reherche médicale. Des laboratoires aux salles de cours, des serveurs de calcul aux start-ups, nous dressons ici le panorama d'une révolution scientifique en marche à l'Institut Pasteur.
L'intelligence artificielle, levier d'une biologie nouvelle
Lancée fin 2025, l'initiative Pasteur IA traduit l'ambition de l'Institut Pasteur de placer l'intelligence artificielle au cœur de sa recherche en biologie. À l’occasion du lancement de cette initiative, Laurent Essioux, directeur du centre de ressources et recherche en informatique de l’institut, nous en explique les contours.

Quelle est la place de l’intelligence artificielle (IA) à l’Institut Pasteur ?
Laurent Essioux : Fin 2025, nous avons lancé l'initiative Pasteur IA avec une ambition claire : placer l'IA au cœur de notre recherche en biologie. Elle s'articule autour de plusieurs leviers — en interne pour libérer le potentiel de l'IA [nous publions déjà de nombreux articles scientifiques chaque année valorisant des travaux utilisant l'IA, NDLR], en externe pour contribuer au développement de l’IA en biologie et amplifier notre rayonnement. En interne, nous recrutons de nouvelles expertises, faisons monter en compétences nos équipes et construisons un écosystème de données exploitables par l’IA (AI-ready). En externe, nous renforçons nos partenariats académiques — avec PR[AI]RIE, l’Université Paris Cité, l’Inria ou l’EMBL/EBI —, développons des collaborations industrielles et voulons faire de l’IA un levier d’attractivité pour de nouveaux talents et des soutiens philanthropiques.
Qu’apporte concrètement l’IA à la recherche scientifique ?
L. E. : Ce qui caractérise l’IA, c’est sa capacité à résoudre et optimiser des analyses computationnelles avec une rapidité et des performances sans précédent. Cela permet à la fois de répondre à des questions biologiques de manière innovante et d’accélérer ces découvertes. L’IA permet aussi de comprendre la structure intime des données (comme les séquences de protéines, les génomes, les images...) et de générer de nouvelles données plausibles. Cela représente une nouvelle boîte à outils pour explorer de nouvelles frontières. Notre projet phare, le projet Ágnes, l’illustre : la création d’un jumeau numérique de bactérie. Cet outil computationnel a trois ambitions : prédire les phénotypes (caractéristiques) des bactéries à partir de leur génomes , notamment pour prédire leur résistance aux antimicrobiens ou leur virulence ; générer de nouvelles séquences protéiques en biologie synthétique optimisant leurs propriétés; et être interrogeable par les scientifiques comme une base de connaissance vivante. Ces trois capacités — prédire, générer, interroger — illustre ce que l’IA peut apporter de fondamentalement nouveau à la biologie.
Comment évolue le cadre autour de la gestion des données avec la montée en puissance de l’IA ?
L. E. : Sans un socle de données solide, structuré et accessible, l’IA ne peut pas déployer son plein potentiel. C'est tout l’enjeu de nos données AI-ready : investir dans nos infrastructures, adopter une standardisation à grande échelle et améliorer l’accès aux données au sein du campus, et pouvoir de manière responsable (selon leur sensibilité) les partager avec nos collaborateurs et la communauté scientifique.
Comment s’organise la gouvernance de cette initiative au sein de l’Institut ?
L. E. : Nous avons d’abord eu une approche collaborative ouverte pour définir notre stratégie. Depuis lors les actions s’appuient sur des initiatives existantes ou sont prises en charge par des petits groupes de personnes. Nous avons posé des bases solides : la mise en place d’un appel à candidature commun entre le CNRS et Pasteur pour une position de directeur/directrice de recherche en IA, le recrutement d’un·e nouveau responsable de G5 ayant une forte composante IA appliquée à la virologie, ou le recrutement d’un responsable du nouveau pôle IA au sein du Hub de bioinformatique. Au-delà de ces recrutements, nous veillons à une dynamique collective : cours destinés aux PhD sur l’IA, renforcement des formations, intégration de l’IA dans nos programmes d’appel à projets internes.
Cette approche, sur la base d’une communauté large et impliquée, est primordiale pour irriguer l’IA dans l’ensemble de notre communauté scientifique.
Le b.a.-ba de l’IA
- Intelligence artificielle (IA) : terme générique désignant un ensemble de méthodes permettant aux machines d’effectuer des tâches complexes.
- Machine learning (apprentissage automatique) : algorithmes utilisant des modèles statistiques pour faire des prédictions et des classifications.
- Deep learning (apprentissage profond) : technique d’apprentissage automatique, utilisant des algorithmes inspirés du cerveau humain, pour apprendre à partir de données non structurées.
- IA générative : catégorie d’IA capable de produire des contenus nouveaux — textes, images, sons... — en s’appuyant sur des modèles entraînés. Exemples : ChatGPT (Open AI), Claude (Anthropic), LeChat (Mistral).
- LLM : Les grands modèles de langage (LLM) constituent une catégorie de modèles d’apprentissage profond de entraînés à l’aide d’immenses quantités de données.
- CPU : cerveau de l’ordinateur, cette unité centrale exécute les commandes et les programmes du quotidien, traite les opérations les unes après les autres.
- GPU : conçue à l’origine pour les jeux vidéo, cette unité de traitement graphique effectue des milliers de calculs simultanément, idéal pour entraîner les algorithmes d'IA et d'apprentissage profond.
Quand l’IA accélère la science
Qu’on l’utilise pour analyser, relier ou décrypter l’IA se développe comme soutien à la recherche pour accélérer le traitement de la donnée et étendre le champ des possibles. Tour d’horizon de quelques applications qui portent déjà leurs fruits et des différents types d’IA mobilisés par l’Institut Pasteur.
-
scPRINT : Identifier des marqueurs précoces dans les tissus précancéreux
Entraîné sur plus de 50 millions de cellules humaines et animales, scPRINT est le premier modèle d’IA français permettant de prédire les réseaux génétiques et de comprendre les mécanismes sous-jacents de l’expression des gènes. Issu d’un travail collectif coordonné par l’équipe de Laura Cantini1, il fonctionne à la manière d’un grand modèle de langage et peut exécuter des tâches spécifiques à la biologie cellulaire pour analyser de vastes volumes de données et en déduire une représentation fine de l’état de la cellule. Il a déjà réussi à décrypter de nouveaux marqueurs dans des tissus prostatiques précancéreux.
1. scPRINT: pre-training on 50 million cells allows robust gene network predictions. Nature Communications, vol.16. https://doi.org/10.1038/s41467-025-58699-1
Jérémie Kalfon, co-auteur de l'étude scPRINT vous explique la découverte. Crédit : Jeanne Fenouil / Institut Pasteur.
-
STORIES : Suivre l’évolution des cellules pour percer les mystères des maladies
Les scientifiques de l’équipe Apprentissage Automatique pour la Génomique Intégrative ont mis au point une nouvelle méthode2 qui permet de suivre l’évolution des cellules sans avoir besoin de les observer en continu. Leur approche permet de comparer simultanément l’expression génique de la cellule et la progression de sa position spatiale. STORIES est ainsi capable de reconstituer la trajectoire et l’évolution de l’état d’une cellule donnée, permettant de mieux comprendre l’influence des environnements sur le destin cellulaire, notamment aux premiers stades des pathologies.
2. STORIES: learning cell fate landscapes from spatial transcriptomics using optimal transport. Nature Methods, vol. 23. https://doi.org/10.1038/s41592-025-02855-4
-
Le destin de l’ADN bactérien dans les cellules
Des scientifiques de l’unité Régulation spatiale des génomes ont étudié avec plusieurs collaboratrices et collaborateurs la réponse d’une cellule hôte à l’intégration d’ADN étranger dans son noyau. En s’appuyant sur un modèle d’IA développé par le Muséum national d’histoire naturelle, ils ont pu simuler un très grand nombre de scénarios (plus de 10 000 hypothèses) et ainsi déterminer3 que la composition de l’ADN étranger conditionne directement son destin dans le noyau de la cellule qu’il tente d’intégrer. Selon son taux de paires G-C, il va en effet pouvoir facilement s’adapter à ce nouvel environnement ou au contraire se replier sous forme de globule au sein de l'espace nucléaire.
3. Sequence-dependent activity and compartmentalization of foreign DNA in a eukaryotic nucleus. Science, vol. 387. https://doi.org/10.1126/science.adm9466

Mieux anticiper les pandémies

Simon Cauchemez, responsable du laboratoire Modélisation mathématique des maladies infectieuses, à l'Institut Pasteur (Paris).
L’intelligence artificielle ouvre des perspectives importantes pour mieux se préparer aux crises sanitaires.
« L’intelligence artificielle ouvre des perspectives importantes pour mieux se préparer aux crises sanitaires. Elle peut accélérer l’analyse de données hétérogènes, améliorer la surveillance, affiner certaines prévisions et aider à détecter plus tôt des signaux utiles à l’action. Elle peut aussi enrichir l’étude des variants, des dynamiques de transmission et des interactions entre facteurs biologiques, environnementaux et comportementaux. Mais son apport réel dépendra de conditions exigeantes : des données de qualité, largement accessibles et représentatives ; des modèles robustes, explicables et rigoureusement évalués pour limiter les biais ; et un cadre éthique à la hauteur des enjeux de santé publique. La question n’est pas d’opposer l’IA aux approches existantes, mais de l’intégrer avec discernement aux méthodes de l’épidémiologie. Sa valeur ne se mesurera pas seulement à ses performances techniques, mais à sa capacité à améliorer concrètement les décisions de santé publique. Pour cela, la coopération entre recherche, autorités publiques et société civile sera déterminante. »
Lire le communiqué : "Comment l’IA va permettre de mieux anticiper les prochaines pandémies"
Enodia Therapeutics : de la science au médicament
Avec Enodia Therapeutics, une avancée issue de travaux menés par l’unité Immunobiologie et Thérapie sur les mécanismes d’action de la mycolactone* franchit une nouvelle étape vers l’application thérapeutique. Créée avec le studio Argobio, un incubateur de biotechs, et soutenue par l’Accélérateur d’innovation de l’Institut Pasteur, la start-up s’appuie sur une articulation étroite entre excellence scientifique et expertise de développement biotech. Cette dynamique a trouvé une première validation dans une levée de fonds de 20,7 millions d’euros, bouclée fin 2025. Au cœur de la plateforme, le machine learning contribue à orienter la conception de petites molécules plus sélectives, ouvrant la voie à une nouvelle génération d’approches contre des protéines pathogènes.
« Cette aventure démontre à quel point il est essentiel de savoir faire le lien entre recherche et industrie, d’apprendre à collaborer avec des expertises différentes des nôtres et à développer des compétences qui ne sont pas forcément naturelles aux scientifiques. » Caroline Demangel, Responsable de l’unité Immunobiologie et Thérapie, présidente du Scientific Advisory Board d’Enodia Therapeutics et du conseil scientifique de l’Institut Pasteur.
- Lire le communiqué Argobio et l’Institut Pasteur lancent Enodia Therapeutics : une société de biotechnologie à l’approche inédite en matière de dégradation protéique ciblée
- Lire l'actualité Enodia Therapeutics : levée de fonds de 20,7 M€ pour traduire une découverte pasteurienne en thérapies innovantes
*La mycolactone est une toxine, inhibitrice naturelle de Sec61, une protéine sécrétée par la bactérie responsable de l’ulcère de Buruli. En capitalisant sur cette découverte, Enodia Therapeutics vise la dégradation de protéines pathogènes afin de traiter le cancer, les maladies inflammatoires et les infections virales.

Dans la Plateforme de bioimagerie ultrastructurale. Crédit : Institut Pasteur.
Accompagner et permettre les développements de l’IA
1. Direction des Systèmes d’Information
La DSI a développé une architecture hybride qui repose, en ce qui concerne les IA hébergées sur l’infrastructure pasteurienne, sur trois principes :
- Confidentialité : les données sensibles sont hébergées en interne sur des serveurs propriétaires. L’infrastructure repose sur des modèles locaux qui garantissent que les données ne quittent jamais l’Institut.
- Souveraineté : une infrastructure propriétaire et locale qui assure indépendance et continuité de service.
- Optimisation des coûts : un modèle pay-per-use pour les usages ponctuels ; et un amortissement des usages intensifs grâce à une infrastructure locale.
2. Direction de la technologie
L’expertise des plateformes de l’Institut Pasteur permet de transformer le besoin ponctuel d’un laboratoire en un outil généralisable et immédiatement utilisable par tous. La plateforme d’analyse d’image fournit, par exemple, à tout le campus un ensemble de méthodes de deep learning prêtes à l’utilisation
3. Direction des ressources humaines
Pour accompagner la montée en compétence de toutes les équipes, un dispositif de formation tourné vers l’acculturation et les usages du quotidien de l’IA générative a été proposé tout au long de l’année 2025. Il comprend notamment une offre de formation en ligne, une Masterclass et sept webinaires thématiques.
La mission de formation de l’Institut appliquée à l’IA
Cours et ateliers pour doctorants
Depuis 2024, un cours théorique d’intelligence artificielle de 2,5 jours est proposé à tous les doctorants pour leur permettre d’améliorer leurs capacités de recherche dans des domaines tels que le traitement d’images, l’analyse de données de séquençage HTS, les neurosciences ou la biologie structurale. Il est complété par une série d’ateliers pratiques spécifiques à la biologie structurale et au repliement des protéines, à l’application dans les neurosciences, et au criblage génomique à haut débit.
- En savoir plus sur le cours de l'Institut Pasteur pour former les scientifiques aux défis de l’Intelligence Artificielle
Inauguration de PR[AI]RIE-PSAI
Depuis 2024, un cours théorique d’intelligence artificielle de 2,5 jours est proposé à tous les doctorants pour leur permettre d’améliorer leurs capacités de recherche dans des domaines tels que le traitement d’images, l’analyse de données de séquençage HTS, les neurosciences ou la biologie structurale. Il est complété par une série d’ateliers pratiques spécifiques à la biologie structurale et au repliement des protéines, à l’application dans les neurosciences, et au criblage génomique à haut débit.





