Des millions de protéines servant sans doute à la défense contre les virus viennent d’être identifiées chez des bactéries. On pensait qu'environ 0,5 % du génome bactérien moyen était impliqué dans l'immunité, mais le chiffre réel pourrait être environ 3 fois plus élevé ! C’est une découverte d’une équipe de l’Institut Pasteur, qui a conçu un ensemble d’outils d’IA visant à rechercher, sur des milliers de génomes bactériens, des mécanismes de défense jusqu’alors inconnus.
Comme les humains, que les virus peuvent rendre malades, les bactéries font face à des agents pathogènes : les phages. Ce sont des virus qui infectent les cellules bactériennes et qui s’y répliquent. Leur omniprésence a obligé les bactéries à développer leur propre système immunitaire contre les attaques de phages.
Les cellules bactériennes présentent des systèmes immunitaires variés
Ces systèmes de défense sont très divers d’une espèce de bactérie à l’autre. Plus de 200 mécanismes sont d’ores et déjà identifiés de manière certaine. On ne cessait de mettre au jour de nouveaux systèmes de défense anti-phages, ce qui suggérait que beaucoup d’autres restaient à découvrir. C’était une perspective tentante. En effet, de multiples mécanismes bactériens de défense ont déjà été affectés à un nouvel usage et ont révolutionné le champ de la biotechnologie. Le plus célèbre est la famille de séquences CRISPR.
L’IA pour identifier de nouveaux mécanismes immunitaires ?
Des mécanismes de défense semblables à ceux que nous connaissons déjà partagent souvent certaines signatures dans leur ADN, qui peuvent être utiles pour l’identification. De plus, chez les bactéries, les gènes associés fonctionnellement ont tendance à être proches les uns des autres sur le génome ; ils forment un groupe dénommé « opéron ». Les opérons jouant un rôle dans la défense anti-phage se regroupent dans ce que l’on appelle des « îlots de défense », et ce contexte peut également aider à identifier des systèmes de défense jusqu’alors inconnus. Mais même ainsi, au vu du nombre d’espèces de bactéries susceptibles d’abriter un gisement faramineux, examiner une par une des milliers de séquences d’ADN pour y trouver de nouveaux mécanismes de défense pourrait prendre des dizaines d’années.
C’est pourquoi une équipe de l’Institut Pasteur, dirigée par Aude Bernheim, Ernest Mordret et Alexandre Hervé, s’est posé la question suivante : si nous connaissons une partie du contexte, des fonctions et des éléments fréquemment associés aux gènes défensifs, pouvons-nous entraîner un modèle d’IA à chercher de nouveaux systèmes de défense anti-phages sur des milliers de génomes bactériens ?
Les scientifiques ont élaboré un ensemble d’outils d’IA pour déceler différents indices dans les génomes.
- Premièrement, ils se sont appuyés sur la notion d’homologie de séquence1, qui est l’idée que les protéines encodées par des séquences similaires ont tendance à jouer un rôle similaire, permettant de capturer des similitudes -même lointaines- entre des protéines de défense connues et inconnues.
- Puis, ils ont construit un premier modèle fondé sur la « culpabilité par association », c’est-à-dire la tendance des gènes bactériens aux fonctions semblables à se regrouper sur les génomes.
- Enfin, le groupe a combiné ces deux idées dans un modèle d’IA baptisé GeneCLRDF. Celui-ci a identifié 478 206 nouvelles familles de protéines ayant probablement un rôle dans la défense antivirale à partir de plus de 32 000 génomes bactériens.
Les modèles d’IA produits par l’équipe se sont montrés remarquablement fiables, à 99 % de précision, tout en minimisant l’utilisation des ressources en entraînant le modèle sur un seul processeur graphique2 (GPU) en seulement 3 jours.
Forte activité anti-phages des nouvelles protéines immunitaires identifiées
Bien entendu, il est largement établi que toute IA peut commettre des erreurs. Il était donc important de démarrer des recherches sur ces protéines pour vérifier si elles participent bien à l’immunité des bactéries. L’équipe a validé de manière expérimentale 12 systèmes défensifs jusqu’alors inconnus chez Escherichia coli et Streptomyces albus. Ces systèmes présentent une forte activité anti-phages via diverses stratégies. Cependant, au vu du grand nombre de mécanismes à étudier, le groupe a rendu toutes ses données librement accessibles. De la sorte, d’autres scientifiques pourront contribuer à cet effort. L’outil de recherche interactif est disponible via ce lien, et a été rendu possible grâce à l’infrastructure fournie par l’Institut Pasteur.
Jusqu’ici, on estimait qu’environ 0,5 % du génome bactérien moyen participait, d’une manière ou d’une autre, à l’immunité. Mais ce travail a montré que le vrai pourcentage pourrait être à peu près trois fois plus élevé. Qui plus est, plus de 85 % des familles de protéines identifiées par cette étude n’avaient jamais été associées à l’immunité auparavant. Cela atteste le caractère innovant de cette démarche.
Les recherches précédentes sur l’immunité des bactéries ont amené à de nombreuses découvertes majeures qui ont changé notre façon de travailler sur la biologie moléculaire. Et qui sait quels trésors secrets recèlent ces 2,39 millions de protéines immunitaires bactériennes nouvellement identifiées ?
1. On parle ici de séquence d’acides aminés, séquence qui est encodée par l’ADN. Tous les organismes produisent une immense gamme de protéines différentes présentant des fonctions et des structures variées. Les protéines se composent de chaînes d’acides aminés aux longueurs et aux propriétés diverses.
2. Un GPU est un processeur haute vitesse conçu pour les calculs mathématiques complexes et les charges de travail intensives.
Source : Protein and genomic language models uncover the unexplored diversity of bacterial immunity, Science, 2 avril 2026





