Prof. Patrick Forterre - research


Descriptif des travaux REALISES


SUMMARY

 ADN topoisomérase et topologie de l’ADN

  Caractérisation de la reverse gyrase des hyperthermophiles, et découverte du surenroulement positif de l’ADN.

    Découverte d’une nouvelle famille d’ADN topoisomérase de type II chez les archéobactéries : la Topo VI

    Identification, grâce à la Topo VI, d’un nouveau module de fixation et d’hydrolyse de l’ATP, le “ Bergerat

    fold ”

    Identification, grâce à la Topo VI de la protéine eucaryote responsable de la cassure des chromosomes au

    moment de la recombinaison meïotique : Spo11.

   Topologie de l’ADN in vivo chez les hyperthermophiles : mise en évidence de l’effet des chocs

     thermiques.

    Structure de la chromatine chez les archéobactéries : étude de quelques protéines architecturales

Les 3R (réplication, recombinaison, réparation) de l’ADN chez les archéobactéries

    ADN polymérases

    Découverte d’un plasmide chez un hyperthermophile et étude du mécanisme de sa réplication par cercle

    roulant.

    Identification des origines de réplication chromosomique

    Mécanisme de la réplication chromosomique (initiation, élongation) chez Pyrococcus abyssi.

    Découverte d’une nouvelle famille de thymidylate synthase, ThyX

    Etudes sur la radioresistance des Thermococcales 

    Etude du complexe Rad50/Mre11 et des protéines associées chez Sulfolobus acidocaldarius

 

Génomique des archées hyperthermophiles : mécanismes d’évolution des génomes

    Le génome de Sulfolobus solfataricus

    Le génome de Pyrococcus abyssi

    Etude des protéines de fonction inconnue conservées des archéobactéries à l’homme : Le projet PACE

    Phylogénie des archées

Travaux théoriques sur l’origine et l’évolution des microorganismes et des génomes à ADN

    Origine de la vie à haute température et hyperthermophiles.

    La nature de LUCA (simple ou complexe) et l’enracinement de l’arbre universel
    Le génome de LUCA et l’origine des génomes à ADN

ADN topoisomérase et topologie de l’ADN
Toutes les cellules possèdent des enzymes, les ADN topoisomérases, qui catalysent le passage des brins ou des double hélices d’ADN les uns au travers des autres, en réalisant des coupures transitoires sur un brin (ADN topoisomérases de type I) ou sur les deux brins en même temps (ADN topoisomérases de type II) (Figure 2). Ces réactions permettent de modifier le nombre d’entrelacements entre les deux brins de la double hélice ou encore de séparer deux anneaux d’ADN entrelacés (décaténation). Les ADN topoisomérases sont essentielles pour tous les aspects du métabolisme de l’ADN qui impliquent une séparation locale ou complète des deux brins : réplication, recombinaison, transcription, ségrégation des chromosomes. Nos travaux sur les archéobactéries ont conduit à la découverte de deux nouvelles familles très originales d’ADN topoisomérases, l’une de type I, la reverse gyrase, et l’autre de type II, l’ADN topoisomérase VI. Les archéobactéries se sont donc révélées être une mine d’or pour les chercheurs qui étudient la topologie de l’ADN.

Caractérisation de la reverse gyrase des hyperthermophiles, et découverte du surenroulement positif de l’ADN.

 

J’ai commencé à rechercher des activités ADN topoisomérases chez l’archéobactérie thermoacidophile Sulfolobus acidocaldarius avec Gille Mirambeau, alors étudiant en thèse dans le laboratoire de Michel Duguet (Mirambeau et al., 1994). En parallèle avec une équipe Japonaise dont nous ne connaissions pas l’existence à l’époque, nous avons mis en évidence chez S. acidocaldarius une enzyme capable de produire en présence d’ATP des superhélices d’ADN enroulées positivement, c’est-à-dire dans le même sens que la double-hélice elle-même. L’introduction de supertours positifs dans un ADN circulaire correspond à une augmentation du nombre d’entrelacements entre les deux brins de la molécule, ce qui s’oppose à l’ouverture de ces deux brins à haute température.

 

Nous avons été devancés pour la première publication par nos concurrents Japonais qui ont décrit cette enzyme sous le nom de reverse gyrase (Kikuchi and Asai, Nature, 309, 677-681, 1984). Toutefois, la reverse gyrase était décrite dans cette publication comme une ADN topoisomérase multimérique de type II, ce qui s’est révélé erroné. En purifiant la reverse gyrase à homogénéité et en caractérisant son mécanisme réactionnel, nous avons pu montrer qu’il s’agissait d’une enzyme monomérique de type I (Forterre et al., 1985, Nadal et al., 1988). Ce résultat était surprenant, car toutes les ADN topoisomérases de type I caractérisées précédemment étaient ATP-indépendantes. Ce paradoxe fut résolu par le clonage et le séquençage du gène codant pour la reverse gyrase. L’analyse de la séquence de ce gène a montré en effet que la reverse gyrase n’est pas une ADN topoisomérase classique, mais qu’elle est formée par la fusion d’un module N-terminal de type hélicase et d’un module C-terminal correspondant à une ADN topoisomérase I (Confalonieri et al. 1993). Au cours des années suivantes, l’étude biochimique de la reverse gyrase a été principalement réalisée dans l’équipe de Michel Duguet à l’IGM. Dernièrement, la reverse gyrase de l’archéobactérie Archaeoglobus fulgidus a été cristallisée, ce qui a confirmé son organisation en deux domaines, un domaine hélicase et un domaine topoisomérase (Rodriguez and Stock, 2002, EMBO J. 21, 418) (Figure 4).

 

L’étude de la distribution de l’activité reverse gyrase dans le monde vivant, que nous avons menée en collaboration avec le laboratoire de Carl Stetter à Regensburg à la fin des années 80, a montré que l’activité reverse gyrase était spécifique des hyperthermophiles et qu’elle était présente aussi bien chez les archéobactéries que chez les bactéries vivant à plus de 80°C (Bouthier de la Tour et al., 1988, 1990). Cette distribution atypique a été récemment confirmée par la génomique comparée. Nous avons montré que le gène codant pour la reverse gyrase est présent dans tous les génomes d’hyperthermophiles (bactéries ou archéobactéries) séquencés jusqu’à présent, et absent dans tous les génomes de mésophiles ou de thermophiles modérés (Forterre et al., 2000). En utilisant l’outil “phylogenetic pattern search” du NCBI, mis en place par Eugene Koonin et ses collaborateurs à Bethesda, j’ai même observé, à ma grande surprise, que la reverse gyrase est en fait la seule protéine qui présente cette distribution caractéristique (Forterre, 2002). Autrement dit, la reverse gyrase est la seule protéine spécifique des hyperthermophiles. D’après cette spécificité, nous pensons que la reverse gyrase est indispensable pour la vie à très haute température. Son invention (par fusion de gènes) aurait permis à des organismes thermophiles de dépasser la frontière des 80 °C.

 

L’analyse phylogénomique de la reverse gyrase (phylogénie moléculaire, distribution génomique, analyse du contexte génomique) a montré d’autre part que la reverse gyrase est très probablement apparue chez les archéobactéries avant d’être transférée aux bactéries (Forterre et al., 2000) (Figure 4). L’hyperthermophilie correspondrait donc à une adaptation secondaire chez les bactéries, et l’acquisition du gène de la reverse gyrase provenant des archéobactéries aurait joué un rôle majeur dans cette adaptation. Ce scénario est en accord avec la mise en évidence par la génomique comparée de très nombreux transferts de gènes entre archéobactéries et bactéries hyperthermophiles, et avec des travaux récents de phylogénie moléculaire qui suggèrent que LUCA n’était pas un hyperthermophile (je reviendrai sur ce point à la fin de ce chapitre).

 

La spécificité de la reverse gyrase pour les hyperthermophiles et son mécanisme d’action suggèrent fortement que cette enzyme est essentielle pour le fonctionnement correct de l’ADN aux températures très élevées. En 1986, nous avions montré, en collaboration avec le Professeur Wolfram Zillig à Munich que l’ADN du virus SSV1 de Sulfolobus shibatae était surenroulé positivement (Nadal et al., 1986). C’était la première fois que l’on mettait en évidence de l’ADN surenroulé positivement in vivo, et cela mettait en évidence l’activité de la reverse gyrase in vivo. Jusque-là, en effet, tous les ADN intracellulaires qui avaient été analysés étaient surenroulés négativement, ce qui facilite l’ouverture des deux brins de la double-hélice.

 

Le rôle précis de la reverse gyrase reste toutefois mystérieux. Ma collaboratrice Evelyne Marguet a en effet montré qu’un ADN topologiquement fermé (par exemple un plasmide), même surenroulé négativement, ne se dénature pas à très haute température, au moins jusqu’à 107 °C (Marguet et Forterre, 1994). Enfin, un étudiant en thèse du laboratoire, Olivier Guipaud, et une chercheuse post-doctorale, Purificacion Lopez-Garcia, ont montré que certains hyperthermophiles possèdent à la fois la reverse gyrase et la gyrase classique (Guipaud et al., 1997 ; Lopez-Garcia et al., 2000). Dans ce cas, les ADN plasmidiques sont surenroulés négativement, comme chez les organismes mésophiles. L’état topologique global ne semble donc pas déterminant pour la vie à très haute température. Le rôle de la reverse gyrase dans l’adaptation à l’hyperthermophile nous échappe donc encore. Clairement, seule la mise au point d’outils génétiques permettra de résoudre cette question, ce qui explique en grande partie notre désir de participer à la mise au point de tels outils (voir le programme de recherche).

 

Découverte d’une nouvelle famille d’ADN topoisomérase de type II chez les archéobactéries : la Topo VI 

 Après la découverte de la reverse gyrase, la poursuite de nos travaux sur les ADN topoisomérases des archéobactéries devait nous apporter une nouvelle surprise. En 1994, Agnès Bergerat, en stage post-doctoral dans notre équipe, réussissait à purifier une ADN topoisomérase de type II chez l’archéobactérie Sulfolobus shibatae en utilisant un test de décaténation de l’ADN (Bergerat et al. 1994). Cette enzyme, un hétérotétramère A2B2, n’avait pas d’activité gyrase, ressemblant ainsi superficiellement à l’ADN topoisomérase IV (Topo IV) des bactéries. Toutefois, elle était résistante à la novobiocine, un inhibiteur de toutes les ADN topoisomérases de type II connues à l’époque. Le clonage et le séquençage des gènes codant pour les deux sous-unités de l’ADN topoisomérase II de S. shibatae, réalisés par Agnès Bergerat et Danielle Gadelle, une ingénieure du laboratoire, allaient apporter une explication à cette observation inattendue. À l’exception de trois motifs de quelques acides aminés au niveau de la région N-terminale de la sous-unité B, l’enzyme de S. shibatae ne présentait, en effet, aucune similarité de séquence significative avec les ADN topoisomérases II bactériennes, eucaryotes ou virales connues auparavant (Bergerat et al. 1997). Nous avons donc baptisé l’enzyme de Sulfolobus ADN topoisomérase VI (Topo VI) (par rapport à la nomenclature préexistante des différentes sous-familles d’ADN topoisomérases) afin de la distinguer des autres ADN topoisomérases précédemment décrites.

 

L’étude structurale de la sous-unité A d’une autre Topo VI d’archéobactérie, celle de Methanococcus jannashii, par le groupe de James Berger aux USA, a montré, par la suite, qu’il n’existait pas non plus d’homologie structurale entre les sous-unités A de la Topo VI et celles des autres ADN topoisomérase II (Nichols et al. EMBO J. 1999, 18, p6177). De plus, l’analyse du mécanisme d’action de la Topo VI de S. shibatae par un étudiant en thèse de notre laboratoire, Cyril Bulher, a mis en évidence l’existence de différences mécanistiques importantes dans le mode de clivage de l’ADN entre cette enzyme et les ADN topoisomérase II classiques (Bulher et al. 2001). Le clivage est ATP-dépendant chez la Topo VI et ATP indépendant chez toutes les autres ADN topoisomérases de type II (Buhler et al. 1998). D’autre part, ce clivage aboutit à la production d’extrémités simple chaînes chevauchantes de 2 nucléotides, dans le cas de la Topo VI, et de 4 nucléotides, dans celui des ADN topoisomérases de type II “ classiques ”.

 

L’enzyme que nous avions isolé à partir de S. shibatae peut donc être considérée comme le prototype d’une nouvelle famille d’ADN topoisomérases II. Nous avons appelé cette famille Topo IIB, par opposition aux autres ADN topoisomérases II, toutes homologues entre-elles, que nous avons baptisé Topo IIA. Ces données montrent que, en dépit de sa complexité (rappelons qu’il s’agit de faire passer deux double-hélices d’ADN l’une au travers de l’autre), l’activité ADN topoisomérase de type II est apparue indépendamment deux fois au cours de l’évolution (Gadelle et al., 2003).

 

Identification, grâce à la Topo VI, d’un nouveau module de fixation et d’hydrolyse de l’ATP, le “ Bergerat fold ”.

 La petite région d’homologie située en N-terminale des sous-unités B des Topo IIA et de la Topo VI correspondait au site de fixation et d’hydrolyse de l’ATP de la gyrase. L’analyse des trois motifs d’acides aminés communs aux Topo IIA et IIB nous a permis de détecter ce site chez deux autres familles protéiques, les protéines de choc thermique Hsp90 et les protéines de réparation de la famille MutL (Bergerat et al., 1997). Nous avons pu prédire que ces protéines devaient être ATP-dépendantes et identifier leur site de fixation à l’ATP. Ces prédictions ont été confirmées dans les deux années qui ont suivies par la cristallisation de ces protéines par des équipes américaines. Ce nouveau site de fixation de l’ATP a été ensuite mis en évidence chez les histidines kinases et sa structure tridimensionnelle a été baptisée “Bergerat fold” par les auteurs Anglo-Saxons (Dutta and Inouye, Trends in Biochem, 25, p24, 2000).

 

Identification, grâce à la Topo VI de la protéine eucaryote responsable de la cassure des chromosomes au moment de la recombinaison meïotique : Spo11.

 L’analyse de la sous-unité A s’est révélée encore plus intéressante que celle de la sous-unité B. Alors que la sous-unité B de la Topo VI de S. shibatae ne possédait pas d’homologue dans le seul génome d’eucaryote entièrement séquencé à l’époque (la levure), la sous-unité A s’avérait être un homologue de la protéine Spo11 de Saccaromyce cerevisiae (SPO pour SPOrulation).

 

La nature biochimique et le rôle précis de la protéine Spo11 étaient inconnus à cette époque. L’analyse génétique de mutations dans le gène spo11 avait toutefois révélé que Spo11 était l’une des nombreuses protéines impliquées dans la méiose. Au cours de la méiose, les chromosomes parentaux se recombinent. Peu de temps avant notre analyse de la sous-unité A, des chercheurs travaillant sur le mécanisme de la méiose chez la levure avaient montré que ce processus de recombinaison était initié par une cassure double-brin dans l’un des deux chromosomes et qu’une protéine était fixée de façon covalente en 5’ de ces cassures. La fait que Spo11 soit un homologue d’une sous-unité d’une ADN topoisomérase de type II m’a suggéré que Spo11 devait être cette protéine, et qu’elle était responsable de l’introduction des cassures double-brin.

 

Nous avons pu vérifier cette hypothèse, en collaboration avec l’équipe d’Alain Nicolas à l’Institut Curie de Paris. On sait en effet que toutes les ADN topoisomérases utilisent une tyrosine pour réaliser une cassure transitoire double-brin. Au niveau de cette cassure, l’enzyme est associée à l’ADN par une liaison phosphotyrosine. Le remplacement par une phenylalanine, chez Spo11, de la seule tyrosine conservée (sur le plan évolutif) entre elle et la Topo VI aboutit, comme prédit par notre hypothèse, à un mutant de levure incapable de réaliser les coupures double-brin des chromosomes qui sont normalement observés au moment de la méiose (Bergerat et al., 1997) (Figure 7).

Le rôle de SPO11 dans la méiose a été également confirmé par Scott Keeney, qui a montré que SPO11 était fixé de façon covalente aux extrémités 5’ des cassures double-brin qui s’accumulent dans un mutant de levure bloqué au niveau de la recombinaison méiotique (Keeney et al., Cell. 1997, 88, p375). L’ensemble de ces travaux ont été revus par Harber (Harper, A super new twist on the initiation of meiotic recombination, Cell, 1987,  89, p163). La protéine SPO11 est présente chez tous les eucaryotes et son rôle dans la méiose semble conservé, de la levure à l’homme. Les eucaryotes ont donc recruté une sous-unité de la Topo VI des archéobactéries pour mettre en place le mécanisme à la base de la recombinaison génétique associée à la sexualité.

 

Lorsque nous avons découvert la Topo VI, cette enzyme n’était présente que chez les archéobactéries. Par la suite, les gènes codant pour ses deux sous-unités ont été identifiés chez les plantes. L’analyse de mutants de la Topo VI chez A. thaliana a montré que cette enzyme est essentielle pour l’endoreduplication. Ce mécanisme permet d’augmenter le nombre de chromosomes jusqu’à 32 compléments par cellule. Il détermine ainsi la taille des cellules végétales et, par voie de conséquence, celle de la plante elle-même (Sugimoto-Shirazu et al., 2002, Curr Biol. 12, 1782) ( ).

 

Topologie de l’ADN in vivo chez les hyperthermophiles : mise en évidence de l’effet des chocs thermiques.

 En l’absence d’outils génétiques, nous avons essayé d’aborder l’étude du contrôle du surenroulement de l’ADN chez les archéobactéries et de son rôle dans la physiologie cellulaire en analysant la topologie des plasmides chez les archéobactéries hyperthermophiles. Nous avons observé que les plasmides isolés d’organismes hyperthermophiles qui ne possèdent que la reverse gyrase sont relâchés ou légèrement surenroulés positivement (Charbonnier et al. 1992, Charbonnier et Forterre, 1994). Au contraire, les plasmides isolés d’hyperthermophiles qui possèdent à la fois la gyrase et la reverse gyrase sont surenroulés négativement (Guipaud et al., 1997, Lopez-Garcia et al., 2001). Il semble donc que ce soit essentiellement la présence ou l’absence de la gyrase qui détermine la topologie de l’ADN intracellulaire.

 

Nous avons également étudié l’effet des stress de température sur la topologie de l’ADN intracellulaire chez les hyperthermophiles. Nos travaux ont mis en évidence un parallèle surprenant entre l’effet de chocs thermiques sur la topologie de l’ADN chez les archéobactéries hyperthermophiles et chez E. coli (Marguet et al., 1996, Lopez-Garcia and Forterre, 1997) (Figure 5B). Dans les deux cas, une augmentation brusque de température provoque une augmentation du nombre d’entrelacement entre les deux brins de la double-hélice (Lk), tandis qu’une diminution brusque de la température entraîne une diminution du Lk. Ces modifications pourraient jouer un rôle important dans la réponse au choc thermique en déclenchant l’activation et la répression de différents groupes de gènes.

 

Il était à priori curieux d’observer des modifications semblables de la topologie de l’ADN suite à un choc thermique chez E. coli et Sulfolobus, compte tenu des différences notables entre les ADN topoisomérases présentes chez ces espèces (gyrase dans un cas, reverse gyrase dans l’autre) (Lopez-Garcia et Forterre, 2000). Dans le cas de Sulfolobus, nous avons observé que les quantités de reverse gyrase, de Topo VI et de la protéine architecturale Sso7 (voir ci-dessous) ne variaient pas in vivo au cours des chocs thermiques (Lopez-Garcia and Forterre, 1999). Les profonds changements topologiques observés au cours de ces chocs brusques de température pourraient être dus à l’effet direct de la température sur les activités ADN topoisomérases et sur leurs interactions avec les protéines architecturales. Ainsi, nous avons montré que la protéine Sso7d inhibe la reverse gyrase à basse température (Napoli et al., 2002). Etant donné les similitudes entre l’effet topologique des chocs thermiques chez les bactéries et les archéobactéries, la modulation directe des activités ADN topoisomérases par la température pourrait jouer un rôle universel dans la réponse au choc thermique (Lopez-Garcia and Forterre, 2000).

 

En conclusion, nos études sur les ADN topoisomérases et la topologie de l’ADN chez les archéobactéries ont mis en évidence une diversité inattendue de ces enzymes dans le monde vivant en conduisant à la découverte de deux nouvelles familles d’ADN topoisomérase et d’un nouveau mode de surenroulement. Les archéobactéries présentent, de ce point de vue, une diversité plus grande que les bactéries. Toutefois, il semble que les deux groupes procaryotes présentent des similitudes qui les distinguent des eucaryotes. Ils ont en effet la possibilité d’utiliser les activités topoisomérases pour moduler directement, par voie enzymatique, le surenroulement global de leur génome et de mettre certains de leurs réseaux de régulation sous le contrôle de ce surenroulement. Le fait que les archéobactéries et les bactéries aient pu échanger leur gène de gyrase et de reverse gyrase au cours de l’évolution, est une illustration spectaculaire de ce caractère commun aux deux groupes procaryotes.

 

Structure de la chromatine chez les archéobactéries : étude de quelques protéines architecturales

 A côté de la reverse gyrase et de la Topo VI, un composant décisif du contrôle de la topologie chez les archéobactéries doit être la présence de diverses protéines architecturales (petites protéines basiques et abondantes qui interagissent avec l’ADN sans forte spécificité de séquence). Afin d’expliquer l’état relâché ou faiblement surenroulé positivement des plasmides chez les hyperthermophiles, nous avions prédit, au début des années 90, l’existence chez ces derniers de protéines de type histone introduisant des supertours négatifs contraints dans l’ADN, afin d’équilibrer l’action de la reverse gyrase (Forterre et al., 1992). David Musgrave a montré, à l’occasion d’une année sabbatique dans notre laboratoire, que les histones des archéobactéries, qui sont homologues aux histones eucaryotes, peuvent enrouler l’ADN en formant, soit un supertour positif, soit un supertour négatif (Musgrave et al., 2000). La transition entre les deux types de surenroulement est obtenue en jouant sur la concentration de sel. Il semble que dans les conditions physiologiques de température et de sel, l’ADN soit surenroulé négativement autour des “ nucléosomes ” chez les archéobactéries hyperthermophiles. Sulfolobus, ne possèdent pas d’histone de type eucaryote. Nous avons toutefois montré que l’une de ces protéines architecturales majeures, la protéine sso7, peut également provoquer la formation de supertours négatifs en induisant un déroulement de la double hélice. (Lopez Garcia and Forterre, 1998 ; Napoli et al., 2002). Le modèle que nous avons proposé pour la “ chromatine ” des archéobactéries semble donc applicable à la fois aux euryarchaea et aux crenarchaea.

 

Les protéines architecturales que nous avons étudié chez Sulfolobus et Pyrococcus jouent certainement un rôle important, non seulement dans la régulation de la topologie de l’ADN, mais aussi dans les mécanismes de réplication, de réparation et de recombinaison de l’ADN que nous allons maintenant aborder.

 

Les 3R (réplication, recombinaison, réparation) de l’ADN chez les archéobactéries 

 

ADN polymérases

La génomique comparée a montré, ces dernières années, que les mécanismes de la réplication de l’ADN étaient très semblables chez les archéobactéries et les eucaryotes (Edgell and Doolittle, Cell, 1997, 89, p995). J’avais pu mettre en évidence cette similitude dès 1984, en montrant que la réplication de l’ADN chez les archéobactéries halophiles était inhibée par l’aphidicoline, dont la seule cible connue à l’époque était l’ADN polymérase a des eucaryotes (Forterre et al., 1984). J’avais ensuite étudié les ADN polymérases des archéobactéries thermoacidophiles, Sulfolobus acidocaldarius et Thermoplasma acidophilum, avec Christiane Elie, dont j’ai dirigé la thèse chez A.M. De Recondo. Nous avions été parmi les premiers à caractériser biochimiquement des ADN polymérases thermophiles d’archéobactéries (Elie et al. 1988, 1989, Salhi et al., 1989 ; Hamal et al., 1990). Nous avons montré en particulier que l’ADN polymérase de S. acidocaldarius pouvait être utilisée pour la PCR (Salhi et al. 1989). Toutefois, cette enzyme s’est révélée beaucoup moins efficace pour l’amplification que les ADN polymérases des archéobactéries hyperthermophiles du genre Pyrococcus, sur lesquelles travaillaient les compagnies Biolabs et StrataGene aux USA (commercialisées par la suite respectivement sous les noms de Vent polymérase et de Pfu polymerase). Quelques années plus tard, Hamed Bouyoud, un étudiant en thèse financé par l’IFREMER, a entrepri dans notre équipe à Orsay de cloner des gènes codant pour des ADN polymérases à partir d’une collection de souches de Thermococcales isolées par le laboratoire de Biotechnologie de l’IFREMER à Brest. Ce travail a ensuite été poursuivi à Brest jusqu’à son exploitation commerciale par la société Appligène. 

 

L’étude des ADN polymérases d’archéobactéries est devenue ainsi très compétitive (et répétitive), en raison de leur intérêt biotechnologique. Vers le milieu des années 90, je n’étais donc plus particulièrement intéressé à poursuivre cette thématique. Mon intérêt pour la réplication n’avait pas faibli, mais il me semblait désormais plus intéressant de tenter le mise au point d’un système de réplication hyperthermophile in vitro capable de répliquer un élément extrachromosomique afin d’avoir accès à l’ensemble des protéines réplicatives de l’hôte.

 

Découverte d’un plasmide chez un hyperthermophile et étude du mécanisme de sa réplication par cercle roulant. 

 Une opportunité d’avancer dans cette direction est apparue avec la découverte d’un plasmide, appelé pGT5 chez l’archéobactérie hyperthermophile Pyrococcus abyssi (Erauso et al., 1992). Une étudiante en thèse de notre équipe, Stéphanie Marsin, a pu montrer que ce plasmide se réplique par le mécanisme du cercle roulant (Erauso et al., 1996). Elle a ensuite réussi à exprimer chez E. coli une protéine codée par ce plasmide dont l’analyse avait mis en évidence de faibles similarités de séquence avec une famille de protéines impliquées dans le mécanisme d’initiation de la réplication par cercle-roulant. Nous avons pu montrer que cette protéine, que nous avons appelé Rep75, possédait toutes les activités caractéristiques des protéines initiatrices des plasmides cercle-roulants : endonucléase et ligase sites-spécifiques, et ADN topoisomérases (Marsin and Forterre, 1998, 2001 ; Marsin et al. 2000). De plus, Rep75 possède une activité de type nucléotidyl transferase site-spécifique qui n’avait jamais été décrite (Marsin and Forterre, 1998). Une analyse par mutagenèse dirigée a montré que le même site actif est impliqué dans toutes les activités enzymatiques portées par Rep75 (Marsin and Forterre, 1999).

 

La protéine Rep75 est beaucoup plus grosse que les protéines Rep classiques de plasmide cercle-roulant. Récemment, notre nouveau programme d’étude systématique des éléments extra-chromosomiques des Thermococcales nous a conduit à identifier une protéine (Rep74) homologue de Rep75 codée par un plasmide d’une nouvelle souche de Thermococcus.  L’étude comparée de ces deux protéines a permis de confirmer leur grande taille et leur organisation modulaire. La région centrale, qui porte l’activité endonucléase, est associé à deux domaine (N et C-terminal) de fonction inconnue. Le domaine N-terminal pourrait correspondre à une activité ADN polymérase, cette hypothèse est actuellement à l’étude (voir le programme de recherche).

 

La caractérisation biochimique de Rep75 à la fin des années 90 ouvrait la voie à la mise au point d’un système de réplication in vitro. Cependant, le développement de la génomique des archéobactéries, à partir de 1997, et notre participation au séquençage du génome de P. abyssi par le Génoscope en 1998-1999, allait nous conduire à réorienter radicalement nos travaux sur la réplication en nous attaquant directement au problème de l’initiation de la réplication du chromosome des archéobactéries (voir ci-dessous).

 

Identification des origines de réplication chromosomique 

A la fin des années 90, l’identification d’une origine de réplication était l’un des derniers “grands problèmes” qui restaient à résoudre sur la biologie moléculaire des archéobactéries. En particulier, on ne savait pas si ces dernières utilisaient une seule origine de réplication, comme les bactéries, ou de multiples origines, comme les eucaryotes. On ne disposait pas, en effet, des outils génétiques qui avaient permis la mise en évidence et la caractérisation des origines dans les deux autres domaines.

 

Suite au séquençage des premiers génomes d’archéobactéries, des tentatives avaient été faites, sans succès, pour identifier l’origine de réplication en utilisant la méthode dit du “biais GC” (GC skew). Jean Lobry, à Lyon, avait en effet observé en 1995, chez les bactéries, que le brin répliqué de façon continue (le brin leader) était plus riche en G que le brin répliqué de façon discontinue (le brin retardé). Ce phénomène permettait de localiser, dans certains génomes, l’origine et le terminus de réplication au niveau des transitions d’un excès de G vers un excès de C (Lobry, Science. 1996, 272, p745). L’échec de cette méthode chez les archéobactéries pouvait suggérer l’existence de multiples origines, en accord avec le caractère “eucaryote” de leur machinerie de réplication.

 

Je décidais alors de rechercher les origines de réplication des archéobactéries en analysant, non plus le biais de nucléotide GC, mais les biais en différents “mots” nucléotidiques de 4 à 6 lettres (pouvant correspondre à des sites de reconnaissance de la primase sur le brin “ leader ”), et en mesurant l’intégration de ce biais de mots tout au long du génome (méthode proposée par Grigoriev dans le cas du biais GC sous le nom de cumulative skew analysis) (Grigoriev, Nucleic Acids Res. 1998, 26, p2286). Pour réaliser ce travail, j’ai collaboré avec Philippe Lopez, qui était à l’époque étudiant en thèse chez Hervé Philippe, pour la partie bioinformatique.

 

En utilisant la méthode du biais cumulé, Philippe Lopez a pu mettre en évidence des zones d’inversion des biais qui pouvaient correspondre à des origines de réplication chez deux archéobactéries : Methanobacterium thermoautotrophicum et Pyrococcus horikoshii (Lopez et al. 1999) (Figure 8). En examinant, les séquences localisées au niveau de ces zones d’inversion, j’ai pu détecter dans ces deux archéobactéries une région intergénique localisée en 5’ du gène codant pour un homologue des protéines eucaryotes Cdc6 et Orc1 (Lopez et al. 1999). Ce résultat était très encourageant puisque les protéines Cdc6 (Cell division cycle) et Orc1 (Origin replication complex) étaient connues pour intervenir de façon décisive dans l’initiation de la réplication chez les eucaryotes. De plus, ces régions intergéniques présentaient les caractéristiques classiques des origines de réplication : une ou deux zones riches en nucléotides A et T et plusieurs séquences répétées (directes et inverses). Enfin, ces séquences répétées étaient conservées entre P. horikoshii et de M. thermoautotrophicum, deux archéobactéries relativement éloignées sur le plan évolutif, (Lopez et al. 1999). 

 

Il restait à confirmer expérimentalement notre prédiction in silico par des études in vivo. Un chercheur post-doctoral du laboratoire, Hannu Myllykallio, qui avait commencé à travailler sur la réplication in vitro de pGT5, a accepté de changer de sujet et de relever ce nouveau défi. Il a effectivement réussi a montrer que l’origine prédite chez P. abyssi par l’approche bio-informatique était présente dans le premier fragment du génome répliqué in vivo (Myllykallio et al., 2000). Pour réaliser cette expérience, Hannu Myllykallio a synchronisé les cultures de P. abyssi par l’addition d’un inhibiteur de la synthèse protéique, la puromycine. Il a ensuite suivi l’entrée en réplication progressive de différentes régions du génome en mesurant l’incorporation relative d’un précurseur radioactif de l’ADN dans différents macro-fragments de restriction séparés par électrophorèse en champ pulsé. Il faut remarquer que ce travail a pu être mené à bien grâce au séquençage de P. abyssi réalisé par le Genoscope, ce qui a permis de localiser les macro-fragments de restriction sur le génome complet de cette archéobactérie.

 

Le résultat obtenu par Hannu Myllykallio a montré que la réplication du chromosome chez P. abyssi démarre à partir d’une origine unique et qu’elle est bi-directionnelle, tout comme chez les bactéries. Il a permis également de calculer la vitesse de la progression des fourches de réplication chez P. abyssi. Celle-ci est du même ordre de grandeur que chez les bactéries, environ 1 kb par seconde, soit dix fois plus rapide que chez les eucaryotes. P. abyssi réplique donc leur ADN selon un mode “bactérien” (origine unique, grande vitesse), mais avec une machinerie protéique de type eucaryote. Ces travaux, publiés en juin 2000 dans Science, ont eu un grand retentissement puisque, dans les six mois qui ont suivi, ils ont été discutés dans trois mini-revues qui leur ont été entièrement consacrées (Vas and Leatherwood, Genome Biology, 1, p1020, 2000 ; Kelman, Trends Biochem Sci. 2000, 25, p521 ; Bernander and Skarstad, Trends Microbiol. 2000, 8, p535).

 

Par la suite, Hannu Myllykallio et un autre chercheur post-doctoral du laboratoire, Fujihiko Matsunaga, ont pu obtenir des données expérimentales encore plus précises concernant le mécanisme d’initiation de la réplication chez P. abyssi (Matsunaga et al. 2001, 2003). Ils ont tout d’abord pu détecter, par analyse sur gel bi-dimensionnel, la présence d’une origine de réplication active dans la région intergénique que nous avions identifié in silico comme une probable origine de réplication. Ils ont ensuite pu déterminer le point de transition entre les brins leader et retardé avec une précision de quelques nucléotides en localisant les fragments d’Okazaki sur les deux brins du chromosome au niveau de oriC (voir ci-dessous pour l’identification des fragments d’Okazaki chez les archéobactéries). L’initiation de la réplication se produit au voisinage d’une région riche en nucléotides AT, et au niveau d’une longue séquence répétée en deux exemplaires dans oriC (Matsunaga et al. 2003).

 

Mécanisme de la réplication chromosomique (initiation, élongation) chez Pyrococcus abyssi.

Hannu Myllykallio et Fujihiko Matsunaga, ont entrepris d’étudier le mécanisme même de l’initiation, en collaboration avec le Dr. Yoshimizu Ishino à Osaka. Ce dernier nous a fourni les anticorps dirigés contre les homologues des protéines eucaryotes Cdc6/Orc1 et Mcm (Mini chromosome maintenance) de P. abyssi. Chez les eucaryotes, la protéine Orc1 fait partie du complexe d’initiation de la réplication, le complexe ORC (Origin of Replication Complex), tandis que la protéine Mcm est l’hélicase ouvre la double-hélice au niveau des origines de réplication. La protéine Cdc6 déclenche le mécanisme de l’initiation en recrutant l’hélicase Mcm au niveau du complexe ORC (Figure 8). Nous pensons que la protéine Cdc6/Orc1 des archéobactéries jouerait à la fois les rôles de l’ORC et de Cdc6 chez les eucaryotes. Le système de réplication chez les archéobactéries s’apparenterait donc à un système eucaryote simplifié.

 

Hannu Myllykallio et Fujihiko Matsunaga ont montré que la protéine Cdc6/Orc1 de P. abyssi se fixait spécifiquement sur l’origine de réplication de P. abyssi in vivo, confirmant ainsi le rôle crucial de cette protéine dans l’initiation de la réplication chez les archéobactéries(Matsunaga et al. 2001). Ils ont ensuite montré que Cdc6 restait fixé en permanence au niveau de l’origine, même après addition de la puromycine qui bloque l’étape d’initiation de la réplication, tandis que la protéine Mcm se détache de l’ADN en présence de puromycine. Il semble donc que la fixation de l’hélicase Mcm au niveau d’oriC soit l’une des étapes cible du mécanisme qui régule l’initiation de la réplication chez les archéobactéries (Matsunaga et al. 2001).

 

Hannu Myllykallio et Fujihiko Matsunaga ont ensuite déterminé in vivo la structure et la taille des fragments d’Okasaki chez P. abyssi et S. solfataricus. Ceux-ci sont exactement semblables aux fragments d’Okasaki de la levure, avec une longueur de 120 à 150 nucléotides, et un ARN amorce en 5’ d’une dizaine de nucléotides (Matsunaga et al. 2003). Au contraire, les fragments d’Okazaki sont beaucoup plus longs chez les bactéries (environ 1 à 2 kb). Il n’y a donc pas de corrélation entre la taille des fragments d’Okazaki et la vitesse des fourches de réplication, puisque les archéobactéries répliquent leur ADN aussi vite que les bactéries, mais avec de petits fragments d’Okazaki semblables à ceux des eucaryotes.

 

 Découverte d’une nouvelle famille de thymidylate synthase, ThyX 

Au cours de son travail sur la réplication de l’ADN chez P. abyssi, Hannu Myllykallio a été amené à rechercher les conditions permettant d’incorporer in vivo un traceur radioactif dans la molécule d’ADN pour mesurer la réplication in vivo. Il a observé que la thymidine exogène n’était pas incorporée dans l’ADN (Myllykallio et al., 2000), ce qui pouvait s’expliquer par l’absence du gène codant pour une thymidine kinase dans le génome de P. abyssi. Par contre, bien que l’ADN puisse être marqué en utilisant de l’uracile radioactif, il n’a pas pu détecter de gène codant pour la thymidylate synthase ThyA. La présence de cette activité enzymatique, qui transforme le dUMP en dTMP, était pourtant nécessaire chez P. abyssi pour expliquer comment la radioactivité de l’uracile pouvait se retrouver dans l’ADN ! Une recherche systématique du gène thyA dans tous les génomes entièrement séquencés a montré que ThyA est absent chez les archéobactéries, mais également chez de nombreuses bactéries. Cette observation suggérait l’existence d’une nouvelle famille de thymidylate synthase.

 

Hannu Myllykallio a réussi à identifier cette famille par une recherche bibliographique associée à une recherche in silico de génomique comparative. Il a en effet mis en évidence un gène, qu’il a appelé thyX, qui est systématiquement présent chez tous les organismes qui ne possédent pas thyA. En combinant des approches biochimiques et génétiques, il a pu montrer que la protéine codée par ce gène, ThyX, possédait effectivement une activité thymidylate synthases (Myllykallio et al., 2002).

 

ThyA et ThyX ne présentent aucune similarité de séquence. De plus, Hannu Myllykallio a pu montrer, en collaboration avec Ursula Liebl, de l’Ecole Polytechnique, que le mécanisme réactionnel de ThyX était différent du mécanisme de ThyA (Myllykallio et al., 2002). En parallèle au travail réalisé par Hannu Myllykallio dans notre équipe, la protéine ThyX de Thermotoga maritima a été cristallisée en tant que “ protéine de fonction inconnue ” aux USA dans le cadre d’un projet de génomique structurale (Murzin, comment in Sciences, 2002, 297, p61) (Figure 8). ThyA et ThyX ne présentent pas non plus de similarité structurale. Ceci montre que l’activité thymidylate synthase (c’est-à-dire le remplacement de l’uridine par la thymidine dans l’ADN) a été inventée deux fois indépendamment au cours de l’évolution.

 

De nombreuses bactéries pathogènes (Bacillus anthracis, Helicobacter pylori) ne possèdent que ThyX, alors que seul ThyA est présent chez l’homme. ThyX est donc une nouvelle cible de choix pour la recherche d’antibiotiques. Deux brevets ont été déposés par Hannu Myllykalllio, pour valoriser son travail dans cette perspective.

 

 Etudes sur la radioresistance des Thermococcales 

 L’étude des mécanismes de contrôle de la topologie et de la réplication de l’ADN chez les hyperthermophiles nous ont progressivement amené à nous intéresser au problème de la stabilité de l’ADN chez ces microorganismes, qui vivent parfois à des températures supérieures à celle du point d’ébullition de l’eau. Nous avons abordé ce problème sous deux aspects : l’étude de leur radioresistance et celle d’un mécanisme moléculaire pouvant être impliqué dans la réparation des cassures double-brins (voir ci-dessous).

 

La radioresistance des archéobactéries hyperthermophiles avaient été mise en évidence pour la première fois par une équipe “ soviétique ” dans les années 80. Ces résultats préliminaires ont été confirmés en 1998 par Jocelyne DiRuggiero, une Française travaillant aux USA, dans le cas de Pyrococcus furiosus. La survie de cette archéobactérie est de 100 % après une exposition à des doses de rayons gamma allant jusqu’à 2000 Grays. L’exposition de P. furiosus à un rayonnement gamma provoque un très grand nombre de cassures double-brins dans le chromosome, qui sont rapidement réparées lorsque les cellules sont remises en culture à 95°C. Une étudiante en thèse de notre équipe, Emmanuelle Gérard, a obtenu des résultats similaires dans le cas de P. abyssi. De plus, elle a pu montrer que le nombre de cassures double-brins introduites dans le chromosome par une même dose de rayonnement gamma était identique chez P. abyssi ou E. coli. (Gérard et al, 2001). Ce résultat implique que les hyperthermophiles ne possèdent pas de mécanisme permettant de protéger directement leur ADN, mais plutôt des mécanismes particulièrement efficaces de réparation des cassures double-brin. Il faut noter que de telles cassures sont à priori particulièrement dangereuses à haute température, car elle peuvent servir d’amorces pour la dénaturation instantanée de la double hélice, en levant la contrainte topologique qui normalement s’oppose à cette dénaturation (Marguet et Forterre, 1994).

 

Récemment, Edmond Jolivet, un étudiant en thèse de Daniel Prieur, a pu montrer, en collaboration avec notre équipe (Hannu Myllykallio et Fujihiko Matsunaga), que la réplication de l’ADN est bloquée après irradiation gamma chez P. abyssi. La réplication ne reprend qu’après la reconstitution d’un chromosome intact, ce qui suggère l’existence d’un mécanisme de contrôle analogue au mécanisme appelé “ check point ” chez les eucaryotes (Jolivet et al., 2003b).

 

En parallèle à ce travail de biologie moléculaire, Edmond Jolivet a isolé de nouvelles archéobactéries hyperthermophiles encore plus radiorésistantes que P. abyssi et P. furiosus à partir de cultures d’enrichissement irradiées aux rayons gamma. Il a ainsi pu décrire trois nouvelle espèces de Thermococcus : Thermococcus gammatolerans, Thermococcus radiotolerans et Thermococcus marines. (Jolivet et al., 2003a, 2004). La plus radiorésistante des trois est Thermococcus gammatolerans, qui est pratiquement aussi résistante au rayonnement gamma que Deinococcus radiodurans (lorsque ces deux organismes sont testés dans leurs conditions physiologiques respectives : anaérobie pour T. gammatolerans et aérobie pour D. radiodurans).

T. gammatolerans, dont le génome vient d’être séquencé (voir ci-dessous) devrait rapidement devenir une souche modèle pour l’étude de la radiorésistance.

 

Etude du complexe Rad50/Mre11 et des protéines associées chez Sulfolobus acidocaldarius 

 Nous avons vu que la radiorésistance des archéobactéries hyperthermophiles implique un mécanisme de réparation efficace des cassures double-brin de l’ADN. Nous sommes donc intéressés par l’étude au niveau moléculaire des mécanismes de réparation de ces cassures chez ces microorganismes. Nous avons abordé ce problème grâce à la découverte il y a quelques année par un chercheur CNRS de l’équipe, Christiane Elie, d’un homologue de la protéine eucaryote Rad50 chez Sulfolobus acidocaldarius (Elie et al. 1997). Chez les eucaryotes, la protéine Rad50 s’associe avec d’autres protéines, dont Mre11, pour former des complexes qui interviennent dans de nombreux processus de réparation de l’ADN. En particulier, Rad50 et Mre11 sont impliqués dans la maturation des extrémités de l’ADN au niveau des cassures double-brin. Cette maturation permet la formation d’extrémités d’ADN simple-chaîne en 3’ qui vont servir de support pour la fixation de la recombinase (Rad51). Le complexe Rad50/Mre11 possède des activités exonucléases ; toutefois, ces activités ne permettent pas d’expliquer la production d’extrémités d’ADN simple-chaîne sortantes en 3’, car elles dégradent l’ADN dans la mauvaise direction !

 

Christiane Elie et Florence Constantinesco (Maître de Conférence dans notre équipe) ont découvert chez les archéobactéries un opéron qui regroupe les gènes rad50 et mre11 et deux gènes codant pour des protéines de fonctions inconnues. Elles ont tout d’abord pu montrer que l’une de ces protéines est le prototype d’une nouvelle famille d’endonucléase qu’elles ont appelée NurA (Nuclease impliquée dans la recombinaison chez les archéobactéries)  (Constantinesco et al., 2002). La protéine NurA possède une forte activité exonucléase 3’ vers 5’ qui pourrait expliquer la production d’extrémités d’ADN simple-chaîne en 3’. Plus récemment, confirmant expérimentalement une prédiction in silico de l’équipe de E. Koonin, elles ont montré que la deuxième protéine est le prototype d’une nouvelle famille d’hélicase, qu’elles ont appellé HerA (Hélicase impliquée dans la recombinaison chez les archéobactéries) (Constantinesco et al., 2004, sous presse). Nous avons pu montrer qu’il s’agissait non seulement d’une hélicase, mais également de la première hélicase bi-directionnelle mise en évidence à ce jour.

 

Il est intéressant de noter que chez les bactéries, le complexe RecBCD, qui intervient dans la maturation des cassures double-brins, possède à la fois une hélicase fonctionnant dans le sens 3’ vers 5’ et ne hélicase fonctionnant dans le sens 5’ vers 3’. Ces activités sont portées respectivement par les protéines RecB et RecD (Dillingham et al., Nature, 423, p893, 2003). Dans le cas du complexe Mre11 des archéobactéries, c’est le même polypeptide (HerA) qui porte les deux activités ! La protéine HerA a été caractérisée parallèlement chez P. abyssi par l’équipe de Hopfner à Munich, ceux-ci ont publié leurs travaux en premier, sans toutefois mettre en évidence l’activité hélicase de HerA qu’ils ont baptisé pour leur part Mla, pour "Mre11-linked ATPase" (Manzan et al., EMBO, J. 2003, 5, p54).

 

Florence Constantinesco et Christiane Elie ont par ailleurs montré que les quatre protéines, Rad50, Mre11, NurA et HerA, étaient cotranscrites chez Sulfolobus, ce qui renforce l’hypothèse selon laquelle elles font partie d’un même complexe fonctionnel.

 

Après nos découvertes précédentes d’une nouvelle famille d’ADN topoisomérase de type II (Topo VI) et d’une nouvelle famille de thymidylate synthase (ThyX), chez les archéobactéries, celles d’une nouvelle famille d’endoncléase (NurA) et d’une nouvelle famille d’hélicase (HerA) confirme l’importance d’explorer la biochimie et la biologie moléculaire de ces microorganismes.

 

Génomique des archées hyperthermophiles : mécanismes d’évolution des génomes 

Le génome de Sulfolobus solfataricus 

  L’ère de la génomique s’est ouverte pour les archéobactéries en 1996 avec le séquençage complet du génome de Methanococcus jannashii par le TIGR aux USA. A peu prêt à la même époque, Roger Garrett à Copenhague me proposait de participer au projet de séquençage du génome de Sulfolobus solfatarius, initié deux ans plus tôt par un consortium de trois laboratoires Canadiens. Il s’agissait de “ terminer ” ce génome, en regroupant trois laboratoires Européens. Suite à cette initiative, c’est Michel Duguet qui devait prendre à ma demande la direction d’une petit groupe pour mener à bien ce projet (financé par l’Union Européenne) sur le site d’Orsay. Ce groupe devait jouer un rôle décisif, en 1999, pour “ sauver ” le projet Sulfolobus en réalisant, avec l’aide du Génoscope, une carte physique du génome de S. solfataricus basée sur une banque de BAC (carte qui avait fait cruellement défaut dans les premières étapes). L’assemblage et l’annotation du génome ont été réalisés par Yvan Zivanovic (un chercheur CNRS de notre équipe), et Fabrice Confalonieri, (un Maître de Conférence de l’équipe de Michel Duguet). La séquence du génome de S. solfatarius a été terminée en septembre 2000 (She et al. PNAS, 2001, 98, 7835-7840, Y. Zivanovic et Fabrice Confalonieri sont tous les deux co-premiers auteurs de cet article). Le site d’accès au génome de Sulfolobus est localisé sur le site internet de notre équipe :  http://www-archbac.u-psud.fr/genomes/Genomes.html.

 

Dans le cadre de sa participation au projet Sulfolobus (sous-clonage, assemblage, annotation), Yvan Zivanovic a développé un site d’analyse des génomes sur internet qui devait se révéler très utile pour notre équipe. J’ai participé à l’annotation des protéines impliquées dans la réplication et la réparation de l’ADN, ce qui m’a permis d’observer l’absence dans le génome de Sulfolobus de certaines protéines de réplication de type eucaryote qui sont présentes chez les euryarchaea (Myllykallio et Forterre, 2000) (il faut noter que cette observation justifie pleinement notre choix de travailler sur des organismes modèles, Sulfolobus, Pyrococcus/Thermococcus, appartenant à ces deux phyla).

 

Le génome de Pyrococcus abyssi 

 L’expertise acquise par Yvan Zivanovic dans l’analyse des génomes devait m’encourager, à proposer, en 1998, au Génoscope le séquençage du génome de Pyrococcus abyssi (à la suite d’une suggestion faite par Jean-Claude Thierry de l’IBMC à Strasbourg). Le séquençage a été réalisé en 1999 et la séquence a été immédiatement déposée dans les banques de données avec une première annotation réalisée par Olivier Poch à l’IBMC. Plus récemment, une ré-annotation manuelle complète du génome de P. abyssi a été réalisée en collaboration avec George Cohen (Institut Pasteur), Jöel Querellou (Ifremer), Michael Galperin (NCBI, Bethesda) et O. Poch. Ce travail nous a permis de publier la première description exhaustive d’un génome de Pyrococcus (Cohen et al., 2003).

 

L’analyse du génome de P. abyssi s’est révélée particulièrement intéressante en raison de l’existence de deux autres génomes de Pyrococus entièrement séquencés, ceux de Pyrococcus horikoshi et de Pyrococcus furiosus. Yvan Zivanovic a réalisé une comparaison structurale de ces trois génomes en collaboration avec l’équipe d’Hervé Philippe (Myllykallio et al. 2000, Zivanovic et al ., 2001, 2002). Cette étude a montré que les mécanismes d’évolution des génomes sont très semblables chez les bactéries et les archéobactéries. En particulier, les génomes évoluent principalement par recombinaison (inversion, translocation, transposition). Il existe d’autre part un lien très fort entre certaines de ces recombinaisons et la réplication. Ainsi, la région correspondant au terminus de réplication est un point chaud de recombinaison (Figure 10). De plus, les inversions majeures se produisent de façon symétrique par rapport à l’origine de réplication (Figure 10). Elles peuvent s’expliquer par des recombinaisons entre les deux fourches de réplication d’un même chromosome.

 

Les remaniements génomiques modifient transitoirement les biais de composition en nucléotides dont j’ai parlé précédemment. Nous avons observé que ces biais sont restaurés très rapidement après une inversion. Les inversions semblent donc jouer un rôle important dans l’évolution des génomes en induisant indirectement l’introduction de mutations dans la séquence de l’ADN (Zivanovic et al., 1992).

 

Etude des protéines de fonction inconnue conservées des archéobactéries à l’homme : Le projet PACE 

 La génomique comparative est un outil particulièrement puissant, et encore sous-utilisé, pour déterminer de nouveaux programmes expérimentaux. Dès le séquençage des premiers génomes d’archéobactéries, j’ai été fasciné par l’existence dans ces génomes de gènes codant pour des protéines de fonction inconnue qui étaient conservées chez les eucaryotes. Ces protéines doivent jouer un rôle fondamental pour avoir été ainsi conservé au cours de l’évolution. Certaines de ces protéines sont présentes systématiquement dans tous les génomes d’archéobactéries et d’eucaryotes actuellement séquencés ! Nous avons donc là, à portée de main, une mine de nouvelles découvertes potentiellement très importantes.

 

Nous avons établi, il y a quatre ans, une première liste de 32 de ces protéines que nous avons appelé PACE (Proteins of Archaea Conserved in Eucaryotes) (Matte-Taillez et al., 2000) (www-archbac.u-psud.fr/projects/pace/paceproteins.html). Récemment, nous avons identifié quatre nouvelles PACEs. L’analyse de l’environnement génomique des gènes codant pour ces protéines chez les archéobactéries a permis, dans certains cas, de faire des hypothèses sur leur rôle biologique. Par exemple, le gène codant pour PACE 12 est situé chez plusieurs archéobactéries à côté de gènes codant pour des protéines de la réplication, ce qui suggère une implication de cette protéine dans ce mécanisme (Figure 11). Des données génétiques chez l’homme indiquent que plusieurs PACEs, dont on ne connaît ni la fonction biochimique, ni le rôle in vivo, sont impliquées dans l’apparition et le développement de tumeurs. Ainsi, PACE 32 code pour un homologue d’un nouvel oncogène humain, MCT-1 (Matte-Taillez et al., 2000 ; Forterre et al. 2001).

 

Notre équipe n’avait clairement pas la force, seule, de s’attaquer à un projet de recherche expérimentale systématique sur les PACEs. J’ai eu la chance de pouvoir intéresser à ce projet plusieurs chercheurs du CEA, Jean Armangaud, qui dirige une petite équipe de biologistes moléculaires et de biochimistes à Marcoule, Pierre Gans, un spécialiste de la RMN à Grenoble (CEA/CNRS), et Marc Fontecilla (également à Grenoble) pour la cristallogénèse. A l’heure actuelle, les gènes de P. abyssi codant pour 17 PACEs ont été clonés,11 protéines ont été exprimées sous forme soluble et 5 d’entre elles ont été purifiées en grande quantité.

 

Quatre PACEs ont été plus ou moins caractérisées par des groupes extérieurs après le début de ce travail. C’est la case de PACE11 qui a été identifié in silico comme probable phosphopantétheine adenylyltransferase, l’une des enzyme de la voie de biosynthèse du coenzyme A. Nous avons pu montre que l’enzyme de P. abyssi possédait bien cette activité (Armangaud et al., 2003). Il s’agit d’un exemple assez rare d’une enzyme d’archéobactérie impliquée dans une voie métabolique qui est beaucoup plus proche de son homologue eucaryote que de son homologue bactérien. La PACE 18 a été caractérisée dans le cadre de notre projet, en collaboration avec Henri Grosjean, comme étant une enzyme de modification des ARN de transferts qui catalyse la formation de dimethyl guanosine m22G10.

 

La protéine PACE 12 a été cristallisée et sa structure résolue à 2.05°A par l’équipe de Dominique Housset (Figure 11). Cette analyse a montré qu’il s’agissait d’une protéine de type G. Chez les eucaryotes, ces protéines sont souvent impliquées dans des mécanismes de signalisation intracellulaire. Il s’agit du premier exemple de protéine de ce type identifiée chez les archéobactéries. D’autres PACEs possédant des activités hélicase, protéine kinase ou ATPase sont actuellement à l’étude.


Phylogénie des archéobactéries 

Au début des années 2000, nous avons entrepris avec Hervé Philippe d’utiliser les données de la génomique pour aborder le problème de la phylogénie des archéobactéries. Oriane Matte-Taillez, en stage post-doctoral dans notre laboratoire, et Céline Brochier, une étudiante en thèse d’Hervé Philippe, ont construit une phylogénie de ce domaine basée sur l’analyse de la concaténation des séquences des protéines ribosomales présentes chez toutes les archéobactéries. Au cours de ce travail, Céline Brochier et Hervé Philippe ont utilisé une méthode permettant d’éliminer de l’analyse les protéines dont les phylogénies ont été perturbées par des transferts de gènes (Matte-Taillez et al., 2001, Forterre et al., 2002).

 

Plus récemment, j’ai poursuivi ce travail avec Céline Brochier (actuellement Maître de Conférence à Marseille) et Simonetta Gribaldo, une poste-doctorante. Nous avons actualisé nos phylogénies basées sur 53 protéines ribosomales, avec les nouveaux génomes d’archéobactérie séquencés, et nous avons réalisé de nouvelles phylogénies basées sur les 12 sous-unités de l’ARN polymérase. Ces travaux ont confirmé l’absence de transfert de ces protéines entre différent domaines du vivant, et l’existence d’un petit nombre de transfert ayant affecté certaines de ces protéines entre Crenarchaea et Euryarchaea. Les arbres obtenues avec les protéines de la traduction et de la transcription sont très semblables et proches de celui obtenu avec les ARN 16S (Matte-Taillez et al., 2001, Forterre et al., 2002) (Brochier et al., 2004) (Figure 12). Ces résultats confirment l’existence d’un groupe de protéines informationelles très conservées qui permettent de retracer des phylogénies anciennes.

 

Nous avons toutefois observé une différence majeure entre nos différentes phylogénies, concernant la position de l’archéobactérie méthanogène hyperthermophile Methanopyrus kandleri (Figure 12). Cet organisme se regroupe avec d’autres méthanogènes dansl’arbre des protéines ribosomales, tandis qu’il sort à la base des Euryarchaea dans les arbres des ARN 16S et des protéines de la transcription (Brochier et al., 2004). Nous pensons que cette position basale est due à un phénomène d’attraction des longues branches qui pourrait s’expliquer dans le premier cas par la forte teneur en GC de l’ARN16S de M. kandleri et dans le second cas par la grande vitesse évolutive des grande sous-unités de son ARN polymérase.

 

De nombreux indices suggèrent en fait que le génome de M. kandleri évolue à une vitesse anormalement élevée (présence dans son génome de nombreux gènes fusionnés ou coupés – c’est le cas de sa reverse gyrase -  et de gènes orphelins, proportion très importante d’indels dans les grandes sous-unités de son ARN polymérase). En analysant le mécanisme de transcription de M. kandleri, nous nous sommes aperçu que cette archéobactérie était le seul être vivant dont le génome a été séquencé qui ne possède pas un facteur d’élongation de la transcription universel impliqué dans l’activation de l’activité ARNase intrinsèque commune à toutes les ARN polymérases. Cette activité ARNase semble jouer un rôle de correction d’erreurs et de déblocage des complexe ARN polymérases au niveau de lésions dans l’ADN. Nous avons donc émis l’hypothèse d’un lien, jusqu’à présent insoupçoné, entre fidélité de la transcription et vitesse d’évolution des génomes. Si cette hypothèse se confirmait (voir projet de recherche), nous aurions là un autre exemple d’une recherche à priori très spécialisée (quelle est la bonne position de M. kandleri dans l’arbre des archéobactéries ?) qui débouche sur un résultat de portée très général : le rôle d’un facteur d’élongation de la transcription dans la stabilité des génomes.

 

Travaux théoriques sur l’origine et l’évolution des microorganismes et des génomes à ADN 

L’étude des archéobactéries est indissociable d’une approche évolutive de la biologie moléculaire. Les mécanismes découverts chez les archéobactéries sont immédiatement mis en perspective en les comparant aux mécanismes analogues et/ou homologues déjà connus chez les bactéries et les eucaryotes, avec comme objectif ultime de déterminer la nature de ces mécanismes dans l’ancêtre commun aux trois domaines. Dès la fin des années 70, Carl Woese considérait le problème de l’ancêtre commun comme l’une des questions les plus importantes en biologie (la plus importante en fait, selon lui). Selon notre représentation de cet ancêtre, nous allons en effet interpréter différemment les données de la biologie moléculaire comparée et de là, celles concernant l’origine et l’évolution des mécanismes moléculaires.

 

Pour sa part, Woese proposait, dès 1977, un ancêtre commun très primitif : un progénote, dont les mécanismes moléculaires informationnels (réplication, transcription, traduction) fonctionnaient encore de façon imprécise (Woese, 1977, J. Mol. Evol., 10, p1). Un peu plus tard plusieurs auteurs, dont Carl Woese et Carl stetter mettaient en avant l’idée d’un ancêtre “hyperthermophile”. Cette hypothèse était soutenue par le regroupement des bactéries et archéobactéries hyperthermophiles à la base de l’arbre universel du vivant basé sur l’analyse comparative des ARN16/18S. Enfin, ce schéma général semblait validé, à la fin des années 80, par l’enracinement de l’arbre universel du vivant dans la branche des bactéries, obtenu par les méthodes traditionnelles de la phylogénie moléculaire appliquée à la phylogénie des protéines paralogues issues d’une duplication ayant précédé la divergence des trois domaines du vivant. Cet ensemble de travaux devait conduire à associer, dans un même paradigme, l’hypothèse d’une origine chaude de la vie sur notre planète et celle d’un lien direct entre cette origine et les archéobactéries actuelles.

 

Ce paradigme devait attirer l’attention des chercheurs intéressés par les origines de la vie sur les archéobactéries, et particulièrement sur leurs représentants extrêmophiles, Cet intérêt est particulièrement grand dans la communauté des “exobiologistes”, qui s’intéressent à la distribution possible de la vie dans l’univers, et aux limites (en particulier physiques) de cette distribution. Ce contexte m’a conduit à intervenir fréquemment dans des conférences consacrées à l’étude des origines de la vie et à l’exobiologie (ainsi le congrès de l’ISSOL – International society for the study of the origin of life) qui a eu lieu à Oaxaca au Mexique en 2002). J’ai, ainsi, été conduit à prendre position sur un certain nombre de questions en rapport avec l’origine de la vie et les premières étapes de l’évolution cellulaire, souvent en contradiction avec le paradigme dominant, et à lancer quelques nouvelles idées dans le débat. L’ensemble de ces problèmatiques a été profondément renouvelé avec l’apport des données de la génomique (Forterre, 2001).


Origine de la vie à haute température et hyperthermophiles. 

Dès le début des années 90, mes travaux sur la dégradation des acides nucléiques à haute température m’ont conduit à pointer du doigt la contradiction entre d’une part l’hypothèse d’une origine chaude de la vie, et d’autre part celle du monde à ARN (Forterre, 1992, 1996 ; Forterre et al., 1995). L’ARN est en effet très instable à haute température, en particulier en présence du magnésium qui sert de cofacteur pour la plupart des ribozymes. J’ai également mis en avant la présence, chez les hyperthermophiles, de caractères moléculaires évolués, dont certains sont clairement des mécanismes d’adaptation secondaire à la thermophilie. C’est le cas par exemple des phospholipides géants atypiques et des nombreuses bases hypermodifiées dans les ARN de transfert et les ARN ribosomaux. De même, la structure de la reverse gyrase (association d’un domaine hélicase et d’un domaine topoisomérase) et la présence apparemment obligatoire de cette enzyme chez les hyperthermophiles, suggèrent l’apparition de ces derniers à partir d’ancêtres mésophiles ou thermophiles modérés (Figure 3). D’après toutes ces données, il semble donc peu probable selon moi que l’on puisse établir un lien direct entre une possible origine chaude de la vie et les hyperthermophiles actuels.

 

L’existence d’un LUCA hyperthermophile était toutefois suggérée par la phylogénie des ARN 16S qui situait les hyperthermophiles à la base des bactéries et des archéobactéries. Pour expliquer la nature “hyperthermophile” de l’ancêtre commun aux deux domaines procaryotes sans avoir recours à un LUCA hyperthermophile, j’ai proposé l’hypothèse selon laquelle les procaryotes étaient apparus par “thermoréduction”, à partir d’un LUCA mésophile (Forterre, 1995). Dans ce modèle, la pression de sélection conduisant au “phénotype procaryote” correspondait à la nécessité pour les hyperthermophiles de se protéger contre la thermodégradation de leurs macromolécules, en particulier, celle de leurs ARN messagers (d’où l’absence de membrane nucléaire et le couplage de la transcription et de la traduction).

 

L’hypothèse de la thermoréduction a été récemment reprise par plusieurs auteurs (Poole et al., J Mol Evol. 1998, 46, p1 ; Bioessays. 1999, 21, p880 ; Glansdorff, J Mol Evol. 1999, 49, p3, Xu and Glansdorff, Comp Biochem Physiol A Mol Integr Physiol. 2002, 133, 677). Pour ma part, je l’ai abandonnée dans sa forme initiale. En effet, une vision plus critique des phylogénies moléculaires m’a conduit à remettre en cause la position des hyperthermophiles dans l’arbre universel du vivant. J’ai proposé l’hypothèse selon laquelle le regroupement des hyperthermophiles à la base de l’arbre des ARN ribosomaux est dû à un phénomène “d’attraction des branches courtes” provoqué par leur richesse en GC (Forterre, 1998). Cette hypothèse s’est trouvée par la suite renforcée par plusieurs résultats :

 

-      les données de Manolo Gouy et ses collaborateurs sur la composition en bases GC de l’ARN ribosomal “ virtuel ” de LUCA (Galtier et al. Science, 1999, 283, p220). Ces chercheurs ont abouti à la conclusion selon laquelle le contenu en GC de l’ARN ribosomaux de LUCA était sans doute trop faible pour un hyperthermophile.

 

-      nos travaux sur la phylogénie de la reverse gyrase, qui suggèrent son absence chez LUCA (Forterre et al., 2000).

 

-      les travaux de Céline Brochier et Hervé Philippe (Nature. 2002, 417:244.) qui ont montré que les bactéries hyperthermophiles ne sont plus localisées à la base de l’arbre bactérien des ARN 16S lorsque l’analyse phylogénétique est limitée aux positions qui évoluent lentement, c’est-à-dire celles qui ont le plus de chances d’avoir garder un signal phylogénétique significatif (voir ci-dessous).

 

D’après ces données, il est probable que ni LUCA, ni l’ancêtre commun aux bactéries et aux archéobactéries n’étaient des hyperthermophiles (c’est-à-dire un organisme vivant entre 80 et 100°C).

 

L’hypothèse de la thermoréduction pourrait toutefois être retenue si le dernier ancêtre commun à tous les procaryotes était un thermophile (50-80 °C) et si une adaptation à ces températures était suffisante pour rendre compte de la pression de sélection vers le phénotype procaryote.

 

En particulier, les archéobactéries hyperthermophiles ont des branches courtes et se regroupent à la base de l’arbre. Ce résultat est en faveur d’un ancêtre hyperthermophile pour les archéobactéries, car dans ce cas, nous avons à faire à une phylogénie basée sur l’analyse de séquences d’acides aminées et il ne semble pas que celles-ci soient particulièrement biaisées chez les hyperthermophiles. De plus, l’idée d’un ancêtre commun hyperthermophile à toutes les archéobactéries est en accord avec la phylogénie de la reverse gyrase qui suggère la présence de la reverse gyrase chez cet ancêtre. L’apparition de la reverse gyrase et l’adaptation à l’hyperthermophilie auraient donc pu jouer un rôle clef dans la formation du domaine des archéobactéries.

 

 La nature de LUCA (simple ou complexe) et l’enracinement de l’arbre universel 

A la fin des années 80, l’enracinement de l’arbre universel dans la branche des bactéries devait renforcer l’idée d’un ancêtre de type “procaryote”. Ce résultat était basé sur l’analyse phylogénétique des facteurs d’élongation et des ATPases membranaires. Vu son importance, j’ai été amené à le considérer d’un œil critique et à remettre en cause ces analyses et, d’une façon générale, la plupart des analyses classiques de phylogénies moléculaires. Une étude réalisée par une étudiante en thèse du laboratoire, Nadia Benachenhou-Lafha, sur les glutamates dehydrogénases, m’avait alerté sur le problème des “paralogies cachées” et des risques liés à la confusion des orthologues et des paralogues dans les phylogénies moléculaires (Benhachenhou-lahfa et al., 1993). J’ai, ainsi, mis en évidence un tel risque dans le cas des arbres des ATPases membranaires (Forterre et al., 1993). Un problème d’attraction des longues branches se pose également dans tous les arbres utilisés à ce jour pour enraciner l’arbre universel. Nous avons pu mettre en évidence ce phénomène, ainsi qu’une saturation mutationnelle des séquences utilisées, en collaboration avec Hervé Philippe (Philippe et Forterre, 1999).

 

Mon apport original a été de militer pour un “ retour à Hennig ”, le créateur de la cladistique, dans le cadre de la phylogénie moléculaire. J’ai commencé par réaliser des analyses cladistiques manuelles en étudiant les alignements de séquences protéiques, position par position, après avoir évalué la stabilité de ces positions au sein d’un domaine (Forterre et al., 1993 ; Forterre, 1997). Ce travail a montré que l’enracinement de l’arbre universel dans la branche des bactéries, obtenue en étudiant la phylogénie des facteurs d’élongation, était supporté par une seule position, ce qui n’avait donc aucune valeur statistique. Cette approche a conduit à la mise au point par Hervé Philippe et ses collaborateurs d’une méthode basée sur l’analyse des covarions pour évaluer la robustesse des nœuds d’un arbre phylogénétique, la méthode HP (Hennig, Phénétique) (Lopez et al., 1999) et une méthode basée sur la distinction entre positions selon leur vitesse d’évolution (méthode SF, Slow Fast). L’application de la méthode SF au facteur de translocation des protéines membranaires et à son récepteur suggère un enracinement de l’arbre universel dans la branche des eucaryotes (Brinckman et Philippe, Mol Biol Evol. 1999, 16, p817).

 

Un enracinement de l’arbre universel dans la branche des eucaryotes laisse ouverte la possibilité d’un LUCA dont la biologie moléculaire pouvait se rapprocher de celle des eucaryotes actuels (gènes mosaïques, spliceosome, etc.) (Forterre et al., 1989 ; Forterre et al., 1993 ; Forterre et Philippe, 1999), une idée qui redevient aujourd’hui populaire (Penny and Poole, 1999, Curr Opin Genet Dev. 9, p672 ; Glansdorff, 2000, Mol Microbiol., 38, p177) même si elle reste minoritaire parmi les évolutionnistes. Toutefois, les données qui soutiennent cet enracinement restent très fragmentaires. En particulier, il est difficile à concilier avec la caractérisation des protéines ribosomales dans les trois domaines du vivant (Lecompte et al., NAR, 2002, 30, 5382). En effet, de nombreuses protéines sont spécifiques des ribosomes bactériens. Si la racine de l’arbre universel est située dans la branche des eucaryotes, il faut imaginer que ces protéines ont été perdues deux fois indépendamment chez les eucaryotes et chez les archéobactéries, ce qui paraît improbable.  Il est encore possible toutefois d’imaginer un remplacement non orthologue massif de protéines ancestrales par de nouvelles protéines dans le ribosome bactérien. Un tel événement s’est effectivement produit dans le cas du ribosome des mitochondries.

 

La question de l’enracinement de l’arbre universel reste donc ouverte. Selon moi, il est peu probable qu’elle puisse être résolue par des analyses de phylogénie moléculaire. Une possibilité serait d’arriver à polariser l’évolution des principaux mécanismes moléculaires universels en faisant appel à la fois à la phylogénie moléculaire et à la biochimie comparative.

 

Le génome de LUCA et l’origine des génomes à ADN 

Ces dernières années, suite aux données obtenues grâce à la génomique comparative, le problème de la nature du génome de LUCA, ADN ou ARN est venu à l’ordre du jour. Nos premiers travaux sur les ADN polymérases et ADN topoisomérases des archéobactéries, m’avaient conduit à insister sur l’idée selon laquelle LUCA était un organisme du monde à ADN (Forterre et al., 1993). Cette idée se basait sur la présence de certaines enzymes clefs du métabolisme de l’ADN dans les trois domaines du vivant, en particulier les ADN topoisomérases de type II et les ADN polymérases de la famille B. Or, nos travaux de phylogénie plus récents, basés sur les données accumulées grâce au séquençage des génomes, ont montré que cette répartition ubiquitaire était en fait due à des transferts de gènes entre domaines (Filée et al., 2002, Gadelle et al., 2003). Il ne reste donc plus que très peu de protéines du métabolisme de l’ADN dont on peut inférer la présence dans l’ancêtre commun de chacun des trois domaines (donc sans doute chez LUCA). En particulier, les protéines de réplication de l’ADN ne sont pas ubiquitaires, puisque l’on distingue deux systèmes non homologues, celui des bactéries et celui des archéobactéries/eucaryotes. Les arguments en faveur d’un LUCA à ADN ne sont donc plus très nombreux.

 

Afin d’expliquer pourquoi le système de réplication de l’ADN des bactéries est si différent des deux autres, Koonin et ses collaborateurs ont repris l’idée, avancée par Carl Woese dès 1977, d’un LUCA dont le génome était composé d’ARN (Muschegian & Koonin, 1996, Proc Natl Acad Sci., 93, p10268). Selon eux, les mécanismes de réplication de l’ADN ont été inventés deux fois indépendamment au cours de l’évolution, une fois dans la lignée conduisant aux bactéries, et une autre fois dans celle conduisant aux archéobactéries et aux eucaryotes (Leipe et al., 1999, Nucleic Acids Res., 27, p3389).

 

Pour ma part, j’ai proposé que les protéines du système de réplication ancestral avaient été remplacées chez les bactéries par un nouveau système d’origine virale (Forterre, 1999). Cette hypothèse se base sur l’existence de nombreuses protéines de réplication virales formant des familles non homologues de leurs analogues cellulaires. Cette observation suggère une très grande ancienneté des mécanismes de réplication des virus à ADN.

 

Pour explorer plus avant cette idée, Jonathan Filée a entrepris l’analyse phylogénétique systématique des protéines virales du métabolisme de l’ADN dans le cadre de sa thèse (dirigée par Jacqueline Laurent, une Maître de conférence dans notre équipe). Leur travail a confirmé l’existence de transferts anciens de protéines réplicatives entre cellules et virus (Filée et al., 2002 ; 2003). Ces transferts sont généralement difficiles à polariser (ont-ils eu lieu des virus vers les cellules ou bien des cellules vers les virus ?). Trois cas de transferts de virus vers cellules ont toutefois pu être clairement mis en évidence : le transfert d’une ADN polymérase virale dans le génome de l’archéobactérie halophile Halobacterium NRCI, et ceux d’une ADN polymérase et d’une hélicase de la famille des bactériophages T3/T7 vers les mitochondries (Filée et al., 2002, 2003). Le cas des mitochondries est particulièrement intéressant, puisque l’on savait déjà que l’ARN polymérases mitochondriales est apparentée non pas aux ARN polymérases cellulaires mais aux ARN polymérases virales du groupe T3/T7. C’est donc tout le système de transcription et de réplication bactérien qui a été remplacé par des systèmes viraux au cours de l’évolution qui a conduit des a-proteobactéries aux mitochondries (Figure 13). Cet exemple montre que les mécanismes informationnels peuvent être sujet à des remplacements non orthologues importants.

 

L’hypothèse du transfert d’un mécanisme de réplication de l’ADN d’origine viral vers des cellules a été reprise par Villareal et De Philippis (J. Virol. 2000, 74, p221) qui ont proposé une origine virale pour l’ADN polymérase d des cellules eucaryotes. Effectivement, cet ADN polymérase branche avec tout un groupe de polymérases virales dans une phylogénie des ADN polymérases de la famille B (Filée et al., 2002, 2003). La phylogénie des ADN topoisomérases de la famille IIA suggère également une origine virale, à la fois pour les enzymes eucaryotes et procaryotes (Figure 14).

 

Pour concilier ma proposition initiale (une origine virale des protéines de réplication bactérienne) avec celle de Villareal et De Philippis, et avec les données sur l’évolution de la famille Topo IIA, j’ai proposé l’hypothèse “ radicale ” selon laquelle toutes les protéines de réplication seraient d’origine virale (Forterre, 2002, Forterre et al., 2003) (Figure 15).

 

Cette idée s’appuyait également sur une nouvelle hypothèse que j’avais formulée quelque temps auparavant : l’origine virale de l’ADN lui-même (Forterre, 2000). Dans cette hypothèse, l’ADN serait apparu par modifications progressives du génome d’une lignée de virus à ARN, afin de rendre le génome de ces virus résistant vis-à-vis des mécanismes de leurs hôtes (Forterre, 2000, 2002, Forterre et al., 2003) (Figure 16). La poursuite de ce mécanisme aurait conduit à l’apparition de virus dont les génomes sont constitués dont l’ADN est à son tour modifié. C’est le cas par exemple du bactériophage T4, dont l’ADN contient de l’hydroxyméthyl-cytosine. Ce scénario permet d’expliquer quelle pression de sélection a favorisé l’apparition de l’ADN-U (ADN avec de l’uracile), puis de l’ADN-T, au niveau d’un individu. Les avantages généralement invoqués pour expliquer l’apparition de l’ADN (plus grande stabilité, possibilité de corriger la désamination des cytosines) expliquent bien en effet pourquoi les cellules à ADN ont éliminé les cellules à ARN, mais ils n’expliquent pas comment la première molécule d’ADN a pu être sélectionnée au niveau d’un individu.

 

L’hypothèse d’une origine virale de l’ADN est en accord avec l’existence de virus à ADN-U, (par exemple le bactériophage pBS-1 de Bacillus subtilis) qui pourraient représenter des formes “reliques” intermédiaires entre l’ARN et l’ADN-T (Figure 16). D’autre part, il est frappant de constater que de nombreux virus codent pour leur propre ribonucléodide reductase (RNR) et thymidylate synthase (TdS) (ThyA ou ThyX) qui sont souvent très éloignées de leurs homologues cellulaires. L’analyse phylogénétique de ces protéines réalisée par Jonathan Filée est en accord avec une origine virale de certaines RNR ou TdS cellulaires (Myllykallio et al., 2002, Forterre et al., 2003).

 

Dans l’hypothèse d’une origine virale de l’ADN, on comprend bien comment différents mécanismes de réplication ont pu apparaître indépendamment dans plusieurs lignées de virus à ADN, par recrutement de différentes protéines impliquées dans la réplication de l’ARN. L’ADN aurait pu être ensuite transféré une ou plusieurs fois indépendamment des virus aux cellules, avant ou après l’émergence de LUCA, (selon que l’on imagine un LUCA à ADN ou à ARN). Comme on le voit, le problème de la nature de LUCA est loin d’être résolu. Pour bien souligner le problème soulevé à cette occasion par l’origine des virus, je suggère maintenant de considérer que l’acronyme LUCA correspond à the Last Universal Cellular Ancestor (Forterre, 2002). Quelle que soit la validité de ces hypothèses, elles ont selon moi l’avantage d’attirer à nouveau l’attention des évolutionnistes sur le monde des virus. Par la force des choses, les virus avaient été plus ou moins évacués de la problématique évolutive suite au développement des phylogénies et des modèles d’évolution basés sur les ARN ribosomaux.

 

 
   Last update: mai 2007/ GS