UNITÉ DE RÉGULATION DE L'EXPRESSION GÉNÉTIQUE

Responsable
DANCHIN Antoine

e-mail : adanchin@pasteur.fr


URA 1129 CNRS

Département de Biochimie et Génétique Moléculaire
Institut Pasteur
25/28 Rue du Dr. Roux
75724 PARIS Cedex 15

Tél
01 4568 8441
Fax
01 4568 8948

Secrétariat

BEAUDEUX Annie, IP

Chercheurs permanents

BERTIN Frédéric, IP
BIVILLE Francis, IP
GLASER Philippe, IP
MEDIGUE Claudine, CNRS
MOSZER Ivan, IP

Stagiaires de recherche

CRUZ-RAMOS Hugo, Thèse
HENAUT Corinne, Stagiaire
HOMMAIS Florence, Stagiaire
LELONG Cécile, Post-doc
NEDJARI Hafed, Stagiaire
PERROTTE Marina, Thèse
PRESECAN Elena, Post-doc
ROCHA Eduardo, Thèse
SEKOWSKA Agnieszka, Thèse
TROTOT Pascale, MC Université de Versailles-Saint Quentin

Ingénieurs Techniciens Administratifs

KRIN Évelyne, CNRS
SISMEIRO Odile, IP
TURLIN Évelyne, IP

Les travaux de l'Unité cherchent à identifier, puis à décrire fonctionnellement les mécanismes de contrôle de l'expression collective des gènes : comment les milliers de gènes présents dans une cellule coopérent-ils pour conduire au comportement adapté de la cellule, alors que son environnement ne cesse de changer ? Pour atteindre cet objectif deux micro-organismes modèles sont principalement étudiés. Le colibacille (Escherichia coli) d'abord, parce qu'il est le plus ancien modèle microbien utilisé par les généticiens. Ensuite, une bactérie souvent collée sous la surface des feuilles et abondante dans le sol, source de nombreuses enzymes utilisées en industrie agro-alimentaire, Bacillus subtilis. Dans le premier cas, l'étude porte sur l'identification de gènes maîtres qui gouvernent l'adaptation globale de la bactérie à son environnement. Ces gènes sont peu nombreux, mais leur altération se manifeste par un très grand changement du comportement cellulaire (en particulier par la perte de la virulence, lorsque le modèle considéré est pathogène). En deuxième lieu, l'Unité a été un élément moteur du programme international de séquençage du génome de B. subtilis, dont le déroulement s'est clos fin 1997 avec la publication de la séquence du génome complet de cet organisme, 4 214 810 paires de bases. Les travaux correspondants ont révélé l'existence de plus de 4 100 gènes dont la presque la moitié ne ressemble à rien de connu. Les résultats de l'Unité mettent en évidence la synergie qui résultet de l'étude de deux modèles bactériens simultanément. En raison de la quantité très importante de données engendrées par le séquençage de grands fragments d'ADN et de la nature énigmatique de beaucoup de gènes nouvellement découverts, les études expérimentales développées en utilisant les techniques de la génétique moléculaire, sont complétées par un ensemble de recherches utilisant les techniques et les concepts les plus récents de l'informatique, de la statistique et de la mathématique.



Le plan de la cellule est dans le chromosome

(Responsable non identifié)

Depuis 1995 le génome complet de nombreux êtres vivants est publié. La génétique est aujourd'hui totalement différente de ce qu'elle a été jusqu'à présent, non seulement en termes de compréhension de la vie, mais encore par la modification irréversible des approches techniques de la génétique, et bien sûr des coûts de la recherche qui y est associée : il ne peut plus être vraiment question de cloner un gène difficile dans un organisme donné sans se demander si l'on ne devrait pas d'abord déterminer la séquence du génome de l'organisme en question. On connaît désormais chaque mois un nouveau génome, d'un organisme souvent d'un grand intérêt biotechnologique ou médical. La raison de cette révolution en génétique est que l'ensemble des règles fixées par la séquence de l'ADN formant le génome d'un organisme suffit à décider de sa survie et de sa reproduction. Les règles de réécriture des gènes sous la forme d'ARN puis de protéines (transcription et traduction) imposent, à partir de la mémoire que constitue l'ADN, l'organisation du métabolisme et la multiplication cellulaire. Jusqu'à présent, la cohérence de l'information correspondante, qui permet entre autres choses l'expression coordonnée des gènes, est restée peu accessible. Grâce aux techniques de plus en plus élaborées permettant le séquençage de l'ADN, il est possible d'avoir accès à la structure exacte totale du génome complet d'un organisme, et donc de comprendre cette cohérence. Loin de se comporter comme une simple suite de nucléotides enchaînés que l'on pourrait comparer à une suite au hasard, tout ADN reflète le développement d'une histoire qui a pris en compte toutes sortes de contraintes et d'explorations de l'environnement. L'évolution est la base même de ce qui fait la vie. Et le savoir apporte beacoup à notre façon de déchiffrer le texte des génomes : on sait quel a été l'apport de la Pierre de Rosette à la connaissance de l'Égypte ancienne, de même l'apport essentiel des programmes de séquençage des génomes provient de la possibilité de les comparer entre eux, et au travers de l'histoire évolutive, de prédire bien des fonctions essentielles à la vie. A la suite d'une initiative européenne, l'Institut Pasteur a joué un rôle de pionnier dans ce nouveau domaine qu'est la "génomique", en utilisant le savoir-faire démultiplié sur de nombreux centres de recherche, en Europe et au Japon, pour constituer une masse critique suffisante. B. subtilis, dont le génome est long de 4215 kb, a été choisi comme modèle à séquencer par un consortium de laboratoires européens et japonais. A la suite de cet effort on connaît aujourd'hui toute la séquence de l'ADN du chromosome, qui a été rendue publique en juillet 1997 à Lausanne, et publiée à la fin de l'année. Par rapport à d'autres modèles, B. subtilis a l'avantage énorme d'être facilement transformable et surtout de permettre l'introduction à volonté d'ADN modifié in vitro, grâce à des mécanismes appropriés qui permettent très efficacement la recombinaison au site homologue. La génétique inverse - c'est-à-dire l'intégration dans le chromosome de gènes modifiés in vitro en lieu et place des gènes originaux - se pratique donc de façon routinière chez cet organisme. Il est alors possible d'explorer très rapidement les fonctions de gènes caractérisés par la détermination de leur séquence. Or le séquençage systématique du génome de B. subtilis a révélé l'existence d'un très grand nombre de gènes (près de la moitié de ceux qui ont été identifiés) dont le produit ne s'apparente à aucun gène connu. Cela démontre qu'une part immense de la génétique encore inexplorée, devra être étudiée par génétique inverse. De très nombreux gènes intéressants du métabolisme de l'énergie, ou de l'adaptation de la bactérie aux variations de l'environnement ont été découverts dans les 300 kb de séquence qui ont été produites au laboratoire. Et nous avons entrepris l'analyse fonctionnelle du génome, par inactivation séquentielle de tous les gènes au moyen de cassettes génétiques permettant d'en étudier l'expression. Le résultat le plus frappant obtenu cette année, en particulier avec l'étude du chromosome d'E. coli, est que les gènes ne sont pas dispersés au hasard, mais suivent une règle qui semble corrélée avec la position de leur produit dans la cellule. Tout se passe comme si le plan de la cellule était dans le chromosome.

Étude des génomes in silico

(Responsable non identifié)

Un moyen d'avoir accès à la fonction des gènes inconnus est de mettre ensemble toutes les connaissances qu'on peut avoir à propos du génome étudié. Cela n'est possible qu'au travers d'une approche informatique très élaborée. L'analyse des séquences génomiques nous met en face d'une situation semblable à celle de l'archéologue qui découvre une langue inconnue, à partir de très nombreux textes. Et ce qu'il nous faut donc faire, c'est créer les moyens de construire une pierre de Rosette pour les comprendre, en organisant la connaissance associée à plusieurs organismes simultanément. Pour cela, nous avons commencé par constituer une base de données pour les gènes de E. coli (appelée "Colibri": www.pasteur.fr/Bio/Colibri.html) et de B. subtilis (appelée "SubtiList" : www.pasteur.fr/Bio/SubtiList.html). A partir de ces bases (qui sont accessibles directement par le réseau informatique Internet), plusieurs logiciels d'exploration des séquences ont été développés. Ils concernent l'étude des propriétés globales de l'ADN d'un organisme (son "style"), l'identification des signaux de régulation et l'identification des gènes. Une observation d'une grande importance, soulignée plus haut, est que la moitié des gènes découverts par la séquence ont des produits qui ne ressemblent à rien de connu. Cela indique donc que les méthodes habituelles de la génétique ne retiennent pas ces gènes comme pertinents, soit en raison de la fugacité des phénotypes qui leur correspondent, soit parce que de nombreux variants, exprimant des fonctions très voisines existent dans la cellule (ils expriment des fonctions fortement redondantes). L'approche informatique aide à explorer toutes sortes d'hypothèses à propos des fonctions correspondantes. Les projets de séquençage sont interdisciplinaires et nous avons organisé, pendant quatre années, l'interaction en France d'informaticiens et de généticiens pour mettre ensemble leur compétence dans l'analyse des génomes modèles. Le retour à l'expérience, au travers de la construction d'objets biologiques artificiels (gènes et protéines) est un moyen particulièrement puissant de validation à la fois des créations informatiques, et des créations biologiques. Il existe en science très peu de situations ayant le degré de généralité que permet la manipulation in vitro des gènes. Et l'on peut à juste titre penser qu'aux approches habituelles de la biologie, expérimentation in vivo et in vitro, s'ajoute désormais la dimension nouvelle de l'expérimentation "in silico". L'analyse la plus fructueuse, en collaboration avec l'université de Versailles, a été de rechercher les "voisins" des gènes (http://indigo.genetique.uvsq.fr). La méthode hypothético-déductive en effet a l'inconvénient de ne faire qu'affiner des connaissances préalables, sans donner le moyen de faire des hypothèses à la fois nouvelles et pertinentes. Comment parvenir à la nouveauté ? Comment procéder de manière inductive, comment explorer en amont, et non en aval comme le fait la déduction ? Cette question a été approchée en utilisant une méthode inductive, l'exploration des voisinages des objets considérés. L'idée est que chaque objet existe en relation avec d'autres objets. L'exploration inductive va consister à trouver tous les voisins de chaque gène donné. "Voisin" prend ici le sens le plus large possible. Ce n'est pas seulement une notion géométrique ou structurale. Chaque voisinage est destiné à donner un éclairage spécifique sur le gène étudié, et à aider à la recherche de sa fonction. Un voisinage naturel est la proximité sur le chromosome : les opérons montrent que des gènes voisins les uns des autres peuvent être reliés fonctionnellement. Un autre voisinage intéressant sera la ressemblance entre les gènes ou les produits des gènes. Encore, un gène peut avoir été étudié par des chercheurs dans des laboratoires du monde entier. Et il peut avoir un certain nombre de propriétés qui évoquent chez eux d'autres gènes : ses voisins sont les autres gènes mentionnés avec lui dans la littérature. Il existe enfin des voisinages plus compliqués, dont l'étude donne des résultats particulièrement riches : deux gènes peuvent être voisins parce qu'ils utilisent de la même façon le code génétique. C'est cette approche qui a conduit à imaginer que le plan de la cellule est dans le chromosome.

Contrôles métaboliques de l'expression génétique

(Responsable non identifié)

Les bactéries s'adaptent très rapidement à leur environnement qui change sans cesse. Pendant de nombreuses années, cette faculté d'adaptation a été étudiée au niveau d'un seul gène ou d'un petit groupe de gènes. En raison à la fois de la disponibilité de nouvelles techniques de biologie moléculaire et des résultats obtenus par le séquençage des génomes, il est possible désormais d'étudier les contrôles adaptatifs qui mettent en jeu simultanément un grand nombre de gènes. C'est là le thème central des recherches de l'Unité. Chez E. coli, par exemple une cascade de phosphorylations contrôle la synthèse d'AMP cyclique par l'adénylcyclase, enzyme est étudiée depuis plusieurs années dans de nombreux organismes. La concentration de l'AMP cyclique détermine l'expression de plusieurs dizaines de gènes. Trois classes d'adénylcyclases, totalement différentes par leur séquence et probablement leur structure, ont été identifiées. L'une contient des protéines apparentées à la cyclase de E. coli. La seconde, pour laquelle nous avons pu développer une analyse structurale fine par mutagenèse localisée, correspond aux cyclases toxiques des agents de la coqueluche et du charbon. La troisième correspond à une structure probablement très ancienne puisqu'il s'agit de cyclases dont nous avons montré qu'elles existent non seulement chez les cellules nucléées mais aussi chez des micro-organismes comme Rhizobium meliloti (qui contient deux cyclases de cette classe), Brevibacterium liquifaciens, Streptomyces coelicolor ou Stigmatella aurantiaca, très largement séparés au cours de l'évolution. De façon surprenante il a été possible de caractériser une quatrième classe d'adénylcyclases, totalement différente des trois autres, et qui s'apparente au produit d'un gène présent chez les archébactéries dont on connaît le génome. Le rôle de l'AMP cyclique reflète en partie les effets du glucose lorsqu'il est utilisé par les bactéries. Ce n'est qu'un aspect des contrôles hiérarchiques généraux étudiés dans l'unité depuis plusieurs années. L'AMP cyclique est aussi lié à une sensibilité anormale des bactéries à la sérine. Cet effet sérine est relayé par de nombreux gènes (et, en particulier, ceux du système des phosphotransférases ou l'AMP cyclique et son récepteur). L'un d'entre eux, hns confère une sensibilité extrême à cet acide aminé. Il s'agit du gène spécifiant la synthèse d'une protéine qui se lie probablement à l'ADN, H-NS, dont des effets remarquables ont été notés simultanément par plusieurs laboratoires à travers le monde. Jusqu'à présent on n'avait identifié que des effets négatifs de H-NS sur l'expression des gènes. ce sont maintenant des effets positifs de cette protéine qui ont été découverts, en particulier dans le contrôle de la croissance bactérienne en absence d'oxygène et dans l'aptitude des bactéries à se déplacer. l'usage systématique de la technique d'électrophorèse des protéines à deux dimensions (tri par charge électrique et par poids moléculaire) a permis de montrer que H-NS était impliquée dans un grand nombre de systèmes contrôlés par des activateurs phosphorylables. Par ailleurs la mise au point de cette technique, couplée à une analyse d'image performante, a permis de comparer l'expression collective de gènes dans des conditions semblables chez E. coli et B. subtilis, ajoutant ainsi une nouvelle pierre de Rosette à nos moyens d'investigation des génomes nouvellement séquencés.