Portail IP bandeau_genéral
  Binfs


  Responsable : Nilges, Michael (nilges@pasteur.fr)


  resume

 

L'unité de bio-informatique structurale a été créee en mars 2001. La recherche de l'unité se concentre sur la relation entre séquence, structure tridimensionnelle, et fonction de protéines, en utilisant, entre autres, des méthodes de modélisation et de simulation de dynamique moléculaire. Nous continuons notre développement des programmes pour interpréter les données RMN et pour modeler les structures tridimensionnelles. Notre recherche est importante pour l'interprétation des données expérimentales, et peut créer des hypothèses qui peuvent êtres ensuite expérimentalement testés. Nous avons des collaborations avec de groupes expérimentaux dans plusieurs domaines : spectroscopie de force atomique, microscopie, et cristallographie de rayons X, et nous sommes aussi impliqué dans des projets de génomique structurale.



  rapport

cale

Prédiction de structures de protéines et analyse des séquences

Nous avons commencé des premières collaborations sur la modélisation de protéines. Entre autres, nous allons aider dans l'analyse de séquences de protéines dans le génome de Bacillus Anthracis (avec Michelle Mock), et de modéliser des structures de protéines qui sont impliquées dans le métabolisme du sulfure dans Bacillus subtilis (avec Antoine Danchin).

Analyse de domaines type Fibronectine III de la Titine : Interactions avec la Myosine

(Collaboration avec Claudia Muhle, EMBL Heidelberg)

Le sarcomère du muscle strié comprend les filaments minces (contenant de l'actine) et les filaments épais (contenant la myosine). Pendant la contraction du muscle, ces deux types de filaments agissent l'un sur l'autre, provoquant la tension active. La tension passive de sarcomères étirés résulte de l'extension de la Titine, le troisième type de myofilament. Titine est la plus grande protéine connue à ce jour. Un seul polypeptide s'attache au Z-disque d'un côté et se termine dans la région de M-ligne du sarcomère. La région dite ‘A-bande' de la Titine se compose principalement de structures répétitives (de ‘super-repeat') de domaines similaires à l'immunoglobuline (IG) et la fibronectine 3 (FnIII).

Les domaines FnIII pourraient représenter les sites d'attachement de la titine à la myosine. Pour mieux comprendre la fonction de domaines FnIII dans l'A-bande, Michael Habeck a, en collaboration avec Claudia Muhle-Goll à l'EMBL, développé les modèles structuraux pour tous les 132 domaines FnIII de la titine, en utilisant l'homologie avec huit structures de domaines similaires au FnIII dont on connaît la structure tridimensionnelle.

Après avoir groupé les modèles selon leur position dans la 'super-repeat' dans la région centrale de l'A-bande, ils les ont analysés en ce qui concerne la conservation de chaînes latérales. Ceci a montré que des résidus conservés forment des structures étendues principalement sur un côté des domaines, tandis que les domaines en dehors de la région centrale de la région centrale montrent généralement moins de surfaces conservées. Ces résidus extérieurs conservés peuvent fonctionner comme site d'attachement pour des autres protéines.

Les résultats de la modélisation ont stimulé des études expérimentales. Dans une collaboration avec deux autre groupes, les propriétés de liaison des fragments de Titine qui contiennent plusieurs domaines FnIII ont été expérimentalement étudiées. Ceci a indiqué que les fragments de FnIII s'attachent spécifiquement au sous-fragment 1 de la myosine et qu'ils ont un effet sur les propriétés contractiles des myocytes cardiaques simples. Finalement, nous avons proposé un modèle qui montre comment les domaines FnIII de la titine peuvent influencer l'interaction entre actine et myosine dans la contraction du muscle.

Prédiction des complexes de protéines de Mycobacterium Tuberculosis

(Collaboration avec Alfonso Valencia, Madrid, et Christos Ouzounis, EBI Hinxton)

La formation des complexes fortement spécifiques entre protéines est un préalable à presque tous les processus d'intérêt biologique. On estime que les 6000 protéines dans saccharomyces cerevisiae par exemple, sont impliquées dans plus que 30,000 interactions physiques. La forme tridimensionnelle adaptée par des protéines et leurs complexes est souvent la clé pour comprendre en détail comment ils accomplissent leur tâche spécifique. En dépit des progrès technologiques dans la détermination des structures simples de protéines, il est plus difficile d'obtenir la même information pour des complexes de protéines.

Récemment, des projets de génomique structurale ont été lancés pour le but d'obtenir des structures pour 400 sur les 4000 protéines de Mycobacterium Tuberculosis (MTb). Exploitant l'infrastructure développée pour ces projets, nous voulons essayer de concevoir des méthodes rapides pour prédire la structure des complexes de protéines à partir d'une combinaison des données de calcul et de l'expérience. D'abord, un ensemble de paires de protéines doit être défini. Pour cela, nous voulons utiliser des résultats expérimentaux et des méthodes bio-informatiques, en collaboration avec les groupes de Alfonso Valencia (Madrid) et Christos Ouzounis (Cambridge) : L'analyse des événements de fusion de gène offert une possibilité pour prédire des interactions de protéines. Environ 150 interactions ont été récemment prédites pour le génome de MTb (Ouzounis CA : communication personnelle.). Avec une deuxième approche de calcul qui analyse les corrélations dans les mutations des familles de protéine 1500 telles interactions putatives ont été identifiées dans le génome de MTb (Alfonso Valencia : communication. personnelle). Clairement ces approches ne prévoient pas toutes les interactions dans MTb. Néanmoins elles nous fournissent des listes de complexes probables.

Les données bio-informatiques vont servir comme contraintes dans de calcul de ‘docking'. Actuellement nous développons une méthode qui évite une simplification habituelle en laissant de la flexibilité aux protéines. Cette approche est basée sur une méthode de simulation de dynamique moléculaire qui a été développée dans le groupe et qui facilite des transitions structurales. Une deuxième source de contraintes pour le docking va venir des expériences RMN. Nous allons essayer d'exploiter exclusivement les données expérimentales qui peuvent être obtenues rapidement. Par exemple, la formation d'un complexe entre deux protéines mène à des changements de leurs déplacements. Ces changements aident à identifier l'interface.

Avec les premières listes des données bio-informatique, Raik Grünberg a commencé à établir une base de données des interactions entre protéines et des structures connues dans le MTb. La liste d'interactions prévues entre des protéines de MTb sera filtrée pour des paires avec des propriétés favorables pour le calcul et l'expérience. La préférence sera donnée aux molécules de taille basse avec structure connue, ou avec un homologue dont la structure est connue. Nous espérons démontrer que les informations de prédiction et de l'expérience, insuffisantes en elles-mêmes, peuvent être combinées pour obtenir les modèles réalistes. Les projets de génomique structurale vont rapidement augmenter le nombre de structures de protéines. Des méthodes efficaces pour déduire la structure des assemblages macromoléculaires à partir des données théoriques et expérimentales seront très demandées.

Structures de protéines à partir des données expérimentales

Nous continuons à développer notre programme ARIA pour l'attribution automatisée de spectres RMN. Le programme est devenu une partie principale dans deux collaborations internationales sur le développement de logiciels pour RMN : CCPN (Collaborative Computing Project for NMR), une initiative pour automatiser et standardiser la manipulation de données et la détermination de structure avec RMN; et NMRQUAL, un projet supporté par l'UE pour développer de nouvelles méthodes de détermination de structure et pour évaluer les structures de protéine obtenues par RMN (collaboration avec Gerd Vriend, Université de Nijmegen, Pays Bas ; Robert Kaptein, Université d'Utrecht, Pays-Bas, Ernest Laue, Université de Cambridge, et John Ionnides, EMBL Hinxton).

Nous avons plusieurs collaborations pour l'application de l'attribution automatique dans ARIA et de la modélisation, par exemple avec les groupes de Heinz Rüterjans (Université de Frankfurrt, Allemagne), le group de Michael Sattler (EMBL Heidelberg), et avec le groupe de Murielle Delepierre, Institut Pasteur.

Développements algorithmiques

ARIA accélère le procédé d'attribution de NOEs par l'utilisation des contraintes ambiguës de distance dans un arrangement itératif de calcul de structure. ARIA a été utilisé dans les laboratoires dans le monde entier pour un grand nombre de projets de détermination de structure par RMN. Michael Habeck, Wolfgang Rieping et Jens Linge dans l'unité travaillent sur une nouvelle conception complète d'ARIA. La nouvelle version contiendra un nouvel algorithme rapide de dynamique dans l'espace de torsions, un algorithme pour corriger pour la diffusion de spin et des méthodes pour la vérification des contraintes de NOE. En outre, l'interface permettra l'accès direct aux fichiers de BioMagResBank (BMRB) et au projet CCPN. Intérieurement, nous nous servons de XML (Extensible Markup Language) pour coder nos données, par exemple les listes de déplacements chimiques et de pics NOE.

Nous avons aussi commencé à développer une nouvelle approche pour calculer les structures, en utilisant la théorie de statistique de Bayes. Le problème de la détermination de structure de protéine ne peut pas être résolu d'une seule voie. Ceci s'explique par les raisons suivantes : Premièrement, les données expérimentales ont toujours des erreurs. En second lieu, les expériences actuelles ne rapportent pas assez d'information pour permettre une détermination complète. Troisièmement, les modèles mathématiques décrivant la relation entre les quantités mesurées et la structure tridimensionnelle de la molécule sont approximatifs et incomplets.

L'absence d'une solution unique du problème de détermination de structure de protéine exige pour une description probabiliste. La théorie de Bayes fournit le seul cadre objectif pour des problèmes où l'information est incomplète. Certaines des applications les plus importantes seraient par exemple :

Une évaluation des données expérimentales concernant leur perfection et qualité.

L'extraction de la structure la plus probable.

La dérivation des mesures locales d'incertitude.

Identification des régions structurales qui sont mal déterminées par les données.

Michael Habeck et Wolfgang Rieping ont développé un nouvel algorithme de calcul de structures qui utilise une combinaison de la dynamique dans l'espace des torsions et de la méthode Monte-Carlo. La méthode a été testée sur de petites protéines et de données artificielles, avec de bons résultats.

Dynamique moléculaire

Les protéines bougent pour exercer leurs fonctions. Des structures tridimensionnelles obtenues par des méthodes expérimentales, par exemple les structures aux rayons X, donnent seulement une conformation. Il n'y a pas de techniques expérimentales pour observer le mouvement d'une protéine à l'échelle atomique. Il est donc nécessaire d'utiliser des techniques théoriques pour mettre en évidence les mouvements de protéines et mieux comprendre leurs fonctions.

La simulation de dynamique moléculaire peut nous donner des informations importantes non seulement sur la dynamique des molécules à l'échelle atomique, mais encore sur les forces internes qui agissent dans la molécule ou entre deux molécules. Pour tous les projets, nous avons utilisé la collection de programmes de simulation de dynamique moléculaire AMBER. Pour rendre les calculs plus efficaces, l'interaction avec l'eau environnante est simplifiée.

Simulation du dépliement forcé de la Spectrine

(Collaboration avec les groupes de Matti Saraste, structural and computational biologie programme, EMBL Heidelberg ; Heinrich Hörber, cellular biophysics programme, EMBL Heidelberg ; et Pierre-François Lenne, Université de Marseille)

Dans les érythrocytes, la Spectrine est le composant majeur du squelette de la membrane cellulaire - un système des protéines liées entre-elles sous la membrane. Ce système conserve la forme de la cellule eukaryotique, et à même temps fournit un degré élevé d'élasticité. Les érythrocytes subirent de forces mécaniques considérables. Probablement, c'est principalement la Spectrine qui est responsable de ces propriétés mécaniques. La protéine a probablement évolué de l'alpha-actinine et est composée de deux protéines hétéro-dimèrique qui sont assemblés comme tétramère dans une structure similaire à une tige. Les monomères alpha et beta se composent principalement des répétitions multiples d'un domaine dit ‘spectrin repeat' (20 et 16 dans l'érythrocyte du mammifère). Le groupe de Heinrich Hoerber à l'EMBL à Heidelberg étudie le dépliement des molécules ‘spectrin repeat' avec la spectroscopie de force atomique. Leurs résultats suggèrent un intermédiaire moitié-étendu qui peut être adopté par la molécule en réponse à la force de dépliement.

Nous essayons d'élucider ces résultats au niveau atomique en exécutant des simulations de dynamique moléculaire du dépliement forcé de la Spectrine. Pour rendre les calculs plus efficaces, le dépliement est simulé sur une échelle de temps beaucoup plus courte que dans l'expérience. En dépit de ces limitations de calcul, nous espérons identifier les événements et les interactions principaux le long des voies de dépliement.

La nature chaotique de la dynamique de protéines exige d'effectuer et analyser plusieurs simulations avant que des conclusions puissent être tirées. Raik Grünberg a calculé et analysé 10 simulations du dépliement d'un domaine de la Spectrine. Dans bon nombre d'entre elles une re-orientation intéressante des hélices de la molécule mène aux structures compactes et mécaniquement stables. Ces intermédiaires correspondent bien avec les données expérimentales. Leur formation dépend du dépliement d'une hélice à une position spécifique. À partir de nos suggestions et nos résultats préliminaires, nos collaborateurs à l'EMBL ont effectué de mutations de deux acides aminées dans la molécule dans le but de stabiliser cette hélice. Dans la molécule mutée, aucun état intermédiaire peut être observé dans l'expérience. Nous avons soumis un modèle de cette molécule modifiée à cinq simulations de dépliement. En accord avec les résultats expérimentaux, l'état intermédiaire a disparu aussi dans les simulations. Nous sommes par conséquent confiants que nos simulations représentent un modèle valide du dépliement de Spectrine.

Il semble donc que la molécule est construite pour effectuer une réponse par étapes aux forces de dépliement. Dans les simulations, nous observons une variété notable des voies de dépliement. Cette observation a des implications importantes pour comprendre les données expérimentales. Jusqu'ici, la traduction des expériences de spectroscopie de force atomique a été habituellement fondée sur l'hypothèse d'un dépliement dans deux étapes. Les simulations aideront nos collaborateurs non seulement de comprendre les propriétés mécaniques de la Spectrine, mais encore à trouver de nouvelles interprétations de leurs résultats expérimentaux.

Influence du ligand sur la dynamique d'une protéine : Ran-GTP versus Ran-Gdp

(Collaboration avec le groupe de Philippe Bastien, cellular biophysics programme, EMBL Heidelberg)

La GTPase Ran appartient à la super-famille des protéines apparentées à Ras qui lient le GTP. Elle est impliquée dans de nombreuses activités cellulaires, comme le cycle cellulaire, la réplication de l'ADN, l'architecture chromosomique et la maturation de l'ARN. Deux activités de ran sont particulièrement étudiées : d'une part son rôle pour le transport nucléoplasmique des protéines (schématiquement : ran.GDP versus ran.GTP nucléaire) et d'autre part son implication dans la nucléation et le développement des microtubules pendant la mitose.

Le groupe de Philippe Bastiaens à l'EMBL étudie la dynamique des interactions entre les protéines impliquées dans la transduction du signal au sein de la cellule. Ils ont développé des technologies de microscopie optique qui leur permettent de suivre en temps réel le devenir d'une protéine marquée dans la cellule où elle est exprimée. Ceci a conduit Gertrude Blunt à étudier l'influence de Ran sur l'assemblage des microtubules. Elle projette de transfecter des cellules avec ran couplée à la GFP (Green Fluorescent Protein) pour suivre in vivo le devenir de ran dans les différents compartiments cellulaires. Il est donc indispensable que l'introduction de la GFP dans Ran n'altère ni les capacités de liaison des nucléotides ni, si possible, son interaction avec les autres protéines. La GFP utilisée dans l'expérience est modifiée et est sensible au degré de dynamique de la région de la protéine ou elle est insérée. Pour utiliser la GFP comme senseur afin de distinguer la Ran.GDP de la Ran.GTP, il faut identifier les régions dans Ran qui montrent une dynamique différente dans les deux etats.

Puisque l'information sur la dynamique dans les structures expérimentales n'etait pas assez précise, nous avons proposé une collaboration pour déterminer les régions de ran qui montrent les différences importantes entre les deux états, sans altérer les capacités d'interaction ni la conformation de la molécule. Nathalie Duclert-Savatier et Raik Grünberg ont exploité les données cristallographiques de ran. La structure cristallographique de ran.GDP résolue à 2.3 A et celle de ran.GppNHp (un analogue non hydrolysable du GTP) résolue à 2.9 A étaient disponibles lorsque nous avons commencé cette étude. Nous avons ainsi pu simuler indépendamment la dynamique de la protéine ran associée à l'un ou à l'autre de ces nucléotides en présence ou non de 150mM de sel pendant 750ps. Ceci nous a ensuite permis de calculer la fluctuation atomique de chaque carbone alpha par rapport à sa position de référence au court du temps pour chacune de ces structures. Les profils de fluctuations atomiques de ran.GDP et de ran.GTP ont ensuite été comparés pour déterminer les régions où la GFP pourrait être insérée, sans trop perturber les fonctions de la protéine Ran native. Les régions que nous avons proposées n'affectaient pas les régions switch I et switch II, très conservées au sein de la famille de ras. (La région switch I subit de grands changements conformationnels en fonction de la nature du nucléotide lié à ran et la région switch II est impliquée dans l'interaction de ran avec d'autres protéines.) Les premières mutations de ran pour insérer la GFP sont en cours de développement.

Transport de NH3 dans la Imidazole Glycérol Phosphate Synthétase

(Collaboration avec le groupe de Matthias Willmans, EMBL Hamburg,, et Hannes Ponstingl, EBI Hinxton)

La voie de biosynthèse de l'histidine qui commence par la condensation de l'ATP avec le PRPP (5-phosphoribosyl 1-pyrophosphate) requiert onze réactions enzymatiques. Le complexe bi-enzymatique de la glutaminase-synthétase, ou IGP (Imidazole Glycérol Phosphate) synthétase, est constitué des deux sous-unités HisH et HisF. La sous-unité HisH est une glutaminase qui hydrolyse la glutamine en glutamate et en ammoniaque. Le NH3 est transporté, sans être hydrolysé, jusqu'à la synthétase HisF qui l'ajoute au substrat accepteur PRFAR (N'-[(5'-Phosphoribulosyl)formimino]-5-aminoimidazole-4-carboxamide ribonucléotide) pour produire l'ImGp (Imidazole glycérol phosphate) et l'AICAR (5-aminoimidazole-4-carboxamide ribonucléotide). Le transport de NH3 et la coordination des activités catalytiques sur distance sont des procès fondamenteaux qui existent dans plusieurs enzymes differentes.

Le groupe de Matthias Wilmanns à l'EMBL a récemment déterminé la structure aux rayons X du complexe de l'IGP-synthétase. Nous avons donc entamé une collaboration pour d'une part analyser la dynamique la sous-unité HisF seule et celui du complexe HisF:HisH de la bactérie hyper-thermophile Thermotoga maritime. Le but est d'élucider le mécanisme de transport du NH3 produit jusqu'au site actif, et la communication entre les sites actifs de deux sous-unité de l'IGP-synthétase à longue distance. Entre autres, les résultats de la simulation aideront à expliquer les résultats des expériences biochimiques où le rôle de divers résidus avaient été mis en évidence.

Nathalie Duclert-Savatier et Hannes Ponstingl étudient actuellement:

  • Les acides aminés qui sont impliqués dans l'interaction entre les deux sous-unités de la synthétase et toutes les modifications conformationnelles qui pourraient résulter de l'interaction entre HisF et HisH, par exemple, les résidus de la boucle mobile K19 et R27 qui est plus ou moins exposée selon que HisF est ou non complexée à HisH,
  • La migration du NH3 de la sous-unité HisH vers le site actif, situé sur la sous-unité HisF. Or, la structure de HisF présente une géométrie particulière. C'est un tonneau, ou ‘Tim-barrel' (TIM = triose phosphate isomerase), qui, en contraste avec des autres Tim-barrel, contient un canal central avec à l'une de ses extrémités les acides aminés qui jouent un rôle catalytique et à l'opposé, ceux qui interagissent avec HisH. Il est très probable que le NH3, produit par l'activité hydrolytique de HisH, chemine via le canal situé à l'intérieur de HisF pour interagir avec le substrat au niveau de son site actif. Nos simulations aideront à vérifier cette hypothèse.

Gestion de l'évolution du parc informatique de l'unité de Bio-Informatique Structurale et assistance à la mise en place des moyens informatique au sein de la Génopole.

Au sein de l'unité, chaque utilisateur dispose de son propre ordinateur (PC/linux ou Macintosh). Un serveur de fichier d'une capacité de 500 GO a été mis en place afin de gérer simplement un espace disque utilisateur (capacité équivalente à celle de l'unité de Biochimie Structurale ou à la moitié de l'espace disponible sur le serveur central de l'institut au en début 2001). Ce serveur est sauvegardé quotidiennement par le robot de sauvegarde du SIS. Les moyens de calcul nécessaires à l'unité se présentent sous la forme d'une grappe de PC (cluster) comportant fin septembre 2001, 8 nœuds de calcul reliés par un réseau Ethernet à 100 Mbits/sec à latence élevée (~100 microsecondes). L'évolution prévue avant la fin 2001, se fera par l'ajout de 20 nœuds bi-processeurs ou 40 nœuds monoprocesseurs. Le choix de ce type de matériel se justifie par les considérations suivantes :

  • Performance unitaire ~40 % d'un bi-processeur Compaq DS20 sous Tru64 équipant le Plateau Technique Annotation (PTA)
  • Un coût unitaire 20x moins important
  • Pour les codes parallèles à granularité moyenne (temps de communication faible par rapport à la durée de calcul au sein de chaque processeur) comme les programmes de dynamique moléculaire AMBER ou CHARMM, on peut observer des accélérations de l'ordre de 3,2 sur 4 processeurs ou de 6 avec 8 processeurs.

En résumé, pour AMBER, un utilisateur peut actuellement disposer ponctuellement d'une puissance de calcul 3x supérieure au dernier serveur acheté au PTA mais à un coût 2X plus faible. Néanmoins, il faut noter comme limitation principale de ce type d'installation que le code doit être parallélisé ou paraléllisable.

Par ailleurs, Tru Huynh a aidé à l'installation ou l'administration d'ordinateurs sur le campus : ordinateurs destinés aux enseignements, le plateau technique Puces ADN, le plateau technique Annotation, la collection de l'Institut Pasteur, et l'unité de Biochimie Structurale. Également, des collaborations techniques avec le fournisseur de PC et le fabricant de processeurs étaient mis en place.

 

Scientific collaborations

Institut Pasteur

Pedro Alzari

Antoine Danchin

Michèle Mock

Nicolas Wolff, Muriel Delepierre

France

Thérèse Malliavin, Institut de Biologie Physico-Chimique, Paris

Marc-André Delsuc, Centre de Biochimie Structurale, Montpellier

Jean-François Lenne, Institut Fresnel, Marseille

 

International

Felician Dancea, Heinz Rüterjans, Université de Frankfurt, Allemagne

Heinrich Hörber, EMBL Heidelberg, Allemagne

Hartmut Oschkinat, FMP Berlin, Allemagne

Michael Sattler, EMBL Heidelberg, Allemagne

Matthias Wilmanns. EMBL Hamburg, Allemagne

Roger Abseher, Boehringer-Ingelheim Vienna, Austria

Alfonso Valencia, Madrid, Spain

Jarri Ylanen, Université d'Oulu, Finland

Robert Kaptein, Université d'Utrecht, The Netherlands

Chris Spronk, Gert Vriend, Université de Nijmegen, The Netherlands

Cornelis Hilbers, Université de Nijmegen, The Netherlands

Rasmus Fogh, Ernest Laue, Université de Cambridge, United Kingdom

Christos Ouzounis, EBI Hinxton, United Kingdom

Vim Vranken, John Ionnides, EBI Hinxton, United Kingdom

Jens Meiler, David Baker, Université de Washington, USA

Jurgen Doreleijers, Eldon Ulrich, BioMagResBank, Madison, USA

John Westbrook, RCSB, USA



  site web

puce Plus d' informations sur notre site web


  publications

puce Toutes les publications sur notre base de données


  personnel

  Secrétariat Chercheurs Stagiaires Autre personnel
     

Linge, Jens, post-doc

Leckner, Johan, post-doc

Grünberg, Raik, étudiant en thèse

Habeck, Michael, étudiant en thèse

Rieping, Wolfgang, étudiant en thèse

Huynh, Tru-Quang, ingénieur

Duclert-Savatier, Nathalie, ingénieur


filet

Debut de Page recherche Portail Institut Pasteur

En cas de problèmes, de remarques, ou de questions concernant cette page Web écrire à rescom@pasteur.fr.