Portail IP   bandeau_genéral
Version PDF      Bioinformatique structurale


  Responsable : Nilges, Michael (nilges@pasteur.fr)


  resume

 

La bio-informatique génère des connaissances à partir de l'analyse par ordinateur de données biologiques. Le propos de la bio-informatique structurale est de prédire et analyser les structures spatiales des protéines et des acides nucléiques par des approches informatiques. Toutes les propriétés des protéines ne peuvent pas être comprises seulement à partir de leur séquence primaire, ce que rend nécessaire l'analyse de leurs structures tri-dimensionnelles. Les projets de génomique structurale peuvent être ainsi compris comme projets de génomique fonctionnelle. Notre contribution au développement de la génomique structurale consiste à créer des approches informatiques pour accélérer et automatiser l'analyse des données RMN. L'analyse combinée des données structurales et génomiques deviendra certainement plus importante dans un proche avenir.

Nous employons des techniques de modélisation moléculaire pour prédire la structure de protéines et pour analyser des aspects de leur fonction. Nous étudions les interactions entre protéines au niveau de leurs structures tri-dimensionnelles, ainsi que les grands changements de conformation que les protéines peuvent subir en raison de forces externes (par exemple, pendant la formation d'un complexe, ou dans des expériences de spectroscopie de force atomique). Nous employons également des simulations de dynamique moléculaire pour obtenir une compréhension détaillée de l'interaction des protéines avec leurs ligands.



  rapport

cale

Prédiction de structures et interactions de protéines

La modélisation moléculaire est un outil irremplaçable pour obtenir l'information structurale en l'absence d'information expérimentale directe. Elle est réalisable si la structure tri—dimensionnelle d'une protéine homologue est connue (modélisation par homologie). Rachid Maroun, en collaboration avec le groupe, a commencé à mettre en place une plate—forme de modélisation par homologie, qui sera, nous espérons, utile dans l'annotation de génomes à l'Institut Pasteur. Nous sommes impliqués dans des projets de modélisation moléculaire avec plusieurs groupes sur le campus.

La prédiction des interactions de protéines

La formation des complexes hautement spécifiques entre les protéines est une nécessité pour presque tous les processus biologiques. La forme tri-dimensionnelle de ces complexes est souvent la clef pour une compréhension détaillée de la façon dont ils réalisent leur tâche spécifique. Malgré le progrès technologique dans la détermination des structures tri-dimensionnelles des protéines isolées, il reste difficile d'obtenir la même information sur des complexes. Nous essayons donc d'obtenir l'information structurale détaillée sur des complexes, à partir des prédictions ou des données expérimentales qualitatives, par modélisation moléculaire. Nous utilisons de prédictions des interactions de protéines faites par analyse comparative de génomes par les groupes de Alfonso Valencia (Madrid) et de Christos Ouzounis (Cambridge), pour le génome de MTb.

Pour modéliser les complexes, nous développons une nouvelle stratégie d'amarrage qui inclut les mouvements de protéines. C'est important puisque même de petits changements structuraux entre les protéines libres et complexées peuvent empêcher un programme d'amarrage 'rigide' d'identifier le complexe correct. Notre approche est de d'abord produire des ensembles de structures avec une méthode de simulation de dynamique moléculaire que nous avons développé (PCR—MD ; voir ci-dessous) et de calculer ensuite de complexes entre ces ensembles. En outre, Raik Grünberg a développé une nouvelle manière d'organiser toute la connaissance sur les protéines que nous voulons modéliser, semblable à une base de données, en utilisant le concept ‘semantic web'. Le projet dans son ensemble n'est pas destiné à la modélisation d'un ou quelques complexes, mais d'autant que faire ce peut à la modélisation quasi—automatique. Raik Grünberg et Johan Leckner ont donc travaillé l'année dernière à l'optimisation et automatisation de toutes les étapes nécessaires :

• les structures 3D de protéines sont prétraitées automatiquement pour la modélisation ;

• nous avons évalué plusieurs programmes d'amarrage avec un repère standard des complexes connus ;

• nous avons mis en œuvre des nouvelles méthodes d'évaluations de résultats ;

• nous avons entamé une recherche systématique du comportement dynamique des interfaces d'interaction de protéines, en utilisant la dynamique moléculaire et les calculs de PCR—MD.

La plate—forme est maintenant opérationnelle. En parallèle, nous voulons exploiter la similitude des contacts prédits avec les données RMN. La modélisation peut aussi être réalisée avec ARIA (voir ci-dessous). Pour la validation des complexes, des collaborations sont envisagées avec de groupes expérimentaux (RMN et calorimétrie).

Dynamique moléculaire et fonction de protéines

Les simulations de la dynamique moléculaire peuvent montrer le mouvement de protéines dans le détail atomique, et peuvent donc compléter l'information expérimentale. Les simulations prennent beaucoup du temps de calcul, en particulier pour les mouvements biologiquement importants, qui sont souvent lents et ont de grandes amplitudes. Nous employons une combinaison des approches pour réduire le temps de calcul :

• nous simplifions l'interaction des molécules avec le solvant (l'eau), par exemple en employant l'approximation dite approximation de Born généralisée ;

• nous employons des forces (artificielles) externes pour induire certains mouvements qui nous intéressent. Nous avons utilisé cette approche avec beaucoup de succès en combinaison avec l'approximation de Born généralisée. Des calculs conduits par Raik Grünberg (Altmann et al., Structure, Folding and Design; 10:1085-1096) du dépliement forcé d'une protéine ‘coiled.coil' (un domaine de la protéine Spectrin) ont montré, par exemple, que les résultats sont influencés par de mutations des acides aminées, en accord qualitatif avec l'expérience. Une stagiaire (Sabrina Serin) a récemment continué cette étude avec un domaine de la protéine Titine, qui a une topologie complètement différente ;

• nous avons poursuivi le développement d'une nouvelle méthode de simulation de dynamique moléculaire (‘principal component restraint–MD ou PCR–MD ; Abseher and Nilges, Proteins 2002, in press). La méthode incite de mouvements corrélés de la chaîne principale d'une molécule, qui ont des fréquences très basses et qui sont donc difficiles à observer dans les simulations de dynamique moléculaire standards.

Transport de NH3 en imidazol glycérol phosphate synthétase

La voie de biosynthèse de l'histidine qui commence par la condensation de l'ATP avec le PRPP (5-phosphoribosyl 1-pyrophosphate) requiert onze réactions enzymatiques. Le complexe bi-enzymatique de la glutaminase-synthétase, ou IGP (Imidazole Glycérol Phosphate) synthétase, est constitué des deux sous-unités HisH et HisF. La sous-unité HisH est une glutaminase qui hydrolyse la glutamine en glutamate et en ammoniaque. Le NH3 est transporté, sans être hydrolysé, jusqu'à la synthétase HisF qui l'ajoute au substrat accepteur PRFAR (N'-[(5'-Phosphoribulosyl)formimino]-5-aminoimidazole-4-carboxamide ribonucléotide) pour produire l'ImGp (Imidazole glycérol phosphate) et l'AICAR (5-aminoimidazole-4-carboxamide ribonucléotide). Le transport de NH3 et la coordination des activités catalytiques sur distance sont des processus fondamentaux, et l'enzyme est donc un système idéal pour étudier ces processus qui existent aussi dans de protéines moins accessible à une caractérisation par expérience ou simulation (comme les canaux ioniques). L'enzyme est aussi une cible thérapeutique puisque cette voie de biosynthèse de l'histidine n'existe pas chez les mammifères.

À partir de la structure la structure aux rayons X du complexe IGP-synthase de Thermatoga maritima déterminée par le groupe de Matthias Wilmanns à l'EMBL à Hambourg, nous analysons le comportement dynamique de HisF et du complexe HisH–HisF par de simulations de dynamique moléculaire. Sont particulierment intéressants la voie du NH3 à travers HisF vers son site actif, et la coordination des réactions de HisF et HisH. Afin d'étudier le passage du NH3 à travers HisF, Nathalie Duclert–Savatier a employé des calculs dits ‘steered MD', avec une force appropriée pour tirer le NH3 par sa voie probable (un canal central dans le pli dite ‘TIM-barrel' de HisF). Elle a pu établir que la seule barrière énergétique pour le passage est la ‘porte de charges', se composant de quatre acides aminés à l'entrée du canal (deux glutamates, une arginine, et une lysine ; voir la figure). Dans les calculs, la ‘porte' s'ouvre, réagissant au mouvement de la molécule NH3, habituellement par un mouvement de la lysine.

Pour étudier l'ouverture et la fermeture spontanée de la porte et sa connexion avec les mouvements globaux du complex, nous employons la méthode de PCR–MD. L'ouverture et la fermeture dans ce cas ne sont pas provoquées en forçant le ligand à travers la porte, mais en incitant de mouvements globaux de la chaîne principale. Les résultats de la simulation seront utiles pour comprendre les résultats des expériences biochimiques dans lesquelles le rôle de différents résidus avait été étudié.

Modélisation et genomique structurale par RMN

Le programme ARIA que nous avons développé au cours des dernières années est un de programmes d'analyse automatisée des données RMN qui et utilisé dans plus de 150 laboratoires dans le monde entier. Il a aidé dans la détermination d'au moins 50 structures de protéines. ARIA accélère l'analyse des données expérimentales les plus importantes pour le travail structural avec RMN (les NOEs), par l'utilisation de contraintes de distance dites ambiguës dans une stratégie itérative.

Dans plusieurs collaborations, nous employons ARIA pour l'attribution des spectres et la modélisation des structures, par exemple avec les groupes de Hartmut Oschkinat (institut pour de la pharmacologie moléculaire, Berlin, Allemagne), Michael Sattler (EMBL Heidelberg), et Murielle Delepierre et Véronique Stoven à l'Institut Pasteur.

Nous avons récemment diffusé la version 1,2 du logiciel (Linge et al., Bioinformatics 2002, in press). Michael Habeck, Wolfgang Rieping, et Jens Linge ont presque fini une re–écriture complète d'ARIA, qui facilitera de prochains développements. Le développement d'ARIA est prévu aussi pour d'autres applications (modélisation par homologie, amarrage). Dans l'année dernière, nous avons mis en œuvre et testé de nouvelles méthodes dans ARIA :

• nous avons contribué au CCPN (Collaborative Computational Project for NMR, dirigé par Ernest Laue, université de Cambridge), un projet de standardisation et automatisation du procédé de détermination de structure ;

• dans le projet NMRQUAL, soutenu par l'EU (collaboration avec Gerd Vriend, université de Nijmegen, Pays-Bas ; Robert Kaptein, université d'Utrecht, Pays-Bas, Ernest Laue, université Cambridge, et John Ionnides, EMBL Hinxton), nous ajoutons des capacités à ARIA pour évaluer la qualité de structure de protéine ;

• en collaboration avec Mark Williams (UCL Londres) et Alexandre Bonvin (université d'Utrecht) nous avons poursuivi le développement d'un champ de force utilisé dans le raffinement de structures RMN par ARIA (Linge et al., Proteins 2002, in press) ;

• en collaboration avec Michele Fossi (en visite de l'institut pour la pharmacologie moléculaire, le Berlin) nous avons appliqué et testé une nouvelle méthode de distinguer les bruit de font des vraies données pendant le calcul de structure ;

• une interface pour la banque de données BioMagResBank (BMRB) simplifie la déposition des données à cette base de données ;

• Julie Foch (une stagiaire de Paris VI) a développé une nouvelle interface utilisateur pour ARIA, basé sur Java et XML ;

• nous employons XML (eXtensible Markup Language) pour coder les données, par exemple, les listes de décalages chimiques et de listes de pics NOE.

Détermination de structure par inférence

Nous avons fait de progrès dans la mise en œuvre d'un concept entièrement nouveau pour modéliser les structures RMN, basé sur le théorème de Bayes. La détermination de structures à partir des données RMN est un problème d'inférence : les quantités mesurées sont incomplètes et peuvent contenir des erreurs et sont donc insuffisantes pour déterminer la structure sans ambiguïté. L'objectif de la détermination de structure doit être d'explorer toutes les régions de l'espace de conformations compatibles avec l'information expérimentale. Ceci peut être réalisé par le théorème de Bayes. Cependant, bien que son utilisation pour la détermination expérimentale de structure ait été suggérée déjà il y a des années, aucune implémentation de ce concept n'existe. Une difficulté est qu'on doit évaluer l'espace complète de conformations de la molécule, afin d'appliquer le théorème. Cet espace est, pour les macromolécules biologiques, d'une taille énorme.

Michael Habeck et Wolfgang Rieping ont maintenant développé le premier logiciel qui utilise le théorème pour la détermination de structure des macromolécules. Pour échantillonner l'espace de conformations, ils ont combiné plusieurs méthodes de calcul de la physique statistique théorique (dynamique dans l'espace des angles de torsion, ‘Hybrid– Monte– Carlo/ Gibbs– Sampler', ‘Replica–Monte–Carlo'). Ceci fonctionne très efficacement sur la grappe de PC du groupe. L'approche statistique rigoureuse a beaucoup des avantages, par ce que les diverses sources menant aux incertitudes dans les structures déterminées sont modelées explicitement. Nous pouvons calculer des variabilités et les corrélations des coordonnées atomiques statistiquement significatives, et évaluer la qualité et l'uniformité des données expérimentales.

Mots-clés: Protein structure, protein function, protein dynamics, molecular recognition, sequence analysis



  site web

puce Plus d' informations sur notre site web


  publications

puce Toutes les publications sur notre base de données


  personnel

  Secrétariat Chercheurs Stagiaires Autre personnel
    Maroun, Rachid, INSERM, (CR1,maroun@pasteur.fr)

Chau, Pak-Lee, IP, (CR, pc104@pasteur.fr)

Linge, Jens, post-doc

Leckner, Johan, post-doc

Grünberg, Raik, PhD student

Habeck, Michael, PhD student

Rieping, Wolfgang, PhD student

Fossi, Michele (January-August)

Foch, Julie, student (April-September)

Serin, Sabrina (February-March)

Huynh, Tru-Quang, engineer

Duclert-Savatier, Nathalie, engineer


Rapports d'activité 2002 - Institut Pasteur
filet

Debut de Page recherche Portail Institut Pasteur

En cas de problèmes, de remarques, ou de questions concernant cette page Web écrire à rescom@pasteur.fr