Portail IP   bandeau_genéral
imprimer
Imprimer
     Annotation


  Responsable : Ivan MOSZER (moszer@pasteur.fr)


  resume

 

Les activités de la Plate-Forme 4 " Intégration et Analyse Génomiques " de la Génopole s'articulent autour de trois axes : (i) l'assemblage, l'annotation initiale et la ré-annotation de génomes, (ii) le développement logiciel de bases de données génomiques, (iii) l'analyse des génomes et la phylogénie moléculaire. Une majeure partie de l'activité se déroule dans le cadre de collaborations avec différentes équipes de l'Institut Pasteur : unités de recherche, Génopole, Pôle Informatique, mais aussi le département des enseignements.



  rapport

cale

Assemblage et annotation de nouveaux génomes (L. Frangeul, H. Nedjari, M. Brugnon)

Nous développons le logiciel CAAT-Box (" Contig-Assembly and Annotation Tool-Box "), qui contient un ensemble de méthodes permettant de suivre les assemblages successifs d'un projet de séquençage génomique, et de débuter la phase d'annotation dès l'étape de finition de la séquence (pour plus de détails concernant CAAT-Box, voir les rapports d'activité des années précédentes). Ce logiciel nous permet d'entretenir de nombreuses collaborations avec des équipes impliquées dans des projets de séquençage de grande ampleur, dont nous citerons ici deux exemples significatifs.

L'Unité de Génétique Moléculaire des Levures (B. Dujon) a, dans le cadre d'un projet Génopole, entrepris le séquençage complet du génome de Candida glabrata. Nous avons procédé à l'assemblage des 180 000 séquences produites par les Génopoles de l'Institut Pasteur (PF1 Génomique, C. Bouchier) et d'Évry, aboutissant ainsi à plus de 700 contigs. En collaboration avec PF1, nous avons corrigé les zones de basse qualité de ces contigs et développé diverses stratégies permettant de les fusionner, pour obtenir 18 contigs (13 Mbases) qui recouvrent la quasi-totalité des 13 chromosomes. En collaboration avec le Laboratoire Bordelais de Recherche en Informatique (Université Bordeaux 1, D. Sherman), CAAT-Box a été utilisé pour l'annotation de C. glabrata et de trois autres génomes de levures (Yarrowia lipolytica, Debaryomyces hansenii et Kluyveromyces thermotolerans) dans le cadre du projet Génolevures 2.

Après le dépôt dans le domaine public de la séquence complète de sept souches de Staphylococcus aureus (N315, Mu50, MW2, MRSA, MSSA, 8325, COL), nous avons entrepris, en collaboration avec l'Unité des Staphylocoques (N. El Solh), une comparaison exhaustive des 14 000 CDS correspondantes. Cela nous a permis d'élaborer une liste de CDS d'intérêt : variants d'une souche à l'autre, ou gènes potentiellement impliqués dans le pouvoir pathogène de la bactérie. Nous avons ensuite utilisé CAAT-Box pour déterminer les séquences d'amorces nucléotidiques spécifiques, afin de réaliser une membrane à haute densité contenant 465 amplicons provenant de ces CDS. L'utilisation de cette membrane à permis l'étude de l'expression des transcripts de ces CDS dans 80 souches cliniques de S. aureus.

Annotation, ré-annotation et veille (C. Boursaux-Eude, P. Dehoux, M. Pryor, O. Garcia)

Trois ans après sa soumission initiale, la ré-annotation complète du génome de Mycobacterium leprae a été réalisée. Toutes les séquences codantes initialement décrites ont été analysées afin de leur attribuer, à chaque fois que possible, une fonction nouvelle ou affinée. Ces analyses ont reposé sur la combinaison de résultats obtenus in silico et de recherches bibliographiques. Un important plasmide de virulence (170 kb) de Mycobacterium ulcerans a également été annoté.

Par ailleurs, dans le but de définir des stratégies globales d'annotation de génomes, une journée de travail consacrée à ce thème a été organisée, rassemblant la majorité des acteurs impliqués dans ces problématiques en France. En parallèle, nous avons évalué plusieurs outils d'annotation, et plus particulièrement Genostar, en tant que participant au consortium à l'origine de ce produit.

Finalement, en tant que membre du consortium international ayant réalisé le séquençage du génome d'Anopheles gambiae, principal vecteur du paludisme, nous collaborons avec l'Unité de Biochimie et de Biologie Moléculaire des Insectes (P. Brey) à l'amélioration de la séquence génomique et des séquences protéiques codées. D'autre part, nous menons une recherche systématique in silico de protéines d'intérêt, comme des transporteurs semblables à ceux responsables de la résistance à certaines drogues. L'analyse de ce type de protéines peut aider à la compréhension des interactions protéine-toxine et à l'amélioration de l'efficacité des insecticides.

GenoList : une base de données bactérienne multi-génomes (S. Moreira, L. Hummel, S. Grandino, P. Casel, H. Madaoui)

GenoList est une base de données permettant l'interrogation des annotations des génomes bactériens, et leur analyse via des outils bioinformatiques. GenoList existait auparavant sous la forme de plusieurs serveurs Web mono-génomes. Nous avons complètement repensé le schéma conceptuel afin d'y intégrer de nouvelles informations - notamment liées à la composante multi-génomes -, et de structurer l'information d'une manière optimale du point de vue informatique, et la plus exacte possible du point de vue des concepts biologiques sous-jacents. Cette modification profonde de la structure de la base de données s'est accompagnée du développement d'une nouvelle interface d'interrogation des données et de l'ajout de nouveaux outils d'analyse, en particulier pour l'analyse comparative. Ainsi, des outils de génomique soustractive tels que DiffTool et FindTarget seront directement accessibles depuis l'interface de GenoList. Le développement de l'interface, en cours actuellement, est conduit avec un souci constant pour assurer une présentation des données conviviale, une navigation intutive et une intégration poussée des outils d'analyse.

GenoScript : une base de données transcriptomique (S. Moreira, G. Lacourrège, L. Marisa)

GenoScript est une base de données permettant la soumission, la visualisation et l'analyse d'expériences de transcriptome réalisées suivant la technologie des puces à ADN. Nous développons la deuxième version de cette application, qui présente de nombreuses améliorations : plus de souplesse pour la soumission des expériences, possibilité de modifier des expériences soumises, contrôle accru de la cohérence des données, etc. (coll. G. Lacourrège, PF2 Puces à ADN, Génopole IP). L'amélioration principale a consisté en l'intégration d'outils d'analyse statistique (coll. L. Marisa, Unité de Génétique des Génomes Bactériens). Nous avons développé une connection entre GenoScript et l'environnement statistique R, via un système client-serveur. Une nouvelle interface permet de guider l'utilisateur à travers les différentes étapes de l'analyse, en sélectionnant les méthodes statistiques pertinentes. Nous avons également modifié la base de telle sorte que l'on puisse y intégrer les données spécifiques d'un projet sans modifier l'interface (lame de verre vs membrane haute densité, eucaryote vs bactérie). De telles modifications, réalisées en grande partie à la demande des groupes avec lesquels nous collaborons (PF2 - J.-Y. Coppée, Unité de Génétique des Génomes Bactériens - A. Danchin, Unité d'Immunologie Moléculaire des Parasites - P. David, Laboratoire de Génomique des Microorganismes Pathogènes - P. Glaser), permettront de répondre aux besoins actuels pour l'analyse et le stockage des données d'expression, mais nécessitent des développements complexes.

Exploration phylogénétique des génomes (C. Dauga, N. Beaume)

Des stratégies reposant sur la mise en évidence du mode évolutif des gènes et le choix des meilleures approches pour extraire l'information phylogénétique des séquences, sont élaborées afin d'identifier les gènes acquis par transferts, ceux générés par duplications ou par recombinaisons génétiques. Elles nécessitent la compréhension des concepts utilisés par la phylogénie et la connaissance des limites des méthodes de construction d'arbres.

Nous recherchons une méthodologie phylogénétique pour la détection de transferts de gènes entre espèces proches. Quatre tests phylogénétiques (un test d'incongruence, deux tests de comparaison topologique - Kishino & Hasegawa (KH) et Shimodaira & Hasegawa (SH) -, un test de coévolution) ont été évalués sur quatre exemples de gènes bactériens acquis par transfert. Nous avons montré que les tests KH et SH détectent tous les types de transferts, du transfert intra-espèce au transfert inter-domaines. Les tests d'incongruence et de coévolution sont moins performants car ils détectent d'autres événements que les transferts. Ces quatre tests sont sensibles à la présence de longues branches dans les phylogénies. L'évaluation de ces tests en présence d'artefacts de construction d'arbre est poursuivie. Les meilleurs tests seront sélectionnés, combinés et automatisés pour l'analyse des génomes complets.

En collaboration avec H. de Reuse (Unité de Pathogénie Bactérienne des Muqueuses), nous avons déterminé l'origine des gènes amiE et amiF codant pour des amidases aliphatiques d'Helicobacter pylori. Les techniques phylogénétiques et de nouvelles données génomiques suggèrent fortement leur acquisition par transferts génétiques. Les stratégies phylogénétiques élaborées répondent aussi aux besoins des différentes équipes de biologistes pour la réalisation d'études d'identification moléculaire ou de suivi épidémiologique des organismes. Nous collaborons avec J. Raymond (Hôpital Saint Vincent de Paul) et A. Labigne (Unité de Pathogénie Bactérienne des Muqueuses) pour l'exploitation phylogénétique de gènes évoluant par accumulation de mutations et recombinaisons génétiques lors du suivi intra-familial de souches d'H. pylori. Nous collaborons également avec T. Garrigues et A.-B. Failloux (Unité Insectes et Maladies Infectieuses) pour la caractérisation d'une nouvelle population de vipères à venin neurotoxique (Vipera aspis aspis) récemment apparue dans le sud-est de la France, et pour l'utilisation phylogénétique de deux gènes variables afin de rechercher l'origine géographique de souches d'Aedes albopictus récemment importées en France.

Reconstruction métabolique (D. Simon)

Un travail de thèse a été engagé sur la définition de nouvelles stratégies pour la reconstruction de voies et réseaux métaboliques ab initio, à partir de données génomiques annotées. Développée dans le cadre d'un projet européen sur la génomique fonctionnelle de Mycobacterium tuberculosis, l'approche ainsi définie sera d'abord appliquée à cet organisme, avant d'être généralisée à d'autres bactéries d'intérêt.

Activités d'enseignement (C. Boursaux-Eude, C. Dauga, L. Frangeul)

Les activités d'enseignement font partie intégrante des missions de PF4 :

Mise en place d'une initiation à la bioinformatique pour le Cours IP de Microbiologie Générale ;

Participation au Cours IP d'Analyse des Génomes (traitement informatique et analyse phylogénétique des données) ;

Participation au Cours IP Informatique et Biologie (encadrement de deux stagiaires) ;

Cours de Bioinformatique pour la formation continue en biotechnologies (université Paris 7) ;

Co-organisation et cours de phylogénie : ICRO-UNESCO Training Course - "Microbial Identification in Clinical and Environmental Settings", Kénitra et Rabat, Maroc ;

Co-organisation et cours de phylogénie : European Training Workshop of Gut Health Support Action - "Molecular characterization of the human intestinal microbiota", Paris.

Mots-clés: annotation, bases de données, génome, transcriptome, phylogénie, métabolisme



  site web

puce Plus d' informations sur notre site web


  publications

puce Toutes les publications 2003 sur notre base de données


  personnel

  Secrétariat Chercheurs Stagiaires Autre personnel
  LUCHIER, Françoise, fluchier@pasteur.fr (temps partiel) DAUGA, Catherine, IP, Chargé de Recherche, cdauga@pasteur.fr

MOSZER, Ivan, IP, Chargé de Recherche, moszer@pasteur.fr
CASEL, Pierrot, Stagiaire DESS, pcasel@pasteur.fr

DEMBA, Dioum, Stagiaire du réseau, dioum@pasteur.fr

MEURICE, Guillaume, Stagiaire doctorant, gmeurice@pasteur.fr

PRYOR, Melinda, Stagiaire post-doctoral, mpryor@pasteur.fr

SIMON, David, Stagiaire doctorant, dsimon@pasteur.fr
BOURSAUX-EUDE, Caroline, IP, Cadre Administratif et Technique, cbx@pasteur.fr

DEHOUX, Pierre, IP, Ingénieur, pdehoux@pasteur.fr

FRANGEUL, Lionel, IP, Cadre Administratif et Technique, lfrangeu@pasteur.fr

HUMMEL, Laurence, IP, Cadre Administratif et Technique, lhummel@pasteur.fr (CDD)

MOREIRA, Sandrine, IP, Cadre Administratif et Technique, moreira@pasteur.fr

Rapports d'activité 2003 - Institut Pasteur
filet

Debut de Page recherche Portail Institut Pasteur

En cas de problèmes, de remarques, ou de questions concernant cette page Web écrire à rescom@pasteur.fr