Portail IP   bandeau_genéral
Version PDF      Annotation


  Responsable : Ivan MOSZER (moszer@pasteur.fr)


  resume

 

Les missions du Plateau Technique 4 " Annotation " sont diverses : elles concernent l'assemblage et l'annotation initiale de nouveaux génomes, le maintien de collections de données annotées, le développement logiciel de bases de données génomiques, l'analyse des génomes et la phylogénie moléculaire. Une grande partie de l'activité se déroule dans le cadre de collaborations avec différentes équipes de l'Institut Pasteur : unités de recherche, Génopole, service informatique, mais aussi le département des enseignements.



  rapport

cale

Assemblage et annotation de nouveaux génomes (L. Frangeul, B. Giletti, S. Mativet)

Nous développons le logiciel CAAT-Box (" Contig-Assembly and Annotation Tool-Box "), qui contient un ensemble de méthodes permettant de suivre les assemblages successifs d'un projet de séquençage génomique, et de débuter la phase d'annotation dès l'étape de finition de la séquence (pour plus de détails concernant CAAT-Box, voir les rapports d'activité des années précédentes). Ce logiciel nous permet d'entretenir de nombreuses collaborations avec des équipes impliquées dans des projets de séquençage de grande ampleur :

  • Collaboration avec l'Unité de Génétique Moléculaire des Levures (B. Dujon) : Cette dernière, dans le cadre d'un projet Génopole, a entrepris le séquençage complet du génome de Candida glabrata. Nous avons procédé à l'assemblage des 180 000 séquences produites par les Génopoles de l'Institut Pasteur (PT1, C. Bouchier) et d'Évry, aboutissant ainsi à plus de 700 contigs. En collaboration avec PT1, nous avons corrigé les zones de basse qualité de ces contigs et développé diverses stratégies permettant de les fusionner, pour obtenir une centaine de contigs (13 Mbases) qui recouvrent la quasi-totalité des 13 chromosomes. En collaboration avec le Laboratoire Bordelais de Recherche en Informatique (Université Bordeaux 1, D. Sherman), CAAT-Box a été utilisé pour l'annotation des principaux contigs.

  • Collaboration avec l'Unité des Staphylocoques (N. El Solh) : Après le dépôt dans le domaine public de la séquence complète de sept souches de Staphylococcus aureus (N315, Mu50, MW2, MRSA, MSSA, 8325, COL), nous avons entrepris une comparaison exhaustive des 14 000 CDS correspondantes. Cela nous a permis d'élaborer une liste de CDS d'intérêt : variants d'une souche à l'autre, ou gènes potentiellement impliqués dans le pouvoir pathogène de la bactérie. Nous avons ensuite utilisé CAAT-Box pour déterminer la séquence d'amorces nucléotidiques spécifiques, afin de réaliser une membrane à haute densité contenant 600 de ces CDS.

  • PTR Pasteur-Lille (C. Locht) : CAAT-Box a été utilisé pour définir l'ensemble des amorces nucléotidiques nécessaires à la réalisation d'une membrane à haute densité totale pour Bordetella pertussis.

  • Collaboration avec l'Unité des Cyanobactéries (N. Tandeau de Marsac) : CAAT-Box est utilisé pour suivre les premiers assemblages du génome de Microcystis aeruginosa.

Constitution de bases de données génomiques annotées (C. Boursaux-Eude, J.-C. Camus, L. Hummel, A. Marcel, M. Pryor)

Deux nouveaux génomes de microorganismes (Streptococcus pneumoniae R6 et Tigr4) ont été intégrés dans une base de données de type GenoList, dénommée StreptoPneumoList. De même, dans le cadre d'un PTR avec l'Institut Pasteur de Lille (C. Locht), les génomes de trois organismes de la famille Bordetella (B. pertussis, B. parapertussis, B. bronchiseptica) seront introduits très prochainement dans de nouvelles bases GenoList.

Afin de faciliter l'intégration de références bibliographiques dans les bases de données GenoList, un nouvel outil a été développé (BiblioDB). Il permet à l'utilisateur d'importer toutes les références propres à un organisme (via EndNote par exemple), et, par une interface adaptée, de relier chaque référence à un ou plusieurs gènes, ou, inversement, chaque gène à une ou plusieurs références. Ces relations sont ensuite intégrées à la base de données GenoList correspondant à l'organisme étudié.

Cet outil a notamment été exploité dans le cadre de la réannotation des génomes de mycobactéries (M. tuberculosis, M. bovis, M. leprae), en collaboration avec l'Unité de Génétique Moléculaire Bactérienne (S. Cole). Concernant M. tuberculosis, plus de 80 nouvelles CDS ont été prédites, notamment à l'aide du programme AMIGA, et l'ensemble des gènes ont été regroupés selon une nouvelle classification fonctionnelle. De nombreuses fonctions ont été revues, en exploitant des résultats de comparaison de séquences affinés, et à l'aide d'une consultation exhaustive de la littérature récente (plus de 1 000 références). Des données protéomiques ont également été intégrées à la base de données TubercuList.

GenoList : vers une nouvelle version multi-génomes (S. Moreira, L. Hummel, A. Marcel, E. Quevillon)

Les bases de données génomiques et les serveurs Web associés de type GenoList existent depuis plus de dix ans et sont reconnus sur le plan international. Ils allient une présentation conviviale des données, une navigation intuitive et la présence d'outils de recherche complètement intégrés dans l'application et étroitement liés aux données. Cependant chaque serveur ne peut gérer qu'un organisme simultanément, voire deux dans le cas de souches proches. Nous développons à l'heure actuelle une version multi-génomes de GenoList. Cela implique l'enrichissement du schéma conceptuel de la base de données avec, en particulier, l'ajout de relations pertinentes entre les différents organismes. Ces modifications de structure s'accompagnent d'une refonte de l'interface, qui a été complètement repensée en intégrant de nouvelles données, ainsi que des outils de comparaison multi-génomes (coll. A. Le Roch, Unité des Cyanobactéries). D'autre part, d'un point de vue technique, nous avons opté pour un nouvel environnement de développement, WebObjects, mieux adapté au développement d'applications trois-tiers, et permettant un développement rapide et une maintenance facilitée d'applications de grande envergure.

SubScript : une base de données transcriptomique (S. Moreira)

Nous avons créé une base de données, SubScript, permettant le stockage et l'analyse des données de transcriptome. SubScript permet de soumettre des expériences de transcriptome issues de micro- ou de macro-arrays. Nous avons développé le modèle de données (conforme aux spécifications MGED) et l'interface de soumission avec un souci constant de rigueur (type et quantité d'informations) et de convivialité. Ce travail a pu être réalisé grâce à une interaction forte avec les laboratoires impliqués dans la réalisation pratique des expériences, notamment le PT2 de Génopole (J.-Y. Coppée, G. Lacourrège). Le développement d'outils d'analyse statistique des données est en cours (coll. L. Marisa, Unité de Génétique des Génomes Bactériens), en tenant compte de la complexité intrinsèque des données, mais aussi de la façon dont l'expérience a été réalisée. L'application est développée en utilisant le serveur d'application WebObjects.

Ce projet a été développé initialement dans le cadre du programme " BACELL Network " d'analyse fonctionnelle de Bacillus subtilis, en collaboration avec l'Unité de Génétique des Génomes Bactériens (A. Danchin). Nous avons établi de nouvelles collaborations avec des groupes pasteuriens participant à des projets d'analyse fonctionnelle :

  • L'Unité de Programmation Moléculaire et Toxicologie Génétique (P. Quillardet) fait partie d'un consortium français d'analyse fonctionnelle d'Escherichia coli (P. Bouloc).

  • L'Unité d'Immunologie Moléculaire des Parasites participe au programme Pal+ pour l'étude du transcriptome de Plasmodium falciparum (P. David).

  • Le Laboratoire de Génomique des Microorganismes Pathogènes (P. Glaser) analyse le transcriptome de Streptococcus agalactiae.

Ces collaborations vont permettre d'enrichir la base de nouvelles données, offrant ainsi de nombreuses potentialités en terme d'analyse croisée et de comparaison des régulations métaboliques entre organismes proches.

Phylogénie (C. Dauga)

Des stratégies visant à mettre en évidence le mode évolutif des gènes sont élaborées afin de choisir les meilleures approches pour extraire l'information phylogénétique des séquences de gènes. Elles nécessitent la compréhension des concepts utilisés par la phylogénie et la connaissance des limites des modèles de construction d'arbres.

Ces stratégies répondent aux besoins rencontrés par différentes équipes de biologistes pour la réalisation d'études d'identification moléculaire ou de suivi épidémiologique des organismes :

  • Collaboration avec J. Raymond (Hôpital Saint Vincent de Paul) et A. Labigne (Unité de Pathogénie Bactérienne des Muqueuses) pour l'exploitation phylogénétique de gènes évoluant par accumulation de mutations et recombinaisons génétiques lors du suivi intra-familial de souches d'Helicobacter pylori ;

  • Collaboration avec A.-B. Failloux (Unité d'Écologie des Systèmes Vectoriels) pour l'utilisation phylogénétique de deux gènes variables recherchant l'origine géographique de souches d'Aedes albopictus récemment importées en France.

Ces stratégies répondent aussi à la nécessité de reconnaître l'histoire évolutive des gènes, les transferts, les recombinaisons génétiques, et les duplications, pour l'exploration des génomes :

  • Collaboration avec H. de Reuse (Unité de Pathogénie Bactérienne des Muqueuses) afin d'explorer le mode évolutif de gènes codant pour des amidases aliphatiques d'Helicobacter pylori.

Un projet portant sur la recherche de méthodes phylogénétiques pour la détection des transferts de gènes entre espèces proches est en développement.

Activités d'enseignement (C. Boursaux-Eude, C. Dauga, L. Frangeul)

Les activités d'enseignement font partie intégrante des missions de PT4 :

  • Mise en place d'une initiation à la bioinformatique pour le Cours de Microbiologie Générale ;

  • Participation au Cours d'Analyse des Génomes (traitement informatique des données) ;

  • Co-organisation de l'Atelier Inserm 135 : identification de bactéries non cultivables en clinique et dans l'environnement ;

  • Cours et travaux dirigés " Analyse phylogénétique, principes théoriques et pratiques " pour le cours de Bioinformatique de l'université Paris 7.

Mots-clés: annotation, bases de données, génome, transcriptome, phylogénie



  site web

puce Plus d' informations sur notre site web


  publications

puce Toutes les publications sur notre base de données


  personnel

  Secrétariat Chercheurs Stagiaires Autre personnel
  LUCHIER, Françoise,fluchier@pasteur.fr (temps partiel) DAUGA, Catherine, IP, Chargé de Recherche,cdauga@pasteur.fr

MOSZER, Ivan, IP, Chargé de Recherche,moszer@pasteur.fr

PRYOR, Melinda, Stagiaire post-doctoral,mpryor@pasteur.fr BOURSAUX-EUDE, Caroline, Cadre Administratif et Technique,cbx@pasteur.fr

DEHOUX, Pierre, Ingénieur,pdehoux@pasteur.fr

FRANGEUL, Lionel, Cadre Administratif et Technique,lfrangeu@pasteur.fr

HUMMEL, Laurence, Cadre Administratif et Technique,lhummel@pasteur.fr (CDD)

MARCEL, Anne, Cadre Administratif et Technique,amarcel@pasteur.fr (CDD)

MOREIRA, Sandrine, Cadre Administratif et Technique,moreira@pasteur.fr


Rapports d'activité 2002 - Institut Pasteur
filet

Debut de Page recherche Portail Institut Pasteur

En cas de problèmes, de remarques, ou de questions concernant cette page Web écrire à rescom@pasteur.fr