Portail IP bandeau_genéral
  Ptannot


  Responsable : par intérim, Cole, Stewart (stcole@pasteur.fr)


  resume

 

Le Plateau Technique 4 fait partie de la Génopole de l'Institut Pasteur et s'est progressivement mis en place lors de l'année 2001. Les missions de cette équipe concernent l'analyse des génomes et sont très diverses. La plus grande partie de son activité consiste en des collaborations avec différentes équipes de l'Institut Pasteur : unités de recherche, Génopole, pôle informatique mais aussi avec le département des enseignements.



  rapport

cale

Collaboration avec le laboratoire de Génomique des Micro-organismes Pathogènes dirigé par Frank Kunst  (Boursaux-Eude, C., Frangeul, L.)

Nous avons développé un ensemble de programmes qui ont été utilisés dans le cadre du séquencage du génome de Listeria monocytogenes (2,9 Mpb) par la stratégie "shotgun" (Frangeul L.). Nos programmes, réunis sous l'appellation " CAAT-Box " (Contig-Assembly and Annotation Tool-Box), sont utilisés sur l'ensemble des génomes séquencés par le laboratoire GMP (Listeria innocua, Photorhabdus luminescens et Streptococcus agalactiae). Notre équipe a plus particulièrement participé à l'annotation de P. luminescens (Boursaux-Eude, C).

" CAAT-Box " est un ensemble de modules pouvant être séparés en quatre grandes parties :

  • Une première partie permettant de suivre l'évolution d'un projet " shotgun " en comparant le résultat d'un assemblage au résultat de l'assemblage précédent.

  • Une deuxième partie permettant de réaliser des prédictions de liens entre " contigs " lors de la phase de finition.

  • Une troisième partie permettant de commencer l'annotation du génome pendant la phase de finition en utilisant des fiches individuelles de protéine ou IPF.

  • Une dernière partie permettant de rendre ces annotations accessibles et modifiables par l'Internet.

Plusieurs programmes pouvant être lancés par des clients via l'Internet permettent de lire, d'annoter et de modifier chaque IPF ainsi que d'accéder à un ensemble de résultats connexes générés par différents programmes tels que BLAST, genemark et toppred2. Chaque modification ou annotation effectuée par un client est immédiatement accessible à tous les autres annotateurs.

Au cours de l'année 2001, les améliorations apportées au programme " CAAT-Box " sont essentiellement trois nouveaux modules :

  • un module pour la détection automatique de " primers " pour l'ensemble du transcriptome des génomes étudiés,

  • un module permettant la détection automatique des " frameshifts " potentiels,

  • un module permettant l'import de données dans les IPF à partir de banques FASTA.

Collaboration avec l'unité de Génétique des Génomes bactériens dirigée par Antoine Danchin (Boursaux-Eude, C., Frangeul, L., Marcel, A. et Quevillon, E.)

Notre programme " CAAT-Box " est également utilisé pour suivre la progression des premiers assemblages du génome de Penicillium marneffei réalisés en collaboration avec Antoine Danchin et l'" HKU-Pasteur Research Centre " à Hong-Kong.

Un autre ojectif de notre travail consiste à mettre en place de nouvelles bases de données, sur le modèle de GenoList (collaboration avec Ivan Moszer). Deux souches de Staphylococcus aureus (N315 et Mu50) ont été choisies, dans un premier temps, pour alimenter une nouvelle base dénommée AureOList. Elle permet, de la même façon que PyloriGene, de faire des recherches sur les deux souches séparément ou conjointement.

La stratégie de mise en place est la suivante : dans un premier temps, il est nécessaire de récupérer un fichier EMBL ou GenBank, le plus récent et " correctement " annoté sur l'organisme considéré. Une fois ce choix effectué, une liste des particularités des différents champs doit être élaborée pour prendre en compte l'ensemble des informations lors du " parsing ". Dans ce but, différents programmes de test sont lancés. L'étape suivante consiste à adapter un programme de "parsing" écrit en Perl, afin qu'il traite entièrement et correctement le fichier de données, en fonction de ses particularités. En sortie de ce programme, le fichier généré contient toutes les informations sous un format SQL pouvant alimenter certaines des tables de la base de données. Mais l'ensemble des tables ne sont pas remplies de cette façon car les fichiers de type EMBL ou GenBank ne renferment pas toutes informations nécessaires. C'est le cas des points isoélectriques, des poids moléculaires, des fichiers indispensables au lancement des BLAST et FASTA, de la classification fonctionnelle et de l'établissement des correspondances entre les CDS de chaque souche. Il faut alors choisir les bons outils pour intégrer ces nouvelles données. Aujourd'hui, AureOList est fonctionnelle, il ne lui manque que les correspondances entre les CDS des deux souches (http://genolist.pasteur.fr/AureoList).

D'autres microorganismes seront intégrés dans des bases de données analogues. Une nouvelle stratégie concernant le " parsing " de fichier est actuellement étudiée en vue de la création d'une base de données multi-organismes.

Une autre partie de notre équipe, en collaboration avec Ivan Moszer chez Antoine Danchin, est aussi impliquée dans la réalisation et la mise en ligne d'une base de données (BDD) multi-génomes. Nous avons modifié la structure et l'interface de la BDD existante GenoList (http://genolist.pasteur.fr) ; une première maquette de l'interface Web a vu le jour. Nous avons aussi travaillé pour adapter un " parser " de fichiers GenBank universel adapté à notre nouvelle structure de BDD et permettant de récupérer les informations qui seront directement intégrées. Nous prévoyons aussi d'implémenter le programme d'interrogation de la BDD dans un nouveau langage (Java) et de développer son interface Web en utilisant le logiciel WebObjects.

Collaboration avec l'Unité de Génétique Moléculaire Bactérienne dirigée par Stewart Cole (Camus, J.C. et Pryor-Stinear, M.)

Parmi les multiples maladies contagieuses graves en recrudescence depuis ces dernières années, la tuberculose était responsable de près de 2 millions de morts en 2000. Aussi, d'importants investissements ont été apportés dans le secteur de la recherche afin, notamment, de comprendre les différents mécanismes impliqués dans la pathogénicité de cette bactérie, et de développer de nouvelles stratégies préventives et thérapeutiques. En 1998, l'Unité de Génétique Moléculaire Bactérienne de l'Institut Pasteur a ainsi pris l'initiative de séquencer et annoter le génome complet d'une souche virulente de Mycobacterium tuberculosis H37Rv. La partie séquençage de ce projet a été réalisée en collaboration avec le Sanger Centre (Hinxton, Angleterre). Une base de données TubercuList (http//www.genolist.pasteur.fr/TubercuList/) avait également été mise en place. Les données étant en constante évolution, il nous a semblé primordial de les analyser et de les mettre à jour. Nous avons donc entrepris une réannotation systématique de l'ensemble des ORF du génome de M. tuberculosis (4,4 Mpb). Nous avons organisé une restructuration de l'annotation, en y ajoutant de nouvelles données scientifiques (" EC number ", principales références bibliographiques, fonction précise de la protéine putative, indice de confiance) sur un modèle uniforme. De nouvelles ORF ont été ajoutées. D'autre part, le même laboratoire venant de séquencer et annoter l'ensemble du génome (3,3 Mpb) d'une autre mycobactérie, Mycobacterium leprae, les résultats d'études comparatives entre ces deux génomes se devaient d'être insérés parmi les commentaires de la nouvelle base de données. Ces travaux sont issus d'une collaboration avec le Wellcome Trust Genome Campus (Hinxton, Angleterre) et le Centre de Ressources INFOBIOGEN (Génopole d'Evry, France). Nous commençons à créer des liens entre certaines protéines et la bibliographie correspondante.

Collaboration avec l'Unité de Microbiologie et Environnement dirigée par intérim par Pierre Béguin (Frangeul, L.)

L'université de Stanford ayant rendu publique la séquence de 1213 "contigs" du génome de Candida albicans (pour une longueur totale de 17 millions de bases), nous avons décidé d'utiliser " CAAT-Box " pour permettre à un Consortium Européen d'annoter ces "contigs". Cette annotation de plus de 14000 ORF a été coordonnée par Christophe d'Enfert et est aujourd'hui achevée.

Collaboration avec l'Unité des cyanobactéries dirigée par Nicole Tandeau de Marsac (Frangeul, L.)

Le programme " CAAT-Box " est utilisé pour suivre les premiers assemblages du génome de Microcystis aeruginosa au sein de l'unité des Cyanobactéries.

Collaboration avec l'Unité de Bactériologie Moléculaire et Médicale dirigée par Guy Baranton (Frangeul, L)

Plus récemment, " CAAT-Box " a été mis à la disposition de l'Unité de Bactériologie Moléculaire et Médicale pour permettre la diffusion et l'amélioration de l'annotation des deux chromosomes de Leptospira interrogans au sein du laboratoire dirigé par Isabelle Saint Girons.

Collaboration avec le PT1 Génomique dirigé par Christiane Bouchier et le groupe Logiciels et Bases de données du pôle informatique dirigé par Bernard Caudron (Boursaux-Eude, C. et Frangeul, L.)

Nous avons développé un couple de programmes nommés " Chrosort " et " CheckCap " qui permettent la gestion des flux de chromatographes produits par la plate-forme de séquençage de la Génopole (PT1). " Chrosort " renomme les chromatographes, les trie en vérifiant leur qualité et enregistre les scores de chaque capillaire pour tous les séquenceurs de la plate-forme. " CheckCap " relit les résultats accumulés par " Chrosort " pour détecter un capillaire dont le score moyen serait significativement plus faible que les autres et qu'il faudrait changer ou pour détecter la nécessité d'un lavage approfondi de tel ou tel lot de capillaires.

Pour les besoins du PT1, nous avons aussi écrit le programme " runsite ". Il a été intégré à la cascade PhredPhrap sous la forme prp (PhredRunsitePhrap). " runsite " permet de rechercher un motif en début ou fin de séquence et s'il n'est pas retrouvé, une étude du fichier qualité est effectuée. Il accepte en entrée deux fichiers, le fichier de séquence au format FASTA et le fichier de qualité correspondant générés par le programme Phred. En sortie, les deux fichiers sont récupérés après coupure éventuelle des régions en amont (motif au début de la séquence) ou en aval (motif à la fin de la séquence) au niveau des données de séquence et de qualité.

Activités d'enseignement (Boursaux-Eude, C. et Frangeul, L.)

Les activités d'enseignement font aussi partie intégrante des missions de ce plateau technique. On peut noter plusieurs actions comme la participation à la mise en place d'une initiation à la bio-informatique pour le Cours de Microbiologie Générale ou la préparation du Cours d'Analyse des Génomes dirigé par Bernard Dujon et programmé pour le début de l'année 2002 (traitement informatique des données).



  site web

puce Plus d' informations sur notre site web


  publications

puce Toutes les publications sur notre base de données


  personnel

  Secrétariat Chercheurs Stagiaires Autre personnel
     

Giletti, Benjamin, stagiaire de maîtrise, bgiletti@pasteur.fr

Pryor-Stinear, Melinda, stagiaire post-doctoral, mpryor@pasteur.fr

Boursaux-Eude, Caroline, ingénieur bio-informatique, cbx@pasteur.fr

Camus, Jean-Christophe, ingénieur bio-informatique (CDD), jccamus@pasteur.fr

Frangeul, Lionel, ingénieur technologue, lfrangeu@pasteur.fr

Marcel, Anne, ingénieur bio-informatique (CDD), amarcel@pasteur.fr

Quevillon, Emmanuel, ingénieur bio-informatique (CDD), tuco@pasteur.fr


filet

Debut de Page recherche Portail Institut Pasteur

En cas de problèmes, de remarques, ou de questions concernant cette page Web écrire à rescom@pasteur.fr.