| Version PDF | Annotation |
| Responsable : Ivan MOSZER (moszer@pasteur.fr) |
|
Les missions du Plateau Technique 4 " Annotation " sont diverses : elles concernent l'assemblage et l'annotation initiale de nouveaux génomes, le maintien de collections de données annotées, le développement logiciel de bases de données génomiques, l'analyse des génomes et la phylogénie moléculaire. Une grande partie de l'activité se déroule dans le cadre de collaborations avec différentes équipes de l'Institut Pasteur : unités de recherche, Génopole, service informatique, mais aussi le département des enseignements. |
|
Assemblage et annotation de nouveaux génomes (L. Frangeul, B. Giletti, S. Mativet) Nous développons le logiciel CAAT-Box (" Contig-Assembly and Annotation Tool-Box "), qui contient un ensemble de méthodes permettant de suivre les assemblages successifs d'un projet de séquençage génomique, et de débuter la phase d'annotation dès l'étape de finition de la séquence (pour plus de détails concernant CAAT-Box, voir les rapports d'activité des années précédentes). Ce logiciel nous permet d'entretenir de nombreuses collaborations avec des équipes impliquées dans des projets de séquençage de grande ampleur :
Constitution de bases de données génomiques annotées (C. Boursaux-Eude, J.-C. Camus, L. Hummel, A. Marcel, M. Pryor) Deux nouveaux génomes de microorganismes (Streptococcus pneumoniae R6 et Tigr4) ont été intégrés dans une base de données de type GenoList, dénommée StreptoPneumoList. De même, dans le cadre d'un PTR avec l'Institut Pasteur de Lille (C. Locht), les génomes de trois organismes de la famille Bordetella (B. pertussis, B. parapertussis, B. bronchiseptica) seront introduits très prochainement dans de nouvelles bases GenoList. Afin de faciliter l'intégration de références bibliographiques dans les bases de données GenoList, un nouvel outil a été développé (BiblioDB). Il permet à l'utilisateur d'importer toutes les références propres à un organisme (via EndNote par exemple), et, par une interface adaptée, de relier chaque référence à un ou plusieurs gènes, ou, inversement, chaque gène à une ou plusieurs références. Ces relations sont ensuite intégrées à la base de données GenoList correspondant à l'organisme étudié. Cet outil a notamment été exploité dans le cadre de la réannotation des génomes de mycobactéries (M. tuberculosis, M. bovis, M. leprae), en collaboration avec l'Unité de Génétique Moléculaire Bactérienne (S. Cole). Concernant M. tuberculosis, plus de 80 nouvelles CDS ont été prédites, notamment à l'aide du programme AMIGA, et l'ensemble des gènes ont été regroupés selon une nouvelle classification fonctionnelle. De nombreuses fonctions ont été revues, en exploitant des résultats de comparaison de séquences affinés, et à l'aide d'une consultation exhaustive de la littérature récente (plus de 1 000 références). Des données protéomiques ont également été intégrées à la base de données TubercuList. GenoList : vers une nouvelle version multi-génomes (S. Moreira, L. Hummel, A. Marcel, E. Quevillon) Les bases de données génomiques et les serveurs Web associés de type GenoList existent depuis plus de dix ans et sont reconnus sur le plan international. Ils allient une présentation conviviale des données, une navigation intuitive et la présence d'outils de recherche complètement intégrés dans l'application et étroitement liés aux données. Cependant chaque serveur ne peut gérer qu'un organisme simultanément, voire deux dans le cas de souches proches. Nous développons à l'heure actuelle une version multi-génomes de GenoList. Cela implique l'enrichissement du schéma conceptuel de la base de données avec, en particulier, l'ajout de relations pertinentes entre les différents organismes. Ces modifications de structure s'accompagnent d'une refonte de l'interface, qui a été complètement repensée en intégrant de nouvelles données, ainsi que des outils de comparaison multi-génomes (coll. A. Le Roch, Unité des Cyanobactéries). D'autre part, d'un point de vue technique, nous avons opté pour un nouvel environnement de développement, WebObjects, mieux adapté au développement d'applications trois-tiers, et permettant un développement rapide et une maintenance facilitée d'applications de grande envergure. SubScript : une base de données transcriptomique (S. Moreira) Nous avons créé une base de données, SubScript, permettant le stockage et l'analyse des données de transcriptome. SubScript permet de soumettre des expériences de transcriptome issues de micro- ou de macro-arrays. Nous avons développé le modèle de données (conforme aux spécifications MGED) et l'interface de soumission avec un souci constant de rigueur (type et quantité d'informations) et de convivialité. Ce travail a pu être réalisé grâce à une interaction forte avec les laboratoires impliqués dans la réalisation pratique des expériences, notamment le PT2 de Génopole (J.-Y. Coppée, G. Lacourrège). Le développement d'outils d'analyse statistique des données est en cours (coll. L. Marisa, Unité de Génétique des Génomes Bactériens), en tenant compte de la complexité intrinsèque des données, mais aussi de la façon dont l'expérience a été réalisée. L'application est développée en utilisant le serveur d'application WebObjects. Ce projet a été développé initialement dans le cadre du programme " BACELL Network " d'analyse fonctionnelle de Bacillus subtilis, en collaboration avec l'Unité de Génétique des Génomes Bactériens (A. Danchin). Nous avons établi de nouvelles collaborations avec des groupes pasteuriens participant à des projets d'analyse fonctionnelle :
Ces collaborations vont permettre d'enrichir la base de nouvelles données, offrant ainsi de nombreuses potentialités en terme d'analyse croisée et de comparaison des régulations métaboliques entre organismes proches. Phylogénie (C. Dauga) Des stratégies visant à mettre en évidence le mode évolutif des gènes sont élaborées afin de choisir les meilleures approches pour extraire l'information phylogénétique des séquences de gènes. Elles nécessitent la compréhension des concepts utilisés par la phylogénie et la connaissance des limites des modèles de construction d'arbres. Ces stratégies répondent aux besoins rencontrés par différentes équipes de biologistes pour la réalisation d'études d'identification moléculaire ou de suivi épidémiologique des organismes :
Ces stratégies répondent aussi à la nécessité de reconnaître l'histoire évolutive des gènes, les transferts, les recombinaisons génétiques, et les duplications, pour l'exploration des génomes :
Un projet portant sur la recherche de méthodes phylogénétiques pour la détection des transferts de gènes entre espèces proches est en développement. Activités d'enseignement (C. Boursaux-Eude, C. Dauga, L. Frangeul) Les activités d'enseignement font partie intégrante des missions de PT4 :
Mots-clés: annotation, bases de données, génome, transcriptome, phylogénie |
| Plus d' informations sur notre site web |
| Toutes les publications sur notre base de données |
| Secrétariat | Chercheurs | Stagiaires | Autre personnel | |
| LUCHIER, Françoise,fluchier@pasteur.fr (temps partiel) | DAUGA, Catherine, IP, Chargé de Recherche,cdauga@pasteur.fr MOSZER, Ivan, IP, Chargé de Recherche,moszer@pasteur.fr |
PRYOR, Melinda, Stagiaire post-doctoral,mpryor@pasteur.fr | BOURSAUX-EUDE, Caroline, Cadre Administratif et Technique,cbx@pasteur.fr DEHOUX, Pierre, Ingénieur,pdehoux@pasteur.fr FRANGEUL, Lionel, Cadre Administratif et Technique,lfrangeu@pasteur.fr HUMMEL, Laurence, Cadre Administratif et Technique,lhummel@pasteur.fr (CDD) MARCEL, Anne, Cadre Administratif et Technique,amarcel@pasteur.fr (CDD) MOREIRA, Sandrine, Cadre Administratif et Technique,moreira@pasteur.fr |