Unité: Intégration et analyse génomique (Plate-forme)

Responsable: Ivan MOSZER

Les activités de la Plate-Forme 4 (PF4) " Intégration et Analyse Génomiques " de la Genopole s'articulent autour de trois axes : (i) l'assemblage, l'annotation et la ré-annotation de génomes, (ii) le développement logiciel de bases de données génomiques, (iii) l'analyse des génomes et la phylogénie moléculaire. Une majeure partie de l'activité se déroule dans le cadre de collaborations avec différentes équipes de l'Institut Pasteur : unités de recherche, Genopole, Pôle Informatique, mais aussi le département des enseignements.

Assemblage et annotation de nouveaux génomes (L. Frangeul, S. Bun)

Nous développons le logiciel CAAT-Box (" Contig-Assembly and Annotation Tool-Box "), qui contient un ensemble de méthodes permettant de suivre les assemblages successifs d'un projet de séquençage génomique, et de débuter la phase d'annotation dès l'étape de finition de la séquence.

Nous entretenons ainsi de nombreuses collaborations avec des équipes impliquées dans des projets de séquençage de grande ampleur. Nous participons notamment à la finition du séquençage du génome de la cyanobactérie Microcystis aeruginosa, mené en collaboration par l'Unité des Cyanobactéries (N. Tandeau de Marsac) et la plate-forme " Génomique " (PF1) de la Genopole (C. Bouchier), étape rendue particulièrement difficile par la présence d'un très grand nombre de répétitions dans ce génome. En collaboration avec l'Unité de Génétique Moléculaire des Levures (B. Dujon) et dans le cadre des travaux du GDR Génolevures 2, nous participons à l'annotation du génome de la levure Debaryomyces hansenii et à sa comparaison avec les contigs du génome de Candida albicans.

En parallèle, deux nouveaux modules sont développés pour CAAT-Box : le premier permet la détection systématique des répétitions de gènes, et le second intègre diverses méthodes de prédiction de liens entre contigs, permettant la synthèse des résultats et la visualisation des super-contigs ainsi obtenus.

Annotation de génomes bactériens (C. Boursaux-Eude)

Nous avons débuté l'annotation du génome de Leptospira biflexa, spirochète saprophyte. Le séquençage est réalisé par PF1 (C. Bouchier), et le projet est coordonné par M. Picardeau (Laboratoire des Spirochètes). Nous utilisons le programme d'annotation MaGe développé au Génoscope (C. Médigue). En cours d'assemblage, nous avons commencé par annoter le petit chromosome de 277,7 kpb, et nous poursuivons actuellement avec le grand chromosome. Nous nous sommes également concentrés sur l'annotation des gènes potentiellement impliqués dans le métabolisme du fer. Fin 2005, près de 70% du génome était annoté. D'autres projets d'annotation et ré-annotation sont en cours de démarrage ou de discussion, comme l'annotation d'une souche de Helicobacter pylori associée à un lymphome du MALT.

Base de données bactérienne multi-génomes (P. Lechat, L. Hummel)

GenoList est une base de données et une application Web associée permettant l'interrogation et l'analyse des génomes bactériens (http://genolist.pasteur.fr/). La version actuelle intègre 66 génomes bactériens (et les plasmides associés). Une interface d'interrogation et de navigation évoluée, ainsi que des outils d'analyse de séquences (BLAST, recherche de " patterns ") et de génomique soustractive (DiffTool, FindTarget), permettent d'exploiter de façon ciblée et pertinente ces données. Un effort particulier a été apporté à l'intégration rigoureuse des annotations génomiques, et à l'optimisation des fonctionnalités d'analyse comparative, particulièrement exigeantes en temps de calcul. Une collaboration avec un partenaire industriel a permis d'adapter l'application à ses besoins spécifiques. Des fonctionnalités supplémentaires sont en cours de développement (cartes graphiques circulaires et multi-génomes), et de nouveaux génomes seront intégrés en tenant compte des priorités des biologistes utilisateurs.

Base de données transcriptomique (S. Moreira, C. Laurent, P. Latouche)

Afin de faciliter la gestion des données issues d'expériences de puces à ADN pour l'analyse différentielle de l'expression génétique, nous avons développé une base de données et une application Web associée, GenoScript (http://genoscript.pasteur.fr). Cette application permet de soumettre les expériences et les données numériques associées, et d'effectuer diverses requêtes et analyses statistiques. L'interface de GenoScript peut être personnalisée par l'ajout d'informations spécifiques du projet concerné. L'interrogation des données peut se faire par des requêtes prédéfinies, ou en construisant, via une interface simple, des requêtes complexes combinant de multiples critères. Récemment, une interface de visualisation des résultats d'expériences par catégories de classifications préenregistrées (fonctionnelles, métaboliques, etc.) a été développée. GenoScript propose également un module d'analyse statistique (coll. M.-A. Dillies, PF2 " Puces à ADN ", G. Guigon, PF8 " Santé Publique ", et C. Laurent, Unité de Génétique des Génomes Bactériens), destiné à des expériences dont le schéma est " simple " (utilisation de fonctions R issues des librairies Bioconductor).

Biodiversité génotypique de souches parasitaires (D. Dioum, S. Moreira)

Dans le cadre du projet Genopole coordonné par R. Jambou (IP Sénégal) et O. Puijalon (Unité d'Immunologie Moléculaire des Parasites), et impliquant plusieurs Instituts Pasteur du Réseau International (Cambodge, Madagascar, Guyane), nous avons développé une base de données d'épidémiologie moléculaire. La réalisation de cet outil s'intègre dans un projet multicentrique visant à l'identification de liaisons entre des variations génotypiques de souches plasmodiales et des critères cliniques, en particulier la sensibilité des souches aux antipaludéens. L'application permet d'entrer des données épidémiologiques, cliniques et moléculaires (séquences de gènes cibles) par l'intermédiaire de formulaires Web ou de fichiers Excel, de détecter les polymorphismes des séquences, et d'effectuer des requêtes multicritères, dont les résultats peuvent être formatés puis exportés pour réaliser des analyses de données et générer divers graphiques.

Exploration phylogénétique des génomes (S. Goupil, C. Dauga)

Notre objectif est de créer des stratégies originales de génomique comparative, basées sur les concepts et méthodologies utilisés par la phylogénie. Elles sont dédiées à la reconnaissance de gènes acquis par transferts (xénologues) ou issus de duplications (paralogues). Identifier avec précision ces mécanismes génétiques aide le biologiste à reconnaître les gènes impliqués dans l'adaptation des organismes à de nouveaux environnements et à mieux appréhender l'évolution des génomes. Divers programmes de simulation, générant des recombinaisons aléatoires entre des séquences évoluant selon différents modèles d'évolution, nous ont permis d'évaluer les méthodes de détection et de représentation des recombinaisons génétiques. Nous collaborons avec J. Raymond (Hôpital Saint Vincent de Paul) et A. Labigne (Unité de Pathogénie Bactérienne des Muqueuses) pour caractériser les transferts entre des souches d'H. pylori, présentes dans l'estomac d'un même individu ou les membres d'une même famille, grâce à l'exploitation phylogénétique de deux gènes hypervariables et à l'analyse de puces à ADN.

Approches phylogénétiques pour le suivi épidémiologique des organismes (X. Bebin, C. Dauga)

Nous avons mis en place récemment des stratégies et des outils pour l'identification moléculaire, l'analyse phylogéographique et l'étude de la dynamique évolutive des populations d'insectes vecteur d'agents infectieux. Nous avons recherché, avec A.-B. Failloux (Unité de Génétique Moléculaire des Bunyaviridae), l'origine géographique de spécimens d'Aedes albopictus, vecteurs potentiels de la dengue, récemment apparus en France. Nous participons également avec cette unité et le Réseau International des Instituts Pasteur à un projet d'écologie évolutive pour le suivi des vecteurs de la Fièvre de la Vallée du Rift.

Analyse du génome d'Anopheles gambiae (P. Dehoux, E. Perlade, P. Lechat, C. Dauga)

En tant que membre du consortium international ayant réalisé le séquençage du génome d'Anopheles gambiae, principal vecteur du paludisme, nous collaborons avec l'Unité de Biochimie et de Biologie Moléculaire des Insectes (C. Roth, P. Brey - GPH " Anopheles ") à l'amélioration de son annotation, en combinant notamment l'utilisation de banques de cDNA " full-length " et des recherches in silico sur le proteome codé. Nous focalisons nos études sur l'étude des gènes exprimés dans les glandes salivaires du moustique, ainsi que d'une manière plus générale sur la détermination des protéines secrétées par A. gambiae, cibles potentielles pour l'inhibition de la transmission du parasite. Enfin, nous adaptons certaines techniques phylogénétiques permettant la reconnaissance des orthologues et des paralogues à une étude de génomique comparative des Sérine Protéases (comparaison avec Drosophila melanogaster), une superfamille de gènes impliqués dans la réponse anti-infectieuse ou la signalisation intracellulaire chez A. gambiae.

Reconstruction de voies métaboliques (D. Simon)

Nous développons une nouvelle approche pour la reconstruction de voies métaboliques ab initio, à partir de données génomiques annotées. Il s'agit de déterminer les enchaînements possibles de réactions, puis de combiner et filtrer ces derniers en fonction de critères variés afin de définir des chemins métaboliques réalistes. En faisant abstraction des voies métaboliques génériques définies pour certains organismes seulement, nous pouvons ainsi espérer mettre en évidence de nouvelles voies alternatives. Développée dans le cadre d'un projet européen sur la génomique fonctionnelle de Mycobacterium tuberculosis, l'approche ainsi définie est d'abord appliquée à cet organisme, avant d'être généralisée à d'autres bactéries d'intérêt.

Activités d'enseignement (C. Boursaux-Eude, C. Dauga, P. Dehoux, L. Frangeul)

Co-organisation du Cours IP d'Analyse des Génomes (traitement informatique des données) ;

Participation au Cours IP Informatique et Biologie (encadrement de deux stagiaires) ;

Initiation aux outils de la bioinformatique pour la formation continue en biotechnologies (Paris 7) ;

Cours et TP de phylogénie pour le Master Spécialisé en Bioinformatique (Institut Informatique d'Entreprise - CNAM Essonne) ;

Cours de phylogénie pour le Master Biologie et Santé, Spécialité Interactions des Microorganismes avec leur environnement (Évry & Versailles - St Quentin en Yvelines) ;

Participation au Cours IP d'Entomologie Médicale.

Mots-clés: annotation, base de données, génome, transcriptome, biodiversité, phylogénie, métabolisme


Rapports d'activité 2005 - Institut Pasteur
filet

Debut de Page recherche Portail Institut Pasteur

En cas de problèmes, de remarques, ou de questions concernant cette page Web écrire à rescom@pasteur.fr