Unité: Logiciels et Banques de données

Responsable: Bernard Caudron

Le groupe " Logiciels et Banques de données " déploie des activités d'installation, de maintenance et d'interfaçage de logiciels biologiques pour les chercheurs. Une mission importante est la mise à disposition d'un choix de banques de données biologiques internationales interrogeables avec ces logiciels. Nous construisons les bases de données scientifiques permettant la mise en ligne des résultats des laboratoires. Les interfaces utilisées pour présenter les logiciels de biologie sont en pleine refonte. Le groupe participe à des activités d'enseignement : la bioinformatique pour la formation continue, l'initiation à la bioinformatique pour les cours d'Analyse des Génomes et de Génétique Cellulaire et Moléculaire, l'organisation du cours d'Informatique en Biologie est assurée par trois personnes du groupe, auxquelles se joignent comme enseignants les autres membres du groupe.

Logiciels pour la biologie:

L'ensemble des logiciels disponibles pour la biologie est réparti en 340 paquetages regroupant environ 1500 programmes. L'installation, la mise à jour et le suivi de ces logiciels représentent la majeure partie du travail du groupe. Les paquetages logiciels sont d'origine différente et le travail d'installation dépend du professionnalisme avec lequel ils ont été préparés par les auteurs.

Pour rendre l'accès plus convivial à ces logiciels, nous avons construit 380 interfaces Web qui guident l'utilisateur dans le choix des programmes et des paramètres associés, lui permettant de lancer par le Web et de récupérer ses résultats par email. Ce service est ouvert sur le campus et sur l'extérieur, il est comparable à celui que fournissent réciproquement le NCBI, l'EBI ou InfoBiogen aux chercheurs du monde entier. Les logiciels sont parfois entachés d'erreurs, notre mission est de détecter ces erreurs, d'en faire l'analyse pour envoyer aux auteurs soit un rapport, soit un correctif quand nous en avons trouvé un.

Notre groupe interagit de manière constructive avec les centres suivants : NCBI (pour les programmes Blast), Washington University (phred, phrap, consed, phylip) et le Centre HGMP (pour l'ensemble EMBOSS).

Le projet Mobyle, s'appuyant sur des études réalisées depuis fin 2003, destiné à améliorer l'actuel portail d'analyses bioinformatiques, est entré dans la deuxième moitié de l'année 2004 dans la phase de mise en œuvre.

Les banques de données biologiques : (responsable N. Joly)

Depuis 1999, la mise à jour des banques de séquences biologiques est assurée par un automate mis au point par Nicolas Joly, Marc Baudoin et moi-même. Nous avons produit un logiciel qui effectue la mise à jour automatique des banques biologiques actuellement disponibles sur nos serveurs. La difficulté de la tâche résidait dans le volume important des données à gérer. La place occupée sur disques pour la totalité des formats représente pour GenBank 500 Go, pour Embl 400 Go et pour les autres banques 100 Go, au total 1000 Go sont réservés pour les banques. Actuellement 36 banques, dont Embl, GenBank, Swissprot, Uniprot, TrEmbl, Genpept, Pdb, Pir sont localement des copies des banques originales que l'automate va chercher périodiquement sur leurs sites de production respectifs.

Bases de données : (responsables L. Jones, C. Jorge)

De nouvelles bases de données ont été ajoutées selon le modèle " GenoList " pour présenter sur le web le génome de microbactérie Legionella pneumophila (LegioList) et un génome eucaryote Candida albicans (CandidaDB ). Le modèle " GenoList " continue de rendre les services attendus et de nombreux génomes ont été remis à jour en 2004 : Mycobacterium tuberculosis (TubercuList), Mycobacterium leprae (Leproma), Mycobacterium bovis (BoviList).

Le logiciel ARPAS, qui gère et interroge la base de données du CRBIP est fonctionnel depuis 2 ans, son développement continue pour y intégrer un accès par le web.

Une base de donnée a été développée pour l'unité de Génétique Moléculaire Murine, pour analyser, comparer et annoter les régions du chromosme X autour du gène Xist, de souris et de bovin.

C. Jorge travaille actuellement en collaboration avec le " Centre de ressources en biostatistiques, épidémiologie et pharmaco-épidémiologie " (D. Guillemot, C. Toneatti-Lemare, L. Lafitte ) au développement et à l'expérimentation d'outils de recueils d'informations via des bases de données sécurisées et via internet (eCRF) adaptés à la recherche pharmaco-épidémiologique.

Aide par courrier électronique :

Pour l'année 2004, l'ensemble du courrier électronique reçu à l'adresse <help@pasteur.fr> représente 1100 demandes d'aide, auxquelles il a été fait 1800 réponses provenant aux 2/3 du groupe " Systèmes et Réseau " et 1/3 du groupe " Logiciels et Banques ". Nous traitons aussi de nombreuses questions provenant d'utilisateurs de Bioweb connectés par l'Internet.

Formation de bioinformatique : (responsable C. Maufrais)

Nous proposons depuis 1993, avec le Service Formation, des séances d'enseignement théorique et pratique pour l'utilisation autonome et critique des logiciels d'analyse de données biologiques. Une session de formation a lieu chaque année, pendant 3 semaines en novembre et décembre, soit quinze 1/2 journées qui peuvent être suivies par une trentaine de chercheurs, techniciens ou stagiaires.

Le contenu de cette formation a servi de base au " 2ème Cours de Bioinformatique à Dakar " réalisé avec l'Institut Pasteur de Dakar, l'AUF, l ‘Université de Dakar et l'Institut Pasteur de Paris, du 14 au 30 juin 2004. Ce cours a permis aux 16 étudiants des pays d'Afrique de l'Ouest de se perfectionner aux outils de bioinformatique.

Enseignements : (responsables C. Letondal, C. Maufrais, K. Schuerer, E. Deveaud)

Le cours d'informatique en biologie a eu lieu du 6 janvier au 23 avril 2004. Ce cours prend comme objectif de donner à des biologistes une autonomie dans la création d'outils logiciels. Après une partie théorique introduisant les bases de l'informatique et impliquant une vingtaine d'enseignants au total (pour moitié appartenant à l'Institut), 15 élèves ont pu, encadrés par 13 tuteurs, appliquer leurs connaissances à la réalisation d'un projet bioinformatique. Le thème de ce projet est un problème réel proposé soit par le laboratoire de l'étudiant, soit par l'un des tuteurs du cours.

Animation scientifique :

L'année 2004 a été l'occasion, pour Catherine Letondal en collaboration avec Thierry Rose, chargé de recherche dans l'unité d'Immunogénétique Cellulaire, de coordonner un petit groupe de discussions scientifiques et techniques qui regroupe au total 70 personnes, abonnées à une liste de discussion, et dont une partie se réunit environ 2 fois par mois pour des présentations ou des comptes rendus de conférences.

Coopération scientifique :

En 2004, les membres du groupe ont participé aux projets scientifiques suivants :

-Participation à l'assemblage du génome complet de Candida glabrata (Dujon et al, 2004)

-Recherche d'une signature PP1 à travers la banque SwissProt, création du programme " sig " (Garcia et al, 2004)

-Recherche d'alignements de protéines basés sur la composition en amino-acides et sur le poids moléculaire (Gaillard et al, 2004)

-CandidaDB : une base de données pour le génome de Candida albicans (d'Enfert et al, 2005)

-Publication d'un article de conférence et d'un chapitre d'un livre concernant les " Travaux de recherche sur la programmation par l'utilisateur biologiste ". (C. Letondal et al, 2004)

Mots-clés: bioinformatique, logiciels scientifiques, banques de données, bases de données


Rapports d'activité 2004 - Institut Pasteur
filet

Debut de Page recherche Portail Institut Pasteur

En cas de problèmes, de remarques, ou de questions concernant cette page Web écrire à rescom@pasteur.fr