Informatique scientifique
Logiciels pour la biologie
L’ensemble des logiciels disponibles pour la biologie est réparti en 150 paquetages regroupant environ 750 programmes. L’installation, la mise à jour et le suivi de ces logiciels représentent la majeure partie du travail du groupe. Les paquetages logiciels sont installés sur une grappe de calcul mise au point au cours de l’année 2006. Pour rendre l’accès plus convivial à ces logiciels, nous avons construit un système fournissant une interface Web intégrée guidant l’utilisateur dans le choix des programmes, parmi les 240 disponibles. Le projet Mobyle a permis de réaliser un portail convivial commun à tous nos logiciels d’analyses bioinformatiques. Ce portail est ouvert pour le campus et pour l’extérieur, il est comparable aux services que fournissent le NCBI, l’EBI ou le SIB aux chercheurs du monde entier.
Banques de données biologiques
La mise à jour des banques de données biologiques est assurée par un automate développé ici, il va chercher périodiquement les banques originales pour créer des copies locales. La difficulté de la tâche réside dans le volume important des données à gérer. La place occupée sur disques pour la totalité des formats représente au total 4 TB. Actuellement 34 banques sont disponibles, dont Embl, GenBank, RefSeq, Uniprot, Nrprot, Genpept, Pdb et Interpro.
Bases de données
De nouvelles fonctionnalités ont été ajoutées au serveur GenoList : l’application « FindTarget » cherche la présence ou l’absence de gènes de référence dans un ou plusieurs génomes. Un outil « BiblioList » a été développé pour mettre à jour et valider la bibliographie à insérer dans GenoList. Pour incorporer des références bibliographiques dans un génome, BiblioList cherche dans la base PubMed soit le nom de gène, soit les mots clés de la description ou la fonction du gène, les références trouvées sont validées par l’annotateur. Il est possible de se servir de l’outil « BiblioList » pour tout autre base de données d’organismes gérant de la bibliographie.
Nous administrons le système ARPAS de gestion de bases de données pour la CRBIP. Ce système est utilisé par 22 collections d’organismes sur le Campus.
Statistiques
L’acquisition de compétences en statistique pour l’analyse de correspondance multiple, l’analyse fonctionnelle et la classification hiérarchique a permis une collaboration scientifique avec l’unité de Recherche Yersinia et a donné lieu à une publication.
Formation de bioinformatique
Des formations de deux semaines sont organisées chaque année pour l'utilisation autonome et critique des logiciels d'analyse de données biologiques. Les effectifs sont d'environ trente chercheurs, techniciens ou stagiaires. Une initiation à la bioinformatique est incluse dans le cours Analyse de Génome et dans le cours de Génétique Moléculaire et Cellulaire.
Groupe de travail "séquençage à haut débit"
En juin 2008, nous avons constitué avec les bioinformaticiens des plates-formes de « Génomique », « Puces à ADN » et « Intégration et Analyse Génomiques » un groupe de travail pour installer et tester les logiciels d'analyses de données nécessités par cette technologie. Un tel groupe multi-disciplinaire va accroître l'efficacité et diminuer les délais de réponse aux demandes logicielles des biologistes impliqués dans cette technique.
