Précédent Index Suivant

Le logiciel Lassap (Large Scale Sequence Comparison Package)

[RE,LO]Lassap [RO,LE]



Lassap est un logiciel qui intègre plusieurs algorithmes de comparaison de séquences, sous une plate-forme commune permettant d'effectuer des recherches à la fois multiples et complexes [94]. Originellement développé à l'INRIA (Institut National de Recherche en Informatique et en Automatique), il est actuellement maintenu et commercialisé par la société Gene-IT[32].

L'importance prise par les projets de Génomique et leurs retombées massives en termes d'information biologique sous forme de séquences suscitent de nombreuses analyses informatiques. Face au volume et à l'hétérogénéité des données de séquences (voir article sur les banques de séquences dans ce même numéro), la pertinence et la valeur heuristique de ces analyses reposent en grande partie sur la possibilité à la fois de les systématiser et de les raffiner par rapport à ce que permettent classiquement les programmes (tels que Blast) qui implémentent essentiellement un seul algorithme. En effet, comparer deux séquences prend différentes significations selon l'algorithme utilisé : par exemple dans un cas, considérant la question comme symétrique, on calculera le meilleur alignement local entre les deux séquences (algorithme de Smith et Waterman), dans un autre, on recherchera la présence d'occurrences de l'une des séquences dans l'autre (algorithme de Boyer-Moore), la première étant alors appelée motif, etc, les nombreux algorithmes disponibles étant autant de variations autour de ce thème de la comparaison deux à deux. Par ailleurs, cette opération binaire de comparaison peut être systématiquement étendue à un ou plusieurs groupes de séquences, conduisant aux recherches de similarités dans des banques de séquences, aux comparaisons de génomes complets les uns avec les autres, ou à l'identification de motifs, parfaits ou dégénérés, dans des ensembles de séquences... (les motifs n'étant eux-mêmes qu'un type particulier de séquences). Enfin, chaque recherche s'inscrit dans un cadre scientifique, et donc méthodologique particulier. Les paramètres de la recherche que sont la ou les banque(s), le système de scores et l'algorithme choisis, sont en général insuffisants pour pleinement spécifier ce cadre. On peut alors vouloir faire appel à des traitements préliminaires visant à sélectionner un sous-ensemble des séquences d'une banque avant de procéder aux comparaisons elle-mêmes, ou à des traitements postérieurs à la comparaison elle-même, ayant pour but de filtrer les résultats. L'hétérogénéité et les limites respectives des programmes implémentant individuellement les différents algorithmes de comparaison de séquences, rendent laborieuse la mise en oeuvre et les modifications d'une démarche un peu plus complexe et précise que la simple comparaison d'une séquence contre une banque avec un seul algorithme. Elle nécessitera souvent, et obligatoirement si l'on veut l'automatiser, l'écriture de programmes annexes, difficilement réutilisables car dépendants des formats de données ou de résultats propres à chaque programme. C'est ce constat qui est à l'origine des motivations sous-jacentes au développement de Lassap [94]. Les solutions apportées par Lassap reposent sur une généralisation des concepts de séquences, banques, algorithmes, etc, et sur une conception modulaire aboutissant à une stricte distinction entre : Lassap réunit ainsi plusieurs algorithmes sous une plate-forme commune dont l'organisation et les caractéristiques propres à chaque module permettent la mise en oeuvre de stratégies d'analyse complexes traitant de grands ensembles de données.

Les données sous Lassap

Les comparaisons elles-mêmes

Traitement des résultats

Habituellement, les programmes de comparaisons de séquences produisent des résultats sous forme de fichiers textes, contenant diverses informations telles que des alignements, scores, etc. Un filtrage des résultats destinés à apparaître dans ce fichier peut être effectué sur différents critères (courramment le score), de même qu'une sélection du type d'informations (avec ou sans alignement par exemple). Ces possibilités sont généralement assez réduites (un filtrage plus fin nécessitera le développement de programmes annexes utilisés a posteriori), et doivent être spécifiées avant que le programme effectuant les comparaisons ne soit exécuté (et donc avant d'avoir connaissance des résultats tels que les scores et le nombre de comparaisons qui atteignent un score donné).

Lassap présente l'originalité de complètement séparer la production et le traitement des résultats : L'existence d'une structure de données intermédiaire entre le calcul des résultats, et leur impression sous forme humainement exploitable offre plusieurs avantages :

Utilisation de Lassap

La distribution commercialisée de Lassap est constituée de fichiers exécutables et associés, les sources des programmes n'en faisant pas partie. Elle est installée sur les serveurs centraux de l'Institut Pasteur.

Les étapes de préparation des données, calcul des comparaisons, et traitement des résultats, correspondent à des programmes de Lassap différents, et à des commandes Unix distinctes : En intégrant différents algorithmes de comparaison de séquences, et en considérant distinctement les différentes étapes d'un protocole d'analyse de séquences centré sur des comparaisons multiples, Lassap permet de formaliser ce protocole en langage de commande Unix. Ainsi, il est particulièrement adapté au traitement automatique de nombreuses séquences, qui fait le quotidien des centres de séquençage comme le CNS [34] qui utilise Lassap. D'autres exemples de son utilisation concernent des étapes automatisées de la construction des banques TrEMBL et SwissProt [85], ainsi que Prodom [65].

Outre l'interface ligne de commande Unix, la version Lassap disponible localement à l'Institut Pasteur est enrichie d'interfaces WEB développées par Catherine Letondal [35].



Frédérique Galisson et Nicolas Joly





Édité par :
Service Informatique Scientifique
Institut Pasteur
28 rue du Docteur Roux
75724 Paris CEDEX 15
Tél. : +33 (1) 45 68 85 10
Fax. : +33 (1) 40 61 30 80
Câble : mcb@pasteur.fr

Les contributions et suggestions
sont à adresser à :
Laurent Bloch   bloch@pasteur.fr
Directeur de la publication :
Philippe Kourilsky
ISSBN : 1244-524 X

Copyright © Institut Pasteur 2000






Précédent Index Suivant