Bulletin du Service d'Informatique Scientifique - Numéro 10 - Avril 1997

Table des matières



Les banques de données génétiques.

L'art du transfert des banques

La disponibilité locale des banques de données biologiques est une préoccupation importante des chercheurs parce qu'elle accélère considérablement leur travail d'analyse. Pendant longtemps il était très commode d'utiliser, par exemple, le serveur BLAST du NCBI. Aujourd'hui les temps de réponse s'allongent à cause de la croissance du volume des banques et du nombre d'interrogations, et il devient souhaitable de pouvoir utiliser BLAST localement. Mais, pour les mêmes raisons, le transfert des banques vers l'Institut Pasteur devient une entreprise plus complexe.

En fait, le rythme de croissance des banques excède celui du progrès des réseaux et des ordinateurs, ce qui fait que de moins en moins de centres de recherche sont en mesure de disposer des données et de les mettre à jour régulièrement. Ceci ne va pas sans poser des problèmes de fond. La situation est spécialement critique en France parce que l'infrastructure internationale du réseau (Renater en l'occurrence) est assez faible.

De fait, nous transférons quotidiennement les mises à jour des banques depuis le serveur d'INFOBIOGEN, qui se donne la peine d'avoir un ingénieur pour relancer à longueur de journée (qu'ils en soient remerciés ici) les transferts transatlantiques qui échouent à cause des faiblesses de Renater. Il se trouve que les liaisons sont également mauvaises avec la Grande-Bretagne, lieu d'un autre site potentiel de récupération de banques (l'EBI à Cambridge). Renater est en train d'améliorer ses connexions inter-européennes mais rien n'est prévu pour les liaisons transatlantiques, qui deviennent un souci majeur pour la communauté biologique française.

Il faut bien voir qu'indépendamment des insuffisances plus ou moins temporaires du réseau le problème de l'accès aux banques de données biologiques va devenir de plus en plus crucial au cours des années qui viennent, et que d'éventuelles solutions de fond sont encore du domaine de la recherche (le SIS est co-contractant d'un programme européen mené par le MIPS à Munich dans ce domaine).

En tout état de cause, l'Institut Pasteur dispose aujourd'hui des banques complètes et à jour ainsi que des logiciels qui permettent de les exploiter.

Quelques chiffres.

L'ensemble des banques de données occupe à l'heure actuelle plus de 28 gigaoctets, répartis en près de 20 000 fichiers.

Les mises à jours quotidiennes représentent en moyenne le transfert d'une quarantaine de fichiers pour un volume proche du gigaoctet.

Une nouvelle release de Genbank ou de Embl demande le transfert d'environ 8 gigaoctets.

Ces mises à jours se déroulent toutes les nuits, entre 22h30 et 5h, et demandent entre 30 minutes et 5h30 de transfert et de calculs locaux.

La taille de ces banques, et par conséquence la place occupée et l'ampleur des mises à jours, double environ tous les 15 mois.

Quelques détails.

Genbank
Version courante : 99. Mises à jours quotidiennes. La dernière release officielle de genbank est accessible sous le nom gbrel. L'ensemble des séquences de la release et de celles ajoutées lors des mises à jours est accessible sous les noms gball ou genbank. Les mises à jours seules se trouvent sous le nom gbupdates.

Genpept
Version courante : 99. Mises à jours quotidiennes. La dernière release officielle de genpept est accessible sous le nom gprel. L'ensemble des séquences de la release et de celles ajoutées lors des mises à jours est accessible sous les noms gpall ou genpept. Les mises à jours seules se trouvent sous le nom gpupdates.

Embl
Version courante : 50. Mises à jours quotidiennes. La dernière release officielle de embl est accessible sous le nom ebrel. L'ensemble des séquences de la release et de celles ajoutées lors des mises à jours est accessible sous les noms eball ou embl. Les mises à jours seules se trouvent sous le nom ebupdates.

Trembl
Version courante : 50. Mises à jours quotidiennes. La dernière release officielle de trembl est accessible sous le nom trrel. L'ensemble des séquences de la release et de celles ajoutées lors des mises à jours est accessible sous les noms trall ou trembl. Les mises à jours seules se trouvent sous le nom trupdates.

Swissprot
Version courante : 34. Mises à jours hebdomadaires. La dernière release officielle de swissprot est accessible sous le nom sprel. L'ensemble des séquences de la release et de celles ajoutées lors des mises à jours est accessible sous les noms spall ou swissprot. Les mises à jours seules se trouvent sous le nom spupdates.

Pir
Version courante : 50. Mises à jours à chaque nouvelle release.

NRnuc / NRprot
Banques Non Redondantes, aux formats fasta et blast, qui incluent :

Liste des banques disponibles

Nom de la banqueVersion CouranteDernière mises à jours
Entrez1901/05/96
Genbank9913/03/97
EMBL5007/03/97
NRnuc-13/03/97
Alu32709/01/97
Vector9521/01/97
dbEST-13/03/97
dbSTS-05/03/97
Nrsub901/10/96
Imgt96.1125/01/97
Tfd-18/12/95
Kabatnuc0920/10/96
Swissprot3411/03/97
Pir5013/12/96
Genpept9913/03/97
NRprot-13/03/97
Trembl5013/03/97
Owl29.124/01/97
Blocks9.205/12/96
Prodom3303/02/97
Nrl3d2027/02/97
Sbase505/02/97
Rebase70207/02/97
Prosite1309/07/96
Pdb-28/02/97
Kabatpro0920/10/96
Enzyme2110/11/96
Ecd2011/12/95
Epd4821/01/97
Transfac3.107/03/97
Lista4.127/07/96
Seqanalref6718/09/96

Frédéric Chauveau, Laurent Bloch


La sécurité de vos données

Les données que vous emmagasinez sur les disques durs des serveurs du SIS sont souvent le résultat d'années de recherche. Leur perte serait catastrophique et nous essayons de mettre en place les moyens d'éviter ce risque.

Nous avons installé il y a plus d'un an un robot de sauvegarde sur cartouches magnétiques d'une capacité de 500 milliards de caractères qui nous permet de conserver «en ligne » les données que vous avez créées ou modifiées au cours des six derniers mois. Ainsi, en cas de destruction accidentelle de fichier, vous pouvez adresser un message électronique à help@pasteur.fr en nous indiquant la date de la version que vous souhaitez retrouver, et nous sommes en mesure de le faire en quelques minutes.

Cette installation représente un investissement dont l'amortissement annuel est de l'ordre de 100000 F et le coût de fonctionnement de 100000 F également.

De plus nous nous sommes assuré les services d'une société qui, chaque mois, stocke une copie de nos sauvegardes à l'extérieur du campus, ce qui permettrait de retrouver les données en cas de sinistre grave.

Le système de sauvegarde sur cartouches fonctionne en réseau et peut donc être utilisé par des ordinateurs situés n'importe où sur le campus. Si certaines Unités souhaitent sauvegarder leurs données ainsi qu'elles viennent en parler avec nous. Il leur suffira d'installer le logiciel adéquat et ... de définir ce qu'il faut sauvegarder.


Informations concernant les logiciels pour la biologie.

Cet article présente les nouveaux services développés ces derniers mois autour des logiciels pour la biologie.

Logiciels installés sur central.

Sur le serveur central.pasteur.fr, les utilisateurs disposent actuellement d'une centaine de logiciels - en plus de tous les programmes de GCG ; le tableau suivant en donne la répartition thématique :

Outils généraux5
Banques 8
Acides nucléiques 22
Protéines 19
Alignement 38
Évolution 10
Visualisation moléculaire 10
Génétique 16
Développement de logiciels 3

L'installation d'un logiciel sur le serveur suit quelques principes simples :

Pour utiliser tous ces logiciels, et accéder aux documents, l'interface de base est bash (l'interpréteur de commandes du système Unix), à condition de connaître les options et les paramètres de lancement des programmes, ce qui est souvent difficile, et de savoir comment faire des recherches dans un système de fichiers Unix.

Pour cette raison, nous allons généraliser le lancement de programmes et l'accès aux documents par le serveur Web, solution qui présente l'avantage d'être utilisable depuis un Macintosh.

Documentations sur le serveur Web.

Les nouveaux services tournent autour de la page Web «Logiciels pour la biologie» (http://central.pasteur.fr/) qui permet :

A cet effet, la rubrique «Logiciels pour la biologie installés localement» (figure 1) documente les logiciels installés par une liste alphabétique et une liste classée par types. Ces listes permettent de savoir, pour chaque logiciel (figure 2) :

La figure 2 montre les informations associées aux logiciels CLUSTALW et DIALIGN, dans la page «Alignements», paragraphe «Alignements multiples» . L'équivalent de la page affichée par la commande man clustalw ou encore man dialign est accessible par un lien hypertexte, ainsi qu'un répertoire de documents : /local/gensoft/doc/clustalw/ ou d'exemples : /local/gensoft/doc/dialign/example/. On peut aussi consulter le document conçu par les auteurs de DIALIGN par le lien http://www.gsf.de/biodv/dialign.html.

image
Figure 2 : Exemple d'informations associées à un logiciel : CLUSTALW et DIALIGN (http://central.pasteur.fr/docs/gensoft-algt.html)

Les nouveaux logiciels installés ainsi que les nouvelles versions sont annoncés dans la page des nouveautés (figure 1).

Il est possible d'effectuer une recherche dans la documentation de tous les logiciels en suivant «Recherche dans la documentation».

Enfin, la rubrique «Documentation de certains logiciels» (figure 1) met à la disposition des utilisateurs les manuels hypertexte fournis dans la distribution de certains logiciels, comme GCG, Staden, ou Sequin (ces manuels sont bien sûr également accessibles depuis les pages décrites précédemment).

Utilisation des logiciels à partir du serveur Web.

L'utilisation des logiciels à partir du serveur Web épargne aux utilisateurs la connaissance de la syntaxe exacte des commandes de lancement des logiciels, d'autant plus que cette syntaxe change d'un logiciel à l'autre.

BLAST et FASTA sont déjà accessibles depuis la page «Logiciels pour la biologie» . La figure 3 montre le haut de la page BLAST (version non définitive), comportant les champs de saisie des paramètres nécessaires au lancement du programme.

La séquence «requête» est demandée au choix sous deux formes différentes :

Les banques disponibles localement sont toutes proposées dans un menu déroulant.

L'adresse électronique demandée est l'adresse à laquelle les résultats sont envoyés. Il est aussi possible d'obtenir les résultats sur le serveur Web (pour un temps limité); dans ce cas, le résultat réside à l'adresse (l'URL) qui vous est envoyé par mail. Ce mode de présentation est intéressant lorsque les résultats doivent pouvoir être réutilisés pour d'autres programmes. En effet, lorsque les résultats sont obtenus par mail, il faut pouvoir enlever les entêtes afin de rendre le format compréhensible pour un autre programme, et pour cela, il faut éditer le fichier. Dans le cas de résultats obtenus par le Web, il suffit de sauvegarder le résultat par la fonction Save du navigateur.

image
Figure 3 : Page BLAST sur le serveur de l'Institut Pasteur (http://central.pasteur.fr/seqanal/interfaces/blast.html).

Une aide contextuelle est fournie sur certains paramètres (elle est indiquée par ??) ; l'accès aux documents (c'est-à-dire aux pages décrites plus haut) est indiqué par : «Some documents on blast available here » .

image
Figure 4 : Saisie (non obligatoire) des options de sélectivité dans la page Web BLAST.

Pour affiner la recherche, il est possible de modifier les valeurs par défaut des paramètres du programme, soit ceux qui déterminent la sélectivité (Selectivity Options), soit ceux qui contrôlent l'affichage (Report options). La figure 4 montre les options de sélectivité de BLAST. Une fois les paramètres saisis, on retourne à la partie principale de la page par la fonction Back du navigateur.

La page FASTA fonctionne de la même manière, et, d'ici peu, il est prévu de rendre accessible par le Web une douzaine d'autres programmes, dont CLUSTALW et fastDNAml. Il n'est malheureusement pas toujours faisable de réaliser une interface Web pour chaque logiciel : en effet, certains d'entre eux (comme tous les programmes du logiciel PHYLIP) ont déjà une interface à base de menus et de formulaires, incompatible avec un navigateur Web, à moins d'un travail de conception assez important (mais non exclu).

Logiciels installés sur les stations SGI au SIS.

De nouveaux logiciels sont à la disposition des utilisateurs sur les stations Silicon Graphics du Service d'Informatique Scientifique. S'adresser à help@pasteur.fr.

logiciels installés sur SGI
NomDescription
Gramm (1.03)Sites potentiels de jointure de deux protéines.
Grasp (1.1)Analyse et modélisation des propriétés de surface.
prosaII (3.0)Analyse structurale de protéines. Compatibilité d'une séquence avec une structure donnée (reverse folding) (existe également sur central).
RASMOL (2.5)Visualisation en modélisation moléculaire (existe également sur central).
DianaAnalyse d'ADN, recherche de gènes.
Modeller3Modélisation de structure de protéines par homologie.

D'autres installations suivront, dont certaines sont actuellement en test.

logiciels en test sur SGI
NomDescription
XPLOREquivalent à Charmm, mais la version actuelle n'est pas utilisable.
OModélisation de structure de protéines.

Veille technologique.

Le SIS s'efforce dans la mesure du possible à une veille technologique dans le domaine de la bio-informatique, très actif : on peut estimer à plusieurs centaines le nombre de logiciels rien que pour les machines Unix (environ 200 entrées dans le BioCatalog, probablement 500 logiciels en tout), et plusieurs conférences internationales ont lieu chaque année sur le sujet. Deux remarques surviennent souvent à ce propos :

A la première question, nous répondrons : parce que la situation n'est pas idéale, et ce, pour les raisons suivantes :

La réponse à la deuxième question est que nous ne pouvons pas bien entendu «tout» installer, mais le contraire de «tout» n'est pas «rien», et il serait bien difficile d'établir une liste minimale, forcément arbitraire.

Nous prenons connaissance des logiciels existants à différentes occasions :

Une fois «trouvé», sur quels critères un logiciel est-il choisi ? Mis à part les critères techniques (certains logiciels sont mal conçus et ne peuvent être compilés), il faut tenter d'évaluer l'intérêt du logiciel : mais pour en juger, il faut avoir testé le logiciel, pris connaissance de sa qualité technique, répertorié ses fonctions afin de vérifier qu'il n'est pas redondant avec d'autres - tout cela nécessite d'avoir effectué 80% du travail d'installation ; enfin, en ce qui concerne l'intérêt scientifique, nous ne sommes pas les seuls à pouvoir l'évaluer, et préférons fonctionner comme relai technique auprès d'utilisateurs mieux à même d'en juger, en mettant ces logiciels à leur disposition.

Enfin, cette activité de veille technologique, s'accompage de services mis en place ces derniers mois (voir l'article sur le sujet dans ce numéro) :

Nous espérons en faire profiter les utilisateurs pasteuriens, ainsi que d'autres organismes.

N'hésitez pas à nous communiquer vos suggestions, vos questions et vos remarques.

Catherine Letondal


Stations Silicon Graphics

Le SIS a installé dans ses locaux trois stations de travail Silicon Graphics configurées pour les applications graphiques et plus partculièrement la modélisation moléculaire. Elles sont à la disposition des chercheurs qui le souhaitent. Ces matériels sont destinés avant tout à l'organisation de séances de formation aux techniques de la biologie structurale.


Les Programmes MAPMAKER et MAPMAKER/QTL

Le programme MAPMAKER réalise une série d'opérations de cartographie et permet de localiser des marqueurs dans des croisements entre animaux de laboratoire (comme les croisements F2 et en retour). Le programme MAPMAKER/QTL est une extension du programme précédent dont la finalité est la localisation des gènes contrôlant un phénotype quantitatif dans le même type de croisement.

Ces 2 programmes, conçus par S.E. Lincoln, M.J. Daly et E. Lander du MIT constituent actuellement les programmes de référence dans le domaine. Ces programmes sont directement disponibles sur Cléopâtre respectivement par les commandes mapmaker et qtl (avec une aide en ligne par la commande man mapmaker/man qtl). Leur utilisation est aisée grâce à 2 excellents manuels d'utilisation disponibles à l'adresse
http://www.genome.wi.mit.edu/genome_software/other
sous le nom mapmaker.ps et qtl.ps. L'ensemble de ces informations peut être retrouvé à l'adresse :
http://central.pasteur.fr/docs/gensoft-genet.html#GÉNÉTIQUELOGICIELSDELINKAGE.

L'inconvénient majeur de ces 2 programmes est l'entrée des données génétiques. Pour éviter l'utilisation d'un éditeur de texte type emacs, la meilleure solution est de rentrer les données sur des programmes plus conviviaux comme Map Manager (en version MAC ou Windows95 de K Manly disponible à l'adresse : http://mcbio.med.buffalo.edu/mapmgr.html) ou Gene-Link (en version PC de X. Montagutelli, xmonta@pasteur.fr) qui possèdent une sortie objet en format compatible avec MAPMAKER.

L'intérêt actuel de ces programmes est la localisation des gènes contrôlant un phénotype quantitatif. Le programme MAPMAKER/QTL utilise à cette fin une méthode d'interpolation par la méthode du maximum de vraissemblance qui permet à partir de données discrètes (celles dont vous disposez par vos marqueurs) d'estimer sur l'ensemble de la région d'intérêt, l'existence d'un locus de prédisposition par le calcul d'un LOD score. En fait, il effectue une régression sous contrainte en utilisant uniquement l'information apportée par 2 marqueurs adjacents. Une présentation mathématique plus complète de ces programmes peut être obtenue en lisant les articles Lander, E.S. et Bolstein D. 1989 Genetics 121, 185-199 et Lander E.S., Green P., Abrahamson J et al 1987 Genomics 1, 174-181. Ces calculs sont particulièrement intéressants pour l'exclusion de régions génomiques.

En sortie, vous obtenez un fichier texte résumant l'ensemble des ordres donnés et leurs résultats ainsi qu'un fichier postcript contenant la représentation graphique de LOD score en fonction de la distance génétique pour l'ensemble des chromosomes étudiés. Pour des croisements F2, il est possible de choisir le modèle de transmission du caractère (dominant, récessif ou additif).

Attention : dans la version actuelle de ces 2 programmes, la validité des tests utilisés n'est pas vérifiée. En effet, le phénotype quantitatif doit être distribué selon une loi de Laplace-Gauss et la variance de ce trait doit être égale chez les individus F1 et chez les 2 parents. En pratique, ces vérifications sont rarement faites bien qu'elles soient maintenant facilement testables par simulation avec des logiciels de statistique type STATA (disponible sur Cléopâtre).

Pour une information plus complète sur ces méthodes et les programmes de localisation des traits quantitatifs contactez le site WEB Quantitative Genetics Resouces à l'adresse:

http://nitro.biosci.arizona.edu/zbook/book.html

S'il vous reste des questions contactez moi :
Jean-François Bureau, Unité des Virus Lents, p8772
jfb@pasteur.fr


Listes de diffusion

Une liste de diffusion électronique associe à un nom unique une liste d'abonnées à la liste. Un message électronique envoyé à la liste sera reçu par tous les abonnés, ce qui en fait un moyen pratique de diffuser une information ou de demander un renseignement à un groupe. Le SIS a installé plusieurs listes de ce type auxquelles il vous est possible de vous abonner, notamment la liste d'information générale infosis et une liste pour ceux qui s'intéressent à l'informatique en biologie, infobio. Nos collègues de la Bibliothèque animent infobib.

Pour participer à une liste (ici l'exemple d'infosis) :
Vous voulez ...envoyez un message àavec comme corps de message
vous abonnerlistserv@pasteur.frsubscribe infosis Prénom Nom (remplacez Prénom et Nom par vos prénom et nom)
envoyer un courrier électronique à la liste (c'est-à-dire à l'ensemble des abonnés)infosis@pasteur.frvotre message
vous désabonnerlistserv@pasteur.frsignoff infosis
obtenir de l'aidelistserv@pasteur.frhelp
qui est abonné ?listserv@pasteur.frreview infosis
écrire au responsableinfosis-request@pasteur.frvotre message

voir aussi : http://www.pasteur.fr/local/infos/ml.html


Version 9 de GCG

Cette nouvelle version contient les nouveaux logiciels propres à la version 9 qui s'ajoutent aux programmes de la version 8, améliorés et corrigés. Le logiciel d'interface SeqLab remplace WPI de la version précédente, toutefois 90% des fonctions de WPI sont reprises dans SeqLab. En particulier, la compatibilité des fichiers de configuration est assurée. Vous pouvez donc démarrer GCG avec SeqLab comme vous le faisiez avec WPI, avec la commande gcg9.

I.- Interface graphique pour l'édition des séquences

Le plus spectaculaire changement dans cette version concerne l'affichage et l'édition des alignements de séquences qui sont faits par le logiciel SeqLab, quand on demande le mode «Editor» depuis la fenêtre principale SeqLab, après avoir sélectionné un fichier en format RSF ou MSF, ou une liste de séquences. Cet éditeur va permettre de travailler sur des alignements multiples de façon ergonomique et précise.

II.- Un format RSF pour les séquences et leurs descriptions

Le format RSF (Rich Sequence Format) est destiné à contenir une ou plusieurs séquences qui peuvent être reliées ou non. En plus de la séquence pure, ce format permet de noter différentes informations: nom de la séquence, description, auteur, date, poids moléculaire, caractéristiques, position de la séquence dans un assemblage ou un alignement. Il est recommandé d'utiliser ce format quand on travaille avec SeqLab qui contient un éditeur adapté à ce format de fichier.

III.- Les nouveaux logiciels

Seg remplace les régions de complexité basse dans une séquence de protéine par la lettre «X» . Si cette séquence est utilisée dans des recherches avec Blast, ces régions seront ignorées.

Xnu remplace les «tandem repeats» qui sont statistiquement significatifs dans une séquence de protéine par la lettre «X» . Si cette séquence est utilisée dans des recherches avec Blast, ces régions seront ignorées.

Breakup coupe un fichier de séquence de plus 350 000 caractères en un ensemble de séquences se recouvrant partiellement et dont la taille sera admise par les autres programmes.

Gcgfigure est un programme pour le Macintosh qui convertit un fichier graphique écrit dans le format Figure de GCG vers le format PICT de Macintosh. Le fichier graphique obtenu peut être utilisé par tout autre logiciel du Macintosh. Ce programme est disponible sur notre serveur de fichiers ftp.pasteur.fr dans le répertoire /pub/GenSoft/Macintosh.

IV.- Les changements généraux sur l'ensemble des programmes

À de rares exceptions près, l'ensemble des programmes traitent désormais des séquences de taille maximum 350 000 bases.

Les éditeurs Seqed, Lineup, Gelassemble admettent la commande <Ctrl>H pour effacer le caractère à gauche du curseur.

Les caractères de remplissage pour marquer un espacement dans la séquence sont le point (.), ou le tilde (~). Dès lors le point représentera un caractère manquant dans la séquence, par exemple une délétion dans un alignement multiple. Par contre le tilde aura plus un sens de remplissage quand les séquences sont de longueurs inégales, pour pouvoir les superposer.

Par exemple, la plus courte de 2 séquences, sera remplie de caractères tilde à l'extrémité 3' par le programme Pileup qui ensuite fera l'alignement. Le caractère plus (+) est interdit dans les séquences, utilisez Reformat pour le retirer ou un éditeur pour le remplacer.

Maintenant les programmes d'analyse de séquence acceptent aussi le format Fasta pour lire les séquences. Il suffit de préciser l'option -FASTA au lancement de chaque programme, ou encore d'utiliser l'option globale : seqformat fasta qui prévient tous les programmes d'accepter le format Fasta. Attention, dans le cas où un fichier contient plusieurs séquences en format Fasta, seule la première est lue !

Tous les programmes de recherche sur les banques de séquences indiquent dans le fichier de résultats le nom des banques qui ont été examinées, avec leur version et leur date d'installation.

Les programmes Blast et Framesearch quand ils sont utilisés pour chercher dans une banque locale, vont créer un fichier de résultat qui pourra être réutilisé par les autres programmes de GCG qui acceptent de traiter des listes de séquences.

Les matrices de score changent de format et de contenu dans la version 9. Ces matrices sont maintenant rectangulaires (triangulaires en version 8) et à valeurs entières au lieu de nombres réels. L'utilisation du programme reformat -OLDCMP permet de convertir les anciennes matrices dans le nouveau format.

Désormais les matrices de score portent en elles-même leur type (nucléotide ou protéine), et deux valeurs par défaut liées à la matrice : la pénalisation pour création d'un gap et la pénalisation pour extension du gap. Cet aménagement qualitatif rend maintenant les matrices de score autosuffisantes et cohérentes pour les programmes qui les utilisent. Si vous voulez créer votre propre matrice de score, le programme comptable vous aide à la construire.

Différents programmes utilisent des matrices de score et une valeur de seuil par défaut, qui était fixée dans le programme, ce qui était d'une rigueur douteuse dans le cas où le chercheur n'utilisait pas la matrice de score par défaut. Maintenant, tous les programmes de ce type recalculent la valeur de seuil à partir de la matrice effectivement utilisée.

V.- Les changements et les ajouts de fonctions

Gelmerge, Gelassemble peuvent traiter un maximum de 1 650 fragments et Gelmerge peut créer une séquence consensus d'un maximum de 100000 bases.

Map montre les noms d'enzyme horizontalement pour améliorer la lisibilité. Le programme accepte les paramètres suivants :

Map, Mapsort, Mapplot supportent les nouveaux paramètres ci-dessous : Bestfit, Gap peuvent créer des alignements plus longs, mais la taille des séquences reste limitée à 30 000 caractères. Un nouveau paramètre -PENA vous permet de spécifier une taille maximum pour pénaliser un gap. Par exemple: -PENA=20 demande que tous les gaps plus longs que 20 soient pénalisés comme un gap de 20. C'est utile pour les alignements de cDNA avec une séquence de DNA génomique contenant de longs introns.

Framealign admet le paramètre -BATch pour lancer le programme en batch.

Fasta et Tfasta sont basées sur la version 2.0 de Fasta distribué par William Pearson. Désormais, ils contiennent des estimations statistiques explicites pour les résultats de similarité. Chaque séquence de la liste des meilleurs appariements est rapportée avec un z-score normalisé et une estimation de ce z-score. Celle-ci indique combien de séquences dans l'ensemble de recherche vous pouvez vous attendre à trouver avec un z-score aussi bon que le score observé, simplement par hasard. Fasta et TFast ne demandent plus le compte maximum d'appariements à lister en sortie, à la place ils demandent une valeur maximum de l'estimation.

L'alignement de protéines permet des gaps illimités (précédemment limités à 32 résidus). Pour permettre des gaps illimités lors de l'alignement de nucléotides, ajoutez le paramètre -SWalign.
-MINLength restreint l'ensemble de recherche aux séquences de taille supérieure à cette valeur ;
-MAXLength restreint l'ensemble de recherche aux séquences de taille inférieure à cette valeur.

Vous pouvez utiliser le fichier de résultat comme entrée aux autres programmes de GCG qui acceptent des listes de séquences. Le fichier créé contient pour chaque séquence de l'ensemble de recherche, la région concernée (Begin, End, Strand) par l'alignement.

Matrices de score dans fasta, tfasta

La matrice par défaut pour les protéines est maintenant BLOSUM50 au lieu de PAM250. La matrice par défaut pour les nucléotides a aussi été changée: le score pour l'identité de 2 nucléotides passe de 4 à 5, et pour une différence de -3 à -4. Cette matrice a subi d'autres modifications non documentées, en particulier elle ne contient plus de scores nuls.

Framesearch trace un histogramme de distribution de score pour chaque recherche, par défaut.

Gcgtoblast remplace toblast pour reformater les séquences en format GCG vers le format Blast.

Pileup accepte de réaligner une partie d'un alignement existant, sans changer le reste. Il faut utiliser simultanément les paramètres -INS -BEG -END. Le programme prend en compte les attributs (Begin, End, Strand) pour aligner chaque séquence d'une liste.

Pretty a des changements dans l'effet des paramètres -CAS et -DIF de présentation, pour plus de précisions voir la documentation.

Plotsimilarity tient compte des poids attribués à chaque séquence et spécifiés dans un fichier aux formats MSF ou RSF, ou dans une liste. Le programme compare les séquences 2 à 2 et attribue pour chaque position la valeur extraite de la matrice de score multipliée par les poids des 2 séquences. En calculant la valeur moyenne des scores par position on obtient la similarité moyenne de l'ensemble des séquences préalignées.

Profilemake admet jusqu'à 5000 séquences en entrée.

Profilesearch cherche un profil de séquences créé par profilemake à travers une banque de séquences. La taille de la banque est limitée à 100000 séquences protéiques ou 50 000 séquences nucléiques. Etant donnée la taille actuelle des banques en acides nucléiques, il faut limiter la recherche à un sous-ensemble de ces banques.

Profilesegments, profilegap avec le paramètre -MSF vont créer un fichier de sortie en format MSF contenant toutes les séquences alignées et leur consensus.

Distances admet maintenant la méthode de Tamura pour calculer une matrice de distance entre séquences de nucléotides prises 2 à 2.

Diverge est le nouveau nom de Newdiverge. Avec le paramètre -TOF et plus de 2 séquences en entrée, il donne comme résultats une matrice d'estimation du nombre de mutations silencieuses pour chaque couple de séquences, et similairement une autre matrice pour les mutations efficaces. Ces matrices pourront être utilisées par le programme Growtree pour tracer un arbre de distance.

Reformat avec l'option -RSF permet de reformater une ou plusieurs séquences vers le format RSF (Rich Sequence Format) décrit plus haut. Une série de 7 options supplémentaires utiles au reformatage des matrices de score sont disponibles. Cet usage concerne les spécialistes, que je renvoie à la documentation en ligne.

Profilescan cherche des profils dans une séquence à étudier, quand un motif est trouvé il donne la description de ce motif, et son aligment avec la séquence. On peut supprimer l'écriture de cette référence avec l'option -NOREF. Le lancement en batch est assuré par l'option -BAT.

VI.- Une nouvelle documentation sur le Web

Pour accéder à la documentation en ligne trois méthodes s'offrent à vous : la commande Genhelp qui donne accès par noms de programme ou la commande Genmanual qui donne accès par classes de fonction de l'analyse de séquence. Ces deux commandes donnent accès au même fichier de documentation, par l'intermédiaire du navigateur Lynx en mode texte. Ce document est aussi accessible par le Web, sur http://www.pasteur.fr/gcg/gcgmanual.html.

Louis Jones et Bernard Caudron


Tài-jí Quán

L'informatique suscite des tensions physiques et nerveuses : pour les combattre, inscrivez-vous au cours de Tài-jí Quán (Taï Chi Chuan) de l'ASIP (Association Sportive de l'Institut Pasteur), tous les lundis à 17 h 30. Renseignements : NGHIÊM Hoàng Oanh, p. 8808.


Disponibilité des logiciels Phred, Phrap, Consed pour l'assemblage de séquences

Ces programmes récemment installés sur le serveur Cléopâtre du Service d'Informatique Scientifique ont été écrits par Phil Green pour phrap, phrapview, cross_match, swat - Phil Green et Brent Ewing pour phred, phd2seqfasta, phd2qualfasta et David Gordon pour phredPhrap, consed. L'appartenance des auteurs à la même institution (Department of Molecular Biotechnology -University of Washington) permet d'assurer une grande cohésion à cet ensemble créé pour satisfaire la demande croissante en outils d'assemblage de séquences puissants.

Phred est un programme qui lit les fichiers «trace» provenant d'un séquenceur automatique, dans les formats SCF, ABI 373 ou ABI 377. Il calcule le contenu en bases et assigne un indice de qualité pour chaque base reconnue. Les bases sont écrites dans un fichier avec l'un des formats suivants : FASTA, XBAP (de Staden), PHD (pour phrap) ou SCF. Les indices de qualité sont écrits uniquement en format FASTA ou PHD à destination du programme Phrap.

Phd2seqfasta est un utilitaire de conversion de format. Il lit l'ensemble des fichiers en format PHD présents dans le répertoire courant, il en extrait les séquences qu'il réécrit dans un seul fichier de sortie en format FASTA.

Phd2qualfasta est un utilitaire de conversion de format. Il lit l'ensemble des fichiers en format PHD présents dans le répertoire courant, il en extrait les indices de qualité qu'il réécrit dans un seul fichier de sortie en format FASTA.

Cross_match, Swat sont des programmes de comparaison rapide entre une séquence et une banque de séquences, basés sur une version efficace de l'algorithme de Smith-Waterman-Gotoh. Le programme Cross_match est utilisé pour comparer les fragments initiaux avec la séquence d'un vecteur, dans le but de masquer les régions contenant une séquence commune au vecteur. Il peut également servir à comparer des séquences de cDNA avec un ensemble de cosmides. Ces programmes sont plus lents que Blast, mais plus précis car ils permettent l'insertion de gaps.

Phrap pour «phragment assembly program» est un programme d'assemblage de séquences d'ADN obtenues par shotgun et en utilisant un séquenceur automatique. Quelques caractéristiques intéressantes permettent de situer les performances de ce programme : il utilise les fragments dans leur globalité, pas seulement les régions de meilleure qualité. Il utilise une combinaison d'indices de qualité fournis par l'utilisateur et recalculés par l'ordinateur, pour augmenter la précision de l'assemblage dans les régions contenant des zones répétées. Il construit une séquence contiguë comme une mosaïque formée à partir des zones de meilleure qualité, plutôt qu'un consensus. Phrap ne fournit pas d'édition, ni d'affichage des séquences assemblées; ces fonctions sont assurées par les logiciels Consed ou Phrapview.

PhredPhrap est un enchaînement des 5 programmes précités à l'intérieur d'un script écrit en Perl. Le travail est fait automatiquement dès lors que l'on fournit le nom du fichier contenant le vecteur. La suite logique est d'utiliser Consed pour afficher ou éditer les contigs créés.

Phrapview est un outil graphique qui donne une vue globale de l'assemblage réalisé avec le programme phrap. Les informations suivantes pourront être affichées : nombre de fragments, de singletons, de contigs, de chimères, etc. Le taux de recouvrement des fragments à l'intérieur des contigs est affiché sur un graphe en parallèle avec la séquence et d'autres informations utiles à la finition de l'assemblage.

Consed est un outil graphique pour afficher et éditer les assemblages de séquences réalisés par le programme phrap . L'utilisation de ce logiciel est amplement simplifié par un tutorial intitulé «Quick Tour of Consed» écrit par l'auteur David Gordon (cf README.txt du répertoire /local/gensoft/doc/Consed).

Pour démarrer :
Il faut dans le répertoire de travail la présence de trois sous-répertoires (aux noms immuables) :

1) chromat_dir qui contient les fichiers «trace» en provenance du séquenceur ;
2) phd_dir qui va contenir les fichiers en format PHD, créés par phred ;
3) edit-_dir sera le répertoire de travail, rempli par phrap et édité par Consed.
Pour vous permettre d'essayer ces logiciels, j'ai préparé un script init-_phrap qui crée ces trois sous-répertoires, copie un jeu d'essai de 8 fichiers «trace» et en fait l'assemblage. Il vous reste à lancer Consed en suivant les instructions du «Quick Tour of Consed» .

Il est évident que si vous vouliez travailler après cela avec vos données, il vous faudra vider ces 3 sous-répertoires et copier vos fichiers «trace» dans chromat_dir.

Si vous rencontrez des problèmes avec ces logiciels, envoyez un e-mail à help.

Bernard Caudron


Formations du SIS

Généralités

Le SIS dispense des cours d'initiation à l'usage des systèmes informatiques et des logiciels d'analyse biologique. Les cours sont ouverts à toute personne travaillant sur le campus de l'Institut Pasteur. Pour vous inscrire, vous devez avoir un compte ouvert sur la machine centrale «Cléopâtre» (une demande d'ouverture se trouve en dernière page du B6, à renvoyer au SIS) et avoir renvoyé au Service Formation la fiche d'inscription diffusée depuis le 13 mars en note d'information générale.

Les cours pratiques sont limités à 15 participants et se déroulent dans la salle des terminaux du SIS (1er étage du CIS).

Bilan de la précédente session

La précédente session, qui a eu lieu entre fin septembre et mi-décembre 1996, a comporté 22 journées complètes de cours, assurées globalement par 9 enseignants. Presque toutes les demandes d'inscription ont pu être satisfaites (sur 110 demandes au total, 18 n'ont pas été satisfaites, dont 14 parvenues hors délai).

Un certain nombre de personnes inscrites à un cours ne s'y sont pas présentées, sans juger utile de prévenir ou même de s'en excuser ultérieurement. Cette attitude est regrettable, car elle perturbe le bon déroulement de l'ensemble de la session. Lorsque votre inscription à un cours est acceptée, vous devez prendre toutes dispositions pour vous y rendre. Si toutefois vous ne pouvez pas être présent, merci de prévenir au plus tôt Mme Mantz, secrétaire du Service Formation, au poste 3477.

Tableau 4 : effectifs des cours
CoursNombre d'inscritsNombre de présents Pourcentage
Unix605490%
Courrier électronique403075%
Réseaux étendus322269%
Shell 10770%
Analyse de séquences473881%
GCG352571%
Blast et fasta 151173%
Banques282382%
Staden 8562,5%
Séquences codantes15747%
Phylogénie 111091%
HTML 242396%
Total32525578%

Description des cours proposés

Informatique

Le cours «Initiation Unix» doit avoir été préalablement suivi par toute personne désirant s'inscrire à l'un des autres cours.

Initiation Unix
Ce cours est destiné à familiariser les élèves avec le système Unix, et la manipulation des outils graphiques sous X. Il consiste en 3 demi-journées réparties sur une semaine, soit le matin soit l'après-midi, qui sont proposées à six dates différentes. Nous nous attacherons à donner une connaissance globale suffisante pour que chacun puisse ensuite utiliser les systèmes en fonction de ses besoins particuliers. Le cours s'articule autour de quelques thèmes fondamentaux : la manipulation des fenêtres graphiques, le système de fichiers Unix, les commandes sur les fichiers, des commandes système de base, l'édition de textes, la communication à distance.

Courrier électronique et News
Ce cours d'une demi-journée, proposé 3 fois, décrit les notions et le vocabulaire de base liés à l'utilisation de la communication électronique : d'une part le courier électronique (e-mail), d'autre part les groupes de discussion (news). Nous étudierons plus particulièrement les fonctions avancées du lecteur de courier Elm (envoi et réception de courier, retransmission et renvoi, réponses groupées, gestion de classeurs), et du lecteur de news Xrn.

Ressources Internet
Ce cours d'une demi-journée, proposé 3 fois, a pour but de connaître les principaux serveurs d'information disponibles sur le réseau Internet. Nous décrirons les méthodes de connexion à distance, et les problèmes de réseaux qui y sont liées. On s'attachera essentiellement a maîtriser le transfert de fichiers (ftp, archie) et la navigation sur le World-Wide-Web.

Recherche sur le Web
Ce cours d'une demi-journée est consacré aux différents outils permettant de trouver de l'information sur le World-Wide-Web. Le suivi du cours «Ressources Internet» est un prérequis obligatoire. On parlera méthodologie (comment formuler sa requête) et technique (choisir un annuaire ou un moteur de recherche - recherches simples, et fonctions avancées des moteurs de recherche). Les moteurs utilisés seront : AltaVista, HotBot, «Biology» (à Pasteur), les annuaires utilisés seront : «Pages Biologie» (à Pasteur), Yahoo.

Shell : utilisation avancée
Ce cours d'une journée s'attachera à donner des éléments pratiques de programmation. Cet ensemble de notions et de recettes s'articulera principalement autour de deux thèmes : les commandes complexes (redirection d'entrée-sortie, chaînages de commandes, contrôle de tâches) et l'écriture de shell-scripts (variables d'environnement, boucles simples, actions conditionnelles).

HTML 1 et 2
Ces deux cours d'une demi-journée sont a priori indépendants, bien qu'il soit recommandé de les suivre tous deux. L'assistance préalable au cours «Ressources Internet» est obligatoire. Dans le cours HTML 1, on définira la notion d'hypertexte et on étudiera la structure d'une page simple en décrivant les fonctions de base du langage HTML. Le cours HTML 2 supposera ces notions connues et s'attachera aux fonctions plus évoluées, tels les tableaux et formulaires. Les notions abordées dans ce deuxieme cours dépendront largement des demandes des élèves.

Réseaux
Les réseaux informatiques sont un ensemble de techniques matérielles et logicielles et de langages permettant aux systèmes informatiques connectés d\xab échanger de l'information. Après un aperçu des principales techniques matérielles nous présenterons divers protocoles tels TCP/IP et Appletalk qui sont utilisés sur le réseau de l'Institut Pasteur. L'exposé présentera notamment en détails l'architecture et le fonctionnement du réseau de l'Institut Pasteur.

Informatique en biologie

L'utilisation de programmes informatiques pour traiter de questions de biologie s'est considérablement accrue ces dernières années. De nouveaux programmes apparaissent régulièrement, traitant de nouveaux problèmes, ou apportant des améliorations conceptuelles ou ergonomiques par rapport à leurs prédécesseurs. Leur nombre important (plus de 150 installés sur Cléopâtre aujourd'hui) rend difficile une connaissance exhaustive et une maîtrise de ces programmes dans leur intégralité. La possibilité d'accéder aux documentations relatives à tous les programmes installés sur Cléopatre via la page WEB de l'Institut Pasteur permet de connaitre facilement l'ensemble des programmes traitant d'une question particulière. Cependant, ces documentations sont souvent assez hermétiques en première lecture, et l'objectif des cours que nous vous proposons est de fournir aux biologistes des clefs théoriques et pratiques pour une utilisation avertie et autonome des programmes disponibles.

Les principales difficultés rencontrées lors de l'utilisation d'un programme manipulant des données biologiques concernent l'adaptation du programme choisi au problème posé, le choix des options et des valeurs des paramètres proposés par le programme, l'estimation de la signification et de la validité des résultats fournis. En traitant des aspects théoriques et méthodologiques sous-jacents à l'implémentation des programmes eux-mêmes, nos formations se donnent comme objectif d'apporter des éléments pour aborder ces questions. La manipulation des programmes lors des parties pratiques des cours permet de se familiariser avec les interfaces proposées et de voir mises en oeuvre par les programmes les méthodes présentées lors des cours théoriques.

La session s'articule autour d'un cours purement théorique ayant un statut de tronc commun, les autres formations constituant des modules thématiques relativement indépendants et comportant pour la plupart des aspects théoriques et pratiques.

Introduction aux analyses de séquences
Ce cours, qui dure une journée, est proposé 3 fois. La plupart des programmes utilisés en biologie manipulent des séquences biologiques et en extraient des informations interprétables en termes biologiques. Ces informations sont de natures variées (régions similaires entre plusieurs séquences, prédictions concernant les propriétés structurales des molécules, inférences phylogénétiques, etc...). Un préalable commun à de nombreuses problématiques est le problème élémentaire de la comparaison de deux séquences. Élémentaire, la question de la comparaison et de l'obtention d'un alignement optimal de deux séquences biologiques nécessite néammoins la mise en oeuvre de procédures de calcul et de modèles biologiques permettant de quantifier la notion de ressemblance entre séquences biologiques. La méthodologie qu'implique cette question simple est représentative de celles utilisées dans le traitement de questions plus complexes et constitue en ce sens une introduction au vaste domaine des analyses de séquences et le thème central du cours ainsi intitulé. Ce cours est purement théorique : il traite durant la première matinée des solutions algorithmiques apportées classiquement au problème, ce qui permet de dégager les potentialités et limites de ces procédures ainsi que celles de leurs extensions aux autres problématiques ; l'après-midi est consacré aux modèles biologiques sur lesquels reposent les mesures de ressemblance entre monomères d'acides nucléiques ou de protéines. Les notions vues lors de ce cours sont fondamentales en regard des nombreux autres aspects de l'analyse de séquences, c'est pourquoi cette journée est considérée comme un tronc commun vis-à-vis de l'essentiel des autres cours de la session. Il constitue un prérequis obligatoire pour les cours «Comparaison d'une séquence avec les séquences d'une banque», «Phylogénie», «Alignements multiples», «Recherches de motifs», «Détermination de séquences codantes», et est vivement conseillé pour «Utilisation de GCG» et «Programmes d'assemblage de séquences» .

Cinq cours dépendent donc directement du cours d'introduction aux analyses de séquences :

Comparaison d'une séquence avec les séquences d'une banque
Ce cours d'une demi-journée, proposé trois fois, traite des aspects théoriques et pratiques relatifs aux programmes de recherche de similarités et alignements entre une séquence requête et toutes les séquences d'une banque (Blast, Fasta, Blitz).

Phylogénie
Ce cours est scindé en deux parties : une partie théorique (4 heures) présente les méthodologies et modèles évolutifs utilisés pour effectuer des reconstructions phylogénétiques à partir de données de séquence. Une journée est consacrée à l'utilisation des programmes implémentant ces méthodes et modèles. Les parties théorique et pratique sont espacées d'une journée.

Alignements multiples
Le cours dure une journée, la théorie étant traitée le matin, et la pratique l'après-midi. La théorie porte sur les méthodes de calcul permettant d'obtenir un alignement de plusieurs séquences. Les travaux pratiques concernent l'utilisation des programmes implémentant ces méthodes, et sur les différences entre les résultats fournis par les différents programmes.

Recherches de motifs
L'organisation est la même que pour le cours «phylogénie» : les méthodes et algorithmes permettant soit de rechercher un motif connu dans une séquence, soit de découvrir un motif inconnu dans plusieurs séquences (ou répété dans une seule), sont présentés dans une première partie purement théorique (4h). La manipulation des programmes correspondant aux méthodes étudiées dans la partie théorique fait l'objet d'une journée entière de travaux pratiques, qui a lieu le surlendemain.

Détermination de séquences codantes
Les aspects théoriques (modélisations du concept de gène par les programmes, et algorithmes) et pratiques sont traités au cours de la même demi-journée.

Tous les cours ci-dessus traitent donc des aspects théoriques et pratiques relatifs à chacun des thèmes. Dans tous les cas, les recherches et calculs effectués par ces programmes reposent sur des modélisations d'objets, de processus, ou de questions biologiques. Par ailleurs la plupart d'entre eux, en raison du volume de calculs que demanderaient des procédures exactes et explorant le problème dans sa totalité, implémentent des algorithmes heuristiques, ne pouvant prétendre trouver la «meilleure» solution au problème posé. Pour ces raisons, le choix du programme adéquat, la signification des paramètres, l'estimation de la validité des résultats fournis nécessitent une connaissance des concepts et méthodes particuliers à chaque programme, ce qui explique la part laissée aux aspects théoriques dans le contenu de ces enseignements.

Deux cours sont essentiellement axés vers l'aspect pratique de la manipulation de programmes proposant des interfaces utilisant le système de multi-fenêtrage X :

Utilisation de GCG
Le paquetage «GCG» contient une centaine de programmes dédiés aux analyses de séquences (il existe une certaine redondance avec certains des nombreux programmes directement accessibles sur Cléopâtre). Ce cours d'une journée, proposé 3 fois, est une initiation aux possibilités de ce paquetage de programmes.

Programmes d'assemblage de séquences
Il s'agit d'un cours d'une journée portant sur l'utilisation des programmes d'assemblage de séquences d'ADN (Staden, Phrap, Phred, Consed).

Enfin, les données biologiques informatisées sont stockées dans des banques de données. L'accroissement rapide du nombre de banques et de la quantité et variété des informations qu'elles contiennent conduit au développement d'outils informatiques perfectionnés améliorant la vitesse et la précision des recherches effectuées.

Recherches dans les banques de données
Ce cours d'une demi-journée, proposé 2 fois, présente les systèmes d'indexation permettant des recherches rapides et combinées de données de nature variée, et en fonction de critères divers, dans les banques de données (Acnuc, SRS, Entrez).

A l'exception du cours d'introduction aux analyses de séquences, tous les cours comportent des parties pratiques effectuées avec les terminaux X de la salle de cours du SIS. Ils nécessitent donc une connaissance du système de fichiers et des commandes de base Unix, de l'éditeur de texte Emacs, et du système de multi-fenêtrage X. Ces prérequis sont enseignés dans nos formations Unix (présentées ci-dessus).

Calendrier
Session d'avril/juin 1997

CoursDatesHoraireSalle
Introduction Unix21, 23, 25 avril9h30-12h30SIS
Introduction Unix21, 23, 25 avril14h-17hSIS
Introduction Unix28, 30 avril, 6 mai9h30-12h30SIS
Introduction Unix28, 30 avril, 6 mai14h-17hSIS
Introduction Unix12, 14, 16 mai9h30-12h30SIS
Introduction Unix12, 14, 16 mai14h-17hSIS
Shell avancé20 mai9h30-17hSIS
Introduction aux analyses de séquences21 mai9h30-17hFernbach
Courier électronique et News22 mai9h30-12h30SIS
Courier électronique et News22 mai14h-17hSIS
Recherches dans les banques de données23 mai9h30-12h30SIS
Courier électronique et News26 mai14h-17hSIS
Introduction aux analyses de séquences27 mai9h30-17hJules Bordet
Ressources Internet28 mai9h30-12h30SIS
Ressources Internet28 mai14h-17hSIS
Utilisation de GCG29 mai9h30-17hSIS
Comparaison d'une séquence30 mai9h30-12h30SIS
Introduction aux analyses de séquences2 juin9h30-17hJules Bordet
HTML 12 juin14h-17hSIS
Ressources Internet3 juin14h-17hSIS
Phylogénie (théorique)3 juin14h-18hFernbach
Comparaison d'une séquence4 juin9h30-12h30SIS
Recherches sur le Web4 juin14h-17hSIS
Assemblage de séquences5 juin9h30-17hSIS
Phylogénie (pratique)6 juin9h30-17hSIS
Comparaison d'une séquence9 juin14h-17hSIS
HTML 210 juin14h-17hSIS
Recherches dans les banques de données11 juin14h-17hSIS
Utilisation de GCG12 juin9h30-17hSIS
Réseaux13 juin9h30-12h30SIS
Détermination de séquences codantes13 juin14h-17hSIS
Alignements multiples (théorique)16 juin9h30-12h30Chamberland
Alignements multiples (pratique)16 juin14h-17hSIS
Utilisation de GCG17 juin9h30-17hSIS
Recherches de motifs (théorique)18 juin14h-18hJules Bordet
Recherches de motifs (pratique)20 juin9h30-17hSIS

Frédérique Galisson et Irène Wang


Logiciel micro

L'acquisition du droit d'usage de logiciels pour micro-ordinateurs au sein d'un grand organisme scientifique comme l'Institut Pasteur ne va pas sans poser quelques problèmes.

La loi française est d'une clarté limpide : sauf dispositions contractuelles contraires, ce que l'on achète lors de l'acquisition d'un logiciel c'est le droit de l'utiliser sur un ordinateur et un seul. L'acheteur est autorisé à faire une copie de sauvegarde et une seule. Pour savoir si l'éditeur concède des droits supplémentaires il convient de lire attentivement les documents contenus dans l'emballage. Microsoft édite notamment une petite brochure fort bien faite qui énumère les droits et les obligations de ses clients.

Il va sans dire que cette loi est appliquée et que ses conséquences pénales et civiles sont lourdes, y compris pour la personne physique qui a commis une infraction, fût-ce dans le cadre de son travail et dans les locaux de son employeur.

L'achat à l'unité du droit d'usage de nombreuses copies d'un même logiciel est une opération peu avantageuse, et le SIS avait essayé depuis longtemps de négocier avec les éditeurs des conditions qui tiennent compte du volume d'achats de l'Institut Pasteur et de notre caractère d'organisme de recherche, pour qui un logiciel n'est pas un outil destiné à accroître des profits. Les éditeurs n'avaient pas répondu favorablement à ces démarches.

La situation a évolué cet été grâce à M. Yves Maillaux, du MESR, qui a mené une négociation globale au nom des organismes de recherche publics français, et qui a bien voulu nous y associer. Pour mener cette négociation M. Maillaux a réalisé une enquête internationale qui a mis en lumière les disparités des prix du logiciel dans plusieurs pays européens. Les prix français sont très supérieurs à ceux de la Belgique, de l'Allemagne ou de la Grande-Bretagne.

Les négociations ont donné des résultats positifs avec les éditeurs Claris, Microsoft, Adobe, Qualcom et d'autres. Des accords favorables ont été conclus, qui se traduisent par des réductions très importantes (jusqu'à 80%).

Le point important à saisir pour interpréter ces accords est que la fourniture de ce qui était un produit unique est maintenant décomposée en plusieurs parties que l'on peut acheter indépendamment et qui sont :

Chacun de ces éléments a un prix distinct. Une bonne gestion consiste à acquérir les exemplaires du droit d'usage dont on a besoin et à limiter le nombre de supports et de documentations. Dans ces conditions les coûts deviennent suffisamment bas pour qu'il n'y ait plus aucune raison qu'existent des conditions anormales d'usage de certains logiciels.

Le bénéfice de ces conditions tarifaires est subordonné au recours à des fournisseurs agréés. Ces fournisseurs ont été choisis sur une liste établie par le MESR à l'issue d'un appel d'offres. Vous trouverez leur coordonnées sur :
http://www.pasteur.fr/units/sis/private/phone.html

Vos gestionnaires disposent de ces informations et des tarifs exacts. Vous pouvez acquérir auprès d'un des deux fournisseurs agréés le droit d'usage de tous les logiciels Microsoft, Adobe et Claris.

Pour d'autres logiciels, comme Eudora Pro, MacX ou certains anti-virus, nous disposons d'une licence de site. Pour de plus amples renseignements vous pouvez vous adresser à Michel Keller (keller@pasteur.fr).


Évolution du réseau : techniques plus rapides et connexion de micro-ordinateurs

Architecture du réseau

Le réseau de l'Institut Pasteur est articulé autour d'une boucle de fibre optique qui parcourt tout le campus. Au pied de chaque bâtiment une colonne de fibre optique s'en détache pour monter dans les étages où elle dessert des armoires de répartition. Chaque armoire abrite des concentrateurs en étoile d'où partent les câbles de cuivre (près de 200 km) qui aboutissent aux prises réseau dans les laboratoires et les bureaux.

Les données qui circulent sur ce réseau obéissent au protocole Ethernet, caractérisé par un débit de 10 mégabits/seconde. La fibre optique et le câble pourraient accepter des débits plus élevés (jusqu'à 622 mégabits/seconde pour la fibre et 100 pour le câble avec les techniques disponibles aujourd'hui).

Par ailleurs les quelques 1200 Macintosh du campus sont reliés pour la plupart à près de 200 réseaux particuliers qui utilisent les systèmes propres à Apple, LocalTalk ou Phonenet pour la partie physique (débit : 230 kilobits/s) et Appletalk pour le protocole de communication. Des passerelles situées dans les répartiteurs assurent la communication entre ces réseaux et le réseau fédérateur.

En regardant les choses du point de vue du logiciel, les Macintosh et leurs imprimantes utilisent le protocole Appletalk pour communiquer entre eux et avec certains serveurs, et IP (Internet Protocol) pour communiquer avec les autres ordinateurs et avec le monde extérieur sur l'Internet. Tous les autres ordinateurs communiquent en IP. Les gestionnaires utilisent le protocole SNA d'IBM pour accéder aux serveurs de gestion.

Pour résumer, notre réseau utilise deux types de support physique (fibre optique et câble de cuivre), deux types de connexions (Ethernet et Phonenet/Localtalk) et trois protocoles (IP, Appletalk et SNA).

Accès au réseau

Le réseau est un système complexe où la défaillance d'un élément peut perturber le fonctionnement de l'ensemble. Notre souci est de contrôler les défaillances éventuelles et de limiter leur portée. Pour ce faire le réseau est découpé en sous-réseaux entre lesquels la communication est filtrée par des ordinateurs spécialisés appelés routeurs.

Les routeurs détectent et éliminent les données erronées, empêchent la propagation des communications locales à tout le campus, contrôlent la validité des adresses (chaque ordinateur est connu sur le réseau par une adresse unique, l'emploi de l'adresse d'autrui est une source de panne ou un moyen d'effraction). Ainsi, notamment, une erreur de configuration d'adresse sur un micro-ordinateur ne troublera le fonctionnement que des voisins immédiats du coupable, et l'imprimante qui prévient toutes les secondes tout le monde de sa présence (elles font ça) ne coupera la parole qu'à une dizaine de Macintosh, pas à 2 000 machines. Sinon un utilisateur qui prend par erreur l'adresse de notre routeur d'accès à l'Internet pourrait couper tout le campus du monde extérieur. C'est pour cela que les réseaux de Macintosh sont derrière leurs passerelles, et que les réseaux de micro-ordinateurs doivent être isolés du réseau fédérateur par un routeur.

Applications nouvelles

Notre réseau a une structure en arbre qui évite les points de congestion autres que la racine (les serveurs du SIS), ce qui nous a évité jusqu'à aujourd'hui la saturation du débit. Néanmoins diverses circonstances nous incitent à envisager le déploiement de nouvelles techniques.

Certains possesseurs de Macintosh souhaitent transférer par le réseau des fichiers volumineux issus d'appareils tels que des Phosphor Imagers, ce pour quoi le réseau LocalTalk est trop lent et Ethernet préférable.

Les tendances économiques de l'industrie micro-informatique donnent à penser que les PC vont être plus nombreux sur le campus à cause de leur baisse de prix par rapport au Macintosh et de l'évolution incertaine d'Apple, or le moyen raisonnable de connecter les PC au réseau est Ethernet.

Si Ethernet se répand, Phonenet continue à avoir des avantages considérables pour un Macintosh «ordinaire» : il ne nécessite aucune modification ni matérielle ni logicielle à la machine telle qu'elle sort de sa boîte, et la configuration est extrêmement simple. Pour tous les Macintosh un peu anciens, Ethernet demanderait des adjonctions de matériel, pas toujours possibles et jamais gratuites. La configuration du système est plus complexe et le financement des routeurs à installer devra être assuré par les Unités.

De fait les réseaux Ethernet vont se multiplier sur le campus, et si les postes de travail sont plus nombreux à accéder au réseau avec des débits de 10 millions de bits par seconde, il faudra augmenter le débit de l'épine dorsale au moins à 100 mégabits/seconde, ce que nous avons commencé à étudier.

Dans la même perspective le SIS a installé un serveur à processeur Intel avec Windows NT, nommé Desdémone. L'idée est d'y installer des logiciels et des données pour les utilisateurs de PC de campus et d'acquérir de l'expérience avec ces systèmes et les services en réseau qui leur sont associés.

Laurent Bloch


Le serveur d'archives ftp

Cet article présente ftp.pasteur.fr, le serveur de fichiers «FTP anonyme» de l'Institut Pasteur. Il existe plusieurs serveurs qui distribuent des fichiers. ftp.pasteur.fr utilise le protocole (langage de communication entre ordinateurs) FTP («File Transfer Protocol») et le mot «anonyme» fait référence au fait qu'il s'agit d'un serveur public, accessible depuis le monde entier, et ne nécessitant pas de compte ou d'autorisation (il n'est pas cependant réellement anonyme, le terme est un abus de langage).

Que trouve-t-on sur ftp.pasteur.fr ? Des fichiers de tout type (programme, données, documents et articles, etc). Ils sont rangés dans une série de répertoires (équivalent des «dossiers» du Macintosh), accessibles à partir du répertoire nommé «/pub». Voici une liste sommaire des principaux :

/pub/GenSoft : logiciels pour la biologie. Vu l'importance de ce répertoire, il est découpé ainsi :

Une plus longue présentation de ce répertoire est faite plus loin.
Concernant plus spécifiquement /pub/GenSoft, cette archive contient des logiciels de biologie moléculaire pour Unix et Macintosh, ainsi que des distributions de binaires pour Digital Alpha (avec Digital Unix). Cette archive ne contient pas de banques de séquences (voir ftp.infobiogen.fr).

En ce qui concerne la partie Unix, les archives correspondent aux logiciels installés sur le serveur central.pasteur.fr (s'ils sont redistribuables, bien entendu).

Les répertoires Unix et Macintosh sont organisés de la même manière (un fichier README décrit cette organisation) :

alignment alignement par paire, alignement multiple, recherche de similarités dans les banques (blast et outils pour blast, fasta), outils (éditeurs, butineurs)
db_soft logiciels pour rechercher des entrées dans les banques de séquences ou d'analyses
nucleic_acid traduction, recherche de gènes, recherche de sites spécifiques, analyse d'ARN
protein outils d'analyse, analyse et visualisation de structure
pattern identification et découverte de motifs (quand le logiciel s'applique indiffé remment a l'ADN ou aux proteines), profils et outils statistiques (HMM)
sequence_tools outils de conversion, éditeurs, menus
evolution (essentiellement) phylogénie
linkage_and_mapping analyse de pedigree et de liaison, assem blage de contigs, visualisation de cartes ou de chromosomes
molecular_graphics (link to protein/structure/graphics)
programming bibliothèques, classes pour la biologie moléculaire
misc divers

/pub/GenSoft/Macintosh est en pleine évolution. Pour le moment, une soixantaine de logiciels sont disponibles (en format binaire auto-décompactable).

Chaque programme est accompagné d'un fichier de suffixe readme qui explique en quelques lignes ses fonctions.

Certains logiciels existent en plusieurs versions : 68k (pour les Macintoshs à base de processeur 68000), PPC (pour les Powermacs) et FAT (pour 68k et PPC).

Prochainement, un fichier SOURCES sera disponible, il contiendra les origines des archives ainsi que leur localisation sur le serveur.

Quelques exemples de programmes que vous pouvez trouver dans /pub/GenSoft/Macintosh :

Attention ! Une version de DNAStrider est disponible sur le serveur (la 1.0) mais c'est une vieille version, les plus récentes étant payantes (200$). Je vous conseille d'utiliser SeqPup ou SeqApp dont les fonctions sont les mêmes mais qui sont, eux, gratuits.

Tous ces fichiers sont donc accessibles depuis le campus de l'Institut Pasteur, mais aussi depuis le monde entier. Vous pouvez y piocher les logiciels utiles pour un ordinateur que vous gérez ou bien en conseiller l'usage à des collègues, pasteuriens ou non.

Vous pouvez naturellement émettre avis et suggestions sur ce serveur, par exemple sur des contenus qui seraient intéressants : écrivez alors à ftpmaster@pasteur.fr.

Si vous souhaitez que des logiciels, accessibles sur d'autres serveurs, soient recopiés ici, ne le faites que si ces logiciels sont difficilement récupérables sur leur site d'origine : il n'existe aucune raison de copier ici des logiciels largement distribués par ailleurs.

Comment se sert-on de ce serveur ? On peut utiliser n'importe quel logiciel FTP. Cela inclut les clients Web comme Netscape mais aussi les logiciels purement FTP comme l'excellent Fetch, sur Macintosh (/pub/Mac/Networking/Ftp). Si vous utilisez un client Web, vous pouvez désigner un fichier ou un répertoire par une adresse, nommée URL (Uniform Resource Locator), par exemple :
ftp://ftp.pasteur.fr/pub/GenSoft/

Si vous utilisez un logiciel purement FTP, certains comprennent les URL (c'est le cas de Fetch), d'autres doivent recevoir séparément le nom du serveur (ftp.pasteur.fr) et le répertoire (/pub/GenSoft). S'il demande un nom d'utilisateur et un mot de passe, la convention en FTP anonyme est de donne respectivement anonymous et votre adresse électronique (par exemple bortzmeyer@pasteur.fr).

Stéphane Bortzmeyer


Utilisateurs de Cléopâtre

Le serveur Cléopâtre (central.pasteur.fr) héberge un peu moins de 2000 comptes d'utilisateurs. Ces utilisateurs sont répartis en trois grandes catégories, et peuvent figurer dans plusieurs de ses catégories :
Le graphe présenté ci-dessous ne s'intéresse qu'aux utilisateurs de la première catégorie, les autres vous seront présentées dans un prochain numéro du B6. Afin de vous présenter ces histogrammes nous avons collecté chaque jour les noms des utilisateurs s'étant connectés au serveur, quelle que soit la durée et le nombre des connexions de chacun. La colonne «journalier» est la moyenne du nombre d'utilisateurs se connectant chaque jour. On peut ainsi dire qu'il y a environ 400 utilisateurs différents qui se connectent tous les jours à Cléopâtre. La colonne «décade» est une moyenne faite sur des périodes de 10 jours : du 1er au 10 du mois, du 11 au 20 et du 21 à la fin du mois. On peut ainsi constater qu'environ 800 personnes se servent de leur compte au-moins une fois par décade. Enfin la dernière colonne, intitulée «total», est la moyenne mensuelle : environ 1100 personnes utilisent leur compte sur Cléopâtre au-moins une fois par mois. Les droites sont des courbes de tendance et indiquent que pour chacun des profils présentés Cléopâtre sert de plus en plus.

courbe

Utilisation du temps de calcul sur Cléopâtre

Cléopâtre est un serveur équipé de deux processeurs, c'est à dire qu'il peut effectuer chaque jour 48 heures de calcul pour l'ensemble des utilisateurs. Nous suivons l'évolution de l'utilisation de cette ressource depuis la livraison de Cléopâre, en août 1995, son ouverture aux utilisateurs, en octobre 1995 jusqu'à aujourd'hui. Nous vous présentons; sur cet histogramme cumulatif le taux d'utilisation des ressources de calcul. Ainsi un taux de 90% indique que, sur la période échantillonée, les calculateurs du serveur ont été utilisés en moyenne 43 heures chaque jour. Vous constaterez également que les applications système utilisent chaque mois une partie non négligeable du temps de calcul disponible. Par applications système nous entendons notamment toutes les fonctions de base (gestion des terminaux X, courrier électronique, bases de données, mais également et de façon importante les sauvegardes). Le reste est partagé entre les département du campus, les plus grands consommateurs étant représentés dans le graphe.

courbe

Christophe Wolfhugel


Cours Pasteur d'Informatique en Biologie

La quatrième session du Cours se déroule depuis le début de l'année avec 15 participants, ce qui est le maximum possible compte tenu de l'organisation des travaux pratiques. De ces 15 élèves six sont pasteuriens (dont un de l'Institut Pasteur d'Hô Chi Minh Ville), sept viennent de pays étrangers (trois d'Amérique Latine, deux d'Asie du Sud-Est, deux de l'Union Européenne) et six ont appris l'existence du cours grâce à l'Internet.

Si le programme a peu changé depuis la première session, les enseignants ont plus particulièrement à coeur cette année de donner aux élèves les moyens et le goût du «passage à l'acte» en programmation. Des 316 heures que dure le cours, 90 sont consacrées à l'apprentissage de langages de programmation, 69 aux travaux pratiques associés et 23 à la mise en oeuvre des systèmes. De plus, les 54 heures consacrées aux algorithmes biologiques et les 15 heures de modélisation moléculaire comportent des travaux pratiques qui donnent aux élèves l'occasion d'appliquer leurs nouvelles compétences en programmation à des domaines de leur discipline.

Le parti-pris à l'origine de ce cours considère que l'informatique est une science, dotée de concepts et de théories, susceptible d'un enseignement systématique et d'une vision générale. Ceci par opposition à l'image courante dans le grand public de l'informatique qui serait une collection décousue de trucs à acquérir empiriquement au fil des coups de souris. Le grand public s'étend jusqu'au sein de la communauté scientifique, puisque l'auteur de ces lignes a eu récemment le bonheur de susciter chez une jeune collègue une hilarité aussi incrédule qu'inextinguible en évoquant l'existence de thèses d'université en informatique.

Ce qui est théorie en informatique découle de la notion de procédure effective, c'est à dire de la détermination (de l'invention) de processus pour effectuer les calculs qui donneront la solution de problèmes pour lesquels existent des solutions calculables (il y a des problèmes sans solution et des solutions incalculables). C'est de ces questions que sont issus les travaux d'Alonzo Church, d'Alan Turing et de Johannes von Neumann, qui sont un peu à l'informatique ce que sont Mendel et Darwin à la biologie et qui nous ont donné notre paradigme à nous, la Machine de Turing.

Turing crée en 1936 un modèle de calcul dont il montre qu'il est universel, c'est à dire que tous les ordinateurs sont équivalents, ce qui est heureux parce qu'autrement leur programmation relèverait de la magie ou du bricolage. Mais oui, la programmation possède un modèle théorique général, la Machine de Turing, et peut donc devenir une discipline universitaire. Il ne reste plus à von Neumann qu'à décrire l'organisation générale de l'appareil concret qui va réaliser les calculs, ce qu'il fait en 1945 d'une façon si élégante que les ordinateurs d'aujourd'hui sont encore construits, pour l'essentiel, de cette façon.

Le coeur de la compétence informatique réside dans la programmation, sa théorie et sa pratique. Aujourd'hui tout le monde programme son magnétoscope ou sa machine à laver : la programmation d'une machine «Turing-équivalente», c'est plus que cela, cela suppose la maîtrise d'un langage suffisamment puissant pour décrire n'importe quel algorithme et suffisamment précis pour mettre en oeuvre chaque dispositif de l'architecture de von Neumann. Ces exigences disqualifient pour acquérir la compréhension de la programmation le langage du magnétoscope, incroyablement compliqué mais peu puissant, et les langages de trop haut niveau (les métalangages trop «méta» ), comme Mathematica ou Perl qui donnent l'illusion de programmer comme les plats surgelés donnent l'illusion de faire la cuisine.

Chaque ordinateur possède un «langage-machine», de très bas niveau puisqu'il commande directement les entrées des circuits logiques. Par rapport à ce langage primitif très incommode, tout langage de programmation est un métalangage qui manie des abstractions plus ou moins bien adaptées à tel ou tel problème. Choisir un langage doté d'un niveau d'abstraction et d'un pouvoir expressif adaptés à l'objectif poursuivi n'est pas facile. L'objectif ici est de donner aux élèves une vision de la programmation suffisamment précise pour pouvoir analyser tout algorithme et suffisamment générale pour qu'elle puisse s'adapter à des systèmes de calcul variés, présents et futurs.

Sans que le choix de tel ou tel langage de programmation soit décisif pour le succès d'un enseignement, nous pensons qu'en utilisant le langage Scheme nous avons trouvé un bon compromis : très proche du lambda-calcul (l'équivalent formel de la Machine de Turing), il permet d'aborder de façon incisive les problèmes cruciaux de la théorie de la programmation sans s'encombrer d'une syntaxe trop lourde ; très versatile, il permet de modéliser les systèmes de programmation les plus variés sans rester collé à un style particulier. Et surtout, il est impossible d'écrire une ligne de Scheme sans avoir présentes à l'esprit toutes les implications de son texte.

Le lecteur aura compris que ce cours, s'il dispense les élèves de toute connaissance préalable obligatoire, et peut-être justement à cause de cela, leur demande un effort intellectuel important, puisque c'est de l'acquisition d'un nouveau mode de pensée qu'il s'agit.

Nous avons remarqué que les conditions d'exercice de la pensée étaient très différentes selon qu'elle s'appliquait à l'informatique ou à la biologie : les rythmes des deux activités sont très différents. Aussi nous demandons aux élèves de cesser toute autre activité pendant le cours, et nous essayons de faire en sorte qu'à son issue ils puissent se consacrer à l'informatique quelque temps sans autre contrainte. Un des moyens d'y parvenir est l'organisation de stages d'application pour ceux qui ont la possibilité d'en suivre.

Laurent Bloch