Les banques de données génétiques.
En fait, le rythme de croissance des banques excède celui du progrès des réseaux et des ordinateurs, ce qui fait que de moins en moins de centres de recherche sont en mesure de disposer des données et de les mettre à jour régulièrement. Ceci ne va pas sans poser des problèmes de fond. La situation est spécialement critique en France parce que l'infrastructure internationale du réseau (Renater en l'occurrence) est assez faible.
De fait, nous transférons quotidiennement les mises à jour des banques depuis le serveur d'INFOBIOGEN, qui se donne la peine d'avoir un ingénieur pour relancer à longueur de journée (qu'ils en soient remerciés ici) les transferts transatlantiques qui échouent à cause des faiblesses de Renater. Il se trouve que les liaisons sont également mauvaises avec la Grande-Bretagne, lieu d'un autre site potentiel de récupération de banques (l'EBI à Cambridge). Renater est en train d'améliorer ses connexions inter-européennes mais rien n'est prévu pour les liaisons transatlantiques, qui deviennent un souci majeur pour la communauté biologique française.
Il faut bien voir qu'indépendamment des insuffisances plus ou moins temporaires du réseau le problème de l'accès aux banques de données biologiques va devenir de plus en plus crucial au cours des années qui viennent, et que d'éventuelles solutions de fond sont encore du domaine de la recherche (le SIS est co-contractant d'un programme européen mené par le MIPS à Munich dans ce domaine).
En tout état de cause, l'Institut Pasteur dispose aujourd'hui des banques complètes et à jour ainsi que des logiciels qui permettent de les exploiter.
Les mises à jours quotidiennes représentent en moyenne le transfert d'une quarantaine de fichiers pour un volume proche du gigaoctet.
Une nouvelle release de Genbank ou de Embl demande le transfert d'environ 8 gigaoctets.
Ces mises à jours se déroulent toutes les nuits, entre 22h30 et 5h, et demandent entre 30 minutes et 5h30 de transfert et de calculs locaux.
La taille de ces banques, et par conséquence la place occupée et l'ampleur des mises à jours, double environ tous les 15 mois.
Genpept
Version courante : 99. Mises à jours quotidiennes. La
dernière release officielle de genpept est accessible sous le nom
gprel. L'ensemble des séquences de la release et de celles
ajoutées lors des mises à jours est accessible sous les
noms gpall ou genpept. Les mises à jours seules se trouvent sous
le nom gpupdates.
Embl
Version courante : 50. Mises à jours quotidiennes. La
dernière release officielle de embl est accessible sous le nom
ebrel. L'ensemble des séquences de la release et de celles
ajoutées lors des mises à jours est accessible sous les
noms eball ou embl. Les mises à jours seules se trouvent sous le
nom ebupdates.
Trembl
Version courante : 50. Mises à jours quotidiennes. La
dernière release officielle de trembl est accessible sous le nom
trrel. L'ensemble des séquences de la release et de celles
ajoutées lors des mises à jours est accessible sous les
noms trall ou trembl. Les mises à jours seules se trouvent sous
le nom trupdates.
Swissprot
Version courante : 34. Mises à jours hebdomadaires. La
dernière release officielle de swissprot est accessible sous le
nom sprel. L'ensemble des séquences de la release et de celles
ajoutées lors des mises à jours est accessible sous les
noms spall ou swissprot. Les mises à jours seules se trouvent
sous le nom spupdates.
Pir
Version courante : 50. Mises à jours à chaque nouvelle release.
NRnuc / NRprot
Banques Non Redondantes, aux formats fasta et blast, qui incluent :
| Nom de la banque | Version Courante | Dernière mises à jours |
|---|---|---|
| Entrez | 19 | 01/05/96 |
| Genbank | 99 | 13/03/97 |
| EMBL | 50 | 07/03/97 |
| NRnuc | - | 13/03/97 |
| Alu | 327 | 09/01/97 |
| Vector | 95 | 21/01/97 |
| dbEST | - | 13/03/97 |
| dbSTS | - | 05/03/97 |
| Nrsub | 9 | 01/10/96 |
| Imgt | 96.11 | 25/01/97 |
| Tfd | - | 18/12/95 |
| Kabatnuc | 09 | 20/10/96 |
| Swissprot | 34 | 11/03/97 |
| Pir | 50 | 13/12/96 |
| Genpept | 99 | 13/03/97 |
| NRprot | - | 13/03/97 |
| Trembl | 50 | 13/03/97 |
| Owl | 29.1 | 24/01/97 |
| Blocks | 9.2 | 05/12/96 |
| Prodom | 33 | 03/02/97 |
| Nrl3d | 20 | 27/02/97 |
| Sbase | 5 | 05/02/97 |
| Rebase | 702 | 07/02/97 |
| Prosite | 13 | 09/07/96 |
| Pdb | - | 28/02/97 |
| Kabatpro | 09 | 20/10/96 |
| Enzyme | 21 | 10/11/96 |
| Ecd | 20 | 11/12/95 |
| Epd | 48 | 21/01/97 |
| Transfac | 3.1 | 07/03/97 |
| Lista | 4.1 | 27/07/96 |
| Seqanalref | 67 | 18/09/96 |
Frédéric Chauveau, Laurent Bloch
La sécurité de vos données
Les données que vous emmagasinez sur les disques durs des
serveurs du SIS sont souvent le résultat d'années de
recherche. Leur perte serait catastrophique et nous essayons de mettre
en place les moyens d'éviter ce risque.
Nous avons installé il y a plus d'un an un robot de sauvegarde
sur cartouches magnétiques d'une capacité de 500 milliards
de caractères qui nous permet de conserver «en ligne
» les données que vous avez créées ou
modifiées au cours des six derniers mois. Ainsi, en cas de
destruction accidentelle de fichier, vous pouvez adresser un message
électronique à help@pasteur.fr en
nous indiquant la date de la version que vous souhaitez
retrouver, et nous sommes en mesure de le faire en quelques minutes.
Cette installation représente un investissement dont l'amortissement annuel est de l'ordre de 100000 F et le coût de fonctionnement de 100000 F également.
De plus nous nous sommes assuré les services d'une société qui, chaque mois, stocke une copie de nos sauvegardes à l'extérieur du campus, ce qui permettrait de retrouver les données en cas de sinistre grave.
Le système de sauvegarde sur cartouches fonctionne en réseau et peut donc être utilisé par des ordinateurs situés n'importe où sur le campus. Si certaines Unités souhaitent sauvegarder leurs données ainsi qu'elles viennent en parler avec nous. Il leur suffira d'installer le logiciel adéquat et ... de définir ce qu'il faut sauvegarder.
Informations concernant les logiciels pour la biologie.
Cet article présente les nouveaux services
développés ces derniers mois autour des logiciels pour la
biologie.
| Outils généraux | 5 |
| Banques | 8 |
| Acides nucléiques | 22 |
| Protéines | 19 |
| Alignement | 38 |
| Évolution | 10 |
| Visualisation moléculaire | 10 |
| Génétique | 16 |
| Développement de logiciels | 3 |
L'installation d'un logiciel sur le serveur suit quelques principes simples :
Pour utiliser tous ces logiciels, et accéder aux documents, l'interface de base est bash (l'interpréteur de commandes du système Unix), à condition de connaître les options et les paramètres de lancement des programmes, ce qui est souvent difficile, et de savoir comment faire des recherches dans un système de fichiers Unix.
Pour cette raison, nous allons généraliser le lancement de programmes et l'accès aux documents par le serveur Web, solution qui présente l'avantage d'être utilisable depuis un Macintosh.
A cet effet, la rubrique «Logiciels pour la biologie installés localement» (figure 1) documente les logiciels installés par une liste alphabétique et une liste classée par types. Ces listes permettent de savoir, pour chaque logiciel (figure 2) :

Figure 1 : Extrait de la page «Logiciels pour la biologie» (http://central.pasteur.fr)
La figure 2 montre les informations associées aux logiciels
CLUSTALW et DIALIGN, dans la page «Alignements», paragraphe
«Alignements multiples» . L'équivalent de la page
affichée par la commande man clustalw ou encore
man dialign est accessible par un lien hypertexte, ainsi
qu'un répertoire de documents : /local/gensoft/doc/clustalw/
ou d'exemples : /local/gensoft/doc/dialign/example/. On peut
aussi consulter le document conçu par les auteurs de DIALIGN par le
lien http://www.gsf.de/biodv/dialign.html.

Figure 2 : Exemple d'informations
associées à un logiciel : CLUSTALW et DIALIGN
(http://central.pasteur.fr/docs/gensoft-algt.html)
Il est possible d'effectuer une recherche dans la documentation de tous les logiciels en suivant «Recherche dans la documentation».
Enfin, la rubrique «Documentation de certains logiciels» (figure 1) met à la disposition des utilisateurs les manuels hypertexte fournis dans la distribution de certains logiciels, comme GCG, Staden, ou Sequin (ces manuels sont bien sûr également accessibles depuis les pages décrites précédemment).
BLAST et FASTA sont déjà accessibles depuis la page «Logiciels pour la biologie» . La figure 3 montre le haut de la page BLAST (version non définitive), comportant les champs de saisie des paramètres nécessaires au lancement du programme.
La séquence «requête» est demandée au choix sous deux formes différentes :
L'adresse électronique demandée est l'adresse à laquelle les résultats sont envoyés. Il est aussi possible d'obtenir les résultats sur le serveur Web (pour un temps limité); dans ce cas, le résultat réside à l'adresse (l'URL) qui vous est envoyé par mail. Ce mode de présentation est intéressant lorsque les résultats doivent pouvoir être réutilisés pour d'autres programmes. En effet, lorsque les résultats sont obtenus par mail, il faut pouvoir enlever les entêtes afin de rendre le format compréhensible pour un autre programme, et pour cela, il faut éditer le fichier. Dans le cas de résultats obtenus par le Web, il suffit de sauvegarder le résultat par la fonction Save du navigateur.

Figure 3 : Page BLAST sur le serveur de
l'Institut Pasteur
(http://central.pasteur.fr/seqanal/interfaces/blast.html).

Figure 4 : Saisie (non obligatoire)
des options de sélectivité dans la page Web BLAST.
La page FASTA fonctionne de la même manière, et, d'ici peu, il est prévu de rendre accessible par le Web une douzaine d'autres programmes, dont CLUSTALW et fastDNAml. Il n'est malheureusement pas toujours faisable de réaliser une interface Web pour chaque logiciel : en effet, certains d'entre eux (comme tous les programmes du logiciel PHYLIP) ont déjà une interface à base de menus et de formulaires, incompatible avec un navigateur Web, à moins d'un travail de conception assez important (mais non exclu).
| Nom | Description |
|---|---|
| Gramm (1.03) | Sites potentiels de jointure de deux protéines. |
| Grasp (1.1) | Analyse et modélisation des propriétés de surface. |
| prosaII (3.0) | Analyse structurale de protéines. Compatibilité d'une séquence avec une structure donnée (reverse folding) (existe également sur central). |
| RASMOL (2.5) | Visualisation en modélisation moléculaire (existe également sur central). |
| Diana | Analyse d'ADN, recherche de gènes. |
| Modeller3 | Modélisation de structure de protéines par homologie. |
D'autres installations suivront, dont certaines sont actuellement en test.
| Nom | Description |
|---|---|
| XPLOR | Equivalent à Charmm, mais la version actuelle n'est pas utilisable. |
| O | Modélisation de structure de protéines. |
A la première question, nous répondrons : parce que la situation n'est pas idéale, et ce, pour les raisons suivantes :
Nous prenons connaissance des logiciels existants à différentes occasions :
Une fois «trouvé», sur quels critères un logiciel est-il choisi ? Mis à part les critères techniques (certains logiciels sont mal conçus et ne peuvent être compilés), il faut tenter d'évaluer l'intérêt du logiciel : mais pour en juger, il faut avoir testé le logiciel, pris connaissance de sa qualité technique, répertorié ses fonctions afin de vérifier qu'il n'est pas redondant avec d'autres - tout cela nécessite d'avoir effectué 80% du travail d'installation ; enfin, en ce qui concerne l'intérêt scientifique, nous ne sommes pas les seuls à pouvoir l'évaluer, et préférons fonctionner comme relai technique auprès d'utilisateurs mieux à même d'en juger, en mettant ces logiciels à leur disposition.
Enfin, cette activité de veille technologique, s'accompage de services mis en place ces derniers mois (voir l'article sur le sujet dans ce numéro) :
N'hésitez pas à nous communiquer vos suggestions, vos questions et vos remarques.
Catherine Letondal
Stations Silicon Graphics
Le SIS a installé dans ses locaux trois stations de travail
Silicon Graphics configurées pour les applications graphiques et
plus partculièrement la modélisation
moléculaire. Elles sont à la disposition des chercheurs
qui le souhaitent. Ces matériels sont destinés avant tout
à l'organisation de séances de formation aux techniques de
la biologie structurale.
Les Programmes MAPMAKER et MAPMAKER/QTL
Le programme MAPMAKER réalise une série
d'opérations de cartographie et permet de localiser des marqueurs
dans des croisements entre animaux de laboratoire (comme les croisements
F2 et en retour). Le programme MAPMAKER/QTL est une extension du
programme précédent dont la finalité est la
localisation des gènes contrôlant un phénotype
quantitatif dans le même type de croisement.
Ces 2 programmes, conçus par S.E. Lincoln, M.J. Daly et E. Lander
du MIT constituent actuellement les programmes de
référence dans le domaine. Ces programmes sont directement
disponibles sur Cléopâtre respectivement par les
commandes mapmaker et qtl (avec une aide en
ligne par la commande man mapmaker/man qtl). Leur utilisation est
aisée grâce à 2 excellents manuels d'utilisation
disponibles à l'adresse
http://www.genome.wi.mit.edu/genome_software/other
sous le nom mapmaker.ps et qtl.ps. L'ensemble de ces informations peut être retrouvé à l'adresse : http://central.pasteur.fr/docs/gensoft-genet.html#GÉNÉTIQUELOGICIELSDELINKAGE.
L'inconvénient majeur de ces 2 programmes est l'entrée des
données génétiques. Pour éviter
l'utilisation d'un éditeur de texte type emacs, la meilleure
solution est de rentrer les données sur des programmes plus
conviviaux comme Map Manager (en version MAC ou Windows95 de K Manly
disponible à l'adresse : http://mcbio.med.buffalo.edu/mapmgr.html) ou Gene-Link (en version PC de X. Montagutelli,
xmonta@pasteur.fr) qui possèdent une sortie objet en
format compatible avec MAPMAKER.
L'intérêt actuel de ces programmes est la localisation des gènes contrôlant un phénotype quantitatif. Le programme MAPMAKER/QTL utilise à cette fin une méthode d'interpolation par la méthode du maximum de vraissemblance qui permet à partir de données discrètes (celles dont vous disposez par vos marqueurs) d'estimer sur l'ensemble de la région d'intérêt, l'existence d'un locus de prédisposition par le calcul d'un LOD score. En fait, il effectue une régression sous contrainte en utilisant uniquement l'information apportée par 2 marqueurs adjacents. Une présentation mathématique plus complète de ces programmes peut être obtenue en lisant les articles Lander, E.S. et Bolstein D. 1989 Genetics 121, 185-199 et Lander E.S., Green P., Abrahamson J et al 1987 Genomics 1, 174-181. Ces calculs sont particulièrement intéressants pour l'exclusion de régions génomiques.
En sortie, vous obtenez un fichier texte résumant l'ensemble des ordres donnés et leurs résultats ainsi qu'un fichier postcript contenant la représentation graphique de LOD score en fonction de la distance génétique pour l'ensemble des chromosomes étudiés. Pour des croisements F2, il est possible de choisir le modèle de transmission du caractère (dominant, récessif ou additif).
Attention : dans la version actuelle de ces 2 programmes, la validité des tests utilisés n'est pas vérifiée. En effet, le phénotype quantitatif doit être distribué selon une loi de Laplace-Gauss et la variance de ce trait doit être égale chez les individus F1 et chez les 2 parents. En pratique, ces vérifications sont rarement faites bien qu'elles soient maintenant facilement testables par simulation avec des logiciels de statistique type STATA (disponible sur Cléopâtre).
Pour une information plus complète sur ces méthodes et les programmes de localisation des traits quantitatifs contactez le site WEB Quantitative Genetics Resouces à l'adresse:
http://nitro.biosci.arizona.edu/zbook/book.html
S'il vous reste des questions contactez moi :
Jean-François Bureau, Unité des Virus Lents, p8772
jfb@pasteur.fr
Listes de diffusion
Une liste de diffusion électronique associe à un nom
unique une liste d'abonnées à la liste. Un message
électronique envoyé à la liste sera reçu par
tous les abonnés, ce qui en fait un moyen pratique de diffuser
une information ou de demander un renseignement à un groupe. Le
SIS a installé plusieurs listes de ce type auxquelles il vous est
possible de vous abonner, notamment la liste d'information
générale infosis et une liste pour ceux qui
s'intéressent à l'informatique en biologie,
infobio. Nos collègues de la Bibliothèque
animent infobib.
Pour participer à une liste (ici l'exemple d'infosis) :
| Vous voulez ... | envoyez un message à | avec comme corps de message |
|---|---|---|
| vous abonner | listserv@pasteur.fr | subscribe infosis
Prénom Nom (remplacez Prénom et
Nom par vos prénom et nom)
|
| envoyer un courrier électronique à la liste (c'est-à-dire à l'ensemble des abonnés) | infosis@pasteur.fr | votre message |
| vous désabonner | listserv@pasteur.fr | signoff infosis |
| obtenir de l'aide | listserv@pasteur.fr | help |
| qui est abonné ? | listserv@pasteur.fr | review infosis |
| écrire au responsable | infosis-request@pasteur.fr | votre message |
voir aussi : http://www.pasteur.fr/local/infos/ml.html
Version 9 de GCG
Cette nouvelle version contient les nouveaux logiciels propres à
la version 9 qui s'ajoutent aux programmes de la version 8,
améliorés et corrigés. Le logiciel d'interface
SeqLab remplace WPI de la version précédente, toutefois
90% des fonctions de WPI sont reprises dans SeqLab. En particulier, la
compatibilité des fichiers de configuration est
assurée. Vous pouvez donc démarrer GCG avec SeqLab comme
vous le faisiez avec WPI, avec la commande gcg9.
Xnu remplace les «tandem repeats» qui sont statistiquement significatifs dans une séquence de protéine par la lettre «X» . Si cette séquence est utilisée dans des recherches avec Blast, ces régions seront ignorées.
Breakup coupe un fichier de séquence de plus 350 000 caractères en un ensemble de séquences se recouvrant partiellement et dont la taille sera admise par les autres programmes.
Gcgfigure est un programme pour le Macintosh qui convertit un fichier
graphique écrit dans le format Figure de GCG vers le format PICT
de Macintosh. Le fichier graphique obtenu peut être utilisé
par tout autre logiciel du Macintosh. Ce programme est disponible sur
notre serveur de fichiers ftp.pasteur.fr dans le
répertoire /pub/GenSoft/Macintosh.
Les éditeurs Seqed, Lineup, Gelassemble admettent la
commande <Ctrl>H pour effacer le caractère
à gauche du curseur.
Les caractères de remplissage pour marquer un espacement dans la séquence sont le point (.), ou le tilde (~). Dès lors le point représentera un caractère manquant dans la séquence, par exemple une délétion dans un alignement multiple. Par contre le tilde aura plus un sens de remplissage quand les séquences sont de longueurs inégales, pour pouvoir les superposer.
Par exemple, la plus courte de 2 séquences, sera remplie de caractères tilde à l'extrémité 3' par le programme Pileup qui ensuite fera l'alignement. Le caractère plus (+) est interdit dans les séquences, utilisez Reformat pour le retirer ou un éditeur pour le remplacer.
Maintenant les programmes d'analyse de séquence acceptent aussi
le format Fasta pour lire les séquences. Il suffit de
préciser l'option -FASTA au lancement de chaque programme, ou
encore d'utiliser l'option globale : seqformat fasta qui
prévient tous les programmes d'accepter le format
Fasta. Attention, dans le cas où un fichier contient plusieurs
séquences en format Fasta, seule la première est lue !
Tous les programmes de recherche sur les banques de séquences indiquent dans le fichier de résultats le nom des banques qui ont été examinées, avec leur version et leur date d'installation.
Les programmes Blast et Framesearch quand ils sont utilisés pour chercher dans une banque locale, vont créer un fichier de résultat qui pourra être réutilisé par les autres programmes de GCG qui acceptent de traiter des listes de séquences.
Les matrices de score changent de format et de contenu dans la version
9. Ces matrices sont maintenant rectangulaires (triangulaires en version
8) et à valeurs entières au lieu de nombres
réels. L'utilisation du programme reformat -OLDCMP
permet de convertir les anciennes matrices dans le nouveau
format.
Désormais les matrices de score portent en elles-même leur type (nucléotide ou protéine), et deux valeurs par défaut liées à la matrice : la pénalisation pour création d'un gap et la pénalisation pour extension du gap. Cet aménagement qualitatif rend maintenant les matrices de score autosuffisantes et cohérentes pour les programmes qui les utilisent. Si vous voulez créer votre propre matrice de score, le programme comptable vous aide à la construire.
Différents programmes utilisent des matrices de score et une valeur de seuil par défaut, qui était fixée dans le programme, ce qui était d'une rigueur douteuse dans le cas où le chercheur n'utilisait pas la matrice de score par défaut. Maintenant, tous les programmes de ce type recalculent la valeur de seuil à partir de la matrice effectivement utilisée.
Map montre les noms d'enzyme horizontalement pour améliorer la lisibilité. Le programme accepte les paramètres suivants :
Framealign admet le paramètre -BATch pour lancer le programme en batch.
Fasta et Tfasta sont basées sur la version 2.0 de Fasta distribué par William Pearson. Désormais, ils contiennent des estimations statistiques explicites pour les résultats de similarité. Chaque séquence de la liste des meilleurs appariements est rapportée avec un z-score normalisé et une estimation de ce z-score. Celle-ci indique combien de séquences dans l'ensemble de recherche vous pouvez vous attendre à trouver avec un z-score aussi bon que le score observé, simplement par hasard. Fasta et TFast ne demandent plus le compte maximum d'appariements à lister en sortie, à la place ils demandent une valeur maximum de l'estimation.
L'alignement de protéines permet des gaps illimités
(précédemment limités à 32
résidus). Pour permettre des gaps illimités lors de
l'alignement de nucléotides, ajoutez le paramètre
-SWalign.
-MINLength restreint l'ensemble de recherche aux séquences de
taille supérieure à cette valeur ;
-MAXLength restreint l'ensemble de recherche aux séquences de
taille inférieure à cette valeur.
Vous pouvez utiliser le fichier de résultat comme entrée aux autres programmes de GCG qui acceptent des listes de séquences. Le fichier créé contient pour chaque séquence de l'ensemble de recherche, la région concernée (Begin, End, Strand) par l'alignement.
Framesearch trace un histogramme de distribution de score pour chaque recherche, par défaut.
Gcgtoblast remplace toblast pour reformater les séquences en format GCG vers le format Blast.
Pileup accepte de réaligner une partie d'un alignement existant, sans changer le reste. Il faut utiliser simultanément les paramètres -INS -BEG -END. Le programme prend en compte les attributs (Begin, End, Strand) pour aligner chaque séquence d'une liste.
Pretty a des changements dans l'effet des paramètres -CAS et -DIF de présentation, pour plus de précisions voir la documentation.
Plotsimilarity tient compte des poids attribués à chaque séquence et spécifiés dans un fichier aux formats MSF ou RSF, ou dans une liste. Le programme compare les séquences 2 à 2 et attribue pour chaque position la valeur extraite de la matrice de score multipliée par les poids des 2 séquences. En calculant la valeur moyenne des scores par position on obtient la similarité moyenne de l'ensemble des séquences préalignées.
Profilemake admet jusqu'à 5000 séquences en entrée.
Profilesearch cherche un profil de séquences créé par profilemake à travers une banque de séquences. La taille de la banque est limitée à 100000 séquences protéiques ou 50 000 séquences nucléiques. Etant donnée la taille actuelle des banques en acides nucléiques, il faut limiter la recherche à un sous-ensemble de ces banques.
Profilesegments, profilegap avec le paramètre -MSF vont créer un fichier de sortie en format MSF contenant toutes les séquences alignées et leur consensus.
Distances admet maintenant la méthode de Tamura pour calculer une matrice de distance entre séquences de nucléotides prises 2 à 2.
Diverge est le nouveau nom de Newdiverge. Avec le paramètre -TOF et plus de 2 séquences en entrée, il donne comme résultats une matrice d'estimation du nombre de mutations silencieuses pour chaque couple de séquences, et similairement une autre matrice pour les mutations efficaces. Ces matrices pourront être utilisées par le programme Growtree pour tracer un arbre de distance.
Reformat avec l'option -RSF permet de reformater une ou plusieurs séquences vers le format RSF (Rich Sequence Format) décrit plus haut. Une série de 7 options supplémentaires utiles au reformatage des matrices de score sont disponibles. Cet usage concerne les spécialistes, que je renvoie à la documentation en ligne.
Profilescan cherche des profils dans une séquence à étudier, quand un motif est trouvé il donne la description de ce motif, et son aligment avec la séquence. On peut supprimer l'écriture de cette référence avec l'option -NOREF. Le lancement en batch est assuré par l'option -BAT.
http://www.pasteur.fr/gcg/gcgmanual.html.
Louis Jones et Bernard Caudron
Tài-jí Quán
L'informatique suscite des tensions physiques et nerveuses : pour les combattre, inscrivez-vous au cours de Tài-jí Quán (Taï Chi Chuan) de l'ASIP (Association Sportive de l'Institut Pasteur), tous les lundis à 17 h 30. Renseignements : NGHIÊM Hoàng Oanh, p. 8808.
Disponibilité des logiciels Phred, Phrap, Consed
pour l'assemblage de séquences
Ces programmes récemment installés sur le serveur Cléopâtre du Service d'Informatique Scientifique ont été écrits par Phil Green pour phrap, phrapview, cross_match, swat - Phil Green et Brent Ewing pour phred, phd2seqfasta, phd2qualfasta et David Gordon pour phredPhrap, consed. L'appartenance des auteurs à la même institution (Department of Molecular Biotechnology -University of Washington) permet d'assurer une grande cohésion à cet ensemble créé pour satisfaire la demande croissante en outils d'assemblage de séquences puissants.
Phred est un programme qui lit les fichiers «trace» provenant d'un séquenceur automatique, dans les formats SCF, ABI 373 ou ABI 377. Il calcule le contenu en bases et assigne un indice de qualité pour chaque base reconnue. Les bases sont écrites dans un fichier avec l'un des formats suivants : FASTA, XBAP (de Staden), PHD (pour phrap) ou SCF. Les indices de qualité sont écrits uniquement en format FASTA ou PHD à destination du programme Phrap.
Phd2seqfasta est un utilitaire de conversion de format. Il lit l'ensemble des fichiers en format PHD présents dans le répertoire courant, il en extrait les séquences qu'il réécrit dans un seul fichier de sortie en format FASTA.
Phd2qualfasta est un utilitaire de conversion de format. Il lit l'ensemble des fichiers en format PHD présents dans le répertoire courant, il en extrait les indices de qualité qu'il réécrit dans un seul fichier de sortie en format FASTA.
Cross_match, Swat sont des programmes de comparaison rapide entre une séquence et une banque de séquences, basés sur une version efficace de l'algorithme de Smith-Waterman-Gotoh. Le programme Cross_match est utilisé pour comparer les fragments initiaux avec la séquence d'un vecteur, dans le but de masquer les régions contenant une séquence commune au vecteur. Il peut également servir à comparer des séquences de cDNA avec un ensemble de cosmides. Ces programmes sont plus lents que Blast, mais plus précis car ils permettent l'insertion de gaps.
Phrap pour «phragment assembly program» est un programme d'assemblage de séquences d'ADN obtenues par shotgun et en utilisant un séquenceur automatique. Quelques caractéristiques intéressantes permettent de situer les performances de ce programme : il utilise les fragments dans leur globalité, pas seulement les régions de meilleure qualité. Il utilise une combinaison d'indices de qualité fournis par l'utilisateur et recalculés par l'ordinateur, pour augmenter la précision de l'assemblage dans les régions contenant des zones répétées. Il construit une séquence contiguë comme une mosaïque formée à partir des zones de meilleure qualité, plutôt qu'un consensus. Phrap ne fournit pas d'édition, ni d'affichage des séquences assemblées; ces fonctions sont assurées par les logiciels Consed ou Phrapview.
PhredPhrap est un enchaînement des 5 programmes précités à l'intérieur d'un script écrit en Perl. Le travail est fait automatiquement dès lors que l'on fournit le nom du fichier contenant le vecteur. La suite logique est d'utiliser Consed pour afficher ou éditer les contigs créés.
Phrapview est un outil graphique qui donne une vue globale de l'assemblage réalisé avec le programme phrap. Les informations suivantes pourront être affichées : nombre de fragments, de singletons, de contigs, de chimères, etc. Le taux de recouvrement des fragments à l'intérieur des contigs est affiché sur un graphe en parallèle avec la séquence et d'autres informations utiles à la finition de l'assemblage.
Consed est un outil graphique pour afficher et éditer les assemblages de séquences réalisés par le programme phrap . L'utilisation de ce logiciel est amplement simplifié par un tutorial intitulé «Quick Tour of Consed» écrit par l'auteur David Gordon (cf README.txt du répertoire /local/gensoft/doc/Consed).
Pour démarrer :
Il faut dans le répertoire de travail la présence de trois sous-répertoires (aux noms immuables) :
chromat_dir qui contient les fichiers «trace» en provenance du séquenceur ;
phd_dir qui va contenir les fichiers en format PHD, créés par phred ;
edit-_dir sera le répertoire de travail, rempli par phrap et édité par Consed.
init-_phrap qui crée ces trois sous-répertoires, copie un jeu d'essai de 8 fichiers «trace» et en fait l'assemblage. Il vous reste à lancer Consed en suivant les instructions du «Quick Tour of Consed» .
Il est évident que si vous vouliez travailler après cela avec vos données, il vous faudra vider ces 3 sous-répertoires et copier vos fichiers «trace» dans chromat_dir.
Si vous rencontrez des problèmes avec ces logiciels, envoyez un e-mail à help.
Bernard Caudron
Les cours pratiques sont limités à 15 participants et se déroulent dans la salle des terminaux du SIS (1er étage du CIS).
Un certain nombre de personnes inscrites à un cours ne s'y sont pas présentées, sans juger utile de prévenir ou même de s'en excuser ultérieurement. Cette attitude est regrettable, car elle perturbe le bon déroulement de l'ensemble de la session. Lorsque votre inscription à un cours est acceptée, vous devez prendre toutes dispositions pour vous y rendre. Si toutefois vous ne pouvez pas être présent, merci de prévenir au plus tôt Mme Mantz, secrétaire du Service Formation, au poste 3477.
| Cours | Nombre d'inscrits | Nombre de présents | Pourcentage |
|---|---|---|---|
| Unix | 60 | 54 | 90% |
| Courrier électronique | 40 | 30 | 75% |
| Réseaux étendus | 32 | 22 | 69% |
| Shell | 10 | 7 | 70% |
| Analyse de séquences | 47 | 38 | 81% |
| GCG | 35 | 25 | 71% |
| Blast et fasta | 15 | 11 | 73% |
| Banques | 28 | 23 | 82% |
| Staden | 8 | 5 | 62,5% |
| Séquences codantes | 15 | 7 | 47% |
| Phylogénie | 11 | 10 | 91% |
| HTML | 24 | 23 | 96% |
| Total | 325 | 255 | 78% |
Initiation Unix
Ce cours est destiné à familiariser les
élèves avec le système Unix, et la manipulation des
outils graphiques sous X. Il consiste en 3 demi-journées
réparties sur une semaine, soit le matin soit
l'après-midi, qui sont proposées à six dates
différentes. Nous nous attacherons à donner une
connaissance globale suffisante pour que chacun puisse ensuite utiliser
les systèmes en fonction de ses besoins particuliers. Le cours
s'articule autour de quelques thèmes fondamentaux : la
manipulation des fenêtres graphiques, le système de
fichiers Unix, les commandes sur les fichiers, des commandes
système de base, l'édition de textes, la communication
à distance.
Courrier électronique et News
Ce cours d'une demi-journée, proposé 3 fois, décrit les notions et le vocabulaire de base liés à l'utilisation de la communication électronique : d'une part le courier électronique (e-mail), d'autre part les groupes de discussion (news). Nous étudierons plus particulièrement les fonctions avancées du lecteur de courier Elm (envoi et réception de courier, retransmission et renvoi, réponses groupées, gestion de classeurs), et du lecteur de news Xrn.
Ressources Internet
Ce cours d'une demi-journée,
proposé 3 fois, a pour but de connaître les principaux
serveurs d'information disponibles sur le réseau Internet. Nous
décrirons les méthodes de connexion à distance, et
les problèmes de réseaux qui y sont liées. On
s'attachera essentiellement a maîtriser le transfert de fichiers
(ftp, archie) et la navigation sur le World-Wide-Web.
Recherche sur le Web
Ce cours d'une demi-journée est
consacré aux différents outils permettant de trouver de
l'information sur le World-Wide-Web. Le suivi du cours «Ressources
Internet» est un prérequis obligatoire. On parlera
méthodologie (comment formuler sa requête) et technique
(choisir un annuaire ou un moteur de recherche - recherches simples, et
fonctions avancées des moteurs de recherche). Les moteurs
utilisés seront : AltaVista, HotBot, «Biology»
(à Pasteur), les annuaires utilisés seront : «Pages
Biologie» (à Pasteur), Yahoo.
Shell : utilisation avancée
Ce cours d'une
journée s'attachera à donner des éléments
pratiques de programmation. Cet ensemble de notions et de recettes
s'articulera principalement autour de deux thèmes : les commandes
complexes (redirection d'entrée-sortie, chaînages de
commandes, contrôle de tâches) et l'écriture de
shell-scripts (variables d'environnement, boucles simples, actions
conditionnelles).
HTML 1 et 2
Ces deux cours d'une demi-journée sont a
priori indépendants, bien qu'il soit recommandé de les
suivre tous deux. L'assistance préalable au cours
«Ressources Internet» est obligatoire. Dans le cours HTML 1,
on définira la notion d'hypertexte et on étudiera la
structure d'une page simple en décrivant les fonctions de base du
langage HTML. Le cours HTML 2 supposera ces notions connues et
s'attachera aux fonctions plus évoluées, tels les tableaux
et formulaires. Les notions abordées dans ce deuxieme cours
dépendront largement des demandes des élèves.
Réseaux
Les réseaux informatiques sont un
ensemble de techniques matérielles et logicielles et de langages
permettant aux systèmes informatiques connectés d\xab
échanger de l'information. Après un aperçu des
principales techniques matérielles nous présenterons
divers protocoles tels TCP/IP et Appletalk qui sont utilisés sur
le réseau de l'Institut Pasteur. L'exposé
présentera notamment en détails l'architecture et le
fonctionnement du réseau de l'Institut Pasteur.
Les principales difficultés rencontrées lors de l'utilisation d'un programme manipulant des données biologiques concernent l'adaptation du programme choisi au problème posé, le choix des options et des valeurs des paramètres proposés par le programme, l'estimation de la signification et de la validité des résultats fournis. En traitant des aspects théoriques et méthodologiques sous-jacents à l'implémentation des programmes eux-mêmes, nos formations se donnent comme objectif d'apporter des éléments pour aborder ces questions. La manipulation des programmes lors des parties pratiques des cours permet de se familiariser avec les interfaces proposées et de voir mises en oeuvre par les programmes les méthodes présentées lors des cours théoriques.
La session s'articule autour d'un cours purement théorique ayant un statut de tronc commun, les autres formations constituant des modules thématiques relativement indépendants et comportant pour la plupart des aspects théoriques et pratiques.
Introduction aux analyses de séquences
Ce cours, qui
dure une journée, est proposé 3 fois. La plupart des
programmes utilisés en biologie manipulent des séquences
biologiques et en extraient des informations interprétables en
termes biologiques. Ces informations sont de natures variées
(régions similaires entre plusieurs séquences,
prédictions concernant les propriétés structurales
des molécules, inférences phylogénétiques,
etc...). Un préalable commun à de nombreuses
problématiques est le problème élémentaire
de la comparaison de deux séquences. Élémentaire,
la question de la comparaison et de l'obtention d'un alignement optimal
de deux séquences biologiques nécessite néammoins
la mise en oeuvre de procédures de calcul et de modèles
biologiques permettant de quantifier la notion de ressemblance entre
séquences biologiques. La méthodologie qu'implique cette
question simple est représentative de celles utilisées
dans le traitement de questions plus complexes et constitue en ce sens
une introduction au vaste domaine des analyses de séquences et le
thème central du cours ainsi intitulé. Ce cours est
purement théorique : il traite durant la première
matinée des solutions algorithmiques apportées
classiquement au problème, ce qui permet de dégager les
potentialités et limites de ces procédures ainsi que
celles de leurs extensions aux autres problématiques ;
l'après-midi est consacré aux modèles biologiques
sur lesquels reposent les mesures de ressemblance entre monomères
d'acides nucléiques ou de protéines. Les notions vues lors
de ce cours sont fondamentales en regard des nombreux autres aspects de
l'analyse de séquences, c'est pourquoi cette journée est
considérée comme un tronc commun vis-à-vis de
l'essentiel des autres cours de la session. Il constitue un
prérequis obligatoire pour les cours «Comparaison d'une
séquence avec les séquences d'une banque»,
«Phylogénie», «Alignements multiples»,
«Recherches de motifs», «Détermination de
séquences codantes», et est vivement conseillé pour
«Utilisation de GCG» et «Programmes d'assemblage de
séquences» .
Cinq cours dépendent donc directement du cours d'introduction aux analyses de séquences :
Comparaison d'une séquence avec les séquences d'une
banque
Ce cours d'une demi-journée, proposé trois
fois, traite des aspects théoriques et pratiques relatifs aux
programmes de recherche de similarités et alignements entre une
séquence requête et toutes les séquences d'une
banque (Blast, Fasta, Blitz).
Phylogénie
Ce cours est scindé en deux parties : une partie théorique (4 heures) présente les
méthodologies et modèles évolutifs utilisés
pour effectuer des reconstructions phylogénétiques
à partir de données de séquence. Une journée
est consacrée à l'utilisation des programmes
implémentant ces méthodes et modèles. Les parties
théorique et pratique sont espacées d'une journée.
Alignements multiples
Le cours dure une journée, la
théorie étant traitée le matin, et la pratique
l'après-midi. La théorie porte sur les méthodes de
calcul permettant d'obtenir un alignement de plusieurs
séquences. Les travaux pratiques concernent l'utilisation des
programmes implémentant ces méthodes, et sur les
différences entre les résultats fournis par les
différents programmes.
Recherches de motifs
L'organisation est la même que
pour le cours «phylogénie» : les méthodes et
algorithmes permettant soit de rechercher un motif connu dans une
séquence, soit de découvrir un motif inconnu dans
plusieurs séquences (ou répété dans une
seule), sont présentés dans une première partie
purement théorique (4h). La manipulation des programmes
correspondant aux méthodes étudiées dans la partie
théorique fait l'objet d'une journée entière de
travaux pratiques, qui a lieu le surlendemain.
Détermination de séquences codantes
Les aspects
théoriques (modélisations du concept de gène par
les programmes, et algorithmes) et pratiques sont traités au
cours de la même demi-journée.
Tous les cours ci-dessus traitent donc des aspects théoriques et pratiques relatifs à chacun des thèmes. Dans tous les cas, les recherches et calculs effectués par ces programmes reposent sur des modélisations d'objets, de processus, ou de questions biologiques. Par ailleurs la plupart d'entre eux, en raison du volume de calculs que demanderaient des procédures exactes et explorant le problème dans sa totalité, implémentent des algorithmes heuristiques, ne pouvant prétendre trouver la «meilleure» solution au problème posé. Pour ces raisons, le choix du programme adéquat, la signification des paramètres, l'estimation de la validité des résultats fournis nécessitent une connaissance des concepts et méthodes particuliers à chaque programme, ce qui explique la part laissée aux aspects théoriques dans le contenu de ces enseignements.
Deux cours sont essentiellement axés vers l'aspect pratique de la manipulation de programmes proposant des interfaces utilisant le système de multi-fenêtrage X :
Utilisation de GCG
Le paquetage «GCG» contient
une centaine de programmes dédiés aux analyses de
séquences (il existe une certaine redondance avec certains des
nombreux programmes directement accessibles sur
Cléopâtre). Ce cours d'une journée, proposé 3
fois, est une initiation aux possibilités de ce paquetage de
programmes.
Programmes d'assemblage de séquences
Il s'agit d'un
cours d'une journée portant sur l'utilisation des programmes
d'assemblage de séquences d'ADN (Staden, Phrap, Phred, Consed).
Enfin, les données biologiques informatisées sont stockées dans des banques de données. L'accroissement rapide du nombre de banques et de la quantité et variété des informations qu'elles contiennent conduit au développement d'outils informatiques perfectionnés améliorant la vitesse et la précision des recherches effectuées.
Recherches dans les banques de données
Ce cours d'une
demi-journée, proposé 2 fois, présente les
systèmes d'indexation permettant des recherches rapides et
combinées de données de nature variée, et en
fonction de critères divers, dans les banques de données
(Acnuc, SRS, Entrez).
A l'exception du cours d'introduction aux analyses de séquences, tous les cours comportent des parties pratiques effectuées avec les terminaux X de la salle de cours du SIS. Ils nécessitent donc une connaissance du système de fichiers et des commandes de base Unix, de l'éditeur de texte Emacs, et du système de multi-fenêtrage X. Ces prérequis sont enseignés dans nos formations Unix (présentées ci-dessus).
| Cours | Dates | Horaire | Salle |
|---|---|---|---|
| Introduction Unix | 21, 23, 25 avril | 9h30-12h30 | SIS |
| Introduction Unix | 21, 23, 25 avril | 14h-17h | SIS |
| Introduction Unix | 28, 30 avril, 6 mai | 9h30-12h30 | SIS |
| Introduction Unix | 28, 30 avril, 6 mai | 14h-17h | SIS |
| Introduction Unix | 12, 14, 16 mai | 9h30-12h30 | SIS |
| Introduction Unix | 12, 14, 16 mai | 14h-17h | SIS |
| Shell avancé | 20 mai | 9h30-17h | SIS |
| Introduction aux analyses de séquences | 21 mai | 9h30-17h | Fernbach |
| Courier électronique et News | 22 mai | 9h30-12h30 | SIS |
| Courier électronique et News | 22 mai | 14h-17h | SIS |
| Recherches dans les banques de données | 23 mai | 9h30-12h30 | SIS |
| Courier électronique et News | 26 mai | 14h-17h | SIS |
| Introduction aux analyses de séquences | 27 mai | 9h30-17h | Jules Bordet |
| Ressources Internet | 28 mai | 9h30-12h30 | SIS |
| Ressources Internet | 28 mai | 14h-17h | SIS |
| Utilisation de GCG | 29 mai | 9h30-17h | SIS |
| Comparaison d'une séquence | 30 mai | 9h30-12h30 | SIS |
| Introduction aux analyses de séquences | 2 juin | 9h30-17h | Jules Bordet |
| HTML 1 | 2 juin | 14h-17h | SIS |
| Ressources Internet | 3 juin | 14h-17h | SIS |
| Phylogénie (théorique) | 3 juin | 14h-18h | Fernbach |
| Comparaison d'une séquence | 4 juin | 9h30-12h30 | SIS |
| Recherches sur le Web | 4 juin | 14h-17h | SIS |
| Assemblage de séquences | 5 juin | 9h30-17h | SIS |
| Phylogénie (pratique) | 6 juin | 9h30-17h | SIS |
| Comparaison d'une séquence | 9 juin | 14h-17h | SIS |
| HTML 2 | 10 juin | 14h-17h | SIS |
| Recherches dans les banques de données | 11 juin | 14h-17h | SIS |
| Utilisation de GCG | 12 juin | 9h30-17h | SIS |
| Réseaux | 13 juin | 9h30-12h30 | SIS |
| Détermination de séquences codantes | 13 juin | 14h-17h | SIS |
| Alignements multiples (théorique) | 16 juin | 9h30-12h30 | Chamberland |
| Alignements multiples (pratique) | 16 juin | 14h-17h | SIS |
| Utilisation de GCG | 17 juin | 9h30-17h | SIS |
| Recherches de motifs (théorique) | 18 juin | 14h-18h | Jules Bordet |
| Recherches de motifs (pratique) | 20 juin | 9h30-17h | SIS |
Frédérique Galisson et Irène Wang
Logiciel micro
L'acquisition du droit d'usage de logiciels pour micro-ordinateurs au
sein d'un grand organisme scientifique comme l'Institut Pasteur ne va
pas sans poser quelques problèmes.
La loi française est d'une clarté limpide : sauf dispositions contractuelles contraires, ce que l'on achète lors de l'acquisition d'un logiciel c'est le droit de l'utiliser sur un ordinateur et un seul. L'acheteur est autorisé à faire une copie de sauvegarde et une seule. Pour savoir si l'éditeur concède des droits supplémentaires il convient de lire attentivement les documents contenus dans l'emballage. Microsoft édite notamment une petite brochure fort bien faite qui énumère les droits et les obligations de ses clients.
Il va sans dire que cette loi est appliquée et que ses conséquences pénales et civiles sont lourdes, y compris pour la personne physique qui a commis une infraction, fût-ce dans le cadre de son travail et dans les locaux de son employeur.
L'achat à l'unité du droit d'usage de nombreuses copies d'un même logiciel est une opération peu avantageuse, et le SIS avait essayé depuis longtemps de négocier avec les éditeurs des conditions qui tiennent compte du volume d'achats de l'Institut Pasteur et de notre caractère d'organisme de recherche, pour qui un logiciel n'est pas un outil destiné à accroître des profits. Les éditeurs n'avaient pas répondu favorablement à ces démarches.
La situation a évolué cet été grâce à M. Yves Maillaux, du MESR, qui a mené une négociation globale au nom des organismes de recherche publics français, et qui a bien voulu nous y associer. Pour mener cette négociation M. Maillaux a réalisé une enquête internationale qui a mis en lumière les disparités des prix du logiciel dans plusieurs pays européens. Les prix français sont très supérieurs à ceux de la Belgique, de l'Allemagne ou de la Grande-Bretagne.
Les négociations ont donné des résultats positifs avec les éditeurs Claris, Microsoft, Adobe, Qualcom et d'autres. Des accords favorables ont été conclus, qui se traduisent par des réductions très importantes (jusqu'à 80%).
Le point important à saisir pour interpréter ces accords est que la fourniture de ce qui était un produit unique est maintenant décomposée en plusieurs parties que l'on peut acheter indépendamment et qui sont :
Le bénéfice de ces conditions tarifaires est
subordonné au recours à des fournisseurs
agréés. Ces fournisseurs ont été choisis sur
une liste établie par le MESR à l'issue d'un appel
d'offres. Vous trouverez leur coordonnées sur :
http://www.pasteur.fr/units/sis/private/phone.html
Vos gestionnaires disposent de ces informations et des tarifs exacts. Vous pouvez acquérir auprès d'un des deux fournisseurs agréés le droit d'usage de tous les logiciels Microsoft, Adobe et Claris.
Pour d'autres logiciels, comme Eudora Pro, MacX ou certains anti-virus,
nous disposons d'une licence de site. Pour de plus amples renseignements
vous pouvez vous adresser à Michel Keller
(keller@pasteur.fr).
Évolution du réseau : techniques plus rapides et connexion de micro-ordinateurs
Les données qui circulent sur ce réseau obéissent au protocole Ethernet, caractérisé par un débit de 10 mégabits/seconde. La fibre optique et le câble pourraient accepter des débits plus élevés (jusqu'à 622 mégabits/seconde pour la fibre et 100 pour le câble avec les techniques disponibles aujourd'hui).
Par ailleurs les quelques 1200 Macintosh du campus sont reliés pour la plupart à près de 200 réseaux particuliers qui utilisent les systèmes propres à Apple, LocalTalk ou Phonenet pour la partie physique (débit : 230 kilobits/s) et Appletalk pour le protocole de communication. Des passerelles situées dans les répartiteurs assurent la communication entre ces réseaux et le réseau fédérateur.
En regardant les choses du point de vue du logiciel, les Macintosh et leurs imprimantes utilisent le protocole Appletalk pour communiquer entre eux et avec certains serveurs, et IP (Internet Protocol) pour communiquer avec les autres ordinateurs et avec le monde extérieur sur l'Internet. Tous les autres ordinateurs communiquent en IP. Les gestionnaires utilisent le protocole SNA d'IBM pour accéder aux serveurs de gestion.
Pour résumer, notre réseau utilise deux types de support physique (fibre optique et câble de cuivre), deux types de connexions (Ethernet et Phonenet/Localtalk) et trois protocoles (IP, Appletalk et SNA).
Les routeurs détectent et éliminent les données erronées, empêchent la propagation des communications locales à tout le campus, contrôlent la validité des adresses (chaque ordinateur est connu sur le réseau par une adresse unique, l'emploi de l'adresse d'autrui est une source de panne ou un moyen d'effraction). Ainsi, notamment, une erreur de configuration d'adresse sur un micro-ordinateur ne troublera le fonctionnement que des voisins immédiats du coupable, et l'imprimante qui prévient toutes les secondes tout le monde de sa présence (elles font ça) ne coupera la parole qu'à une dizaine de Macintosh, pas à 2 000 machines. Sinon un utilisateur qui prend par erreur l'adresse de notre routeur d'accès à l'Internet pourrait couper tout le campus du monde extérieur. C'est pour cela que les réseaux de Macintosh sont derrière leurs passerelles, et que les réseaux de micro-ordinateurs doivent être isolés du réseau fédérateur par un routeur.
Certains possesseurs de Macintosh souhaitent transférer par le réseau des fichiers volumineux issus d'appareils tels que des Phosphor Imagers, ce pour quoi le réseau LocalTalk est trop lent et Ethernet préférable.
Les tendances économiques de l'industrie micro-informatique donnent à penser que les PC vont être plus nombreux sur le campus à cause de leur baisse de prix par rapport au Macintosh et de l'évolution incertaine d'Apple, or le moyen raisonnable de connecter les PC au réseau est Ethernet.
Si Ethernet se répand, Phonenet continue à avoir des avantages considérables pour un Macintosh «ordinaire» : il ne nécessite aucune modification ni matérielle ni logicielle à la machine telle qu'elle sort de sa boîte, et la configuration est extrêmement simple. Pour tous les Macintosh un peu anciens, Ethernet demanderait des adjonctions de matériel, pas toujours possibles et jamais gratuites. La configuration du système est plus complexe et le financement des routeurs à installer devra être assuré par les Unités.
De fait les réseaux Ethernet vont se multiplier sur le campus, et si les postes de travail sont plus nombreux à accéder au réseau avec des débits de 10 millions de bits par seconde, il faudra augmenter le débit de l'épine dorsale au moins à 100 mégabits/seconde, ce que nous avons commencé à étudier.
Dans la même perspective le SIS a installé un serveur à processeur Intel avec Windows NT, nommé Desdémone. L'idée est d'y installer des logiciels et des données pour les utilisateurs de PC de campus et d'acquérir de l'expérience avec ces systèmes et les services en réseau qui leur sont associés.
Laurent Bloch
Le serveur d'archives ftp
Cet article présente ftp.pasteur.fr, le serveur de
fichiers «FTP anonyme» de l'Institut Pasteur. Il existe
plusieurs serveurs qui distribuent des
fichiers. ftp.pasteur.fr utilise le protocole (langage de
communication entre ordinateurs) FTP («File Transfer
Protocol») et le mot «anonyme» fait
référence au fait qu'il s'agit d'un serveur public,
accessible depuis le monde entier, et ne nécessitant pas de
compte ou d'autorisation (il n'est pas cependant réellement
anonyme, le terme est un abus de langage).
Que trouve-t-on sur ftp.pasteur.fr ? Des fichiers de tout
type (programme, données, documents et articles, etc). Ils sont
rangés dans une série de répertoires
(équivalent des «dossiers» du Macintosh), accessibles
à partir du répertoire nommé
«/pub». Voici une liste sommaire des
principaux :
/pub/GenSoft : logiciels pour la biologie. Vu l'importance de ce répertoire, il est découpé ainsi :
/pub/GenSoft/unix : logiciels pour systèmes Unix.
/pub/GenSoft/Macintosh : logiciels pour Macintosh.
/pub/GenSoft/mirrors : «miroirs», c'est-à-dire logiciels recopiés automatiquement et régulièrement depuis d'autres serveurs FTP dans le monde. Pour l'instant, le seul site ainsi reproduit est dans /pub/GenSoft/mirrors/IUBio.
/pub/Mac : logiciels divers pour Macintosh. Cela inclut notamment les outils Internet comme Eudora en /pub/Mac/Eudora.
/pub/FAQ : ce répertoire contient les textes des FAQ (Frequently Asked Questions), les questions les plus fréquemment posées sur les News (conférences électroniques en réseau), avec leurs réponses évidemment.
/pub/Gnu : logiciels GNU, un jeu de logiciels libres pour machines Unix.
/pub/computing : ressources variées sur l'informatique.
/pub/GenSoft, cette archive contient des logiciels de biologie moléculaire pour Unix et Macintosh, ainsi que des distributions de binaires pour Digital Alpha (avec Digital Unix). Cette archive ne contient pas de banques de séquences (voir ftp.infobiogen.fr).
En ce qui concerne la partie Unix, les archives correspondent aux logiciels installés sur le serveur central.pasteur.fr (s'ils sont redistribuables, bien entendu).
Les répertoires Unix et Macintosh sont organisés de la même manière (un fichier README décrit cette organisation) :
| alignment | alignement par paire, alignement multiple, recherche de similarités dans les banques (blast et outils pour blast, fasta), outils (éditeurs, butineurs) |
| db_soft | logiciels pour rechercher des entrées dans les banques de séquences ou d'analyses |
| nucleic_acid | traduction, recherche de gènes, recherche de sites spécifiques, analyse d'ARN |
| protein | outils d'analyse, analyse et visualisation de structure |
| pattern | identification et découverte de motifs (quand le logiciel s'applique indiffé remment a l'ADN ou aux proteines), profils et outils statistiques (HMM) |
| sequence_tools | outils de conversion, éditeurs, menus |
| evolution | (essentiellement) phylogénie |
| linkage_and_mapping | analyse de pedigree et de liaison, assem blage de contigs, visualisation de cartes ou de chromosomes |
| molecular_graphics | (link to protein/structure/graphics) |
| programming | bibliothèques, classes pour la biologie moléculaire |
| misc | divers |
/pub/GenSoft/Macintosh est en pleine évolution. Pour le moment, une soixantaine de logiciels sont disponibles (en format binaire auto-décompactable).
Chaque programme est accompagné d'un fichier de suffixe readme qui explique en quelques lignes ses fonctions.
Certains logiciels existent en plusieurs versions : 68k (pour les Macintoshs à base de processeur 68000), PPC (pour les Powermacs) et FAT (pour 68k et PPC).
Prochainement, un fichier SOURCES sera disponible, il contiendra les origines des archives ainsi que leur localisation sur le serveur.
Quelques exemples de programmes que vous pouvez trouver dans /pub/GenSoft/Macintosh :
Tous ces fichiers sont donc accessibles depuis le campus de l'Institut Pasteur, mais aussi depuis le monde entier. Vous pouvez y piocher les logiciels utiles pour un ordinateur que vous gérez ou bien en conseiller l'usage à des collègues, pasteuriens ou non.
Vous pouvez naturellement émettre avis et suggestions sur ce serveur, par exemple sur des contenus qui seraient intéressants : écrivez alors à ftpmaster@pasteur.fr.
Si vous souhaitez que des logiciels, accessibles sur d'autres serveurs, soient recopiés ici, ne le faites que si ces logiciels sont difficilement récupérables sur leur site d'origine : il n'existe aucune raison de copier ici des logiciels largement distribués par ailleurs.
Comment se sert-on de ce serveur ? On peut utiliser n'importe quel logiciel FTP. Cela inclut les clients Web comme Netscape mais aussi les logiciels purement FTP comme l'excellent Fetch, sur Macintosh (/pub/Mac/Networking/Ftp). Si vous utilisez un client Web, vous pouvez désigner un fichier ou un répertoire par une adresse, nommée URL (Uniform Resource Locator), par exemple :
ftp://ftp.pasteur.fr/pub/GenSoft/
Si vous utilisez un logiciel purement FTP, certains comprennent les URL (c'est le cas de Fetch), d'autres doivent recevoir séparément le nom du serveur (ftp.pasteur.fr) et le répertoire (/pub/GenSoft). S'il demande un nom d'utilisateur et un mot de passe, la convention en FTP anonyme est de donne respectivement anonymous et votre adresse électronique (par exemple bortzmeyer@pasteur.fr).
Stéphane Bortzmeyer
Utilisateurs de Cléopâtre
Le serveur Cléopâtre (central.pasteur.fr) héberge un peu moins de 2000 comptes d'utilisateurs. Ces utilisateurs sont répartis en trois grandes catégories, et peuvent figurer dans plusieurs de ses catégories :


Christophe Wolfhugel
Cours Pasteur d'Informatique en Biologie
La quatrième session du Cours se déroule depuis le
début de l'année avec 15 participants, ce qui est le
maximum possible compte tenu de l'organisation des travaux pratiques. De
ces 15 élèves six sont pasteuriens (dont un de l'Institut
Pasteur d'Hô Chi Minh Ville), sept viennent de pays
étrangers (trois d'Amérique Latine, deux d'Asie du
Sud-Est, deux de l'Union Européenne) et six ont appris
l'existence du cours grâce à l'Internet.
Si le programme a peu changé depuis la première session, les enseignants ont plus particulièrement à coeur cette année de donner aux élèves les moyens et le goût du «passage à l'acte» en programmation. Des 316 heures que dure le cours, 90 sont consacrées à l'apprentissage de langages de programmation, 69 aux travaux pratiques associés et 23 à la mise en oeuvre des systèmes. De plus, les 54 heures consacrées aux algorithmes biologiques et les 15 heures de modélisation moléculaire comportent des travaux pratiques qui donnent aux élèves l'occasion d'appliquer leurs nouvelles compétences en programmation à des domaines de leur discipline.
Le parti-pris à l'origine de ce cours considère que l'informatique est une science, dotée de concepts et de théories, susceptible d'un enseignement systématique et d'une vision générale. Ceci par opposition à l'image courante dans le grand public de l'informatique qui serait une collection décousue de trucs à acquérir empiriquement au fil des coups de souris. Le grand public s'étend jusqu'au sein de la communauté scientifique, puisque l'auteur de ces lignes a eu récemment le bonheur de susciter chez une jeune collègue une hilarité aussi incrédule qu'inextinguible en évoquant l'existence de thèses d'université en informatique.
Ce qui est théorie en informatique découle de la notion de procédure effective, c'est à dire de la détermination (de l'invention) de processus pour effectuer les calculs qui donneront la solution de problèmes pour lesquels existent des solutions calculables (il y a des problèmes sans solution et des solutions incalculables). C'est de ces questions que sont issus les travaux d'Alonzo Church, d'Alan Turing et de Johannes von Neumann, qui sont un peu à l'informatique ce que sont Mendel et Darwin à la biologie et qui nous ont donné notre paradigme à nous, la Machine de Turing.
Turing crée en 1936 un modèle de calcul dont il montre qu'il est universel, c'est à dire que tous les ordinateurs sont équivalents, ce qui est heureux parce qu'autrement leur programmation relèverait de la magie ou du bricolage. Mais oui, la programmation possède un modèle théorique général, la Machine de Turing, et peut donc devenir une discipline universitaire. Il ne reste plus à von Neumann qu'à décrire l'organisation générale de l'appareil concret qui va réaliser les calculs, ce qu'il fait en 1945 d'une façon si élégante que les ordinateurs d'aujourd'hui sont encore construits, pour l'essentiel, de cette façon.
Le coeur de la compétence informatique réside dans la programmation, sa théorie et sa pratique. Aujourd'hui tout le monde programme son magnétoscope ou sa machine à laver : la programmation d'une machine «Turing-équivalente», c'est plus que cela, cela suppose la maîtrise d'un langage suffisamment puissant pour décrire n'importe quel algorithme et suffisamment précis pour mettre en oeuvre chaque dispositif de l'architecture de von Neumann. Ces exigences disqualifient pour acquérir la compréhension de la programmation le langage du magnétoscope, incroyablement compliqué mais peu puissant, et les langages de trop haut niveau (les métalangages trop «méta» ), comme Mathematica ou Perl qui donnent l'illusion de programmer comme les plats surgelés donnent l'illusion de faire la cuisine.
Chaque ordinateur possède un «langage-machine», de très bas niveau puisqu'il commande directement les entrées des circuits logiques. Par rapport à ce langage primitif très incommode, tout langage de programmation est un métalangage qui manie des abstractions plus ou moins bien adaptées à tel ou tel problème. Choisir un langage doté d'un niveau d'abstraction et d'un pouvoir expressif adaptés à l'objectif poursuivi n'est pas facile. L'objectif ici est de donner aux élèves une vision de la programmation suffisamment précise pour pouvoir analyser tout algorithme et suffisamment générale pour qu'elle puisse s'adapter à des systèmes de calcul variés, présents et futurs.
Sans que le choix de tel ou tel langage de programmation soit décisif pour le succès d'un enseignement, nous pensons qu'en utilisant le langage Scheme nous avons trouvé un bon compromis : très proche du lambda-calcul (l'équivalent formel de la Machine de Turing), il permet d'aborder de façon incisive les problèmes cruciaux de la théorie de la programmation sans s'encombrer d'une syntaxe trop lourde ; très versatile, il permet de modéliser les systèmes de programmation les plus variés sans rester collé à un style particulier. Et surtout, il est impossible d'écrire une ligne de Scheme sans avoir présentes à l'esprit toutes les implications de son texte.
Le lecteur aura compris que ce cours, s'il dispense les élèves de toute connaissance préalable obligatoire, et peut-être justement à cause de cela, leur demande un effort intellectuel important, puisque c'est de l'acquisition d'un nouveau mode de pensée qu'il s'agit.
Nous avons remarqué que les conditions d'exercice de la pensée étaient très différentes selon qu'elle s'appliquait à l'informatique ou à la biologie : les rythmes des deux activités sont très différents. Aussi nous demandons aux élèves de cesser toute autre activité pendant le cours, et nous essayons de faire en sorte qu'à son issue ils puissent se consacrer à l'informatique quelque temps sans autre contrainte. Un des moyens d'y parvenir est l'organisation de stages d'application pour ceux qui ont la possibilité d'en suivre.
Laurent Bloch