Bulletin du Service d'Informatique Scientifique - Numéro 8 - Octobre 1995

Table des matières



Un nouveau serveur au Service d'Informatique Scientifique.

Une nouvelle machine plus puissante

L'ordinateur central de l'Institut Pasteur, son "serveur" le plus utilisé tant pour les logiciels biologiques et l'interrogation des banques de séquences que pour le courrier électronique et l'accès à l'Internet, est un Sun 4/670 sous SunOS 4.1.3 nommé mendel et a été installé au printemps 1992. Comme beaucoup d'entre vous en ont fait l'expérience, il est maintenant bien saturé et nous avons installé une nouvelle machine destinée à le remplacer, cléopâtre(1). C'est un Alphaserver 2100 Digital 4/275 doté de deux processeurs Alpha 21064 à 275 Mhz, de 512 millions de caractères de mémoire et de 64 milliards de caractères sur disque, qui devrait selon les utilisations être de 4 à 8 fois plus rapide que mendel.

Le système d'exploitation de cette machine est une variété de UNIX à l'aspect extérieur assez semblable à celui auquel vous êtes habitués sur mendel.

Nous avons profité de la période estivale pour réaliser et mettre en place des "instruments logiciels" destinés à gérer cléopâtre efficacement, et nous avons notamment repensé et réformé votre environnement de travail à la lumière de l'expérience des trois dernières années et des difficultés que vous avez rencontrées tout en faisant en sorte qu'il vous apparaisse aussi peu différent que possible de celui que vous utilisez sur mendel.

Les changements

Néanmoins certains changements étaient inévitables, et l'objet de la plupart des articles de ce numéro est de vous les présenter.

Certains des changements décrits ci-dessous sont inhérents à la nature des choses, d'autres résultent de choix que nous avons faits.

Les changements inévitables (mais a priori ce sont des améliorations) concernent assez peu le système (installé par Frédéric Chauveau, Daniel Azuelos et Christophe Wolfhugel, qui ont réussi à en adoucir les aspérités) mais plutôt les logiciels d'application. Ainsi vous aurez une nouvelle version de GCG munie d'une interface graphique optionnelle (décrite ci-dessous par Louis Jones qui l'a installée) et une nouvelle version des logiciels de Roger Staden (décrite ci-dessous par Bernard Caudron qui l'a installée). Catherine Letondal a recueilli sur le réseau, installé et configuré de nombreux logiciels d'analyse biologique dont elle présente les principes de mise en oeuvre ci-dessous.

Les changements voulus (ou le maintien voulu d'orientations qui pourraient être différentes) se placent sur un autre plan et d'ailleurs peuvent être discutés et remis en cause avec ceux d'entre vous qui souhaiteraient nous faire des suggestions. Nous aurions pu aller vers la construction d'une interface fermée qui ne vous aurait proposé que des questions auxquelles vous auriez répondu. En apparence cela vous simplifierait peut-être la tâche. Nous n'avons pas suivi cette voie pour les raisons suivantes :

Comment va se passer la transition ?

Une par une, les Unités seront transférées de mendel à cléopâtre. Cela demande des opérations assez complexes sur les serveurs, de vérifier qu'il n'y a pas de situation particulière qui pose problème, et surtout d'aller sur place pour modifier les configurations réseau de vos Macintosh. Pour ce dernier point Christophe Wolfhugel et Daniel Azuelos ont mis au point une procédure qui sera mise en oeuvre avec la collaboration de Gérard Masson et de Michel Keller. Cette procédure est décrite dans l'article de Christophe Wolfhugel ci-dessous.

Quelque temps après le passage, les comptes des membres de l'unité sur mendel seront fermés, sauf cas exceptionnel et argumenté, comme l'usage d'un logiciel indisponible sur cléopâtre.

Étant données la complexité et la durée de l'opération, elles s'étalera sur plusieurs semaines. Nous commencerons par les Unités dotées d'un correspondant informatique bien connu de notre Service parce que cela facilitera notre travail et nous garantira d'être prévenus rapidement en cas d'incident. À ce propos, une réponse précise au questionnaire d'enquête que vous aurez reçu d'ici là sera de nature à aplanir certains obstacles.

La mise à jour des configurations des Macs

Les détails sont dans l'article de Christophe Wolfhugel, mais il faut indiquer ici les limites de notre intervention :

En cas de doute ou de difficultés n'hésitez pas à écrire à help@pasteur.fr.

Laurent Bloch


Utilisation des logiciels pour la biologie sur le nouveau serveur de l'Institut Pasteur.

Tous les logiciels scientifiques disponibles sur mendel le sont aussi sur le nouveau serveur cléopâtre(2) ; de nombreux programmes supplémentaires ont été par ailleurs installés. Le SIS se donne pour mission de proposer aux utilisateurs les versions à jour des logiciels utiles et intéressants annoncés par la presse, les news, le Web ou tout autre media. L'utilisation des programmes a changé, avec un menu de présentation différent et, pour les utilisateurs plus avancés, par une simplification de l'accès aux exécutables et à la documentation en ligne.

Le nouveau mode d'emploi des logiciels est présenté dans une première partie, divisée en deux sections : tout d'abord une présentation de l'utilisation directe des logiciels, sans passer par des menus successifs (I.1). Cette section est destinée aux utilisateurs ayant des notions de base Unix. La section suivante (I.2) décrit la méthode d'utilisation des logiciels par menus.

Les logiciels eux-mêmes sont présentés dans la deuxième partie (II), du moins dans les grandes lignes. Pour plus de détail, il est conseillé de lire la documentation ou de se renseigner au SIS. Les nouveaux logiciels installés seront par la suite annoncés dans le B6 et dans les newsgroups pasteur.software et pasteur.annonces.

I MODE D'EMPLOI.

I.1 Utilisation directe depuis le SHELL Unix.

I.1.a Principes

Le SHELL est l'interpréteur de commandes qui est lancé automatiquement lorsque vous vous connectez à la machine. Tous les programmes sont utilisables depuis le SHELL en tapant simplement un nom de programme (une banale commande) suivi ou non de paramètres et de noms de fichiers. Exemples (voir la documentation pour l'utilisation réelle ..!) :

  % clustalw seqs.fasta 

lance le programme CLUSTALW sur les séquences contenues dans le fichier seqs.fasta (le signe % représente l'invite - le prompt - du shell)

  % fasta 

lance le programme FASTA de manière interactive (questions-réponses)

  % blastp swissprot seq.fasta > seq.out 

recherche par BLAST dans la banque Swissprot les séquences similaires à seq.fasta et met le résultat dans le fichier seq.out.

Remarque :

Les logiciels sont cités ici par leur nom en majuscules alors qu'en général, les commandes Unix sont en minuscules (pour connaître la manière d'utiliser le programme, c'est-à-dire la ou les commandes à taper effectivement pour le lancer, voir la section I.1.c).

I.1.b Documentation en ligne

La documentation en ligne est généralement accessible sous Unix par la commande man. Il est par exemple possible d'obtenir l'aide en ligne de BLAST en tapant :

  % man blast 

De même pour FASTA, Staden, et la plupart des autres programmes.

Certains logiciels, composés d'un ensemble de programmes, comme PHYLIP, disposent d'une aide en ligne détaillée pour chaque programme. Ainsi :

  % man dnapars 

affiche l'aide en ligne du programme DNAPARS du paquetage PHYLIP.

  % man phylip 

affiche le document général sur le logiciel.

Remarque :

Certains logiciels sont fournis sans fichiers de documentation, ou bien avec des fichiers incompatibles avec la commande man :

I.1.c Comment savoir quels sont les logiciels disponibles ?

Il existe une liste alphabétique des logiciels disponibles sur la machine. Pour l'afficher, utiliser la commande :

  % man softgen 

Il existe également une liste des logiciels classés par type de domaines :

Outils généraux d'analyse de séquences
Banques
Comparaison de séquences
Recherche de motif
Alignements
Phylogénie
Cartographie, génétique
Modélisation moléculaire
Divers

pour l'obtenir :

  % man gensoft 

Ces pages de manuel indiquent, pour chaque logiciel :

I.1.d Pour obtenir plus d'information sur un logiciel.

Les logiciels sont souvent distribués avec des fichiers d'exemples, de documentation, de notes de mise a jour, etc... Afin de permettre aux utilisateurs de retrouver facilement ce genre d'information, le répertoire : /local/gensoft/doc contient pour chaque logiciel un répertoire spécifique rassemblant les fichiers qui nous ont semblé être de type "document". Par exemple :

% ls /local/gensoft/doc/linkage/ 

datain1.dat   manual.ps    programmes    ugsp_cov.ps

datain2.dat pedin1.dat ugap_cov.ps ugsp_man.ps
datain3.dat pedin2.dat ugap_man.ps ugsp_toc.ps
linkhelp.txt pedin3.dat ugap_toc.ps user.txt

Les fichiers *.ps sont des fichiers PostScript qu'ont peut imprimer ou afficher par la commande gs (terminaux X uniquement). Ici, les fichiers *.dat sont des exemples de données.

I.2 Menu d'accès aux logiciels

Un nouveau système de menus hiérarchique a été développé, il s'appelle ipsh (pour Institut Pasteur SHell). Sa présentation peut éventuellement évoluer dans les prochaines semaines. Après avoir sélectionné "Logiciels pour la biologie" dans le menu général :

  % ipsh 

+---------------------------------------+
Ressources informatiques
-> Logiciels pour la biologie
Messagerie électronique
Ressources sur l'Internet
Aide en ligne
(Q)uitter, (U)p d'un niveau,
<Return> sélectionner
+---------------------------------------+

on obtient le menu des logiciels de biologie :

  +-----------------------------------------+ 

Logiciels pour la biologie
Genetics Computer Group package (GCG)
Staden
Comparaison de séquences
Recherche de motifs
Alignements de séquences
Phylogénie
Cartographie - Analyses génétiques
Modélisation moléculaire
Autres logiciels
Banques de données
Biologie moléculaire sur le Web
Aide en ligne
(Q)uitter, (U)p d'un niveau,
<Return> sélectionner
+------------------------------------------+

I.3 Accès aux logiciels par le Web.

Prochainement, certains logiciels seront également accessibles par le Web sur le serveur de l'Institut Pasteur.

II DESCRIPTION DES LOGICIELS DE BIOLOGIE DISPONIBLES.

Cette partie décrit les logiciels installés actuellement sur la machine, en reprenant la même classification que celle qui est proposée dans les menus.

II.1 Outils généraux d'analyse de séquences.

Dans ce même numéro, vous trouverez une description de Staden par Bernard Caudron, et de GCG par Louis Jones.

II.2 Banques.

Pour accéder aux entrées des banques, en fournissant un identificateur, l'accession number, un nom d'auteur ou tout autre information correspondant à un champ déterminé dans une entrée de la banque, vous pouvez utiliser GCG ou Entrez. Il existe d'autres systèmes qui seront installés prochainement sur la machine (ACNUC notamment).

Entrez est un système d'accès très sophistiqué aux trois types de banques couramment utilisées dans le domaine de la biologie moléculaire : banque de séquences nucléiques (Genbank), protéiques (Swissprot) et banque bibliographique (10% de MEDLINE concernant la biologie moléculaire). Les entrées des banques sont reliées entre elles :

Cela permet de parcourir les entrées des banques par des recherches itérées de voisins successifs.

getentry est un petit programme qui aide à formuler une requête de recherche dans une banque de l'EBI par le courrier électronique. (recherche par locus).

La recherche de similarités dans les banques de séquences est réalisée par les logiciels bien connus BLAST et FASTA, dont il existe une version indépendante de GCG (man blast et man fasta). Le petit programme TBOB (texte) et BLIXEM (terminaux X) permettent d'afficher les résultats de BLAST de manière plus conviviale.

Il est aussi possible de soumettre une recherche à un serveur BLAST ou FASTA distant, comme celui de l'EBI, de l'EMBL, ou du NCBI, en envoyant un mail. Les outils MAILFASTA et MSU aident à composer la requête.

II.3 Comparaison de séquences

Les programmes de comparaison les plus simples sont ceux qui, comme DOTTER ou COMPARE et DOTPLOT dans GCG produisent un "dotplot" c'est-à-dire une comparaison point par point de deux séquences, visualisée dans une matrice. Plus souples, les programmes d'alignement autorisent les gaps (comme lalign ou lfasta de FASTA ou gap et bestfit de GCG).

II.4 Recherche de motifs.

Les connaissances sur la composition, les motifs significatifs ou les régions conservées dans les séquences sont répertoriées dans des banques comme PROSITE ou BLOCKS, que l'on peut utiliser à travers les programmes PROSEARCH (search protein sequences for Prosite Database patterns) et BLIMPS (BLocks IMProved Searcher).

PLSEARCH (pattern-library search) permet de détecter des motifs AACC dérivés de Swissprot dans une séquence protéique ; PRATT (Finding flexible patterns in unaligned protein sequences) est un programme plus général de recherche de motifs. SAPS (Statistical Analysis of Protein Sequences) analyse les biais de composition, les structures répétitives, et d'autres propriétés.

II.5 Alignements.

Les logiciels installés à l'Institut Pasteur pour faire des alignements multiples sont CLUSTALW, ainsi que AMPS (Alignment of Multiple Protein Sequences), SAM (/local/gensoft/doc/sam/sam1.03_doc.ps pour une documentation), MAP (MULTIPLE ALIGNMENT PROGRAM). Le logiciel PIMA utilise des motifs pour effectuer l'alignement. Les logiciels MASE ou SeqPup permettent d'éditer un alignement multiple calculé par les précédents programmes.

II.6 Phylogénie.

PHYLIP (Phylogeny Inference Package) comprend une trentaine de programmes correspondant à la plupart des méthodes d'analyses phylogénétiques. Certains des programmes, comme DNAML, possèdent des versions améliorées (fastDNAml) et plus rapides, réalisées par d'autres auteurs. Ainsi la méthode dite de "distances" Neighbor-Joining existe en version PHYLIP sous le nom NEIGHBOR, mais aussi dans le paquetage MOLPHY (NJDist). La méthode du maximum de vraisemblance (DNAML, DNAMLK, CONTML, RESTML de PHYLIP, avec ML comme "maximum likelihood") est aussi implantée par les programmes ProtML et NucML (MOLPHY). NJPLOT et TREETOOL permettent d'éditer (de manière graphique) un arbre phylogénétique (comme RETREE, DRAWTREE et DRAWGRAM de PHYLIP).

II.7 Cartographie de chromosomes.

Le logiciel SIGMA (voir /local/gensoft/doc/sigma/overview.ps) permet de visualiser graphiquement les cartes physiques et génétiques d'un chromosome.

II.8 Analyse génétique (linkage analysis).

Les logiciels d'analyse génétique installés sur cleopatre sont LINKAGE et FASTLINK (versions rapides de certains programmes de LINKAGE), ainsi que : GAS (voir /local/gensoft/doc/gas/gman.ps) et MAPMAKER.

II.9 Modélisation moléculaire.

Le serveur cléopâtre n'a pas vocation à être utilisé pour la modélisation moléculaire qui nécessite des stations graphiques spécialisées. Les programmes suivants ont cependant été installés : MOLSCRIPT (un programme pour créer des images PostScript de molécules), RASMOL (visualisations graphiques) et PROSA (PROtein Structure Analysis).

II.10 Divers.

Citons CAP (CONTIG ASSEMBLY PROGRAM) (voir aussi le module d'assemblage de Staden), MRTRANS qui produit des séquences alignées de cDNA à partir de protéines alignées, PRIMER (sélection automatique de primers) et READSEQ (conversions de séquences dans les différents formats existants).

III REMARQUES.

Les logiciels scientifiques installés sur la machine sont pour une bonne part plupart des logiciels gratuits, développés pour la gloire par des chercheurs. Ils correspondent souvent à des idées intéressantes, mais ne bénéficient pas toujours d'un soin extrême quant à leur réalisation technique. En clair, ça peut "planter". Le SIS a choisi de mettre le maximum de logiciels à la disposition des chercheurs pasteuriens, par une veille technologique journalière. Il est par contre impossible d'assurer à nous seuls la qualité de tous les programmes installés (sauf pour les plus importants, comme GCG, Staden, BLAST,... qui eux sont suivis de plus près). Prévenez-nous si vous diagnostiquer une erreur (help@pasteur.fr). Citons comme autre inconvénient les grandes différences dans l'interface d'utilisation de tous ces programmes ; c'est d'ailleurs cette diversité qui à l'origine des paquetages regroupant toutes les méthodes sous un aspect homogène (GCG, PHYLIP).

Enfin, nous sommes à l'écoute des utilisateurs qui seraient intéressés par l'installation de tel ou tel logiciel, afin de le mettre à la disposition de tous les utilisateurs (plutôt que de l'installer de manière privée dans ses propres répertoires ou sur sa propre station de travail).

Contacts :

Questions générales concernant les logiciels scientifiques :

help@pasteur.fr
et

newsgroup pasteur.software
s'il s'agit d'un sujet pouvant intéresser tous les utilisateurs comme des suggestions de nouveaux logiciels, comparaisons qualitatives, utilisation de fonctions particulières des logiciels,... mais pas comme : "je n'arrive pas à lancer GCG, que dois-je faire ?".

Catherine Letondal


Nos collègues de la Bibliothèque centrale ont mis en place une liste de diffusion par courrier électronique d'informations relatives à leur activité. Vous pouvez vous y abonner en envoyant à :
infobib-request@pasteur.fr
un message électronique avec le mot "suscribe" dans le champ Subject:.

Voici un des derniers messages reçus sur cette liste.

Consultation de MEDLINE

Beaucoup d'entre vous (1/3 d'après l'enquête lancée par la bibliothèque en février dernier) interrogent Medline par Internet sur le serveur Web du NCBI (National Center for Biotechnology Information, division de la National Library of Medicine, USA).

Nous souhaitons attirer votre attention sur le fait que la NLM n'a mis en ligne sur Internet qu'une toute petite partie des références de Medline : 700 000 seulement sur plus de 8 millions. Et il s'agit uniquement de références en génétique moléculaire, comme il est d'ailleurs précisé sur la page d'accueil.

Voici les résultats d'un petit test comparatif sur l'interrogation de quelques mots-clés, en ligne (intégralité de la base) et sur Internet:


(recherche sur 1986-mai 1995)

En attendant la mise en réseau prochaine de l'intégralité de la base et son accessibilité permanente à tous, nous vous rappelons que vous pouvez interroger Medline de deux façons :

N'oubliez pas que Medline n'est pas la seule base consultable à la bibliothèque : BIOSIS, PASCAL, SCI, CURRENT CONTENTS... sont à votre disposition. Profitez-en !

Anne Lassailly


Utilisation de GCG sur Cléopâtre

I Introduction

GCG (Genetics Computer Group) est un progiciel pour l'analyse des séquences biologiques, avec des programmes de recherche, de comparaison, de prédiction, et d'aide aux expériences. Il y a plus de 100 programmes, ou commandes GCG utilisables :

Les commandes GCG s'échangent des informations, génèrent des sorties lues par d'autres commandes, et réciproquement exploitent des données produites par des membres du progiciel. Les commandes sont exécutées en série, très souvent un traitement sur une ou des séquences, suivi de la sortie d'une représentation graphique des résultats. Les commandes GCG sont bien adaptées à un chaînage en procédures élaborées et automatisables. Chaque commande GCG est détaillée dans le "Program Manual", ou bien, dans la documentation en ligne. Les commandes GCG sont organisées par grandes fonctions.

II Fonctions

Fonction. Description

III Aides en ligne

Les informations par rapport aux commandes de GCG sont disponibles en ligne. La commande genmanual est l'outil le plus commode. Il procure l'aide à l'usage des commandes, par l'intermédiaire d'un menu qui reproduit l'organisation fonctionnelle du "Program Manual" :

  cleopatre% genmanual 

  ... 

	Additional information available:

  APPENDICES COMPARISON DATABASE SEARCHING 
  DISPLAY EDITING EVOLUTIONARY ANALYSIS 
  FILE UTILITIES FRAGMENT ASSEMBLY
  ... 

Topic?

Le choix est entré au message d'attente Topic?, avec un nombre de caractères suffisant à le discriminer du reste de la liste. Une réponse vide entraîne une sortie de la commande et le retour au niveau de l'invite du système.

IV Démarrage de GCG

IV.1 Prérequis

Votre environnement de travail est décrit (entre autres) par un fichier lisible, .bashrc. Dans le cas typique, sur cléopâtre, existe un fichier .bashc générique pour tout le monde et vous n'avez pas à vous en soucier.Au cas où vous auriez un environnement particulier décrit par un fichier .bashrc privé, situé dans votre répertoire racine, il faut qu'il contienne au minimum une ligne, soit :

source /local/gensoft/gcg/gcgstartup.bash 
Vous pouvez ajouter cette ligne avec un des éditeurs de texte sur cléopâtre, comme emacs.

IV.2 Initialisation

Il faut, pour lancer GCG, taper un ordre après l'invite du système:

cleopatre% gcg 
  Welcome to the WISCONSIN PACKAGE 
  Version 8.1-UNIX, August 1995 
  Installed on osf
  Copyright 1982, 1983, 1984, 1985, 1986, 1987, 1989, 1991, 1992, 1994 Genetics Computer Group, Inc. All rights reserved. ...

La communication établie avec GCG, vous pouvez taper directement à l'invite du système les commandes de GCG ou, également, vous pouvez utiliser l'interface graphique WPI. Simplement, tapez la commande wpi à l'invite du système. Toutes questions peuvent être adressées à help@pasteur.fr.

Louis Jones


Le logiciel d'analyse de séquences de Staden sur Cléopâtre.

Cette version du logiciel d'analyse de séquences Staden est une version améliorée de celle qui est disponible sur mendel. Les améliorations touchent essentiellement le programme d'assemblage de séquences dont la version la plus récente et conseillée s'appelle xgap pour genome assembly program.

Chaque programme contient des menus qui regroupent des thèmes classés selon les problèmes biologiques à traiter. Une aide en ligne est disponible pour la quasi-totalité des programmes. Le manuel d'utilisation est écrit pour des biologistes, et sa lecture est vivement conseillée, tout spécialement le chapitre d'introduction, qui traite de généralités essentielles pour la bonne utilisation des programmes. Ce manuel "Staden Package Manual 1995" a été édité et est disponible au secrétariat du Service d'Informatique Scientifique.

Staden avec telnet ou un terminal X

Les micro-ordinateurs qui se connectent par liaison telnet sur cléopâtre pourront accéder directement aux programmes de Staden en tapant leur nom respectif.

Selon le type de terminal que l'on utilise, le logiciel Staden est disponible sous deux versions qui diffèrent par leur présentation : questionnaire ligne à ligne et sélection par numéro d'option, pour la version VT100, ou affichage de fenêtres et sélection par la souris, pour la version X. Toutefois deux versions homologues donnent des résultats identiques car les algorithmes et les traitements sont les mêmes.

Les programmes pour terminaux X ont un nom préfixé par la lettre x (sauf ted), c'est à l'utilisateur de choisir la bonne version. Personnellement je conseille de lancer ces programmes en arrière-plan, en ajoutant & après le nom, ce qui laissera accès à la fenêtre de départ Xterm, pour des commandes en parallèle.

Comment utiliser les programmes de Staden ?

Dans leur présentation les programmes de Staden ont un mode d'emploi homogène et standardisé. La version VT100 présente des menus nommés m0 à m9 et des options par numéro. A tout moment une aide peut être demandée par ?, une sortie d'option par ! et un arrêt du programme par !!. Une sonnerie est émise de temps en temps, pour ménager une pause dans le programme, vous continuez en tapant sur la touche RETURN, ou vous arrêtez en tapant !.

La version X obéit aussi à des normes, le lancement d'un programme X ouvre 3 fenêtres : Dialogue qui contient tous les menus et options éligibles par ce programme, Graphics qui contiendra toutes les sorties graphiques et Output qui recevra toutes les sorties de texte (c'est-à-dire les résultats).

Chaque fenêtre de dialogue contient un bouton Help qui donnera de l'aide sur le programme en général et sur chacune de ses options. Un bouton Quit permet de terminer le programme. Dès qu'une option est choisie, on peut en sortir avec le bouton Cancel sans quitter le programme. Pour savoir ce que fait une option disponible, on peut donc enchaîner le choix d'option, demande d'aide et exécution (ou Cancel si ce n'est pas l'option désirée).

Toutes les résultats de la fenêtre Output pourront être redirigés vers un fichier texte, au moyen de l'option Redirect output en précisant Redirect text et un nom de fichier. A partir de ce moment tout le texte s'inscrira dans le fichier mais plus dans la fenêtre. Pour revenir à l'état initial, il faudra refermer le fichier avec l'option Redirect output et Close.

Toutes les sorties graphique pourront être redirigées vers un fichier postscript, au moyen l'option Redirect output en précisant Open postscript file et un nom de fichier n'existant pas. A partir de ce moment tout graphique s'inscrira simultanément dans la fenêtre et dans le fichier. Pour revenir à l'état initial, il faudra refermer le fichier avec l'option Redirect output et Close.

Description des logiciels Staden

Les références au manuel sont indiquées entre parenthèses.

ted : trace editor (voir Help en ligne)
Ce programme permet de visualiser et de manipuler les fichiers "trace" en provenance de machines à séquencer automatiques. Les courbes d'élutions sont affichées en 4 couleurs, une pour chaque base et l'opérateur peut ajuster les frontières droite et gauche de la région à sélectionner qui est inscrite sur un fichier texte. Les régions ainsi excisées sont gardées dans le fichier texte comme du commentaire, aussi il est conseillé de ne pas faire ce travail avec un éditeur de texte ordinaire. Les régions non apparentes pourront être récupérées manuellement avec xgap dans la phase finale du projet, pour rapprocher des contigs non jointifs.

gap, xgap : genome assembly program (§4)
Ces deux programmes permettent la manipulation de gels et la création de zones contiguës (contigs) pour les projets de séquençage utilisant la méthode de shotgun. Pour les projets utilisant un séquenceur automatique, l'éditeur de contigs contenu dans xgap est d'un intérêt incomparable, puisqu'on peut corriger les gels en examinant leurs profils simultanément. Les données sont maintenant stockées dans 2 fichier s: un principal qui porte le nom du projet suivi du numéro de version, un auxiliaire dont le nom est suffixé par ".aux". Comme ces fichiers contiennent toutes les données accumulées depuis le départ du projet, il faut les sauvegarder régulièrement et de préférence avant toute modification de grande ampleur.

convert : convertisseur de format de database pour xgap
Pour que les données accumulées dans les databases gérées xdap et xbap puissent être réutilisables avec la nouvelle version xgap, il est fournit un convertisseur, qui transforme ces données d'un format dans l'autre. Attention à bien identifier le format d'origine.

nip, xnip : nucleotide interpretation program (§5,6,7,8,9,10) permettent d'analyser une séquence nucléotidique grâce à un choix d'options regroupées par menus notés entre {}
{general} : recherche de sites d'enzymes de restriction (§8)
{statistics} : composition en bases, dinucléotides, trinucléotides et recherche de composition en bases irrégulière (§9)
{structure} : recherche de structures en "hairpin loops", de Zdna ou de répétitions (§9)
{translation and codons} : traduction dans les six phases et recherche de phase ouverte (§10)
{gene search by contents} : la recherche de régions codantes par différentes méthodes (§5)
{general signals menu} : recherches de motifs par pourcentage de similitude, par matrice de score (tenant compte du code IUB), par matrice de poids (tenant compte de la position) (§6) et recherche d'enchaînement de motifs (§7)
{specific signals menu} : recherches de motifs spécifiques tels que promoteur d'E.coli, sites de liaison de ribosomes procaryotes (ou eucaryotes), sites d'épissage du mRNA, sites de polyadénylation (§6)

pip, xpip : protein interpretation program (§11) permettent d'analyser une séquence peptidique.
{general} : traduction inverse avec utilisation de codes d'ambiguïté, restitue une séquence en DNA (§8)
{statistics} : composition en amino-acides, poids moléculaire, tracé de graphes d'hydrophobicité ou de charge électrique (§11)
{structure} : prédiction de structure secondaire selon Garnier et Robson, avec tracé d'une structure en hélice (§11)
{search} : recherche de motifs avec ou sans pourcentage de similitude, en employant une matrice de score ou une matrice de poids (§12)

sip, xsip : similarity investigation program (§14) permettent d'aligner deux séquences avec tracé d'un diagramme représentant les diagonales d'homologie. Pour la comparaison en acides nucléiques une matrice identité est utilisée, elle ne comptabilise que les bases identiques entre les deux séquences. Pour la comparaison en amino-acides, la matrice MDM78 de Dayhoff permet de comptabiliser des scores différents selon que les amino-acides sont identiques ou apparentés. Cela permet de mettre en évidence un rapport éloigné entre séquences peptidiques.
Trois méthodes de calcul du diagramme de points sont disponibles. La méthode dite "identities algorithm" ne retient que les identités parfaites à l'intérieur d'une fenêtre déplacée sur les deux séquences à comparer. La méthode dénommée "proportional algorithm" tient compte des valeurs données par la matrice de score MDM78 pour évaluer un score cumulé à l'intérieur de la fenêtre. Un point est tracé sur le diagramme si le score calculé dans la fenêtre est supérieur au score minimum demandé. La troisième méthode appelée "quick scan" est plutôt un alignement local similaire au programme FASTA. En complément des deux méthodes précédentes, elle permet, avec le réticule (cross hair), de découper au préalable une région de forte homologie entre les séquences, et d'en affiner l'alignement local.
Au démarrage, ces programmes attendent les noms des deux séquences à traiter, puis apparaît un menu, dont voici les options :
{general} : complémenter une séquence
{set parameters} : voir les valeurs des paramètres, ou les changer. Il est à noter que le paramètre "switch main diagonal" est un inverseur qui permet d'afficher ou non la diagonale, dans le cas d'une séquence comparée avec elle-même pour rechercher des zones répétées. L'inverseur "switch identities" permet à l'algorithme proportionnel d'afficher un point pour chaque résidu identique à l'intérieur d'une fenêtre de score supérieur au seuil. La valeur inverse "identities off" affiche un point pour tous les résidus situés à l'intérieur d'une fenêtre dont le score est suffisant.
{comparaison} : comparaison ou alignement par l'une des méthodes précédentes.

sipl : similarity investigation program for libraries (§14)
Ce programme utilise l'algorithme "quick scan" des programmes sip et xsip pour comparer une séquence avec une banque ou une sous-banque. Ce programme n'a pas de menu, ni de version X. Une aide est disponible sur l'option "quick scan" des programmes précédents, et les paramètres ont des valeurs par défaut correctes pour une utilisation normale.

Bernard Caudron


Logiciels réseau pour Macintosh

Accéder aux ressources du campus et de l'Internet

Les Macintosh disposent tous de fonctions de base permettant d'utiliser le réseau : le partage de fichiers et l'impression notamment. Afin de pouvoir accéder aux nombreuses autres ressources disponibles aussi bien sur le campus que sur les réseaux extérieurs, ces logiciels de base ne sont pas suffisants. Il faut sur chaque Macintosh installer des outils supplémentaires vous permettant d'utiliser les protocoles TCP/IP et de vous connecter notamment aux serveurs du Service d'Informatique Scientifique que sont Mendel et maintenant Cléopâtre.

Nous allons profiter de la mise en service de Cléopâtre pour passer dans les diverses unités et remettre à jour les configurations des Macintosh en y installant certains outils, ou bien en en remplaçant d'autres par des versions plus récentes, mais également plus fiables et plus agréables à utiliser. Ces outils sont :

Les quelques paragraphes qui suivent vous précisent cette démarche et vous expliquent comment utiliser au mieux ces outils dont certains seront nouveaux pour vous.

Dossier contenant ces logiciels

Sauf indication contraire, l'ensemble des outils que nous installons sur vos Macintosh se trouveront dans le Dossier Réseau de votre disque dur. Si ce dossier n'existe pas nous le créerons. Les fichiers spécifiques au système, tels MacTCP et les fichiers de préférences, seront eux installés dans l'emplacement adéquat du dossier système de votre Macintosh. Enfin, pour chaque programme que vous pourrez utiliser, un icône sera également placé dans le Menu pomme de votre Macintosh afin de permettre un accès rapide à ces outils.

MacTCP : l'accès aux protocoles TCP/IP

Votre Macintosh, tel qu'il vous est livré par votre fournisseur, ne connaît qu'un seul type de réseau : le réseau Appletalk. MacTCP est une extension au système qui va lui permettre en plus de comprendre les protocoles TCP/IP, qui sont ceux utilisés sur le réseau de l'Institut Pasteur, ainsi que sur l'Internet partout dans le monde. La version que nous installons sur vos Macintosh est la 2.0.6 pour laquelle l'Institut Pasteur dispose d'une licence site nous permettant de l'installer sur chaque Macintosh de l'Institut. Ce logiciel est rangé dans le dossier contenant les Tableaux de bord, sous le Dossier système. Il est installé et préconfiguré pour votre unité. Afin d'éviter toute altération accidentelle de la configuration, vous ne pourrez pas modifier les paramètres de MacTCP.

Fetch : transfert de fichiers par le protocole FTP

Fetch est une interface agréable pour effectuer des transferts de fichiers entre machines connectées sur l'Internet, notamment entre les serveurs du SIS et votre Macintosh. Nous vous installons la version 2.1.2. Le programme exécutable ainsi que son fichier d'aide sont copiés dans le Dossier Réseau de votre disque dur. Des préférences viennent se mettre dans le dossier Préférences du Dossier système et un alias nommé Fetch (FTP) se trouve dans le menu pomme de votre Macintosh. La version installée dispose de deux profils de connexion : un vers la machine central.pasteur.fr alias Cléopâtre(3), où se trouve votre compte, et un second vers le serveur d'archives public de l'Institut Pasteur : ftp.pasteur.fr. Vous pouvez bien entendu ajouter des profils permettant la connexion vers les sites que vous utilisez habituellement. Lorsque vous vous connectez sur un site archive anonyme, il est d'usage d'utiliser le nom de connexion anonymous et de donner son adresse électronique en guise de mot de passe. Il est particulièrement malpoli de ne pas indiquer son adresse électronique.

NCSA Telnet 2.7b4 : connexion à distance sur d'autres machines

Telnet est un protocole permettant d'établir des sessions interactives entre votre machine et une machine distante, qu'elle soit sur le campus de l'Institut Pasteur, ailleurs en France ou en fait n'importe où dans le monde, du moment que cette machine soit connectée à l'Internet et que vous ayez l'autorisation administrative de vous y connecter. Vous connaissez très certainement déjà ce programme : les entrées darwin et mendel qui figurent (ou figuraient) peut-être dans votre menu pomme sont en fait des fichiers de préférence qui vont vous ouvrir NCSA Telnet et vous connecter, par le réseau, aux machines darwin ou mendel selon votre souhait. Dans la nouvelle configuration, NCSA Telnet apparaîtra dans votre menu pomme sous son vrai nom, avec une mention supplémentaire : central pour vous rappeler que lorsque vous lancez NCSA Telnet, le choix File/Open vous proposera par défaut d'établir une connexion vers la machine central.pasteur.fr. Si vous souhaitez vous connecter sur un autre système il vous suffit de saisir le nom de celui-ci dans l'emplacement prévu à cet effet.

Netscape : butineur d'accès au Web

Les personnes se connectant à Cléopâtre par Telnet peuvent utiliser l'interface Lynx pour accéder aux ressources des serveur WWW, avec un confort il faut l'avouer bien faible. Si vous souhaitez bénéficier du même confort que les utilisateurs de terminaux X, vous pouvez utiliser Netscape directement sur votre Macintosh : l'interface est identique à celle que vous pourrez rencontrer sous UNIX ou d'autres systèmes d'exploitation. Lorsque vous démarrez Netscape, celui-ci chargera automatiquement la page d'accueil du serveur WWW de l'Institut Pasteur (lire B6 numéro 7) et vous pourrez à partir de là vous déplacer et accéder à d'autres ressources.

Il est important que vous sachiez que Netscape est un produit commercial et que son usage sans frais n'est autorisé que dans le cadre d'organismes d'enseignement ou d'organismes charitables à but non lucratif. Tout autre usage impose le paiement d'une redevance à la société Netscape.

Eudora : messagerie électronique

Eudora est un excellent outil qui vous permet d'avoir votre courrier électronique sur votre Macintosh. Ce confort d'utilisation a quand même une contrepartie que vous devez connaître afin de décider en connaissance de cause si l'utilisation de Eudora est adaptée à vos besoins :

L'interface de Eudora est agréable et confortable, puisque ce produit fonctionne selon les bonne habitudes des logiciels sur Macintosh.

C'est pour ces raisons que nous n'installerons Eudora que sur les postes individuels, et pas sur les Macintosh qui se trouvent dans les laboratoires où ils sont utilisés par plusieurs personnes.

Disinfectant 3.6 : anti-virus

Les utilisateurs de micro-informatique sont régulièrement confrontés aux problèmes de virus informatiques qui de part les mauvaises intentions de leurs auteurs et le mode de fonctionnement d'un micro-ordinateur, sans sécurité, ont une tendance à se propager très rapidement. Disinfectant est un outil dont l'objectif est de faire la chasse à ces virus et de les détecter avant qu'ils n'aillent vous causer des soucis. Bien évidemment, de tels outils ne sont pas parfaits, et la meilleure lutte contre ces risques réside dans l'utilisation de disquettes et de logiciels dont l'origine sont connues. Bien souvent ces virus informatiques se propagent par la distribution de versions de logiciels obtenues illégalement. Nous ne pouvons que vous conseiller de ne pas utiliser de disquette et de programmes dont l'origine est incertaine.

Christophe Wolfhugel


La formation des utilisateurs

Depuis le mois d'avril le Service d'Informatique Scientifique organise des séances de formation aux utilisateurs. Deux sessions ont déjà eu lieu, la troisième commence le 19 septembre. Les séances de cours durent chacune 1/2, une ou deux journées et se font essentiellement sous forme de travaux pratiques sur machine.

Les thèmes abordés sont d'une part liés aux réseaux informatiques, d'autre part aux méthodes informatiques pour la biologie.

Réseaux informatiques : Internet et Unix

-----------------------------------------------------------------
Unix 
(2 cours d'1/2 journée)   Familiarisation avec les terminaux X 
			  et manipulation du fenêtrage X11.        
			  Système de fichiers. Commandes Unix.

Courrier et News          Les moyens de communication de  
(1/2 journée)             l'Internet. Initiation au logiciel elm 
                          de courrier électronique et au logiciel 
			  xrn de lecture de news.                    

Internet		  Transfert de fichiers. Systèmes        
(1/2 journée)             d'informations (gopher et Web) 
			  et recherche d'information (archie)       
------------------------------------------------------------------

Biologie et Informatique

------------------------------------------------------------------
Blast et Fasta 		  Algorithmes et utilisation des deux    
(1 journée)               méthodes les plus connues pour les 
			  comparaisons de séquences

Phylogénie                Étude des méthodes d'analyses    
(1 jounée)                phylogénétiques       
                 
GCG			  Étude des modules inclus dans le  
(1 journée)               paquetage GCG8         

Linkage			  Apprentissage de l'utilisation des      
(2 journées)              logiciels d'analyse de liaison génétique   
                          sur un système Unix
------------------------------------------------------------------

Le suivi des cours "Unix" est nécessaire pour accéder aux autres, à moins d'avoir un bon niveau de connaissance en Unix et en gestion de fenêtres X11.

La salle de cours ne peut contenir que 15 élèves. Pour chaque session, il y a eu jusqu'ici plus d'une centaine de candidats, si bien que de nombreuses demandes n'ont pu être satisfaites. Ces cours vont continuer, au rythme d'une session tous les deux mois environ, jusqu'à épuisement (!) des candidats. Si vous n'êtes pas sélectionné, ne désespérez pas : certaines personnes se sont inscrites déjà trois fois. Nous nous efforçons de former au moins une personne par unité, de manière a pouvoir diffuser au mieux cet enseignement.

Pour vous inscrire, vous devez remplir la fiche qui parvient a votre unité sous la forme d'une note d'information. Ces fiches d'inscription sont également disponibles au SIS.

Nous envisageons également d'organiser des cours de plus haut niveau en programmation informatique, de quelques journées. Les thèmes abordés seraient : Perl, C, écriture de documents HTML, ... et plus en fonction des propositions des utilisateurs.

Pour tout renseignement complémentaire, vous pouvez contacter Irène Wang, par mail de préférence (irenew@pasteur.fr) ou au poste 3460.

Irène Wang


Programme provisoire du cours Linkage

(assuré par Lucien Bachner)


Un Cours Pasteur "Informatique en Biologie"

L'accumulation des données de biologie moléculaire est extrêmement rapide. Ainsi, les séquences de chromosomes entiers sont maintenant stockées sur des disques durs. Il n'est pas difficile d'imaginer qu'une part de plus en plus importante de la recherche en biologie moléculaire reposera sur la mise en &oe;uvre de moyens de calcul puissants et sur leur utilisation judicieuse. Cette constatation a conduit à créer, voici maintenant trois ans, un Cours consacré à l'Informatique en Biologie à l'Institut Pasteur.

L'objectif est de donner à des chercheurs ou de futurs chercheurs en biologie une formation initiale à l'informatique. Ce cours leur permettra ainsi d'acquérir les compétences nécessaires pour juger les algorithmes mis en &oe;uvre par les logiciels et pour évaluer les matériels qui leur seront proposés.

L'accent sera mis sur les aspects fondamentaux de la discipline, mais certaines applications, à la biologie principalement, seront envisagées et étudiées. Les aspects théoriques de l'informatique seront introduits : linguistique de la programmation, calculabilité, logique, ainsi que des domaines techniques comme le système, les réseaux et l'architecture des ordinateurs. La programmation sera enseignée selon le paradigme fonctionnel, mais les styles impératif et par objets seront aussi abordés.

Les méthodes plus particulièrement utilisées en biologie seront introduites au travers de deux grands domaines : l'analyse de séquences et la modélisation moléculaire.

La visée d'un excellent niveau théorique ne devra pas nuire à l'acquisition de connaissances pratiques directement utiles dans un laboratoire expérimental.

Ce cours, dont ce sera la troisième session, comprendra des conférences et des travaux pratiques sur machine ; il sera réservé aux titulaires d'une maîtrise en biologie ou d'un diplôme équivalent. Il s'étendra sur trois mois (à plein temps) et sa prochaine édition aura lieu de janvier 1996 à mi-avril 1996.

William Saurin

NB : lorsque vous lirez cette annonce la date limite d'inscription sera peut-être dépassée. Vous pouvez néanmoins envoyer un message électronique à algo@pasteur.fr, il sera sans doute possible de prendre encore des inscriptions.


Sur la thérapie génique

Êtes-vous intéressé par les premiers résultats cliniques publiés en thérapie génique? Par un survol synthétique des essais actuellement menés en France et dans le monde : avec quels outils, et dans quel but thérapeutique. Peut-être souhaitez-vous des précisions sur le cadre juridique de ces interventions sur le génome humain, ou connaître les aspects économiques qui se dessinent.

Si c'est le cas, consultez le Web de l'Institut Pasteur, où un chapitre "Thérapie Génique" est en cours de développement (le plus simple est de taper Netscape).

Un bref mot de présentation :

A partir des années 70, de plus en plus d'affections humaines ont trouvé leur explication au niveau moléculaire, et dans certains cas au niveau génétique: cancers, maladies héréditaires, atteintes dégénératives ... Depuis la fin des années 80, un nouveau type de médecine fondé sur l'administration de matériel génétique est né : la thérapie génique. La thérapie génique a pour principe de soigner les maladies d'origine génétique en corrigeant les cellules génétiquement altérées de l'organisme, par un apport exogène de séquences réparatrices. Récemment, elle a été élargie à l'administration de protéines à but curatif, notamment dans les cas de cancers et d'infection par HIV.

Depuis le premier essai clinique mondial, il y a six ans, on dénombre déjà près de 600 patients traités par thérapie génique pour diverses affections, aux USA principalement, mais aussi en France. Pourtant, il n'y a pas de revue à jour permettant d'en faire le survol. D'autant plus que la liste s'allonge de plus en plus vite. Par contre, vous trouverez ces informations sur le Web de l'Institut avec un des avantages d'une revue informatique : la mise à jour régulière, avec les références précises.

Si vous vous intéressez aux aspects économiques, ou encore au cadre juridique de la thérapie génique, voici un aperçu de ce que vous pourrez consulter plus en détail.

Dès 1992, on répertoriait 142 sociétés et 434 organismes impliquées d'une façon ou d'une autre dans le développement de la thérapie génique, au sein d'un marché évalué à 1,2 milliards de dollars. Des prévisions plus récentes annoncent 400 milliards de dollars pour 2015. Elles illustrent l'intérêt croissant de l'industrie pharmaceutique : d'importants acteurs économiques sont récemment entrés en jeu, telles les compagnies Sandoz, Roche, Rhône Poulenc Rorer, SmithKline Beecham, Merck, Glaxo et Merrill Lynch ; et on estime qu'un tiers du budget santé dépensé sur le marché pharmaceutique sera consacré à la thérapie génique. Ces considérations ont une incidence très sensible sur le devenir de la thérapie génique humaine, et les pays concernés ont d'ores et déjà fixé un cadre légal à sa pratique.

Cent seize essais cliniques de phase I sont actuellement en cours dans divers pays occidentaux. Majoritairement aux Etats-Unis, où les demandes s'accumulent au Recombinant DNA Advisory Committee depuis sa création en 1985. Aussi faut-il insister sur les critères de sélection établis par cette administration, qui ont inspiré les législateurs européens. Vous les trouverez sur le Web de l'Institut, ainsi que la procédure officielle qui autorise ou non un essai clinique, en France ou aux Etats-Unis.

Thomas Valère


Annonces

John S. Quarterman à Pasteur

L'Association Française des Utilisateurs d'Unix (AFUU) organise mercredi 25 octobre à 14 heures, dans le Grand Amphithéâtre de l'Institut Pasteur, une conférence sur le futur technique et économique de l'Internet. Le nom de John S. Quarterman est célèbre sur le réseau pour ses livres et ses publications, il est une autorité pour tout ce qui concerne la topologie et la géographie de l'Internet et des autres réseaux déployés dans le monde.

Sa conférence sera accessible à un auditoire non spécialisé ; réservée en principe aux personnes inscrites auprès de l'AFUU, elle sera ouverte à tous les Pasteuriens munis de leur badge dans la limite des places disponibles.

Tài-jí Quán

L'informatique suscite des tensions physiques et nerveuses : pour les combattre, inscrivez-vous au cours de Tài-jí Quán (Taï Chi Chuan) de l'ASIP (Association Sportive de l'Institut Pasteur), tous les lundis à 17 h 30. Renseignements : NGHIÊM Hoàng Oanh, p. 8808.

Formulaires administratifs sur le réseau

La Direction des Ressources Humaines a mis sous forme de documents informatiques les formulaires vierges du support d'entretien individuel et du rapport des jurys de qualification afin que les personnes appelées à les remplir puissent le faire en utilisant un Macintosh. Ils sont accessibles par le réseau au moyen du logiciel Fetch, sur le serveur ftp.pasteur.fr, dans le répertoire /pub/DRH.


Notes

(1)
Sur le réseau ce nom sera utilisé sans les accents que nous avons maintenus dans le corps de ce texte.
(2)
Sur le réseau ce nom sera utilisé sans les accents que nous avons maintenus dans le corps de ce texte.
(3)
Lorsque nous avons commencé à établir les plans du passage de mendel à Cléopâtre, nous nous sommes aperçus qu'une grande part des difficultés allait provenir du changement de nom lui-même. Il n'aurait été ni prudent ni honnête de baptiser froidement mendel la nouvelle machine. Nous avons donc choisi des noms génériques qui devraient faciliter les évolutions futures: central pour la machine "à tout faire", mailhost pour la machine qui traite le courrier électronique, ftp pour le serveur ftp, news pour le serveur de news. Vous pouvez les utiliser sans avoir à vous préoccuper de l'ordinateur physique concerné et les mettre dans les fichiers de Préférences de vos Macintosh, suivis de .pasteur.fr: central.pasteur.fr par exemple (NDLR).


Ours


Vous pouvez également consulter d'autres numéros du B6.