HTML> B6 no 7

 Bulletin du Service d¹Informatique Scientifique - Numéro 7 - septembre 1995


Table des matières



Le serveur Web de l'Institut Pasteur


Qu'est ce que le Web ?

Le World Wide Web est un système d'information multimedia sur l'Internet. Il a été créé au CERN en 1989. Sa définition officielle est : wide-area hypermedia information retrieval initiative aiming to give universal access to a large universe of documents. Il est fondé sur l'extension de la technique hypertexte aux réseaux. La notion d'hypertexte est celle d'un livre sur réseau, où chaque chapitre pourrait être porté par une machine différente.

Quelques définitions

Web, World Wide Web, WWW, W3
Littéralement, "toile d'araignée mondiale". Système d'information hypermedia en réseau.
HTML
HyperText Markup Language. Langage d'écriture de documents hypermedia.
HTTP
HyperText Transfer Protocol. Langage utilisé entre le client Web et le serveur Web.
URL
Uniform Resource Locator. Permet se connecter aussi bien à tous les types de serveurs, en spécifiant la ressource d'une manière non ambiguë.

Le modèle client/serveur


En tant que serveur, Web joint le port http et fournit la ressource demandée. En tant que client, il émet des requêtes (http, gopher, wais, news, fichier local, telnet ou ftp) et restitue la réponse du serveur.

Les documents HTML se présentent sous la forme de pages contenant des textes et des images (éventuellement des sons), dans lesquelles on peut inclure des liens vers d'autres documents, locaux ou distants.

Allons-y !.

Passer d'un document à l'autre s'appelle naviguer. Pour lire les documents, il faut un navigateur (ou butineur, ou fureteur, browser en anglais).

La simplicité de la navigation sur le Web fait que ce système prend une ampleur considérable dans les systèmes d'information sur réseau.

Le serveur Web de l'Institut Pasteur

Le Service d'Informatique Scientifique de l'Institut Pasteur a mis en place un serveur Web qui est en cours de développement (adresse http://www.pasteur.fr/). Comme les autres serveurs publics de l'Institut Pasteur, il est maintenu sur la station montespan.pasteur.fr.
Ce serveur propose des renseignements sur l'Institut Pasteur et ce qui s'y passe, ainsi que des liens vers des ressources de biologie et d'informatique des réseaux. Dans la mesure du possible, les documents sont bilingues.
La page d'accueil se présente ainsi comme ci-dessus (page précédente). Les zones de textes ou d'images en bleu représentent des liens vers d'autres pages. Il suffit d'y cliquer pour accéder à de nouveaux renseignements.

Les deux navigateurs les plus connus sont Mosaic et Netscape, qui sont disponibles pour toutes les plate-formes (Unix, Mac et PC). Ils sont bien évidemment accessibles sur mendel (commandes : Netscape ou Mosaic) et peuvent être récupérés en version Macintosh sur le serveur ftp public de l'Institut Pasteur (ftp.pasteur.fr, répertoire /pub/Mac/Networking/).

Nous développons actuellement les parties "informations", notamment une carte détaillée du campus, une présentation des activités de l'Institut.
Nous souhaitons également développer grâce à ce serveur la diffusion de documents internes, auxquels seules les machines du réseau "pasteur.fr" peuvent accéder. Il est possible pour le moment de consulter l'annuaire de cette manière, et prochainement Campus, la revue de presse et le B6.

Les responsables de ce serveur sont : Daniel Azuelos et Christophe Wolfhugel pour les pages techniques et les problèmes de réseau ; Catherine Letondal pour les pages concernant la biologie ; Irène Wang pour la gestion générale du serveur.

Une adresse pour tous les commentaires concernant le serveur Web : www@pasteur.fr

<Irène Wang>


Biologie Moléculaire sur le Web


Le Web a pris une grande importance en biologie, et notamment en biologie moléculaire. On y trouve des banques de données, des serveurs de calcul qui permettent d'effectuer des analyses de séquences en ligne, des logiciels, de la documentation (papiers, guides, ... ou références bibliographiques). Il devient difficile de s'en passer.

Ces informations (textes, images, séquences, etc...) réparties dans le monde entier sont relativement simples à préparer, et encore plus simples d'accès, puisqu'il suffit de suivre des liens hypertextes ou d'utiliser les outils de recherche indexée. Evidemment, le revers de la médaille est la profusion d'informations, et le plus souvent l'absence d'organisation concertée des ressources. Plusieurs moyens permettent de s'en sortir : avoir ses propres marque-pages, se fabriquer une collection de références résumées dans une page Web, etc...

Tous les serveurs Web proposent pour cette raison de tels répertoires de références hypertexte, répertoires qui se recoupent nécessairement. Ils constituent des points de départ pour les utilisateurs, mais il faut savoir que les URL (les liens hypertexte) changent souvent, et qu'il s'en crée de nouveaux tous les jours : obsolescence et non-exhaustivité, donc.

Les pages de références présentées sur le serveur Web de l'Institut Pasteur (http://www.pasteur.fr pour la page d'accueil générale et http://www.pasteur.fr/other/biology/francais/rubriques-fr.html pour la page "Biologie Moléculaire sur le Web") se proposent de guider les biologistes à la recherche d'une information. Le menu principal divise les références en quelques grandes rubriques ; une recherche par mot-clés permet soit de trouver une référence et de l'utiliser directement, soit de retrouver la rubrique dans laquelle elle est citée ; enfin, une page d'introduction donne une brève description du contenu des rubriques. Actuellement, la recherche par mot-clés porte uniquement sur le texte de présentation des références et sur les URLs. Prochainement, elle parcourra également les documents référencés.

Serveurs d'informations

La première rubrique propose une liste des serveurs d'informations en biologie (non exhaustive évidemment), présentés par pays. Typiquement, on y trouve les pages d'accueil des organismes, des instituts, des départements de biologie moléculaire des universités et des laboratoires.

La page "Butineurs, Meta-Index et répertoires d'URL en biologie" est destinée à la navigation en haute mer : références aux divers répertoires de références qui eux-mêmes contiennent des répertoires de références ; attention à la noyade...

Banques de données

Les références permettant d'accéder aux banques de données sont réparties en trois rubriques :

  1. un répertoire des banques de données : Genbank, EMBL, etc.. classées par type de banques (séquences, structures...) ; incluant une liste d'autres répertoires ainsi que des systèmes d'interrogation multi-banques : ces systèmes intègrent les différentes banques par des liens sur les clés d'accès, ou même, comme Entrez, par des calculs de similarités entre toutes les séquences de la banque ou des recherches statistiques sur les entrées bibliographiques ;
  2. une page consacrée aux banques de données d'organismes et aux projets génome ;
  3. une rubrique pour la soumission de séquences aux banques de données dans laquelle on trouve par exemple BankIt qui permet de soumettre directement une séquence à Genbank.

Outils d'analyse

On trouve sur le Web un grand nombre de services de calcul : comparaison de séquences, recherche de motifs, alignements multiples, analyse phylogénétique, prédiction de structure secondaire. C'est là qu'on trouve les serveurs BLAST ou FASTA pour faire de la recherche de similarités dans les grandes banques de séquences. Mais il y a de nombreux types d'analyse, proposés par exemple par les serveurs EMBL, Alces, BCM, ExPASy. L'accès à ces différents services est souvent possible par courrier électronique.

Structures

Des ressources hypertexte en modélisation moléculaire, cristallographie et RMN, ainsi que les banques ou les logiciels utilisés dans ces domaines sont rassemblées dans une même page, qui permet aussi de trouver des images.

Documents

Parmi les documents accessibles par le Web, on trouve des guides utilisateurs (pour GCG ou Blast par exemple), des cours (cours de biologie cellulaire, de phylogénie, de génétique, de structure des protéines, etc...), des dictionnaires, des actes de conférences, etc... Si par exemple vous voulez retrouver la définition chimique d'un acide aminé... Et bien sûr d'autres répertoires de documents qui contiennent les références que vous n'avez pas encore trouvées. La recherche d'une bibliographie en biologie est assez développée sur le Web : recherche dans Medline (bien que limitée aux ouvrages associés aux séquences), recherche sur le serveur SeqAnalRef, ou bien par DBGET, au Japon ; liste des papiers publiés dans les journaux, au Généthon, etc..

Logiciels

On peut aussi essayer de trouver des ressources sur les logiciels biologiques : soit la distribution, soit la page d'accueil des utilisateurs de ce logiciel, soit simplement la documentation ou les références. Le "BioCatalog" de l'EBI, interrogeable par mot-clés, liste la plupart des programmes de biologie moléculaire.

Mathématiques

Enfin, les aspects "matheux" de la biologie (théorie de l'information, statistiques, ..) sont l'objet de la rubrique : "Théorie de l'information, mathématiques, statistiques".

Nouveautés

Pour ceux qui consultent plus régulièrement ces pages, les références dernièrement ajoutées sont mentionnées dans la page des nouveautés. Insistons : il ne s'agit pas des nouveautés sur le Web, mais des références ajoutées récemment dans ces pages.

<Catherine Letondal>


Une page de manuel

Les pages de manuel (man pages) sont le phare et le refuge de l'utilisateur perdu dans l'océan UNIX, mais parfois aussi son cauchemar (essayez man bash un jour, par exemple). En voici une qui pourrait vous aider à consulter les autres.


NCM(1)                  (Essential Fluids)                      NCM(1) 

NAME

ncm - new coffee maker

SYNOPSIS

ncm [ -RadCxmlnogrtucpFbqisf ]
[caf|decaf|columbian]

DESCRIPTION

For each available heating unit, ncm determines if coffee exists, is hot, and is not tar(4). If any of these are true, the necessary actions are taken to change the situation as required, or as specified by the environment variable BURNERS. ncp then gathers the necessary material and proceeds. The -M option makes coffee in the morning. The drinkinfo(4) database is used to determine the blend and the amount of caffeine, based on the environment variables DRINK, TZ, and the current time. If this information cannot be obtained, full strength Maxwell House is assumed.

The ncm command has many, many more than the following options, not all of which are currently supported. Some may never be supported. We are really busy here, and we will try to get around to it as soon as possible, but Doc is breathing down my neck to get something else done, so you will just have to be patient!:

-R Recursively make coffee until all resources are exhausted.
-a Generate aroma only.
-l The same as -n except slower.
-d Brew decaf. Will not operate before 10:30 am.
-n The same as -l
-j Use Jamaica Blue Mountain primo special. This can only be executed by coffeadmin.
-r Reverse the order of brewing to get newest first or oldest first as appropriate.
-v Execute the vgrind(1) program before proceeding for a fresher brew.

EXAMPLES

ncp -ldm NOW!
Make lots of coffee now!

FILES

/etc/grinder /etc/filter

SEE ALSO

tee(1), coke(1), sync(1).

NOTES

The ncm command may be used as a filter.
For more information see the "Making Good Coffee" section of Chapter 10 of the Kitchen Administrator's Guide.

BUGS

Ick. I hope not.


Tài-jí Quán


L'informatique suscite des tensions physiques et nerveuses : pour les combattre, inscrivez-vous au cours deTài-jí Quán (Taï Chi Chuan) de l'ASIP (Association Sportive de l'Institut Pasteur), tous les lundis à 17 h 30.
Renseignements : NGHIÊM Hoàng Oanh, p. 8808.


Une charte de l'utilisateur des systèmes informatiques et du réseau de l'Institut Pasteur


Dans les semaines qui viennent vous allez recevoir un document intitulé charte de l'utilisateur des systèmes informatiques et du réseau de l'Institut Pasteur. La promulgation d'un tel document était devenue nécessaire à cause du développement de l'informatique dans nos murs (plus de douze cents utilisateurs réguliers).

Chaque utilisateur régulier a demandé, un jour, à être enregistré comme tel. Cette opération d'enregistrement s'appelle l'ouverture d'un compte, elle confère des droits et des responsabilités qui vont être rapidement décrits dans les lignes qui suivent.

Qui peut user des systèmes, à quel prix ?

Tout chercheur pasteurien ou d'un organisme de recherche extérieur travaillant sur le campus, tout stagiaire, toute personne dont la collaboration le justifie peut obtenir l'ouverture d'un compte sur les systèmes informatiques de l'Institut Pasteur en remettant au secrétariat du Service d'Informatique Scientifique le formulaire prévu à cet effet signé de l'intéressé(e) et de son Chef d'Unité. Ce compte une fois ouvert vous permettra, sans aucun frais ni facturation, d'accéder sans restriction aux moyens de calcul et de communication en réseau mis en &oe;uvre par le Service d'Informatique Scientifique.

Champ d'application de la charte

Toute personne enregistrée selon la procédure décrite ci-dessus est un "utilisateur enregistré" des systèmes pasteuriens, voué à respecter la charte. Les systèmes pasteuriens comportent aussi des services ouverts aux utilisateurs non-enregistrés, dits "services anonymes".
Les systèmes pasteuriens sont ceux situés sur le campus, mais les utilisateurs enregistrés doivent observer les règles stipulées par la charte aussi lorsqu'ils accèdent à des systèmes extérieurs depuis les systèmes pasteuriens, c'est à dire virtuellement dans tout l'Internet.

Nécessité de règles d'utilisation

Pour que les moyens de calcul et de communication en réseau restent disponibles dans de bonnes conditions pour l'ensemble de la communauté pasteurienne, il convient qu'ils soient utilisés de façon raisonnable, avec le souci du prochain. L'usage de systèmes en réseau diffère de celui des micro-ordinateurs : dans le second cas on a tous les droits parce que l'on ne gêne que soi ; dans le premier on risque aussi de déranger des centaines de personnes.
Vous avez accès sur nos systèmes à des ressources collectives. De façon générale, nous avons choisi de ne pas mettre de barrières rigides à leur utilisation, mais cela suppose un peu de bonne volonté de la part de chacun.
Aussi nous vous demanderons de respecter les consignes et conseils d'usage portés à votre connaissance par le Service d'Informatique Scientifique ; en cas de doute ou d'incompréhension nous serons toujours à votre disposition pour en parler avec vous (par courrier électronique à help@pasteur.fr si vous voulez, mais vous pouvez aussi venir nous voir). Les comptes d'utilisateurs convaincus de pratiques malveillantes à l'égard de collègues pasteuriens ou de tiers pourront être supprimés.

La règle fondamentale

Le compte qui vous est attribué est rigoureusement personnel. Vous ne devez sous aucun prétexte en permettre l'utilisation par une autre personne. Vous devez choisir un mot de passe suffisamment complexe pour qu'il ne soit pas facile à deviner, y compris par un programme informatique capable de faire des centaines d'essais par seconde, et que vous pourrez néanmoins vous rappeler, parce que vous vous interdirez absolument de l'écrire nulle part (un bon moyen de satisfaire ces contraintes apparemment peu compatibles : deux mots brefs séparés par un chiffre ou un signe diacritique). Ce mot de passe devra rester aussi secret et personnel que votre numéro de carte de crédit.
Pour lever quelques réticences parfois invoquées par des personnes que nous avons remarquées en train de partager des comptes : puisque l'ouverture de compte est gratuite, il n'y a aucune raison d'en faire l'économie, même pour un stagiaire de courte durée. Si vous voulez partager des données avec des collègues, il y a de meilleurs moyens que le partage de comptes, et nous nous ferons un plaisir de vous les expliquer si vous le désirez.
Pourquoi tant insister sur cette règle ? La raison en est simple : l'usurpation de compte et de mot de passe permet la malveillance masquée sur le réseau, l'expérience montre l'existence de tels phénomènes, et dans ce cas votre responsabilité serait juridiquement engagée. De telles pratiques détériorent la confiance de tous les utilisateurs du réseau.

Le périmètre de sécurité de l'Institut Pasteur

Le réseau informatique de l'Institut Pasteur est séparé du reste du monde informatique par un périmètre de sécurité. Votre mot de passe constitue l'un des moyens de franchir ce périmètre. D'autre moyens existent et sont mis en place par le service informatique en fonction de ce qu'il est acceptable de laisser entrer à l'intérieur de ce périmètre, ou d'en laisser sortir : par exemple l'accès anonyme à un serveur de fichiers, l'accès via le réseau téléphonique à un certain nombre de protocoles de l'Internet, l'accès depuis l'Internet via un coupe-feu à des machines dites "publiques" mais bien protégées.

Il va de soi que, tout comme partager un compte modifie ce périmètre, mettre en place de tels services ne peut se faire sans une connaissance et un suivi des problèmes de sécurité soulevés.

Les lois s'appliquent à l'informatique

Cela va de soi, mais le législateur a muni l'informatique et son usage de lois particulières, dont il serait inconcevable que les utilisateurs pasteuriens ne les respectassent point. Il s'agit essentiellement des lois n\xb0 78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés, n\xb0 85-660 du 3 juillet 1985 qui vient modifier et enrichir la loi n\xb0 57-298 du 11 mars 1957 relative aux droits d'auteur et aux droits voisins, et n\xb0 88-19 du 5 janvier 1988 relative à la fraude informatique.
Il vous revient notamment de veiller au respect des lois sur les droits d'auteur en vous interdisant les copies illicites de logiciels et de la loi sur la fraude informatique en ne facilitant pas les accès malveillants aux systèmes informatiques pasteuriens, sinon il convient que vous sachiez que votre responsabilité pénale personnelle serait engagée et que les lois citées ci-dessus prévoient des peines qui peuvent aller jusqu'à la prison ferme.
Sachez aussi que vous connecter à un système informatique auquel l'accès ne vous est pas autorisé tombe sous le coup de la loi n\xb0 88-19 du 5 janvier 1988, qui prévoit des peines aussi lourdes que la précédente. Le fait que le système objet de l'intrusion soit mal protégé n'est pas une circonstance atténuante retenue à ce jour par la jurisprudence.

Loi du 3 juillet 1985 : droit d'usage du logiciel

En bref, les dispositions de cette loi prévoient qu'un logiciel dont le droit d'usage a été concédé à un utilisateur pour un ordinateur ne peut pas être recopié pour être utilisé sur un autre. L'Institut Pasteur a acheté, pour certains logiciels, des droits d'usage multiples : c'est le cas des logiciels installés sur les ordinateurs Unix du Service d'Informatique Scientifique, ainsi que de certains logiciels produits par Apple et pour lesquels il a été possible de négocier des "licences de site". Des négociations sont en cours avec d'autres fournisseurs.
Pour tous les autres logiciels, et notamment les logiciels habituels sur micro-ordinateur comme le traitement de texte, il doit y avoir autant de copies achetées que de micro-ordinateurs. Être en contravention avec la loi exposerait à une saisie-contrefaçon exécutée par un huissier accompagné d'un commissaire de police, suivie de la poursuite devant les tribunaux des personnes responsables, dont l'utilisateur direct du logiciel concerné.
Pas plus que l'appartenance au monde de la recherche ne confère d'immunité particulière pour le vol à l'étalage, elle ne permet d'outrepasser le droit légal de recopie.
La conclusion fort claire de tout ceci est qu'il faut prêter la plus grande attention au respect de cette loi. Encore une fois, nous sommes à votre disposition pour discuter avec vous du détail de son application et des moyens d'acquérir les droits d'usage des logiciels dans les meilleures conditions.

Quelques attitudes conseillées

L'usage des disques

L'espace de mémoire sur disque des systèmes centraux est actuellement disponible sans limite, bien qu'il nous soit évidemment très facile d'en fixer une et que cet espace, comme toute création humaine, ait une taille finie. Aussi nous demandons-vous d'en user raisonnablement et de tenir compte des appels à la modération que nous pourrions être amenés à lancer.
Notamment, si vous souhaitez installer un logiciel d'usage général sur les machines que nous administrons, nous nous attendons à ce que vous veniez nous en parler, et nous serions douloureusement surpris que vous ne le fassiez point. Vous apprendrez d'ailleurs peut-être que ce logiciel est déjà disponible.

L'usage du réseau

N'essayez pas d'accéder aux systèmes dont les responsables ne vous ont pas ouvert l'accès (voir ci-dessus).
Évitez les heures de pointe (corrigées du décalage horaire éventuel) pour les transferts de gros volumes de données.
Dans vos messages électroniques (mail ou news), n'oubliez pas que tous les lecteurs savent que vous appartenez à l'Institut Pasteur. Vos propos, peu ou prou, n'engagent pas que vous. Si vous souhaitez vous exprimer plus librement, il existe aujourd'hui un certain nombre de fournisseurs d'accès privés à l'Internet, à des coûts très raisonnables, qui vous permettront, depuis votre domicile et avec vos équipements personnels, de faire connaître à tout un chacun vos opinions les plus tranchées.


Formulaires administratifs sur le réseau


La Direction des Ressources Humaines a mis sous forme de documents informatiques les formulaires vierges du support d'entretien individuel et du rapport des jurys de qualification afin que les personnes appelées à les remplir puissent le faire en utilisant un Macintosh. Ils sont accessibles par le réseau au moyen du logiciel Fetch, sur le serveur ftp.pasteur.fr, dans le répertoire /pub/DRH.


Les systèmes à la bibliothèque centrale


État de la question

L'intégration des fonctions et le catalogue

Il y a deux ans dans ce même B6, nous annoncions l'installation imminente de notre système de gestion des fonctions catalographiques et documentaires. Depuis, les choses ont - heureusement - bien évolué, et si ce système LORIS (installé sur le serveur BABEL) n'est pas encore parfait, il fonctionne assez bien. Ce que les utilisateurs en voient n'est bien sûr que la face émergée de l'iceberg, c'est-à-dire le catalogue (OPAC, pour "Open Public Access Catalog" dans le jargon bibliothéconomique) qui n'a rien, nous l'espérons, d'opaque, et que nous nous efforçons même de rendre petit à petit plus transparent...?

Pour le moment le catalogue n'est pas interrogeable en mode graphique, mais une version sur serveur Web est en cours de réalisation et nous espérons la tester bientôt. Elle aura le double avantage de fournir une interface plus conviviale et de permettre plus rapidement que nous le pensions une version interrogeable sur le réseau.

Il faut savoir que le système LORIS est assez lourd car c'est un système dit "intégré" qui gère dans une base unique des fonctions de nature très différentes, mais toutes imbriquées.
Une autre partie semi-visible pour l'utilisateur est la fonction de prêt, qui assure le lien entre les notices des documents et le fichier des lecteurs, gérant en même temps les délais et les relances de prêt.
L'application LORIS est hébergée sur un serveur SUN dédié à la bibliothèque, un SPARC 51 sous SUN OS, et elle tourne sous le SGBD Oracle.

L'interrogation à distance des bases bibliographiques

Toujours il y a deux ans, nous annoncions le projet de mise en réseau de l'interrogation des bases de données bibliographiques. C'est chose faite pour la base Medline depuis le mois de juin. En effet, l'étroite et toujours efficace collaboration avec le Service d'Informatique Scientifique a abouti au choix de deux systèmes, après une étude préalable complète qui a pris en compte les aspects techniques, informatiques et documentaires de plusieurs systèmes. Trois furent installés en test et ont donné lieu à une analyse comparative. Il s'agissait des systèmes proposés respectivement par les sociétés OVID Technologies, Ariès et Silverplatter.

Les tests ont été effectués sur site, et successivement, pour des raisons matérielles (limites de la machine) et organisationnelles (négociations en cours avec les fournisseurs potentiels).

Après l'évaluation de ces tests par les utilisateurs et les documentalistes, le choix s'est porté pour la première année sur l'installation des deux logiciels, OVID et Knowledge server. En effet, le logiciel qui nous a semblé le plus fiable d'un point de vue technique, mais aussi le plus évolutif et le plus riche sur le plan documentaire par son efficacité dans la pertinence des résultats obtenus, est celui d'OVID. Mais il n'a pas remporté la préférence des utilisateurs en raison d'une interface encore fort peu conviviale. La connexion se fait directement au serveur par Telnet, en émulation VT 100 pour les Mac et PC. Le client/serveur n'est pas disponible mais il le sera en principe fin 1996, ce qui devrait considérablement améliorer l'accès.

C'est la raison pour laquelle nous avons choisi d'installer en complément, au moins pour la première année, le logiciel Knowledge server, qui emporte pour l'instant la préférence d'une majorité d'utilisateurs, et qui permet une installation personnalisée sur chaque poste, l'essentiel de l'application étant déchargée sur le client. Le serveur supporte les fichiers et les clients opèrent le chargement des données au fur et à mesure des recherches avec Knowledge Server disponible sur le serveur et déchargé sur le client au moment de l'interrogation. Même si cette gestion en semi client/serveur n'est pas complètement satisfaisante d'un point de vue informatique, cet inconvénient est compensé par la facilité d'utilisation du logiciel et des modalités de transferts, dans End Note par exemple. Il satisfait particulièrement les habitués du Mac Intosh. Nous savions déjà que le parc était essentiellement composé de Mac Intosh ; nous savons désormais que la plupart de ces Mac ont largement la capacité requise pour utiliser pleinement l'application.

Le logiciel OVID, bien supérieur aux autres au niveau de la recherche, est malheureusement moins utilisé, en raison d'une moindre connaissance, semble-t'il, de ses capacités. Parmi celles-ci, l'interrogation avec l'aide du thesaurus Mesh est un point fort d'OVID, que nous allons nous efforcer de mettre en valeur auprès des utilisateurs.
Les deux applications seront installées en septembre sur une nouvelle machine dédiée (DEC Alphaserver 1000 sous Digital Unix) et nous prévoyons une formation spéciale et renforcée à ces deux logiciels.

<Corinne Verry-Jolivet>


ISMB 95 : Compte-rendu


ISMB-95
"The Third International Conference on Intelligent Systems for Molecular Biology"
16-19 Juillet, 1995, Cambridge, UK

But : Les conférences ISMB cherchent a réunir les scientifiques qui traitent des problèmes de biologie moléculaire avec des méthodes informatiques, comme la modélisation de données, l'apprentissage informatique, l'intelligence artificielle, les sciences cognitives, la robotique, l'optimisation combinatoire et stochastique, les algorithmes de chaînes et de graphes, la linguistique et les technologies de programmation parallèle. Ceci s'étend à toute méthode ou tout système informatique qui soutient une tâche biologique, qui implique une synthèse d'informations hétérogènes, et qui représente un défi algorithmique, cognitif ou conceptuel. En un mot, qui montre les propriétés d'un "système intelligent". Dans l'ensemble, ces méthodes auront été validées sur des données réelles ou possèdent des applications pratiques claires.

La conférence ISMB95 rassemblait des informaticiens et des biologistes autour d'un certain nombre de thèmes différents mais tournant tous autour de la modélisation et de la recherche de l'information dans les objets biologiques et posant des problèmes qu'on peut qualifier de "difficiles". Parmi ceux-ci qui ont été abordés on peut essentiellement citer :

Les techniques présentées pour la résolution de ces problèmes relèvent souvent de l'intelligence artificielle (d'où certainement le titre de la conférence...) - essentiellement, des techniques d'apprentissage:

La linguistique (grammaires stochastiques, S-attribuées [Lefebvre], automates à états finis [Searls]) figure dans les travaux sur le repliement d'ARN [Grate][Lefebvre] ou l'alignement de séquences [Searls] ; la théorie des graphes est utilisée par [Cary] pour déterminer l'appariement des bases dans la structure des ARN.
L'absence de détermination évidente structure <-> séquence d'une part et fonction <-> structure d'autre part a été l'un des sujets de réflexion. Le recodage de la représentation (3D) en une dimension décrivant symboliquement les caractéristiques du problème (propriétés biochimiques [Bagley], classes de repliement [Craven], surfaces moléculaires [Ackermann]) est utilisé pour traiter le problème.

(Les noms donnés entre crochets correspondent aux auteurs. Vous trouverez le programme avec les titres des conférences et les noms des auteurs ici)

<Irène Wang et Catherine Letondal>


Sécurinoïa


Mais puisque je vous dis ...

... que je n'ai rien à cacher, pas de données confidentielles !

C'est une des phrases que l'on entend le plus souvent dès qu'il est question de devoir changer son mot de passe. Il ne faut pas oublier que les machines centrales de l'Institut Pasteur, en particulier celles qui disposent de connexions vers le monde extérieur, sont des machines multi-utilisateurs. Cet aspect, qui vous permet d'être plusieurs à travailler sur la même machine au même moment, a des implications sur le comportement que vous devez adopter vis-à-vis des autres utilisateurs. En particulier, ne serait-ce que par simple politesse, il paraît judicieux d'éviter des actions qui pourraient empêcher ces derniers de se servir de ces machines. Voici donc quelques idées simples afin que l'ensembles des ressources restent disponibles.

Le périmètre informatique

Les machines de l'Institut sont connectées entre elles par un réseau local. Ce réseau est lui-même connecté au monde extérieur au travers d'un nombre réduit de points d'accès. Ces points d'accès sont soumis à une surveillance nettement plus dense que le reste du réseau. Ceci étant posé, quelque soit la vigilance dont nous faisons preuve, nous ne pouvons pas lutter si des gouffres de sécurité sont laissés tels quels au sein même de l'Institut.

Tout site informatique connecté au réseau Internet peut se trouver face à trois types d'attaquants :

Dans tous les cas, la façon de procéder est similaire : obtenir un accès sur la machine en piratant le mot de passe d'un utilisateur quelconque, puis, une fois cet accès obtenu, tenter d'obtenir un accès privilégié grâce à des méthodes nombreuses et variées.
Dans chacun de ces cas, les dégâts occasionnés peuvent être nombreux, de nature et de durée variables :

État des lieux

À l'heure actuelle, deux machines du réseau local de l'Institut sont accessibles directement depuis l'Internet. L'une de ces deux machines est la machine centrale où résident l'ensemble des comptes des chercheurs de l'Institut. Il va de soi qu'une entrée par effraction sur l'un de ces comptes met en péril l'ensemble des données sur l'ensemble du réseau.
Nous faisons le maximum pour assurer la sécurité ``interne'' du système, en particulier pour rendre l'obtention de privilèges non-autorisés la plus ardue possible. Pour mémoire, depuis que nous sommes connectés au réseau Internet, il y a eu une entrée non-autorisée (apparemment de la part d'un Tagger) qui a été détectée et "colmatée" en une dizaine d'heure. Une tentative réussie en trois ans, pour une moyenne d'une vingtaine d'essais par semaine, c'est bien, mais c'est encore une de trop.
Une partie de l'équipe du S.I.S. passe un temps non négligeable à concevoir, maintenir, et améliorer l'ensemble des dispositifs de sécurité, mais nous comptons sur vous pour ne pas nous rendre la tâche plus difficile qu'elle ne l'est déjà.

Sécurité : Les règles du jeu

En fait de règles, plutôt une idée de base :

le compte dont vous disposez sur les machines de l'Institut est, et doit rester, strictement personnel.

Tout ce qui suit n'est là que pour essayer de garantir cet aspect personnel de votre compte. En particulier, un compte ne se prête pas, ne se partage pas. Votre mot de passe doit avoir le même caractère de confidentialité que le code de votre Carte Bleue.

Quant au choix d'un bon mot de passe, là encore, quelques petits trucs permettent assez facilement de choisir des mots de passe qui soient à la fois simples à retenir et difficiles à deviner :

Un bon mot de passe est long d'au moins six caractères, contient au moins un chiffre ou signe de ponctuation, et doit être suffisamment facile à retenir pour que l'idée de le noter sur un bout de papier ne vous vienne même pas à l'esprit. De bons candidats sont :

Enfin, il est préférable d'éviter les signes particuliers à certains types de clavier (caractères accentués, fin de paragraphes, etc...) ainsi que les chiffres du pavé numérique.

Ce mot de passe, une fois choisi, sera valable un an maximum. Lorsque la date d'expiration se rapprochera, le système vous préviendra par courrier électronique ainsi que lors de chaque connexion.

<Frédéric Chauveau>


Simuler des systèmes biologiques


Un atelier regroupant mathématiciens et biologistes s'est réuni récemment au Vésinet afin de susciter davantage de coopérations entre ces deux disciplines.

La Biologie a déjà bénéficié des apports de plusieurs disciplines scientifiques externes. C'est ainsi que la Chimie et la Physique ont apporté leur contribution à la naissance de la Biochimie et de la Biophysique. Cependant, l'arrivée des Mathématiques a été beaucoup plus discrète.
Elle a pourtant permis, dès les années 50, de proposer une explication spéculative, mais limpide, aux différents motifs observés en Biologie du Développement [Turing]. Encore aujourd'hui, sur le plan expérimental, la Biologie Moléculaire et Cellulaire du Développement s'attache à décrire ces motifs et leur déterminisme de plus en plus finement. Mais la clé de leur explication ultime reste toujours à formaliser.
D'autre part, les modèles abstraits actuels expliquent formellement des évènements complexes, tels l'acquisition de formes (par exemple l'ontogénie et la phylogénie du squelette des membres et des phalanges mammaliens [Oster]) et de motifs (comme les taches et les bandes sur la robe de certains Mammifères [Murray]), à l'aide d'hypothèses simples, mais dont la base moléculaire n'est pas toujours démontrée. A l'évidence, une coopération accrue entre ces deux domaines devrait être bénéfique.
Les hypothèses exploitées sont simples sur le plan biologique : diffusion aléatoire de molécules chimiotactiques au sein de cellules productrices, pour les exemples ci-dessus. Cependant, leur exploitation mathématique reste obscure pour le non-initié. Elle fait appel à des équations différentielles non linéaires dont l'itération (menée sur ordinateur) engendre un comportement chaotique ou stable du système, selon les paramètres employés. On peut schématiser les simulations des deux exemples précédents par les 'équations' suivantes :

Une fois formalisées en équations différentielles, leur itération sur ordinateur permet de visualiser l'apparition de structures stables, telle la robe d'un animal, ou le développement d'un membre, selon les spécificités du modèle.

Ce type de modèle, dit d'agrégation limitée par la diffusion (DLA), s'applique à divers cas de manière très générale. Mais les analyses non-linéaires ne se résument nullement à la DLA ou à la Biologie du Développement. D'autres formalisations apparentées permettent, par exemple :

Cette liste, qui n'est pas exhaustive, s'allonge rapidement au fil des rencontres entre biologistes et mathématiciens-informaticiens, lors de congrès et d'ateliers. Pour en savoir plus, voir [Souyri], à propos du dernier atelier, dont la seconde phase aura lieu vers la fin 95.
Kleczkowski A. "Non-linear dynamics and chaos in infectious diseases". In: Non-linear models: fractals and chaos in Biology. Proc. workshop INSERM no.73. 1995.
F. Souyri, INSERM (Atelier 73), 101 rue Tolbiac, 75654 Paris Cedex 13. Tel 44 23 62 05. Fax 45 85 68 56. Par e-mail, contacter valere@pasteur.fr
Murray JD. "A pre-motif formation mechanism for animal coat markings". J. Theor. Biol. 88:161-199. 1981.
Nowak MA, May RM et al. "Antigenic oscillations and shifting immunodominance in HIV infections". Nature 375: 606-611. 1995.
Oster GF, Shubin F, Murray JD & Alberch P. "Evolution and morphogenetic rules. The shape of the vertebrate limb in ontogeny and phylogeny". Evolution 42: 862-884.
Rinzel J & Ermentrout GB. "Analysis of neural excitability and oscillations". In: Methods in neuronal modelling, C Koch, ed. Cambridge MIT Press, 135-169. 1989
Turing AM. "The chemical basis of morphogenesis". Phil. Trans. Roy. Soc. Lond. II.237: 37-72. 1952

<Thomas Valère>


Mieux accéder aux ressources du Web


Configuration des outils d'accès

Les serveurs d'informations, et en particulier les serveurs WWW connaissent un essor très important. Que ce soit pour accéder à des informations concernant l'Institut Pasteur où à des documents se trouvant ailleurs, l'utilisateur a le choix entre de nombreuses interfaces d'accès. Les outils graphiques Mosaic et Netscape sont accessibles aussi bien depuis les serveurs du SIS que depuis les Macintosh connectés au réseau. Les utilisateurs souhaitant utiliser une interface non graphique peuvent utiliser Lynx (disponible en tapant la commande lynx une fois que vous êtes connecté à Mendel) qui propose un affichage moins agréable, mais beaucoup plus rapide. Afin d'utiliser au mieux les ressources du réseau, ces outils demandent quelque effort de paramétrage. Ce paramétrage a déjà été effectué sur les serveurs du SIS, pour l'ensemble des utilisateurs, mais les configurations sur Macintosh demandent un travail de configuration afin d'utiliser au mieux les caches disponibles dans ces outils. C'est cette configuration que nous allons décrire en détail.

Serveurs proxy et caches

Un serveur proxy(1) est un serveur dont la fonction est de centraliser les requêtes effectuées par les différents outils et de garder pendant un certain temps, une semaine en général, une copie des pages demandées : il n'est pas rare qu'une page demandée par un utilisateur soit réutiliséee par celui-ci, ou bien par d'autres personnes dans un futur proche. Ce mécanisme permet d'économiser du trafic sur les réseaux, et notamment sur l'Internet, puisque toute page demandée sera conservée et immédiatement accessible quelques minutes ou quelques heures après la première requête, et cela sans générer de trafic à l'extérieur du réseau du campus. Pour l'utilisateur, cela se traduit par un temps de chargement beaucoup plus court, et donc un gain de temps.

A cette fonction de proxy, s'ajoute la possibilité qu'ont les divers outils de conserver, en mémoire ou sur le disque dur, une copie des pages récemment consultées : celles-ci pourront être visualisées ultérieurement et sans délai.

Afin d'utiliser au mieux ces modes de fonctionnement, il est nécessaire de configurer correctement ces options sur chaque copie de Mosaic ou Netscape installée sur les micro-ordinateurs du campus.

Serveurs proxy-caches disponibles sur le campus

Les protocoles http et gopher disposent d'un ou plusieurs serveurs proxy-cache sur le campus. Chacun de ces serveurs est identifié par un nom symbolique et par un numéro de port (tableau 1). Ceci nous permet de placer ces serveurs où bon nous semble sans qu'il soit nécessaire de changer le nom et les configurations : si l'un ou l'autre des serveurs est amené à changer de machine, les configurations du réseau seront faites de sorte que le nom symbolique reste le même et que la transition soit transparente pour tous les utilisateurs.

Tableau 1 : Proxies

 -----------------------------------------
 Protocole   Nom du serveur           Port  
 -----------------------------------------
 http        http-proxy.pasteur.fr    8080  
 gopher      gopher-proxy.pasteur.fr  8080  
 -----------------------------------------

Configuration des caches et proxy

Les opérations décrites ci-après ne sont à effectuer qu'une seule fois : les outils sauvegarderont les modifications effectuées pour les prochaines utilisations. Ces opérations ne s'appliquent qu'aux versions tournant sur des micro-ordinateurs. La configuration pour les versions tournant sur des stations de travail non administrées par le SIS est différente et sera expliquées dans un prochain numéro du B6.

Netscape 1.1 pour Macintosh

Dans le menu Options, choisissez Préférences et vous allez modifier successivement les options présentées sous les menus Proxies et Préférences.


Figure 1. Configuration des serveurs proxy
Le fonctionnement avec Netscape 1.1 pour Windows ainsi que sur les stations de travail Unix utilisant Netscape est identique.


Figure 2. Configuration du cache local
N'oubliez pas de sauvegarder vos choix en allant dans le menu Options et en choisissant Sauvegarder.

NCSA Mosaic pour Windows (2.0.0 final beta)

Dans le menu Options, choisissez Préférences. Configurez les parties proxy (figure 3) et cache (figure 4) comme indiqué dans les copies d'écran ci-après.


Figure 3. Configuration des serveurs proxy
N'oubliez pas d'appuyer sur le bouton OK pour valider et enregistrer les modifications.

Pour la configuration du cache local, c'est à dire des informations qui seront conservées sur votre disque, nous vous recommandons de ne pas dépasser 4096 Ko, ou moins si votre disque dur est déjà très occupé.


Figure 4. Configuration du cache local

<Christophe Wolfhugel>


Communiquer électroniquement en français correct

Codage de l'information

Tout utilisateur d'un Macintosh sait depuis toujours lire et écrire du français correct, et ceci indépendamment du logiciel utilisé. En effet, très en avance dans ce domaine, le système du Macintosh est prévu pour utiliser différents alphabets pouvant contenir jusqu'à 224 symboles (256 moins 32 caractères de contrôle réservés). Ce qui permet au Macintosh d'utiliser entre autres le français sans problème. Cette possibilité est liée à la représentation interne des caractères adoptée : codage sur 8 bits (2^8=256).

Dans le monde UNIX, à l'origine, les caractères étaient représentés sur seulement 7 bits selon le code "ASCII(2)". Ce code permet de représenter les caractères de l'alphabet latin en majuscule, en minuscule, les chiffres arabes, quelques symboles et quelques signes de ponctuation (128 - 32 = 96 symboles). Il est toutefois insuffisant pour représenter, entre autres, les caractères accentués.

Depuis 1987 l'ISO a normalisé sous les noms "ISO 8859-x" où x va de 1 à 10, un ensemble de normes permettant de coder les caractères sur 8 bits. La norme ISO 8859-1 permet de coder correctement les alphabets des pays d'Europe et d'Amérique latine, donc de représenter l'alphabet français correctemen. Ce code est un sur-ensemble du code "ASCII", il permet d'utiliser ce qui est codé en "ASCII" sans traitement spécial.

Par exemple : le code "ASCII" du "a" est 97, et son code ISO 8859-1 est identique ; le "e accent aigu" n'a pas de code "ASCII", mais a pour code ISO 8859-1 233.

Aujourd'hui la plupart des systèmes UNIX peuvent coder l'information en l'un quelconque des codes "ISO 8859-x". Ce qui veut dire que ce système fera les transformations suivantes :

Dans la pratique, le chemin de votre clavier au système qui utilise l'information tapée est semé d'embûches. L'erreur la plus fréquente résulte d'un logiciel qui met le premier bit de chaque caractère à 0. Dans le cas du "e accent aigu", son code binaire 11101001 devient 01101001 qui est le code du "i". Ce qui se traduit pour l'utilisateur par l'affichage du graphisme du "i" lorsqu'il tape la touche "é"(3).

Pour l'instant, il existe dans l'environnement informatique de l'Institut Pasteur deux classes de solutions qui marchent. L'environnement constitué d'un Macintosh et de toute une famille d'applications d'une part, et d'autre part l'environnement constitué d'un terminal X et d'applications UNIX.

Environnement Macintosh

Lorsque vous travaillez depuis un Macintosh, la plupart des applications disponibles aujourd'hui pour accéder à un système UNIX acceptent le codage ISO 8859-1 . C'est à dire que ces applications vont "transcoder" les codes propres au Macintosh (qui sont eux aussi sur 8 bits, mais pas en ISO 8859-1 ) de façon à ce que les codes qui arriveront sur le système UNIX soient ISO 8859-1 .

Ces applications sont entre autres :

"NCSA Telnet"

"NCSA Telnet" est une émulation de terminal, et afin de pouvoir utiliser correctement du français il est essentiel d'en régler quelques paramètres. Tout d'abord au niveau du menu : Edit --> Preferences --> Terminals :


1 : permettre le passage de 8 bits par caractère, vers et depuis le système avec lequel communiquer (ici, mendel).

Ensuite au niveau du menu : Edit --> Preferences --> Sessions :


2 : éviter que les caractères de contrôle ne soient traités localement par "NCSA Telnet", car ils sont traités correctement par UNIX, et sont utiles (par exemple dans l'éditeur "emacs") ;
3 : indiquer que les codes sur 8 bits propres au Macintosh doivent être transformés en codes ISO 8859-1 ;
4 : utiliser une configuration de terminal précédemment définie, et laissant passer 8 bits (ici, la configuration par défaut : <Default>).

Ainsi configuré, "NCSA Telnet" permet d'échanger sans le moindre problème des caractères français avec un système UNIX.

"Fetch"

"Fetch" est un client FTP (File Transport Protocol) permettant de transférer des fichiers vers et depuis un serveur FTP comme celui de l' Institut Pasteur : `ftp.pasteur.fr'.

Dans le menu Customize --> Preferences... :


5 : un "clic" activera le transcodage 8 bits Macintosh vers ISO 8859-1 , permettant d'avoir les mêmes noms de fichiers sur Macintosh que sur système UNIX.

Attention toutefois à l'utilisation de l'"espace" dans les noms de fichiers : si elle est tout à fait naturelle sur Macintosh, elle soulève des problèmes non triviaux sur UNIX.

"Eudora"

"Eudora" est un outil indispensable pour traiter son courrier électronique : il permet non seulement de recevoir et émettre celui-ci, mais aussi de le ranger et de le détruire, de gérer des listes personnelles de distribution. Il permet aussi d'utiliser du français correct dans toutes ces opérations.

À cette fin il suffit de le configurer correctement(4).

Identifiez-vous dans le menu Special --> Settings --> Personnal Information :

6 : votre compte sur le serveur de courrier électronique (c'est "mendel.sis.pasteur.fr" actuellement) dont le nom symbolique est "mailhost.pasteur.fr" (à utiliser de préférence à tout nom de machine qui, lui, sera amené à changer) ;
7 : votre véritable identité (prénom, nom), et vous pouvez les accentuer correctement ;
8 : votre adresse électronique à l' Institut Pasteur, c'est à dire "Prenom.Nom@pasteur.fr".

Dans le menu Special --> Settings --> Sending Mail :
9 : précisez que vous ne tenez pas à ce qu'"Eudora" vous transforme vos caractères codés sur 8 bits en une séquence de 3 caractères. Par exemple le "e accent aigu" de notre exemple serait codé en "Quoted-Printable" sous la forme "=E9", ce qui, si tous les destinataires actuels et utilisateurs futurs de votre message ne sont pas des spécialistes du décodage de l'information, est une véritable plaie.

"Netscape"

"Netscape" permet d'utiliser tout à fait naturellement un codage sur 8 bit ISO 8859-1 , aussi appelé "Latin1".

Dans le menu Options --> Preferences... :

Comme "Netscape" permet d'envoyer du courrier électronique et de consulter des "newsgroups", identifiez vous correctement
10 : indiquez l'adresse symbolique du serveur de courrier électronique de l'Institut Pasteur ;
11 : utilisez du 8 bit plutôt que du "Quoted Printable" pour les messages émis ainsi que pour les articles postés.

Attention toutefois à éviter l'utilisation du français dans des articles de diffusion mondiale, car vous ne seriez pas sûr d'être compris. Il existe un "newsgroup" local pour faire des essais : "pasteur.test".

Ensuite sélectionnez : 12 : "Latin1" afin que le transcodage local fait par "Netscape" transforme les codes 8 bits Macintosh en ISO 8859-1 , et réciproquement.

Le principe est toujours le même : du côté des communications avec divers serveurs, on laisse passer 8 bits sans y toucher, de l'autre côté, c'est à dire du côté échanges avec l'utilisateur (via le clavier et l'écran) on assure la bijection entre 8 bits Macintosh et ISO 8859-1 .

Où trouver ces logiciels

Parmi ces logiciels, ceux qui sont librement diffusable sont disponible sur le serveur de l' Institut Pasteur : "ftp.pasteur.fr", et accessible par "ftp anonyme" en format binaire (Mac Binary II) :

Ceux dont la distribution est soumise à un accord de licence entre le distributeur et l' Institut Pasteur sont accessible uniquement sur "mendel.sis.pasteur.fr" par "ftp (normal)" aux utilisateurs y ayant un compte :

/local/Mac/
private/Networking/
    Netscape/Netscape_1.1N_Installer

Pour transférer ces logiciels l'outil recommandé est "Fetch". Si vous n'avez pas encore celui-ci, vous pouvez sortir de ce cercle vicieux en passant nous voir avec une disquette vierge pour que nous vous y installions ce programme indispensable.

Environnement terminal X

Devant un terminal X, les choses sont un peu plus simples. En effet, ils sont administrés de façon centrale par nos soins, et sont configurés pour pouvoir être utilisés en français avec un maximum d'applications. Ce qui signifie qu'il est possible de saisir au clavier des caractères français, de les voir afficher en retour avec un dessin qui correspond à ce que l'on s'attend à voir, c'est à dire un "é" et non un "i" lorsqu'on a tapé un "e accent aigu". Ce qui nécessite aussi que les applications utilisées dans le monde UNIX ne se mêlent pas de tripoter les 8 bits utilisés pour coder cette information, soit en perdant le premier en route (parce que pour certaines applications antédiluviennes celui-ci n'existe tout bonnement pas), soit en lui affectant un sens reservé (datant là aussi d'une époque lointaine où, voyant ce pauvre bit gâché, on a préféré lui donner un rôle "méta"-physique(5), ou de détection d'erreur).

Ces trois niveaux de manipulation de l'information sont : son codage en entrée, son "dé"-codage en sortie, et son éventuel "trans"-codage en cours de voyage.

Codage en entrée : clavier

La méthode de codage en entrée vient des travaux de deux entreprises informatiques qui se sont préoccupé tôt de cette internationalisation, le codage du Macintosh et le codage DEC. Ces deux méthodes de codage sont utilisables sur l'ensemble des terminaux X du campus.

Le codage du Macintosh est basé sur l'utilisation de la touche "option" (souvent marquée "alt"), qui modifie la topologie du clavier(6), et l'aspect mnémonique de l'ensemble. Par exemple pour entrer n'importe quel caractère surmonté d'un accent aigu, on utilisera la séquence "alt-e" suivie de ce caractère, qu'il soit en minuscule ou majuscule. Cette méthode de codage est mnémonique et rapide puisque la lettre au dessus de laquelle on trouve le plus souvent ce genre d'accent est justement le "e".

---------------------------------------------------
      nom              codage        applicable à    
                     Mac     DEC  
                     alt     comp                     
---------------------------------------------------
accent aigu          e       '       A, E, I, O, U  
                                     a, e, i, o, u    
accent grave         `       `                        
accent circonflexe   i       ^                        
trêma                u       "       A, E, I, O, U, Y,  
                                     a, e, i, o, u, y   
tilde                n       ~       A, N, O, a, n, o   
c cédille            c       ,                        
C cédille            C       ,                        
guillemet ouvrant    \       $                        
guillemet fermant    |                                
                                                     
---------------------------------------------------

Le codage DEC est basé sur l'utilisation de la touche "compose" (souvent marquée "comp") qui s'utilise en préfixe d'une séquence de 2 touches : l'accent suivi de la lettre accentuée. Par exemple pour entrer un caractère surmonté d'un accent aigu, on le fera précéder de la séquence "comp '" (compose quote).

"Dé"-codage en sortie : polices ISO 8859-1

Dans l'environnement X(7) l'affichage dépend de la police utilisée par chaque application. Pour visualiser la liste de polices utilisables vous pouvez taper :

xlsfonts | more

et vous constaterez que leur noms contiennent non seulement leur marque, mais aussi des caractéristiques de définition, et enfin leur éventuelle normalisation ISO 8859-1 indiquée par le champs : "iso8859-1". En ce qui concerne les machines publiques administrées par nos soins(8), vous n'avez rien à changer, car les polices que vous utilisez dans vos applications sont, à de rares exceptions près, des polices ISO 8859-1. Si toutefois vous vouliez améliorer votre environnement ordinaire, prenez les deux précautions suivantes :

Ces 2 contraintes peuvent être vérifiées par la commande :

xlsfonts | grep iso8859-1 | egrep 'fixed|courier'

Pour avoir d'un seul coup d'oeil tous les graphismes associés au 256 codes d'une police ISO 8859-1, utilisez la commande "xfd" :
xfd -fn 10x20

"Trans"-codage

Une fois que l'on est sûr que le codage en entrée et le décodage en sortie sont faits correctement, il reste à s'assurer que toutes les applications qui pourraient se mêler de "trans"-codage le fassent à bon escient, voire mieux, s'en abstiennent. En effet, si tout au long de son traitement le code 233 de notre "e accent aigu" ne change pas, il sera affiché correctement au bout du compte. Nous allons voir comment maîtriser ces transcodages potentiels à trois niveaux typiques et essentiels : dans le shell, dans le traitement du courrier électronique, et enfin dans l'impression de codes ISO 8859-1.

Shell : bash

Sur tout système UNIX, l'interface avec celui-ci passe par un programme spécial : le "shell". Ce programme est un interpréteur de commande qui passe son temps dans une boucle perpétuelle : Tant qu'il y a une ligne de commande à lire :
l'évaluer,
lancer la commande demandée,
attendre sa terminaison,
afficher une "invite" pour recommencer.

Ce "shell" doit pouvoir comprendre sans problème des codes sur 8 bits et les passer tels quels au système. C'est le cas de la plupart des "shells" actuels. Celui que vous utilisez sur les machines publiques du SIS est "bash" parce que c'est l'un des meilleur(9).

Pour savoir si votre "shell" laisse passer 8 bits par caractère, vérifiez au moyen de la commande "stty" :

stty -a

si vous trouvez les 2 flags "cs8" et "-istrip" c'est que tout va bien, le jeu de caractères est sur 8 bits (cs8) et le premier bit n'est pas mis à 0 (-istrip).

Par ailleurs le "shell" est l'environnement dans lequel sont lancées toutes les commandes et il permet de définir des variables d'environnement qui contrôlent leur fonctionnement. Parmi celles-ci, la variable "LC_CTYPE(10)" indique à toutes les commandes concernées comment doit être traité le codage des caractères. Pour utiliser des codes ISO 8859-1, il faut affecter à cette variable la valeur "iso_8859_1". Pour vérifier que c'est bien le cas, utilisez :

set | grep LC_
sinon agissez :
LC_CTYPE=iso_8859_1 | export LC_CTYPE

Elm

Parmi ces commandes, "elm", outil recommandé pour gérer son courrier électronique sur nos systèmes UNIX, tient correctement compte de cette variable d'environnement. Mais comme il s'agit de courrier électronique il doit être configuré afin d'éviter le transcodage entre machines responsables du transport du courrier électronique. Il faut donc qu'il mentionne dans l'en-tête de tout message émis que le contenu est codé en ISO 8859-1 , et que le transfert peut se faire en mode 8bit.

Nous l'avons configuré par défaut de cette façon. Si vous voulez vérifier que c'est bien le cas, envoyez-vous un message, puis affichez le avec la commande "h" afin de voir l'en-tête complet, et vous devez pouvoir y retrouver les deux lignes :

Content-Type: text/plain; charset=ISO-8859-1
Content-Transfer-Encoding: 8bit

Si vous voulez configurer "elm" de cette façon, vous devrez procéder de la façon suivante :

<Daniel Azuelos>


Notes


  • 1 proxy server : serveur par procuration

  • 2 American Standard Code for Information Interchange

  • 3 ou la séquence de touches "-e e".

  • 4 Une documentation exhaustive et gratuite en est disponible à notre secrétariat.

  • 5 :^), comme on dit dans le courrier électronique.

  • 6 On appelle ce genre de touche, comme "contrôle" ou "majuscule" ("shift") un "modifieur". Il faut la maintenir enfoncée pendant que l'on tape sur la touche dont elle va "modifier" le code.

  • 7 "X Window System" : le système de multi-fenêtrage X.

  • 8 entre autres : "mendel", "darwin", "montespan", "babel", "cleopatre".

  • 9 Entre nous, c'est même le meilleur.

  • 10 Local Character Type.

  • ISSBN 1244-524X


    Vous pouvez également consulter d'autres numéros du B6.