PROJET PANORAMIC 

Ce site ouvert depuis le 2 novembre 2004 est toujours en cours de construction.

Contexte :
La construction d'un protocole expérimental ou bioinformatique nécessite l'organisation d'un schéma complexe de méthodes et d'objets dont la perception nécessite un effort d'abstraction et de projection mentale. Souvent la résolution d'un problème est abordée comme une partie d'échec jouée sans pièce et sans plateau juste par la liste des codes des déplacements des pièces. Si cela suffit pour rejouer une partie cela devient délicat pour en imaginer une nouvelle.

Objectifs :
Le projet panoramic propose des environnements pour construire graphiquement des protocoles expérimentaux ou des suites de programmes bioinformatiques. Deux aspects sont recherchés d'une part les possibilités de tatonnement dans la création d'un protocole et d'autre part la rigueur de sa reproductibilité une fois qu'il est établi et validé.
Ce projet a été conçu au sein d'une unité de recherche expérimentale en immunologie afin de répondre à des besoins spécifiques d'utilisateurs finaux. Nous cherchons à rationnaliser une recherche par mutagénèse dirigée, des résidus impliqués dans la reconnaissance cytokine-récepteur et dans la conception d'agonistes d'intérêt thérapeutique pour ces récepteurs impliqués dans la stimulation des lymphocytes (Programme de recherche de lutte contre le cancer et le SIDA).
La généralisation des acteurs et méthodes et leurs intégrations sont en cours. Panoramic est le prolongement d'une initiative commencée en 1998, le projet Protic.

Un systeme de cahier de laboratoire a ete developpe tout au long de ce projet afin d'assurer l'echange d'information entre les participants .

Le module Pasteur (Institut Pasteur - Dpt de Medecine Moléculaire) pour le gestionnaire de workflows Ptolemy II (University of California, Berkeley)

FAQ et informations à propos de panoramic et du module pasteur (en construction)

Les outils bioinformatiques utilisés dans les workflows (en construction)

Base unifiée de séquences : accès aux requettes (en construction)

Base unifiée d'interactions protéine-protéine : accès aux requettes (en construction)

Base unifiée de modèles structuraux expérimentaux et prédictifs: accès aux requettes (en construction)

Introduction

Le concept de ce projet est d'offrir des environnements pour assembler et relier des processus de manière intuitive, en déposant, déplaçant ou copiant des icônes enchaînées comme des perles sur un espace graphique. Chaque icône figure une methode, un acteur, des objets, des données ou une suite liée d'icônes, et donne accès aux paramètres ou liens associés à la demande. La finalité est soit de produire un protocole experimental, remplir un LIMS ou construire un workflow entre des programmes de bioinformatique, dans tous les cas d'offrir une vision du protocole, de son etat et des resultats de son action. La construction de workflows de bioinformatique a été le premier domaine abordé.

Une fois que le graphe d'icones connectés est construit, l'exécution et le contrôle des enchaînements de programmes bioinformatiques sont simplifiés à l'extrême avec des boutons play/stop. L'accès aux résultats de chaque acteur peut-être fait avec des visualisations interactives dès que l'acteur correspondant a été exécuté et avant la fin de tout le pipeline sans arrêter son exécution. Nous avons choisi l'environnement de développement de processus et de construction de chaînes "Ptolemy" (University of California, Berkeley) pour y intégrer le module "Pasteur". Ce module interface un très grand nombre de logiciels des mondes des séquences, structures, arbres et réseaux des protéines. Il permet de créer ses propres acteurs et objets pour des exécutions locales, délocalisées ou distribuées. Comme son extension "Pasteur", "Ptolemy" est programmé en Java et peut-être utilisé sur toute plateforme avec son interface graphique Vergil spécifique, sous forme d'applet, ou encore en ligne de commande permettant l'émulation en mode serveur. Vergil et Ptolemy autorisent le traitement de fichiers, de chaînes et de nombres en dataflow vers des utilitaires de représentation graphique par exemple, sur une ou plusieurs itérations d'un même groupe de processus. Pasteur rend réactif des visualisateurs interactifs d'objets hétérogènes ce qui ajoute aux "traditionnels traitements automatisés" offrant rigueur, reproductibilité et productivité, de véritables outils de "tatonnement" et d'expertise.

La totalité du projet est distribué sous licence  LGPL  en "open source" comme l'est "Ptolemy". Les sources sont telechargeables sur le site du projet (www.pasteur.fr/panoramic/panoramics.zip).
Le projet a été réalisé avec le principe de construire des workflows conçus par un utilisateur final impliqué dans une recherche des bases moléculaires de la reconnaissance d'une cytokine par son recepteur. Ces workflows s'étirent depuis la recherche et l'analyse de séquences, la construction de modèles moléculaires, la prédiction des partenaires structuraux et fonctionnels et la localisation de leur interface et le criblage d'éventuels agonistes et antagonistes. Ces workflows (XML) sont aussi téléchargeables sur le site ainsi qu'un certains nombres de workflows dérivés ou généralisés. Les utilisateurs pourront aussi enrichir la librairie de workflows et d'acteurs sur ce même site.
Un " découvreur de services " et une aide à la construction de workflows sont en développement et permettront par la définition de la méthode de départ et d'arrivée ou du format de données au départ et à l'arrivée d'obtenir des workflows possibles.

Développement

Le développement du module Pasteur est établi selon trois axes :
- Manipulation de séquences
- Manipulation de structures
- Manipulation de graphes connexes, arbres ou réseaux

Chaque projet de développement contient les sous-projets suivants:
- création, gestion, et interrogation de bases de données
- création, intégration et articulation de méthodes
- visualisation et opérations interactives sur les objets

L'organisation de chaque sous-projet repose sur :
- répertoire et classement des outils, méthodes et bases de données existantes à transformer en " briques "
- sélection des briques primordiales représentatives parmi celles qui sont répertoriées ci-dessus afin de couvrir au moins l'application spécifique complète requise par l'utilisateur final
- réalisation de pipelines fonctionnels enchaînant les briques primordiales

Le projet est globalement a été traité en flux tendu et programmation extrême. Le cahier des charges du gestionnaire de processus a été établi à l'avance, mais la construction des acteurs se fait à la demande de l'utilisateur final sur un prototype sommairement construit sous forme de script, puis rapidement transformé en une maquette sous forme d'un programme C primaire sans option ni appel de fonction, en général développé à partir d'un patron standard. Alors un programme C ou JAVA est réécrit conformément aux attentes de l'outil et aux contraintes d'intégration. Les wrappers d'acteurs sont eux directement écrits à partir d'un patron type.
Bien sûr l'utilisateur final peut créér lui-même quatre sortes de briques pour intégrer toute application:
- briques simples contenant la ligne de commande appelée lors de l'exécution
- briques permettant l'utilisation de ports d'entrées et de sorties multiples et du calcul d'expression pour construire la ligne de commande
- briques d'émulation de services web à partir de fichiers html ou xml
- briques composite regroupant un ensemble lié de briques opérationnelles

Les briques sont compilés à l'aide de l'atelier logiciel eclipse.

Le module Pasteur permet actuellement de créer et d'exécuter localement des workflows, les briques pouvant individuellement être exécutées localement, à distance ou par des web services. La gestion des workflows par ptolemy est découplable de l'interface graphique vergil et autorise donc l'exécution de workflow en ligne de commande à partir de leur code XML. De cette manière il est possible d'executer le workflow à distance. Nous souhaitons dans les prochains mois pouvoir disposer de l'interface graphique en local que l'on puisse quitter et réactiver à volonté sur un portable par exemple et l'exécution continue à distance sur un cluster par exemple.

Il est possible d'exécuter Ptolemy sous forme d'applets et d'intégrer vergil dans un navigateur. Nous n'avons pas encore exploré cette voie.

Exemples

Voici une copie d'écran d'un workflow construit par l'un des concepteurs de Ptolemy (E.Lee, UC Berkeley). Ce workflow a 3 entrées et 3 sorties et tous les éléments sont connectés. Vous remarquerez :
  • Le menu à gauche, proposant les directeurs d'ordonnancement et les acteurs
  • La ligne en haut d'icones d'execution rappellant celles d'un magnétoscope, de représentation du workflow et des créations de ports d'entrée ou sortie
  • la navigation dans la feuille globale en bas à gauche pour controler le zoom et le deplacement du canvas à droite
  • le directeur d'ordonnancement qui contrôle le mode d'execution pas à pas du workflow symbolysé par le rectangle vert, ici un mode d'execution étalonné sur une horloge pour un contrôle temporel (discret event director)
  • l'usage des commentaires en fond d'ecran,
  • les acteurs à ports multiples,
  • les branchements multiples,
  • les différents types de plotters et displays
  • les workflows intégrés dans les acteurs cernés d'un rectangle rouge ouvrables d'un double-clic
Workflow


Le projet Kepler développé à l'aide de Ptolemy a intégré des acteurs permettant l'intérrogation de web services.

Voici une copie d'écran de Ptolemy où le workflow organise des composants du module Pasteur pour un alignement multiple de séquences avec clustalW proposé dans un web service. Le contenu des boites s'affiche après un double-clic. L'accès à la description de l'acteur permet d'en modifier les paramètres.
Le directeur d'ordonnancement est ici une exécution en flux synchrone (SDF synchronous dataflow). C'est le mode classique, le plus utilisé pour des applications intégrées.
Workflow

Plusieurs workflows developpés à l'Institut Pasteur à partir du module Pasteur sont mis ici en démonstration (copies d'écran ) pour illustrer leur construction et leur représentation. La gallerie en construction en proposera d'autres. Certains exemples seront bientôt utilisés pour les tutoriaux (video mpg). Ils seront aussi le support d'un cours de bioinformatique aux Cours de Biochimie des Protéines de l'Institut Pasteur et Master M2 de Biochimie Paris VI-VII.

Voici une copie d'écran de Ptolemy où le workflow organise des composants du module Pasteur pour une recherche de séquences similaires à partir d'un profil établit par une méthode d'extraction sur un multialignement (Hidden Markov Model avec HMMer). Le noyau de séquences orthologues initial est regroupé par recherche de séquences similaires (Blast) dans une base de séquences (NRprot) puis résumé dans une liste (blast2list) et complété pour former un groupe de séquences au format fasta (fastacmd) alors aligné tous ensemble (clustalw)
Un des aspects interressants de ptolemy est d'autoriser les commentaires sur l'espace graphique (canvas) et l'utilisation de variables globales valables pour tout le worflow. Ces variables sont particulièrement adaptées pour indiquer les répertoires de travail ou de stockage des exécutables.
Workflow
Voici une copie d'écran de Ptolemy où le workflow organise des composants du module Pasteur pour une recherche de séquences similaires (Blast) dans une base de données (NRprot du NCBI), avec differentes valeurs de e à chaque cycle:
Ce type de workflow est utilisé pour choisir les valeurs les plus adaptées des paramètres de blast. A chaque tour le nombre de séquences est évalué (patterncount) après en avoir fait la liste (blast2list), puis cette valeur est affichée dans un graphe (XYplotter).


Workflow
Voici une copie d'écran de Ptolemy où le workflow organise des composants du module Pasteur pour une analyse et un affichage de séquences, de réseaux, de structures et d'arbres phylogénétiques:
Une séquence est utilisée comme requette pour rechercher dans un base de données (querysp) toutes les protéines qui interagissent avec elle affiché par cytoscape.
Chaque paire de la liste classée et dédoublée (sortliste, uniq) est extraite (liste2pair) analysée à chaque tour d'une boucle (pulse) un allignement multiples des séquences orthologues est produit (blast, blast2list, fastacmd, clustalw) puis utilisé pour construire un arbre phylogénétique (tree=ATV).
L'allignement multiple de chaque partenaire est utilisé pour rechercher les éventuelles mutations correllées compensatoires durant l'évolution suceptibles de désigner l'interface entre les partenaires (evoluswap).
Un modèle structural est construit pour les partenaires si cela est possible (clustal2modeller, modeller) sur lequel est affiché la variabilité des résidus en code couleur (cosa) en utilisant le visualisateur de molécules pymol.
Workflow


Notice d'installation

Un tutorial d'installation et d'utilisation du module pasteur peut être télecharge: (doc, rtf, pdf) il décrit:

Ressources

Ce projet a été développé avec la participation de :

Thierry Rose, l'instigateur et le coordinateur du projet (IGC, Département de Médecine Moléculaire, Institut Pasteur, Paris)

Les stagiaires du cours 2004 d'Informatique en Biologie de l'Institut Pasteur à Paris:
Elisabeth Remy: Construction de listes de paires d'interactions de protéines (présentation en ppt)
Karine Robbe: Exploration et construction de réseaux d'interactions de protéines (présentation en ppt)
Mathieu Barthelemy: Sélection et visualisation de reseaux d'interaction de protéines (présentation en pdf)

Les stagiaires du Mastère 2004 de Bioinformatique de l'Institut d'Informatique d'Entreprise du CNAM à Evry :
Perrine Barjou: Création de bases unifiées de séquences, de paires d'interactions et de réseaux (rapport, présentation)
Franck Valentin: Conception des acteurs d'intégration de logiciels et services web dans Ptolemy (rapport, présentation, notice originale d'installation)
Vladimir Daric: Intégration d'acteurs d'analyse et de prédiction de structures, adaptation au calcul réparti (rapport, présentation)

La stagiaire du cours 2005 d'Informatique en Biologie de l'Institut Pasteur à Paris:
Corrine Demanga: Recherche des motifs frequents a l'interaface des proteines (MIPs) (rapport doc et rtf , presentation)

Le stagiaire du Mastère 2005 de Bioinformatique de l'Institut d'Informatique d'Entreprise du CNAM à Evry :
Abderrazak Mouzouri : Gestion interactive de pipelines de bioinformatique structurale répartis avec Ptolemy/Panoramics sur des grappes de serveurs (rapport doc, rtf)

L'aide du Pôle Informatique de l'Institut Pasteur a été décisive tout au long de ce projet, de la part groupe Logiciels et Bases de données - Catherine Letondal et Louis Jones - et de la part du groupe Système et Réseau - Marc Baudoin et Lionel Laffite.

Cahiers electroniques: eNotebook

Un systeme de cahier de laboratoire a ete developpe tout au long de ce projet afin d'assurer l'echange d'information entre les participants et surtout pour garder une trace ecrite des recherches, developpements, commentaires et discussions de chaque individu au fur et a mesure. Apres la decevante experience de 3 societes de developpement de cahiers proprietaires qui ont cesse le developpement de leur produit, nous avons choisi de creer des pages au format HTML indexees sur un serveur local.

Une page modele est telechargeable (ici). Les modifications necessaires avec n'importe quel editeur sont indiquees en debut de page.
Les regles suivantes ont ete adoptees et elles ont ete plutot respectees par les etudiants:

Liens en chantier:

Glossaire, références et liens
ATV = programme d'édition d'arbres phylogénétique provenant du package Forester (S.Eddy, Washington University, St Louis)
Blast =
Blast2list = programme d'extraction des id des protéines selectionnées dans la sortie d'un fichier Blast (T.Rose, IP)
CHARMM = programme de modélisation moléculaire mecanique et dynamique (Brooks, Karplus, Harvard)
ChloroP = Chloroplast transit peptides and their cleavage sitesin plant proteins.
ClustalW= programme d'alignement multiple de séquences ()
ClustalX = programme d'alignement multiple de séquences et d'edition ()
Clustal2modeller = programme de génération de fichiers ali et top pour Modeller à partir d'un  fichier au format Clustal (T.Rose, IP)
Chisel = programme d'extraction de chaînes ou de fragment de protéines ou ligand d'un fichier PDB (T.Rose, IP)
Cosa = programme de calcul de conservation/entropie/impact à partir d'un multi-alignement et projection colorée sur un model 3D (T.Rose, IP)
Cytoscape = (Systems in Biology, MIT, IP)
Dali =
DIP =
Eclipse = atelier logiciel
Evoluswap = programme de recherche de mutations compensatoires entre deux groupes de séquences multi-alignées - coloration des interfaces (T.Rose, IP)
Fasta =
Fastacmd = programme d'extraction de sequence à partir d'un ID dans une base de données compilée pour blast (,NCBI)
Forester = (S.Eddy, Washington University, St Louis)
HPRD = Human protein interaction database (query, browse)
HMMer = programme d'alignement multiple de séquences et d'extraction de profil (S.Eddy, Washington University, St Louis)
HMMsearch = programme de recherche de séquences à partir d'un profil (S.Eddy, Washington University, St Louis)
Indonesia = programme d'alignement multiple et d'édition  ()
IntAct=
Jalview = a java multiple alignment editor (Clamp M., Sanger)
Kepler =
Kiss = programme de calcul de distances entre chaînes et projection colorée sur un model 3D de l'interface (T.Rose, IP)
LipoP = Signal pepsidase I & II clevage sites in gram- bacteria.
MINT =
Modeller = programme de construction de modèle 3D par comparaison (A.Sali, UCSF)
NRprot =
OpenMosix =
PDB = Protein structure DataBank (RCSB, Rutgers U)
Phylip = package de programmes phylogénétiques (Finkelstein, U.Washington, Seattle)
Pisces = create subsets of sequences culled from the entire PDB (Dunbrack R.L., ICR Fox Chase Cancer Center, Philadelphia)
Procheck = Programme d'évaluation de la conformité stéréochimique d'un modèle moléculaire (J.Thorton, UCL-BC, Londres)
PSI-blast = programme recherchant les protéines dans une base à partir d'un profil consensuel construit par itération de blast (NCBI)
Ptolemy II=
PubGen = The Network Browser tool displays literature or sequence association networks for a gene (ref), hosted by U.Oslo  developed by Pubgene inc
PyMOL = molecular graphics system with an embedded Python interpreter designed for real-time visualization and rapid generation of high-quality molecular graphics images and animations (W.Delanno)
Robetta = Full chain protein structure prediction server (Baker, U.Washington)
SAM-T02 = HMM-based protein structure prediction
SCWRL = program for prediction of protein side-chain conformations (Dunbrack R.L., ICR Fox Chase Cancer Center, Philadelphia)
Seaview = programme d'édition d'alignement multiple de séquences ()
SecretomeP = Non-classical and leaderless secretion of eukaryotic proteins.
SignalP = programme de détection des séquences signal ()
Spa =
SPIN = Search in Protein Interaction Network suite de programme pour afficher le réseau de protéines qui interagissent avec une cible (IP)
SwissProt = (Expasy, EBI)
T-coffee = programme d'alignement multiple de séquences ()
TargetP = Subcellular location of proteins: mitochondrial, chloroplastic, secretory pathway, or other
TMHMM = Programme de recherche de segments transmembranaires ()
Triton = graphical tool for modelling protein mutants and assessment of their activities (Jaroslav Koca, NCBR, Czech Republic)
Vergil = Interface graphique du gestionnaire de workflow Ptolemy (UCBerkeley)
WhatCheck = Programme d'évaluation de la conformité stéréochimique d'un modèle moléculaire ()

NetNES = Leucine-rich nuclear export signals (NES) in eukaryotic proteins.
SecretomeP = Non-classical and leaderless secretion of eukaryotic proteins.
SignalP = Signal peptide and cleavage sites in gram+, gram- and eukaryotic amino acid sequences.
TargetP = Subcellular location of proteins: mitochondrial,chloroplastic, secretory pathway, or other.
DictyOGlyc = modification post traductionnelle : O-(alpha)-GlcNAc glycosylation sites (trained on Dictyostelium discoideum proteins).
NetAcet = modification post traductionnelle : N-terminal acetylation in eukaryotic proteins.
NetCorona = Coronavirus 3C-like proteinase cleavage sites in proteins.
NetNGlyc= N-linked glycosylation sites in human proteins.
NetOGlyc = O-GalNAc (mucin type) glycosylation sites in mammalian proteins.
NetPhos = Serine, threonine and tyrosine phosphorylationsites in eukaryotic proteins.
NetPicoRNA = Posttranslational cleavage by picornaviral proteases.
ProP = Arginine and lysine propeptide cleavage sites in eukaryotic protein sequences.
YinOYang = O-(beta)-GlcNAc glycosylation and Yin-Yang sites(intracellular/nuclear proteins).
NetChop = Proteasomal cleavages (MHC ligands).
NetMHC = Binding of peptides to different HLA alleles.
ArchaeaFun = Enzyme/non-enzyme and enzyme class (Archaea).
CPHmodels = Protein structure from sequence: distance constraints.
distanceP = Protein distance constraints.
ProtFun = Protein functional category and enzyme class (Eukarya).
RedHom = Reduction of sequence similarity in a data set.

Alice: Motif discovery. (IP, Paris)
CDS: Coding regions. (IP, Paris)
CONFMAT: Side chain packing optimization on a given main chain template for protein PDB files. (IP, Paris)
Consindex: Sequence conservation across homologous sequences. (IP, Paris)
ctrl-Dev: a system for doing cell and developmental biology on a computer. (IP, Paris)
cosa: Clustal ouput structural analysis. (IP, Paris)
DECORATE: Side chain packing optimization of a new sequence on a given template main chain. (IP, Paris)
DETECTiVENT: Detection and analysis of synaptic events in intracellular electrophysiological recordings. (IP, Paris)
DiffTool: building, visualizing and querying protein clusters. (IP, Paris)
ENVIRON: Calculates Energies Associated with Accessible as well as Buried Surface Areas in Proteins. (IP, Paris)
extractcds: Extract CDS features from a Genbank entry. (IP, Paris)
Find Target: subtractive genome analysis. (IP, Paris)
flat2fasta: Tools for converting big flat files into fasta format. (IP, Paris)
FLINQS: Find Linker IN Query Sequence. (IP, Paris)
gb2xml: Genbank to XML conversion tool. (IP, Paris)
Gene-Link: genetic linkage analysis of experimental backcrosses. (IP, Paris)
GMP-Tool-Box. (IP, Paris)
golden: Fast database entry fetching. (IP, Paris)
gruppi: Clusters of binding sites. (IP, Paris)
HOMOLOGY: SCMF Homology Modelling Program. (IP, Paris)
html4blast: Blast output parser. (IP, Paris)
ISEApeaks: Toolbox for data analysis of immune repertoires described by CDR3 usage. (IP, Paris)
MELTING: Enthalpie, entropy and melting temperature. (IP, Paris)
Pise: Web interfaces generator for Molecular Biology programs. (IP, Paris)
prose: Search for Prosite patterns in protein sequences. (IP, Paris)
protal2dna: Align DNA sequences given the corresponding protein alignment. (IP, Paris)
Recognet: Computer Assisted Bacterial Identification. (IP, Paris)
seqiotcl: Tcl extension for the SEQIO package. (IP, Paris)
seqsblast: Extract sequences from a Blast report. (IP, Paris)
SIG: Multiple Prosite motifs searching. (IP, Paris)
SMILE: Structured Motif Inference and Evaluation. (IP, Paris)
Taxotron: Recognizer, RestrictoScan, RestrictoTyper, Adanson, Dendrograf, AntibioTyper, FactorAna. (IP, Paris)
Toppred: Topology prediction of membrane proteins (re-implemented version of Gunnar van Heijne algorithm). (IP, Paris)
VeryfastDNAml: parallelized fastDNAml.(IP, Paris)

Programme interactifs telechargeables
Edition et multialignement de séquences = ClustalX, Indonesia, Seaview
Edition d'arbres phylogénétiques = ATV
Affichage et manipulation de structure 3D = Chime/Rasmol, PDBviewer, PyMOL
Affichage et manipulation de réseaux d'interaction de protéines = Cytoscape, Osprey

Databases
Séquences de protéines = NRprot, PIR, SwissProt, UniProt
Séquences de gènes =
Génomes = COG
Recherche de séquences similaires d'un génome à l'autre = Decrypton
Alignement multiples = Prodom, Pfam
Structure de protéines = PDB
Modeles prédictif = ModBase
Interactions protéines-protéines = DIP, HPRD, Interact, MINT
Métabolism = KEGG
Bibliographiques = PubMed

Programmes de distribution de calculs
Distribution non parallèle sur systèmes non dédiés type screensaver = Models@home
Distribution non parallèle sur systèmes dédiés = OpenMosix
Distribution parallèle sur systèmes dédiés = Beowulf
Gestion de queues de jobs =

Liens vers les autres projets de gestionnaires de workflows
Bonita
Bossa
Breeze
DiscoveryNet/InforSense
Enhydrashark
G-Pipe
JFolder
Kepler
OFBiz
OpenWFE
PipelinePilot/SciTegic
Piper
Pise
Taverna
Triana
Viper
WfMOpen
Wildfire
Xflow

Environnement de développement de logiciels
Eclipse

Langages
java (MacOSX)
java (Windows)

Affichage de documents
acrobat (pdf)

Databases over Databases

SRS Sequence Retrieval System (network browser for databanks in molecular biology)
BioMedNet Library
DBGET Database Links
Harvard Genome Research Databases and Selected Servers
Listing of Molecular Biology Databases (LiMB)
WWW Server for Virology, UW-Madison
UK MRC Human Genome Mapping Project Resource Centre
PEDROS List of Molecular Biology Search and Analysis Tools
WWW for the Molecular Biologists and Biochemists
The Genome Database
ExPASy Molecular Biology Server
The Antibody Resource Page
Bioinformatics and Computational Biology at George Mason University
INFOBIOGEN Catalog of Databases
Human Genome Project Information
Proteome Research: New Frontiers in Functional Genomics (book contents)
Bioinformatik.de
Bioinformatics Directory
The American Society of Law, Medicine &Ethics

Major Public Sequence Databases

Databases at the Institut Pasteur
EMBL WWW Services
GenBank Database Query Form (get a GenBank entry)
Protein Data Bank = structure database at the RCSB
European Bioinformatics Institute (EBI)
TOPS = Protein topology atlas at EBI
EBI Industry support
SWISS-PROT = protein sequence database
PROSITE (functional protein sites)
Macromolecular Structures Database
Molecules R Us (search and view a protein molecule)
PIR-International Protein Sequence Database
SCOP (structural classification of proteins), MRC
HIV Sequence Database, Los Alamos
HIV Molecular Immunology Database, Los Alamos
TIGR Database
The NCBI WWW Entrez Browser
Cambridge Structural Database (small-molecule organic and organometallic crystal structures)

Specialized Databases

ANU
= Bioinformatics Hypermedia Server offers virus databases, classification and nomenclature of viruses
O-GLYCBASE = a revised database of O-glycosylated proteins
GSDB = The Genome Sequence Database is a complete, relational database of annotated DNA sequences
EMP = Database of Enzymes and Metabolic Pathways
ECDC  = E.coli database collection (ECDC) (compilation of DNA sequences of E. coli K12)
BCDB = BCM - Breast CancerData Base
EcoCyc = Encyclopedia of Escherichia coli Genes and Metabolism
GenProtEc = genes and proteins of Escherichia coli
YPD = proteins from Saccharomyces cerevisiae
LISTA, LISTA-HOP and LISTA-HON = compilation of homology databases from yeast
FlyBase = Drosophila database
MPDB = molecular probe database
Compilation of tRNA sequences and sequences of tRNA genes
Small RNA database =  Baylor College of Medicine
The uRNA database = University of Texas
SRPDB = signal recognition particle database
RDP = the Ribosomal Database Project
Structure of small ribosomal subunit RNA
Structure of large ribosomal subunit RNA
RNA modification database
HAMSTeRS = (haemophilia A mutation database) and factor VIII mutation database
Haemophilia B (point mutations and short additions and deletions)
Human p53, hprt and lacZ genes and mutations
PAH = sequence mutation analysis in disease-producing human PAH loci
IMGT = the international ImMunoGeneTics database
p53 mutations in human tumors and cell lines
Androgen receptor gene mutations database
Glucocorticoid receptor resource
Thyroid hormone receptor resource
16SMDB and 23SMDB =16S and 23S ribosomal RNA mutation database
MITOMAP = human mitochondrial genome database
SWISS-2DPAGE = database of two-dimensional polyacrylamide gelelectrophoresis
PRINTS  =  protein fingerprint database
KabatMan = database of antibody structure and sequence information
ALIGN = compendium of protein sequence alignments
CATH = protein structure classification system
ProDom = protein domain database
Blocks database = system for protein classification
HSSP  = homology-derived secondary structure of proteins
FSSP = fold classification based on structure-structure alignment of proteins
SBASE = protein domains and annotated protein sequence segments
TransTerm = database of translational signals
GRBase = database linking information on proteins involved in generegulation
ENZYME = nomenclature of enzymes
REBASE = database of restriction enzymes and methylases
RNaseP database
TRANSFAC = database on transcription factors and their DNA binding sites
MHCPEP = database of MHC-binding peptides
Mouse genome database
Mouse knockout database
ATCC = American type culture collection
Histone sequence database of highly conserved nucleoprotein sequences
3Dee = database of protein structure domain definitions
NRL_3D = sequence-structure database derived from PDB, pictures and searches
VBASE = human variable immunoglulin gene sequences
GPCRD = G protein-coupled receptor data
Other organisms genome databases (ACeDB-C. elegans, DictyDB-Dictyostelium discoideum, MycDB-Mycobacteria, PathoGenes-fungal pathogens of cereals)
List of bacterial names with standing in nomenclature
Locus specific mutation database
Carbohydrate databases
Human papillomaviruses database
Human 2-D PAGE databases for proteome analysis in health and disease
Kidney development database
U.S. patent citation database

Protein Interaction databases
BIND - Biomolecular Interaction Network Database
DIP - Database of Interacting Proteins

PIM - Hybrigenics

PathCalling Yeast Interaction Database

MINT - a Molecular Interactions Database

GRID - The General Repository for Interaction Datasets

InterPreTS - protein interaction prediction through tertiary structure

STRING - predicted functional associations among genes/proteins

Mammalian protein-protein interaction database (PPI)

InterDom - database of putative interacting protein domains

FusionDB - database of bacterial and archaeal gene fusion events

IntAct Project

The Human Protein Interaction Database (HPID)

ADVICE - Automated Detection and Validation of Interaction by Co-Evolution

InterWeaver - protein interaction reports with online evidence

PathBLAST - alignment of protein interaction networks

ClusPro - a fully automated algorithm for protein-protein docking

HPRD - Human Protein Reference Database

The Binding Interface Database (BID) is structured to organize vast amounts of protein interaction information into tabular form, graphical contact maps, and descriptive functional profiles.
PQS Protein Quaternary Structure Query Form at the EBI

Gene Finding and Intron Splice Site Prediction
BCM Genefinder

NetGene (prediction of intron splice sites in human genes)
NetPlantGene (prediction of intron splice sites in Arabidopsis thaliana)
GeneQuiz (automated analysis of genomes)
GRAIL interface (protein coding regions and functional sites)
GENEMARK (WWW system for predicting protein coding regions)
GENSCAN Web Server: Complete gene structures in genomic DNA
GRAIL and GENQUEST (E-mail sequence analysis, gene assembly, and sequence comparison)
Web Signal Scan Service (scan DNA sequences for eukaryotic transcriptional elements)
Gene Discovery Page
List of genome sequencing projects

Sequence Similarity Searches
Sequence similarity search page at EBI

NCBI: BLAST notebook
BLITZ ULTRA Fast Search at EMBL
EMBL WWW services
BioSCAN = online at U. North Carolina
Pattern scan of proteins or nucleotides
The PRINTS/PROSITE scanner = search motif databases with query sequence)
DARWIN system = at ETH Zurich
PimaII find sequence similarity using dynamic programming
DashPat find sequence similarity using a hashcode comparison with a pattern library
PROPSEARCH (search based on amino acid composition, EMBL)
Sequence search protocol (integrated pattern search)
GenQuest (Fasta, Blast, Smith Waterman; search in any database)
SSearch (searches against a specified database)
BCM Search Launcher (makes multiple searches from one input)
Peer Bork search list (motif/pattern/profile searches)
PROSITE = search for functional sites in your sequence from a database
PROWL-= Protein Information Retrieval at Skirball Institute
CEPH = genotype database
Advanced BLAST2 Search at EMBL

Pairwise Sequence and Structure Alignment

SIM = Pairwise protein alignment (SIM)
LALNVIEW = alignment viewer program
Pairwise DNA alignment (LFASTA) ACNUC at Lyon
AMAS = analyse multiply aligned sequences
BCM Search Launcher (pairwise sequence alignment)
DALI = compare protein structures in 3D
DIALIGN = aligment program without explicit gap penalties

Multiple Alignment and Phylogeny
PHYLIP = programs for inferring phylogenies
Other phylogeny programs, a complication from PHYLIP documentation
Tree of Life = Home Page (information about phylogeny and biodiversity)
Phylogenetic analysis programs (the tree of life list)
Cladistic software (a list from the Willi Hennig Society)
BCM search launcher for multiple sequence alignments
WebLogo = sequence logo
Protein sequence logos using relative entropy
RNA structure-sequence logo

CBS Bioinformatics Tools
EasyGibbs = Motif recognition in protein sequences by Gibbs sampler (CBSA-BioCentrum-DTU Lyngby, Denmark).
EasyPred
= Development of neural network and weight matrix prediction methods for protein sequences (CBSA-BioCentrum-DTU Lyngby, Denmark).
RNA Structure Logos = Displaying structural RNA alignments (CBSA-BioCentrum-DTU Lyngby, Denmark).
MatrixPlot = Visualizing structural sequence constraints (CBSA-BioCentrum-DTU Lyngby, Denmark).
DNA array tools = Tools for analysis of DNA microarray data (CBSA-BioCentrum-DTU Lyngby, Denmark).
RevTrans
= Multiple alignment of coding DNA using protein level information (CBSA-BioCentrum-DTU Lyngby, Denmark).

Prediction of Protein Structure from Sequence

PHD = PredictProtein server for secondary structure, solvent accesibility, and transmembrane segments
BMERC = Computational Biology Tools
FoldClass = predicts protein fold classes and protein domains
NNSSP = prediction of protein secondary sturcture by nearest-neighbor algorithms
Swiss-Model  = automated knowledge-based protein homology modeling server
TMAP = service predicting transmembrane segments in proteins
TMpred  = prediction of transmembrane regions and orientation
NIH Molecular Modeling Homepage = modeling homepage with links
COILS = prediction of coiled coil regions in proteins
PREDATOR  = protein secondary structure prediction from single sequence
DAS = Dense Alignment Surface; prediction of transmembrane regions in proteins
Fold-recognition at UCLA-DOE STRUCTURE PREDICTION SERVER
GlobPlot 2.0 =  Intrinsic Protein Disorder/Globularity/Domain Prediction 2.0
DisEMBL = Intrinsic Protein Disorder Prediction 1.3

Other Prediction Servers
Translation start in vertebrate and A. thaliana DNA

O-glycosylation sites in mammalian proteins
SignalP = signal peptide and cleavage sites in gram+, gram-, and eukaryotic amino acid sequences
PSORT  = prediction of protein-sorting signals and localization from sequence
Cognitor = compare your sequence to COG database
Prediction of HLA-binding peptides from sequences
Prediction of HLA-binding peptides in HIV sequences

Database distribution
ArrayExpress = ArrayExpress Database (FTP site at EBI)
EMBL = EMBL nucleotide sequence database (FTP site at EBI)
DSSP = DSSP database  (FTP site at EBI)
FSSP = FSSP database (FTP site at EBI)
GOA = GOA database (FTP site at EBI)
HSSP = HSSP database (FTP site at EBI)
InterPro = InterPro database (FTP site at EBI)
IntAct = Protein interaction data in PSI MI XML format (FTP site at EBI)
IPI = IPI cross reference files (FTP site at EBI).
MSD = MSD Database (FTP site at EBI)
RESID = RESID Database (FTP site at EBI)
Swiss-Prot = Swiss-Prot Database (FTP site at EBI)
TrEMBL = TrEMBL Database (FTP site at EBI)
UniProt = UniProt annotated protein sequence database   (FTP site at EBI using SwissProt as XML/Fasta/Flat files or TrEMBL as XML/Fasta/Flat files)
UniRef = UniProt non-redundant reference database (FTP site at EBI using UniRef100 as XML/Fasta, UniRef90 as XML/Fasta, UniRef50 as XML/Fasta)
UniPark = (FTP site at EBI)

Database searches
Genomes à l'EBI = eucaryotes,   bactériens , archeobactérien, viraux, viroidaux, phagiques, organelles
Integr8 is a browser for information relating to completed genomes and proteomes, based on data contained in Genome Reviews and the UniProt proteome sets
SRS = Query all databases at EBI
Simple sequence retrieval = Sequence retrieval by accession number

Nucleotide and Protein Sequence Submissions
AEdb = Submit sequences to the Alternatively Spliced Exon Database (ASD-EC) at EBI
EMBL via WEBIN = Submit DNA sequences to EMBL-Bank/GenBank/DDBJ using the WEBIN tool at EBI
IMGT/HLA = Submit sequences to the Imunogenetics human major histocompatibility complex (IMGT/HLA) database at EBI
UniProt via SPIN = Submit protein sequences to the UniProt Protein Resource database using the SPIN submission tool at EBI
Webin-Align = Submit alignments to the EMBL alignment database using the Webin-Align submission too at EBI

Structure Submissions
EMDep = EM-Deposition Tool For Electron Microscopy Volume Data at EBI
PDB-AutoDep = 3D structure submissions to PDB at EBI

Microarray Submissions
ArrayExpress via MIAMExpress = Submission of microarray data to the ArrayExpress database using the MIAMExpress submission tool at EBI

DNA and Protein Searches
Blast the ensembl genomes at EBI
Blast2-WU Protein = Washington University (WU) blast2 for protein databases. (blast 2.0 with gaps) at EBI
Blast2-WU Nucleotide = Washington University (WU) blast2 for nucleotide databases. (blast 2.0 with gaps) at EBI
Blast2-NCBI Protein = NCBI blast2 (blastall) program for protein databases at EBI
Blast2-NCBI Nucleotide = NCBI blast2 (blastall) program for nucleotide databases at EBI
Blast2-NCBI EVEC = European blast2 Vector Searches. Check your sequences for vector contamination a EBI
Fasta nucleotide = Sequence similarity searching against nucleotide databases using Fasta at EBI
Fasta protein = Sequence similarity searching against protein databases using Fasta at EBI
Fasta-LGIC Protein server = Protein sequence similarity searching against the Ligand Gated Ion Channel Database using Fasta
Fasta-LGIC Nucleotide server = Nucleotide sequence similarity searching against the Ligand Gated Ion Channel Database using Fasta at EBI
Fasta-Proteome server = Completed Proteomes Fasta server at EBI
Fasta-Genome server = Completed Genomes Fasta server at EBI
Fasta-WGS server = Whole genome shotgun (WGS) Fasta server at EBI

Rigorous Protein Searches
Blitz = email-based database searching with both MPsrch and Scanps at EBI
MPsrch = very fast  implementation of the true Smith and Waterman algorithm at EBI
Scanps2.3 = Fast implementation of the true Smith & Waterman algorithm for protein database searches

Specialised DNA Searches
Blast2-ASDASD blast server at EBI.
Blast2-Parasite = Parasite Genomes blast server at EBI
Fasta-SNP server = European SNP database (HGBASE) Fasta searches at EBI

Protein functional analysis
CluSTr Search = Search UniProt (Swiss-Prot+TrEMBL) by accession numbers at EBI
FingerPRINTScan = PRINTS Protein fingerprint searches at EBI
GeneQuiz = Highly automated analysis of biological sequences at EBI
InterProScan = Search protein sequences against InterPro member databases at EBI
PPSearch = Protein motifs searches at EBI
Radar = Protein repeat detection at EBI

Sequence analysis
Align = Pairwise global and local alignment tool (from the package EMBOSS) at EBI
ClustalW = Multiple sequence alignments at EBI
CpG Plot/CpGreport = CpG Island finder and plotting tool (from the package EMBOSS) at EBI
Dna Block Aligner Form = Compares two DNA sequences assuming colinear blocks, ideal for promoters, at EBI
GeneMark = Gene prediction service at EBI
Genetic Code Viewer = Review of genetic code differences at EBI
GeneWise = Compares a protein sequence or a protein profile HMM to a DNA sequence at EBI
Mutation Checker = Sequence validation at EBI
Pepstats/Pepwindow/Pepinfo = programs for basic protein sequence analysis (from the package EMBOSS) at EBI
Pratt = Protein motif discovery at EBI
PromoterWise = Compares two DNA sequences allowing for inversions and translocations, ideal for promoters, at EBI
Reverse Translator = Reverse complement checker at EBI
SAPS = Statistics on protein sequences at EBI
Transeq = DNA sequence translation tool (from the package EMBOSS) at EBI

Structural Analysis
Biotech = Biotech validation suite for protein structures at EBI
DALI = Comparison of protein structures in 3D at EBI
EMsearch = A search tool for electron microscopy depositions at EBI
MaxSprout = Reconstruction of 3D coordinates from C(alpha) trace at EBI
MSD Services
tools and services the Macromolecular Structure Database (MSD) group at EBI
MSDfold = Secondary structure matching - Compare protein chains/structures and look for similar ones in the whole PDB archive or among SCOP domains at EBI
MSDpro = A java applet tool that allows you to construct complex relational queries on the MSD, without needing to know the arrangement of the data within the database, or the language in which such queries are usually written, SQL at EBI
MSDsite = This tool allows the ability to search the active site database based on ligand (eg ATP) or active site (eg CYS CYS CYS CYS) information, at EBI NMR Representatives = Search for NMR elucidated structures in the PDB at EBI
PQS = Protein quaternary structure query at EBI
PQS-Quick = Quickly retrive protein quaternary structure information from PDB ID code at EBI
Unpublished Reference Server= PDB updating of unpublished references at EBIMSDchem = Ligand Search
MSDsite =  Ligand Environment Search
MSDmine = ad-hoc queries and data analysis 
MSDtarget = Sequence Target Search
Search OCA = Enter OCA search system
SPINE @ EBI = Direct to Spine Targets
Relibase = A program for searching protein-ligand databases
PDB Pending = Search Pending & Waiting List for status of file under processing
MSDbar = Search System using Toolbar Application (Mozilla/Netscape)


Tools Miscellaneous
AppLab v1.0 = A CORBA-Java based application wrapper at EBI
BioLayout = An application for laying out and visualising complex biological graphs and networks, such as protein sequence similarity and protein interaction networks.
CAST = A protein sequence compositional bias detection filtering program is now available from the Computational Genomics Group
EMBL Computational Services = a collection of tools provided by EMBL in Heidelberg Germany to analyse DNA/protein sequences.
Expression Profiler = A set of tools for clustering, analysis and visualization of gene expression and other genomic data.
NEWT = A taxonomy database, integrating taxonomy data compiled at NCBI and data specific to the Swiss-Prot database
Protein Annotation Assistant = Tool that helps with Protein Annotation
Protein Colourer = A tool for colouring your amino acid sequences
QuickGO = fast web based viewer for the Gene Ontology data
Readseq = Sequence format convertion tool
Webservices = Provides programmatic access to various biological databases from EBI
Whatizit = can tell you the meaning of words found in your text, depending on the kind of information you want to see highlighted
XEMBL = EMBL records in BSML or AGAVE XML format