Objectifs :
Le projet panoramic propose des environnements pour construire graphiquement
des protocoles expérimentaux ou des suites de programmes bioinformatiques.
Deux aspects sont recherchés d'une part les possibilités de tatonnement
dans la création d'un protocole et d'autre part la rigueur de sa reproductibilité
une fois qu'il est établi et validé.
Ce projet a été conçu au sein d'une unité de recherche
expérimentale en immunologie afin de répondre à des besoins
spécifiques d'utilisateurs finaux. Nous cherchons à rationnaliser
une recherche par mutagénèse dirigée, des résidus
impliqués dans la reconnaissance cytokine-récepteur et dans la
conception d'agonistes d'intérêt thérapeutique pour ces
récepteurs impliqués dans la stimulation des lymphocytes (Programme
de recherche de lutte contre le cancer et le SIDA).
La généralisation des acteurs et méthodes et leurs intégrations
sont en cours. Panoramic est le prolongement d'une initiative commencée
en 1998, le projet Protic.
Un systeme de cahier de laboratoire a ete developpe tout au long de ce projet
afin d'assurer l'echange d'information entre les participants .
Le module Pasteur (Institut
Pasteur - Dpt de Medecine
Moléculaire) pour le gestionnaire de workflows Ptolemy II
(University of California, Berkeley)
FAQ et informations à propos de panoramic et du module pasteur (en construction)
Les outils bioinformatiques utilisés dans les workflows (en construction)
Base unifiée de séquences : accès aux requettes (en construction)
Base unifiée d'interactions protéine-protéine : accès aux requettes (en construction)
Base unifiée de modèles structuraux expérimentaux et prédictifs: accès aux requettes (en construction)
Le concept de ce projet est d'offrir des environnements pour assembler et relier des processus de manière intuitive, en déposant, déplaçant ou copiant des icônes enchaînées comme des perles sur un espace graphique. Chaque icône figure une methode, un acteur, des objets, des données ou une suite liée d'icônes, et donne accès aux paramètres ou liens associés à la demande. La finalité est soit de produire un protocole experimental, remplir un LIMS ou construire un workflow entre des programmes de bioinformatique, dans tous les cas d'offrir une vision du protocole, de son etat et des resultats de son action. La construction de workflows de bioinformatique a été le premier domaine abordé.
Une fois que le graphe d'icones connectés est construit, l'exécution et le contrôle des enchaînements de programmes bioinformatiques sont simplifiés à l'extrême avec des boutons play/stop. L'accès aux résultats de chaque acteur peut-être fait avec des visualisations interactives dès que l'acteur correspondant a été exécuté et avant la fin de tout le pipeline sans arrêter son exécution. Nous avons choisi l'environnement de développement de processus et de construction de chaînes "Ptolemy" (University of California, Berkeley) pour y intégrer le module "Pasteur". Ce module interface un très grand nombre de logiciels des mondes des séquences, structures, arbres et réseaux des protéines. Il permet de créer ses propres acteurs et objets pour des exécutions locales, délocalisées ou distribuées. Comme son extension "Pasteur", "Ptolemy" est programmé en Java et peut-être utilisé sur toute plateforme avec son interface graphique Vergil spécifique, sous forme d'applet, ou encore en ligne de commande permettant l'émulation en mode serveur. Vergil et Ptolemy autorisent le traitement de fichiers, de chaînes et de nombres en dataflow vers des utilitaires de représentation graphique par exemple, sur une ou plusieurs itérations d'un même groupe de processus. Pasteur rend réactif des visualisateurs interactifs d'objets hétérogènes ce qui ajoute aux "traditionnels traitements automatisés" offrant rigueur, reproductibilité et productivité, de véritables outils de "tatonnement" et d'expertise.
La totalité du projet est distribué sous licence LGPL
en "open source" comme l'est "Ptolemy". Les sources sont telechargeables sur
le site du projet (www.pasteur.fr/panoramic/panoramics.zip).
Le projet a été réalisé avec le principe de
construire des workflows conçus par un utilisateur final
impliqué dans une recherche des bases moléculaires de la
reconnaissance d'une cytokine par son recepteur. Ces workflows
s'étirent depuis la recherche et l'analyse de séquences,
la construction de modèles moléculaires, la
prédiction des partenaires structuraux et fonctionnels et la
localisation de leur interface et le criblage d'éventuels
agonistes et antagonistes. Ces workflows (XML) sont aussi
téléchargeables sur le site ainsi qu'un certains nombres
de workflows dérivés ou généralisés.
Les utilisateurs pourront aussi enrichir la librairie de workflows et
d'acteurs sur ce même site.
Un " découvreur de services " et une aide à la
construction de workflows sont en développement et permettront
par la définition de la méthode de départ et
d'arrivée ou du format de données au départ et
à l'arrivée d'obtenir des workflows possibles.
Le développement du module Pasteur est établi selon
trois axes :
- Manipulation de séquences
- Manipulation de structures
- Manipulation de graphes connexes, arbres ou réseaux
Chaque projet de développement contient les sous-projets
suivants:
- création, gestion, et interrogation de bases de données
- création, intégration et articulation de méthodes
- visualisation et opérations interactives sur les objets
L'organisation de chaque sous-projet repose sur :
- répertoire et classement des outils, méthodes et bases
de données existantes à transformer en " briques "
- sélection des briques primordiales représentatives
parmi celles qui sont répertoriées ci-dessus afin de
couvrir au moins l'application spécifique complète
requise par l'utilisateur final
- réalisation de pipelines fonctionnels enchaînant les
briques primordiales
Le projet est globalement a été traité en flux
tendu et programmation extrême. Le cahier des charges du
gestionnaire de processus a été établi à
l'avance, mais la construction des acteurs se fait à la demande
de l'utilisateur final sur un prototype sommairement construit sous
forme de script, puis rapidement transformé en une maquette sous
forme d'un programme C primaire sans option ni appel de fonction, en
général développé à partir d'un
patron standard. Alors un programme C ou JAVA est
réécrit conformément aux attentes de l'outil et
aux contraintes d'intégration. Les wrappers d'acteurs sont eux
directement écrits à partir d'un patron type.
Bien sûr l'utilisateur final peut créér
lui-même quatre sortes de briques pour intégrer toute
application:
- briques simples contenant la ligne de commande appelée lors de
l'exécution
- briques permettant l'utilisation de ports d'entrées et
de sorties multiples et du calcul d'expression pour construire la ligne
de commande
- briques d'émulation de services web à partir de
fichiers html ou xml
- briques composite regroupant un ensemble lié de briques
opérationnelles
Les briques sont compilés à l'aide de l'atelier
logiciel eclipse.
Le module Pasteur permet actuellement de créer et d'exécuter localement des workflows, les briques pouvant individuellement être exécutées localement, à distance ou par des web services. La gestion des workflows par ptolemy est découplable de l'interface graphique vergil et autorise donc l'exécution de workflow en ligne de commande à partir de leur code XML. De cette manière il est possible d'executer le workflow à distance. Nous souhaitons dans les prochains mois pouvoir disposer de l'interface graphique en local que l'on puisse quitter et réactiver à volonté sur un portable par exemple et l'exécution continue à distance sur un cluster par exemple.
Il est possible d'exécuter Ptolemy sous forme d'applets et d'intégrer vergil dans un navigateur. Nous n'avons pas encore exploré cette voie.
Voici une copie
d'écran
d'un workflow construit par l'un des concepteurs de
Ptolemy (E.Lee, UC Berkeley). Ce workflow a 3 entrées et 3
sorties et tous les éléments sont connectés. Vous
remarquerez :
|
![]() |
Le projet Kepler
développé à l'aide de Ptolemy a
intégré des acteurs permettant l'intérrogation de
web services.
| Voici une copie d'écran de
Ptolemy où le workflow organise des composants du module
Pasteur pour un alignement multiple de séquences avec clustalW
proposé dans un web service. Le contenu des boites s'affiche
après un double-clic. L'accès à la description de
l'acteur permet d'en modifier les paramètres. Le directeur d'ordonnancement est ici une exécution en flux synchrone (SDF synchronous dataflow). C'est le mode classique, le plus utilisé pour des applications intégrées. |
![]() |
Plusieurs workflows developpés à l'Institut Pasteur
à partir du module
Pasteur sont mis ici en démonstration (copies d'écran )
pour
illustrer
leur construction et leur représentation. La gallerie en
construction en proposera d'autres. Certains exemples seront
bientôt utilisés pour les tutoriaux (video mpg). Ils
seront aussi le support d'un cours de bioinformatique aux Cours de
Biochimie des Protéines de l'Institut Pasteur et Master M2 de
Biochimie Paris VI-VII.
| Voici une copie d'écran
de Ptolemy où le workflow organise des composants du module
Pasteur pour une recherche de séquences similaires à
partir d'un profil établit par une méthode d'extraction
sur un multialignement (Hidden Markov Model avec HMMer). Le noyau de
séquences orthologues initial est regroupé par recherche
de séquences similaires (Blast) dans une base de
séquences (NRprot) puis résumé dans une liste
(blast2list) et complété pour former un groupe de
séquences au format fasta (fastacmd) alors aligné tous
ensemble (clustalw) Un des aspects interressants de ptolemy est d'autoriser les commentaires sur l'espace graphique (canvas) et l'utilisation de variables globales valables pour tout le worflow. Ces variables sont particulièrement adaptées pour indiquer les répertoires de travail ou de stockage des exécutables. |
![]() |
| Voici une copie d'écran
de Ptolemy où le workflow organise des composants du module
Pasteur pour une recherche de séquences similaires (Blast) dans
une
base de données (NRprot du NCBI), avec differentes valeurs de e
à chaque
cycle: Ce type de workflow est utilisé pour choisir les valeurs les plus adaptées des paramètres de blast. A chaque tour le nombre de séquences est évalué (patterncount) après en avoir fait la liste (blast2list), puis cette valeur est affichée dans un graphe (XYplotter). |
![]() |
| Voici une copie
d'écran
de Ptolemy où le workflow organise des composants du module
Pasteur pour une analyse et un affichage de séquences, de
réseaux, de structures et d'arbres
phylogénétiques: Une séquence est utilisée comme requette pour rechercher dans un base de données (querysp) toutes les protéines qui interagissent avec elle affiché par cytoscape. Chaque paire de la liste classée et dédoublée (sortliste, uniq) est extraite (liste2pair) analysée à chaque tour d'une boucle (pulse) un allignement multiples des séquences orthologues est produit (blast, blast2list, fastacmd, clustalw) puis utilisé pour construire un arbre phylogénétique (tree=ATV). L'allignement multiple de chaque partenaire est utilisé pour rechercher les éventuelles mutations correllées compensatoires durant l'évolution suceptibles de désigner l'interface entre les partenaires (evoluswap). Un modèle structural est construit pour les partenaires si cela est possible (clustal2modeller, modeller) sur lequel est affiché la variabilité des résidus en code couleur (cosa) en utilisant le visualisateur de molécules pymol. |
![]() |
Un tutorial d'installation et d'utilisation du module pasteur peut être télecharge: (doc, rtf, pdf) il décrit:
Ce projet a été développé avec la participation de :
Thierry Rose, l'instigateur et le coordinateur du projet (IGC, Département de Médecine Moléculaire, Institut Pasteur, Paris)
Les stagiaires du cours 2004 d'Informatique
en Biologie de
l'Institut Pasteur à Paris:
Elisabeth Remy: Construction de listes de paires d'interactions de
protéines (présentation en ppt)
Karine Robbe: Exploration et
construction de réseaux
d'interactions de protéines (présentation
en ppt)
Mathieu Barthelemy:
Sélection et visualisation de reseaux
d'interaction de protéines (présentation
en pdf)
Les stagiaires du Mastère 2004 de Bioinformatique
de l'Institut d'Informatique d'Entreprise du CNAM à Evry :
Perrine Barjou: Création de bases
unifiées de séquences, de paires d'interactions et de réseaux
(rapport, présentation)
Franck Valentin: Conception des
acteurs d'intégration de logiciels et services web dans Ptolemy (rapport, présentation,
notice originale d'installation)
Vladimir Daric: Intégration d'acteurs
d'analyse et de prédiction de structures, adaptation au calcul réparti
(rapport, présentation)
La stagiaire du cours 2005 d'Informatique en Biologie
de l'Institut Pasteur à Paris:
Corrine Demanga: Recherche des motifs frequents a l'interaface des proteines
(MIPs) (rapport doc et rtf
, presentation)
Le stagiaire du Mastère 2005 de Bioinformatique
de l'Institut d'Informatique d'Entreprise du CNAM à Evry :
Abderrazak Mouzouri : Gestion interactive de pipelines de bioinformatique structurale
répartis avec Ptolemy/Panoramics sur des grappes de serveurs (rapport
doc, rtf)
L'aide du Pôle Informatique de l'Institut Pasteur a été décisive tout au long de ce projet, de la part groupe Logiciels et Bases de données - Catherine Letondal et Louis Jones - et de la part du groupe Système et Réseau - Marc Baudoin et Lionel Laffite.
Cahiers electroniques: eNotebook
Un systeme de cahier de laboratoire a ete developpe tout au long de ce projet afin d'assurer l'echange d'information entre les participants et surtout pour garder une trace ecrite des recherches, developpements, commentaires et discussions de chaque individu au fur et a mesure. Apres la decevante experience de 3 societes de developpement de cahiers proprietaires qui ont cesse le developpement de leur produit, nous avons choisi de creer des pages au format HTML indexees sur un serveur local.
Une page modele est telechargeable (ici).
Les modifications necessaires avec n'importe quel editeur sont indiquees en
debut de page.
Les regles suivantes ont ete adoptees et elles ont ete plutot respectees par
les etudiants:
Glossaire, références et liens
ATV = programme d'édition d'arbres phylogénétique
provenant du package Forester (S.Eddy, Washington University, St Louis)
Blast =
Blast2list = programme d'extraction des id des protéines
selectionnées dans la sortie d'un fichier Blast (T.Rose, IP)
CHARMM = programme de modélisation moléculaire mecanique
et dynamique (Brooks, Karplus, Harvard)
ChloroP = Chloroplast transit peptides and their cleavage sitesin plant
proteins.
ClustalW= programme d'alignement multiple de
séquences ()
ClustalX = programme d'alignement multiple de séquences et
d'edition ()
Clustal2modeller = programme de génération de fichiers
ali et top pour Modeller à partir d'un fichier au format
Clustal (T.Rose, IP)
Chisel = programme d'extraction de chaînes ou de fragment de
protéines ou ligand d'un fichier PDB (T.Rose, IP)
Cosa = programme de calcul de conservation/entropie/impact à
partir d'un multi-alignement et projection colorée sur un model
3D (T.Rose, IP)
Cytoscape = (Systems in Biology, MIT, IP)
Dali =
DIP =
Eclipse = atelier logiciel
Evoluswap = programme de recherche de mutations compensatoires entre
deux groupes de séquences multi-alignées - coloration des
interfaces (T.Rose, IP)
Fasta =
Fastacmd = programme d'extraction de sequence à partir d'un ID
dans une base de données compilée pour blast (,NCBI)
Forester = (S.Eddy, Washington University, St Louis)
HPRD = Human protein interaction
database (query, browse)
HMMer = programme d'alignement multiple de séquences et
d'extraction de profil (S.Eddy, Washington University, St Louis)
HMMsearch = programme de recherche de séquences à partir
d'un profil (S.Eddy, Washington University, St Louis)
Indonesia = programme d'alignement multiple et d'édition
()
IntAct=
Jalview = a java multiple
alignment editor (Clamp M., Sanger)
Kepler =
Kiss = programme de calcul de distances entre chaînes et
projection colorée sur un model 3D de l'interface (T.Rose, IP)
LipoP
= Signal pepsidase I & II clevage sites in gram- bacteria.
MINT =
Modeller = programme de construction de modèle 3D par
comparaison (A.Sali, UCSF)
NRprot =
OpenMosix =
PDB = Protein structure DataBank (RCSB, Rutgers U)
Phylip = package de programmes phylogénétiques
(Finkelstein, U.Washington, Seattle)
Pisces = create subsets of sequences culled from the entire PDB (Dunbrack R.L., ICR Fox Chase
Cancer Center, Philadelphia)
Procheck = Programme d'évaluation de la conformité
stéréochimique d'un modèle moléculaire
(J.Thorton, UCL-BC, Londres)
PSI-blast = programme recherchant les protéines dans une base
à partir d'un profil consensuel construit par itération
de blast (NCBI)
Ptolemy II=
PubGen = The Network Browser tool
displays literature or sequence association networks
for a gene (ref),
hosted by U.Oslo developed by Pubgene inc
PyMOL = molecular graphics
system with an embedded Python
interpreter designed for real-time visualization and rapid generation
of high-quality molecular graphics images and animations (W.Delanno)
Robetta = Full chain protein
structure prediction server (Baker, U.Washington)
SAM-T02
= HMM-based protein structure prediction
SCWRL = program for prediction of protein side-chain conformations (Dunbrack
R.L., ICR Fox Chase Cancer Center, Philadelphia)
Seaview = programme d'édition d'alignement multiple de
séquences ()
SecretomeP
= Non-classical and leaderless secretion of eukaryotic proteins.
SignalP =
programme de détection des séquences signal ()
Spa =
SPIN = Search in Protein Interaction Network suite de programme pour
afficher le réseau de protéines qui interagissent avec
une cible (IP)
SwissProt = (Expasy, EBI)
T-coffee = programme d'alignement multiple de séquences ()
TargetP =
Subcellular location of proteins: mitochondrial, chloroplastic,
secretory pathway, or other
TMHMM = Programme
de recherche de segments transmembranaires ()
Triton =
graphical tool for modelling protein mutants and assessment of their
activities (Jaroslav Koca, NCBR,
Czech Republic)
Vergil = Interface graphique du gestionnaire de workflow Ptolemy
(UCBerkeley)
WhatCheck = Programme d'évaluation de la conformité
stéréochimique d'un modèle moléculaire ()
Programme interactifs
telechargeables
Edition et multialignement de séquences = ClustalX, Indonesia,
Seaview
Edition d'arbres phylogénétiques = ATV
Affichage et manipulation de structure 3D = Chime/Rasmol, PDBviewer,
PyMOL
Affichage et manipulation de réseaux d'interaction de
protéines = Cytoscape, Osprey
Databases
Séquences de protéines = NRprot, PIR, SwissProt, UniProt
Séquences de gènes =
Génomes = COG
Recherche de séquences similaires d'un génome à
l'autre = Decrypton
Alignement multiples = Prodom, Pfam
Structure de protéines = PDB
Modeles prédictif = ModBase
Interactions protéines-protéines = DIP, HPRD, Interact,
MINT
Métabolism = KEGG
Bibliographiques = PubMed
Programmes de distribution de
calculs
Distribution non parallèle sur systèmes non
dédiés type screensaver = Models@home
Distribution non parallèle sur systèmes
dédiés = OpenMosix
Distribution parallèle sur systèmes dédiés
= Beowulf
Gestion de queues de jobs =
Liens vers les autres projets de
gestionnaires de workflows
Bonita
Bossa
Breeze
DiscoveryNet/InforSense
Enhydrashark
G-Pipe
JFolder
Kepler
OFBiz
OpenWFE
PipelinePilot/SciTegic
Piper
Pise
Taverna
Triana
Viper
WfMOpen
Wildfire
Xflow
Environnement de
développement de logiciels
Eclipse
Langages
java (MacOSX)
java
(Windows)
Affichage de documents
acrobat (pdf)
Databases at the Institut
Pasteur
EMBL WWW Services
GenBank Database Query
Form (get a GenBank entry)
Protein Data Bank = structure database at
the RCSB
European Bioinformatics Institute (EBI)
TOPS = Protein topology atlas at EBI
EBI Industry support
SWISS-PROT = protein
sequence database
PROSITE (functional protein sites)
Macromolecular
Structures Database
Molecules R Us
(search and view a protein molecule)
PIR-International Protein Sequence Database
SCOP (structural
classification of proteins), MRC
HIV Sequence Database, Los Alamos
HIV Molecular Immunology
Database, Los Alamos
TIGR Database
The NCBI WWW Entrez
Browser
Cambridge Structural Database (small-molecule
organic and organometallic crystal structures)
Specialized Databases
ANU = Bioinformatics Hypermedia Server offers virus databases,
classification and nomenclature of viruses
O-GLYCBASE =
a revised database of O-glycosylated proteins
GSDB = The Genome Sequence Database is a complete,
relational database of annotated DNA sequences
EMP = Database of Enzymes and Metabolic
Pathways
ECDC = E.coli
database collection (ECDC) (compilation of DNA sequences of E. coli
K12)
BCDB = BCM - Breast
CancerData Base
EcoCyc = Encyclopedia
of Escherichia coli Genes and Metabolism
GenProtEc = genes and proteins
of Escherichia coli
YPD = proteins from Saccharomyces
cerevisiae
LISTA, LISTA-HOP and LISTA-HON = compilation
of homology databases from yeast
FlyBase = Drosophila
database
MPDB = molecular
probe database
Compilation
of tRNA sequences and sequences of tRNA genes
Small RNA database
= Baylor College of Medicine
The uRNA database
= University of Texas
SRPDB = signal recognition particle database
RDP = the Ribosomal Database Project
Structure of small ribosomal
subunit RNA
Structure of large ribosomal
subunit RNA
RNA modification database
HAMSTeRS = (haemophilia A
mutation database) and factor VIII mutation database
Haemophilia B (point mutations
and short additions and deletions)
Human p53, hprt and lacZ
genes and mutations
PAH = sequence mutation analysis in
disease-producing human PAH loci
IMGT = the international ImMunoGeneTics
database
p53 mutations in human tumors
and cell lines
Androgen receptor gene
mutations database
Glucocorticoid receptor resource
Thyroid hormone
receptor resource
16SMDB
and 23SMDB =16S and 23S ribosomal RNA mutation database
MITOMAP = human mitochondrial
genome database
SWISS-2DPAGE = database
of two-dimensional polyacrylamide gelelectrophoresis
PRINTS
= protein fingerprint database
KabatMan = database of antibody
structure and sequence information
ALIGN
= compendium of protein sequence alignments
CATH = protein structure
classification system
ProDom = protein domain database
Blocks database = system for protein
classification
HSSP = homology-derived
secondary structure of proteins
FSSP = fold classification
based on structure-structure alignment of proteins
SBASE = protein domains
and annotated protein sequence segments
TransTerm = database of
translational signals
GRBase =
database linking information on proteins involved in generegulation
ENZYME = nomenclature of enzymes
REBASE = database of restriction enzymes
and methylases
RNaseP database
TRANSFAC = database on transcription factors
and their DNA binding sites
MHCPEP = database of MHC-binding
peptides
Mouse genome database
Mouse knockout database
ATCC = American type culture collection
Histone sequence database
of highly conserved nucleoprotein sequences
3Dee = database of protein
structure domain definitions
NRL_3D = sequence-structure
database derived from PDB, pictures and searches
VBASE =
human variable immunoglulin gene sequences
GPCRD = G protein-coupled receptor data
Other organisms genome databases (ACeDB-C.
elegans, DictyDB-Dictyostelium discoideum, MycDB-Mycobacteria,
PathoGenes-fungal pathogens of cereals)
List of bacterial names with standing
in nomenclature
Locus specific
mutation database
Carbohydrate databases
Human papillomaviruses database
Human 2-D PAGE databases for proteome
analysis in health and disease
Kidney development
database
U.S. patent citation database
Protein Interaction databases
BIND - Biomolecular Interaction
Network Database
DIP - Database of Interacting Proteins
PIM - Hybrigenics
PathCalling Yeast Interaction Database
MINT - a Molecular Interactions Database
GRID - The General Repository for Interaction Datasets
InterPreTS - protein interaction prediction through tertiary structure
STRING - predicted functional associations among genes/proteins
Mammalian protein-protein interaction database (PPI)
InterDom - database of putative interacting protein domains
FusionDB - database of bacterial and archaeal gene fusion events
IntAct Project
The Human Protein Interaction Database (HPID)
ADVICE - Automated Detection and Validation of Interaction by Co-Evolution
InterWeaver - protein interaction reports with online evidence
PathBLAST - alignment of protein interaction networks
ClusPro - a fully automated algorithm for protein-protein docking
HPRD - Human Protein Reference Database
The Binding Interface Database (BID) is
structured to organize vast amounts of protein interaction information into
tabular form, graphical contact maps, and descriptive functional profiles.
PQS Protein Quaternary Structure Query Form
at the EBI
Gene Finding and Intron Splice Site
Prediction
BCM Genefinder
NetGene (prediction of intron
splice sites in human genes)
NetPlantGene (prediction of
intron splice sites in Arabidopsis thaliana)
GeneQuiz (automated analysis
of genomes)
GRAIL interface (protein coding
regions and functional sites)
GENEMARK (WWW
system for predicting protein coding regions)
GENSCAN Web Server: Complete gene
structures in genomic DNA
GRAIL and GENQUEST (E-mail
sequence analysis, gene assembly, and sequence comparison)
Web Signal Scan Service (scan
DNA sequences for eukaryotic transcriptional elements)
Gene Discovery Page
List of genome
sequencing projects
Sequence Similarity Searches
Sequence similarity search page at EBI
NCBI: BLAST notebook
BLITZ ULTRA Fast Search
at EMBL
EMBL WWW services
BioSCAN = online at U. North
Carolina
Pattern scan
of proteins or nucleotides
The PRINTS/PROSITE
scanner = search motif databases with query sequence)
DARWIN system = at ETH Zurich
PimaII find sequence
similarity using dynamic programming
DashPat find
sequence similarity using a hashcode comparison with a pattern library
PROPSEARCH (search based on
amino acid composition, EMBL)
Sequence
search protocol (integrated pattern search)
GenQuest (Fasta, Blast, Smith
Waterman; search in any database)
SSearch
(searches against a specified database)
BCM Search
Launcher (makes multiple searches from one input)
Peer Bork search
list (motif/pattern/profile searches)
PROSITE = search for
functional sites in your sequence from a database
PROWL-= Protein Information Retrieval
at Skirball Institute
CEPH = genotype database
Advanced BLAST2 Search
at EMBL
Pairwise Sequence and Structure Alignment
SIM = Pairwise protein
alignment (SIM)
LALNVIEW = alignment viewer program
Pairwise DNA alignment (LFASTA)
ACNUC at Lyon
AMAS = analyse
multiply aligned sequences
BCM Search
Launcher (pairwise sequence alignment)
DALI = compare protein structures
in 3D
DIALIGN = aligment program
without explicit gap penalties
Multiple Alignment and Phylogeny
PHYLIP =
programs for inferring phylogenies
Other phylogeny programs, a complication
from PHYLIP documentation
Tree of Life
= Home Page (information about phylogeny and biodiversity)
Phylogenetic
analysis programs (the tree of life list)
Cladistic software (a list
from the Willi Hennig Society)
BCM
search launcher for multiple sequence alignments
WebLogo = sequence
logo
Protein sequence logos
using relative entropy
RNA structure-sequence
logo
CBS Bioinformatics Tools
EasyGibbs = Motif recognition
in protein sequences by Gibbs sampler (CBSA-BioCentrum-DTU Lyngby, Denmark).
EasyPred = Development of neural network and weight matrix prediction methods
for protein sequences (CBSA-BioCentrum-DTU Lyngby, Denmark).
RNA Structure Logos
= Displaying structural RNA alignments (CBSA-BioCentrum-DTU Lyngby, Denmark).
MatrixPlot = Visualizing
structural sequence constraints (CBSA-BioCentrum-DTU Lyngby, Denmark).
DNA array tools
= Tools for analysis of DNA microarray data (CBSA-BioCentrum-DTU Lyngby, Denmark).
RevTrans = Multiple alignment of coding DNA using protein level information
(CBSA-BioCentrum-DTU Lyngby, Denmark).
Prediction of Protein Structure from Sequence
PHD
= PredictProtein server for secondary structure, solvent accesibility, and transmembrane
segments
BMERC = Computational Biology Tools
FoldClass
= predicts protein fold classes and protein domains
NNSSP = prediction of
protein secondary sturcture by nearest-neighbor algorithms
Swiss-Model
= automated knowledge-based protein homology modeling server
TMAP = service predicting
transmembrane segments in proteins
TMpred
= prediction of transmembrane regions and orientation
NIH Molecular Modeling Homepage
= modeling homepage with links
COILS =
prediction of coiled coil regions in proteins
PREDATOR
= protein secondary structure prediction from single sequence
DAS = Dense Alignment Surface;
prediction of transmembrane regions in proteins
Fold-recognition at UCLA-DOE STRUCTURE
PREDICTION SERVER
GlobPlot 2.0 = Intrinsic Protein
Disorder/Globularity/Domain Prediction 2.0
DisEMBL = Intrinsic Protein Disorder Prediction
1.3
Other Prediction Servers
Translation start in vertebrate and A. thaliana DNA
O-glycosylation sites in
mammalian proteins
SignalP = signal peptide
and cleavage sites in gram+, gram-, and eukaryotic amino acid sequences
PSORT = prediction of protein-sorting
signals and localization from sequence
Cognitor = compare
your sequence to COG database
Prediction
of HLA-binding peptides from sequences
Prediction of HLA-binding peptides in
HIV sequences
Database distribution
ArrayExpress = ArrayExpress Database (FTP
site at EBI)
EMBL = EMBL nucleotide sequence database
(FTP site at EBI)
DSSP = DSSP database (FTP
site at EBI)
FSSP = FSSP database (FTP
site at EBI)
GOA = GOA database (FTP
site at EBI)
HSSP = HSSP database (FTP
site at EBI)
InterPro = InterPro database (FTP site at EBI)
IntAct = Protein interaction data in PSI MI XML format (FTP site at EBI)
IPI = IPI cross reference files (FTP site at EBI).
MSD = MSD Database (FTP site
at EBI)
RESID = RESID Database (FTP site at EBI)
Swiss-Prot = Swiss-Prot Database (FTP site at EBI)
TrEMBL = TrEMBL Database (FTP site at EBI)
UniProt = UniProt annotated protein sequence database (FTP site
at EBI using SwissProt
as XML/Fasta/Flat
files or TrEMBL as
XML/Fasta/Flat
files)
UniRef = UniProt non-redundant reference database (FTP site at EBI using UniRef100
as XML/Fasta,
UniRef90
as XML/Fasta,
UniRef50
as XML/Fasta)
UniPark = (FTP
site at EBI)
Database searches
Genomes à l'EBI = eucaryotes, bactériens
, archeobactérien,
viraux, viroidaux, phagiques, organelles
Integr8
is a browser for information relating to completed genomes and proteomes, based
on data contained in Genome Reviews and the UniProt proteome sets
SRS = Query all databases at EBI
Simple sequence retrieval
= Sequence retrieval by accession number
Nucleotide and Protein Sequence Submissions
AEdb = Submit sequences to the Alternatively
Spliced Exon Database (ASD-EC)
at EBI
EMBL via WEBIN = Submit DNA sequences to EMBL-Bank/GenBank/DDBJ
using the WEBIN tool at EBI
IMGT/HLA = Submit sequences to the Imunogenetics
human major histocompatibility complex (IMGT/HLA)
database at EBI
UniProt via SPIN = Submit protein sequences to
the UniProt Protein Resource
database using the SPIN submission tool at EBI
Webin-Align = Submit alignments to the EMBL alignment
database using the Webin-Align submission too at EBI
Structure Submissions
EMDep = EM-Deposition
Tool For Electron Microscopy Volume Data at EBI
PDB-AutoDep = 3D structure submissions to PDB at EBI
Microarray Submissions
ArrayExpress
via MIAMExpress = Submission of microarray data
to the ArrayExpress database using the
MIAMExpress submission tool at EBI
DNA and Protein
Searches
Blast
the ensembl genomes at EBI
Blast2-WU Protein
= Washington University (WU) blast2 for protein databases.
(blast 2.0 with gaps) at EBI
Blast2-WU Nucleotide
= Washington University (WU) blast2 for nucleotide
databases. (blast 2.0 with gaps) at EBI
Blast2-NCBI Protein = NCBI blast2 (blastall) program for protein databases at EBI
Blast2-NCBI Nucleotide
= NCBI blast2 (blastall) program for nucleotide
databases at EBI
Blast2-NCBI EVEC =
European blast2 Vector Searches. Check your sequences
for vector contamination a EBI
Fasta nucleotide =
Sequence similarity searching against nucleotide
databases using Fasta at EBI
Fasta protein = Sequence similarity searching against protein databases using Fasta
at EBI
Fasta-LGIC Protein server = Protein sequence similarity searching against the Ligand Gated
Ion Channel Database using Fasta
Fasta-LGIC Nucleotide server = Nucleotide sequence similarity searching against the Ligand Gated
Ion Channel Database using Fasta at EBI
Fasta-Proteome server
= Completed Proteomes Fasta server at EBI
Fasta-Genome server
= Completed Genomes Fasta server at EBI
Fasta-WGS server = Whole genome shotgun (WGS) Fasta server at EBI
Rigorous Protein
Searches
Blitz = email-based database searching with both
MPsrch and Scanps at EBI
MPsrch = very fast implementation of the true Smith and Waterman algorithm
at EBI
Scanps2.3 = Fast implementation of the true Smith & Waterman algorithm
for protein database searches
Specialised DNA Searches
Blast2-ASD = ASD blast server
at EBI.
Blast2-Parasite =
Parasite Genomes
blast server at EBI
Fasta-SNP server =
European SNP database (HGBASE) Fasta searches at EBI
Protein functional analysis
CluSTr Search = Search
UniProt (Swiss-Prot+TrEMBL) by accession numbers at EBI
FingerPRINTScan = PRINTS Protein fingerprint
searches at EBI
GeneQuiz
= Highly automated analysis of biological sequences at EBI
InterProScan = Search protein sequences against
InterPro member databases at EBI
PPSearch = Protein motifs searches at EBI
Radar = Protein repeat detection at EBI
Sequence analysis
Align = Pairwise global and local alignment tool
(from the package EMBOSS) at EBI
ClustalW = Multiple sequence alignments at EBI
CpG Plot/CpGreport
= CpG Island finder and plotting tool (from the package EMBOSS)
at EBI
Dna Block Aligner Form = Compares two DNA sequences
assuming colinear blocks, ideal for promoters, at EBI
GeneMark = Gene prediction service at EBI
Genetic Code Viewer = Review of genetic code
differences at EBI
GeneWise = Compares a protein sequence or a protein
profile HMM to a DNA sequence at EBI
Mutation Checker = Sequence validation at EBI
Pepstats/Pepwindow/Pepinfo
= programs for basic protein sequence analysis (from the package EMBOSS) at EBI
Pratt = Protein motif discovery at EBI
PromoterWise = Compares two DNA sequences allowing
for inversions and translocations, ideal for promoters, at EBI
Reverse Translator = Reverse complement checker
at EBI
SAPS = Statistics on protein sequences at EBI
Transeq
= DNA sequence translation tool (from the package EMBOSS) at EBI
Structural Analysis
Biotech = Biotech validation
suite for protein structures at EBI
DALI = Comparison of protein structures in 3D
at EBI
EMsearch = A search tool for electron microscopy
depositions at EBI
MaxSprout
= Reconstruction of 3D coordinates from C(alpha) trace at EBI
MSD Servicestools and services the Macromolecular Structure Database (MSD)
group at EBI
MSDfold = Secondary structure
matching - Compare protein chains/structures and look for similar ones in the
whole PDB archive or among SCOP domains at EBI
MSDpro = A java applet tool that allows you to
construct complex relational queries on the MSD, without needing to know the
arrangement of the data within the database, or the language in which such queries
are usually written, SQL at EBI
MSDsite = This tool allows the ability to search
the active site database based on ligand (eg ATP) or active site (eg CYS CYS
CYS CYS) information, at EBI NMR Representatives = Search for NMR elucidated
structures in the PDB at EBI
PQS = Protein quaternary structure
query at EBI
PQS-Quick = Quickly retrive protein
quaternary structure information from PDB ID code at EBI
Unpublished Reference Server= PDB updating of
unpublished references at EBIMSDchem = Ligand Search
MSDsite = Ligand Environment
Search
MSDmine = ad-hoc queries
and data analysis
MSDtarget
= Sequence Target Search
Search OCA = Enter OCA search
system
SPINE @ EBI = Direct to Spine
Targets
Relibase = A program for searching protein-ligand
databases
PDB Pending = Search
Pending & Waiting List for status of file under processing
MSDbar = Search
System using Toolbar Application (Mozilla/Netscape)
Tools Miscellaneous
AppLab v1.0 = A CORBA-Java based
application wrapper at EBI
BioLayout = An application for laying out and
visualising complex biological graphs and networks, such as protein sequence
similarity and protein interaction networks.
CAST = A protein sequence compositional bias
detection filtering program is now available from the Computational Genomics
Group
EMBL Computational
Services = a collection of tools provided by EMBL in Heidelberg Germany
to analyse DNA/protein sequences.
Expression Profiler = A set of tools for clustering,
analysis and visualization of gene expression and other genomic data.
NEWT = A taxonomy database, integrating
taxonomy data compiled at NCBI and data specific to the Swiss-Prot database
Protein Annotation Assistant = Tool that helps
with Protein Annotation
Protein Colourer = A tool for colouring your
amino acid sequences
QuickGO = fast web based viewer for the Gene
Ontology data
Readseq = Sequence format convertion tool
Webservices = Provides programmatic access to
various biological databases from EBI
Whatizit = can tell you the meaning of words
found in your text, depending on the kind of information you want to see highlighted
XEMBL = EMBL records in BSML or AGAVE XML format