volver al índice |
Análisis de secuencias
Alineamiento de secuencias.
Búsqueda de parecidos.
Alineamientos múltiples. Patrones y perfiles.
Parte práctica
La mayor parte de los ejercicios los haremos con la "Ribulose-phosphate 3-epimerase" de la levadura S. cerevisiae, la cual tiene como código de acceso en Uniprot el de RPE_YEAST. En Uniprot encontramos algunas referencias bibliográficas relacionadas con esta proteína y también información de que participa en la vía de las pentosas fosfato y que tiene un papel en la protección frente a estrés oxidativo.
1.
Alineamiento de dos secuencias
Haz un alineamiento de estas dos secuencias (RPE_YEAST y RPE_MYCPN) usando el servidor del EMBL-EBI. RPE_MYCPN es la "Ribulose-phosphate 3-epimerase" de la bacteria Mycoplasma pneumoniae.
>RPE_YEAST
MVKPIIAPSI LASDFANLGC ECHKVINAGA DWLHIDVMDG HFVPNITLGQ PIVTSLRRSV
PRPGDASNTE KKPTAFFDCH MMVENPEKWV DDFAKCGADQ FTFHYEATQD PLHLVKLIKS
KGIKAACAIK PGTSVDVLFE LAPHLDMALV MTVEPGFGGQ KFMEDMMPKV ETLRAKFPHL
NIQVDGGLGK ETIPKAAKAG ANVIVAGTSV FTAADPHDVI SFMKEEVSKE LRSRDLLD>RPE_MYCPN
MLNLVVNREI AFSLLPLLHQ FDRKLLEQFF ADGLRLIHYD VMDHFVDNTV FQGEHLDELQ
QIGFQVNVHL MVQALEQILP VYLHHQAVKR ISFHVEPFDI PTIKHFIAQI KQAGKQVGLA
FKFTTPLVNY ERLVQQLDFV TLMSVPPGKG GQAFNSAVFN NLKQAHKYHC SIEIDGGIKL
DNIHQIQDDV NFIVMGSGFI KLERWQRQQL LKTNQ
a) Prueba
a hacer un alineamiento global
(opción "needle") y uno
local
(opción "water").
Cuestión: ¿Observas
diferencias? ¿Crees
que
estas dos secuencias están relacionadas?
b) Prueba
a obtener el alineamiento local utilizando distintas matrices
de
sustitución
y distintas penalizaciones para la apertura y extensión de gaps.
Por ejemplo, prueba con BLOSUM62 y BLOSUM40.
Cuestión: ¿Observas
diferencias?
(podéis ver los resultados aquí)
c) Cuestión: ¿cómo podríamos estar más seguros de cuál es el mejor alineamiento? ¿cómo obtenerlo?
2. Búsqueda de homólogos en una base de datos. BLAST.
Haz una búsqueda BLAST con RPE_YEAST.
El objetivo es encontrar homólogos en otras especies.
Utiliza los servidores de BLAST del EMBL o del EBI, ya que posteriormente nos permitirán obtener más fácilmente las secuencias de las proteínas homólogas que el servidor del NCBI (más tarde las utilizaremos en otro ejercicio para construir un alineamiento múltiple).
Si usamos la versión del BLAST-EMBL:
database=Swiss-Prot (nrdb95 es más completa, pero encontraríamos demasiados homólogos que ralentizarían los siguientes ejercicios).
filter=none
descriptions=250
alignments=250
Si pinchamos en "Get selected sequences" obtendremos la secuencia de las proteínas que hemos marcado (por defecto vienen marcadas las que tienen mejores p-values). Las podéis encontrar en este fichero.
Podéis probar a utilizar el BLAST del NCBI (el del EMBL es la versión WU-BLAST, que es un poco distinta) y ver qué os sale.
Resultados BLAST-EMBL. Resultados BLAST-NCBI.
Cuestiones: Respecto a las dos proteínas que alineamos anteriormente (RPE_YEAST y RPE_MYCPN), ¿qué e-value tienen? ¿es significativo?
3. Alineamiento múltiple de las secuencias encontradas con BLAST.
En este ejercicio haremos un alineamiento
múltiple de los
homólogos
que hemos encontrado. Utilizaremos ClustalW
y Muscle.
Podemos hacerlo a través de la red o bien instalarlos y
ejecutarlos
localmente.
Las secuencias de los homólogos encontrados con Blast en
Swiss-Prot están en este fichero.
Clustalw y Muscle
Servidores para ejecutar Clustalw: EBI, EMBNET, NIG.AC.JP, NPS@, GenomeNet.
Para ejecutar Muscle: EBI, Berkeley.
Resultados según Clustalw y Muscle-EBI. Para visualizar los alineamientos pinchad en el botón "Jalview".
Practica un poco con Jalview:
ordena las secuencias según distintos criterios (menú "Calculate > Sort"),
elimina secuencias redundantes ("Edit > Remove redundancy"),
obten un árbol por neighbor joining ("Calculate > Calculate Tree"),
ordena las secuencias según el árbol ("Calculate > sort"),
elimina secuencias (pincha una o varias secuencias y luego "Edit > Delete"),
etc.Cuestión: ¿observas diferencias entre el alineamiento de Clustalw y el de Muscle? ¿a qué crees que se deben?
4.
Extracción de información evolutiva a partir de un
alineamiento múltiple.
Ordena las secuencias según el
árbol de Neighbor Joining ("Calculate > Sort > By
tree order") y colorea por porcentaje de identidad ("Color").
Cuestión:
¿Hay alguna secuencia particularmente divergente? En caso
de que así fuera: ¿qué función tienen
anotada en UniProt?
Cuestión:
¿Existen regiones más conservadas evolutivamente que
otras? ¿Por qué?
Cuestión:
¿Dónde podría estar el centro activo?
¿Qué otro tipo de información nos ayudaría
a encontrarlo?
5.
Búsqueda de homólogos lejanos con PSI-BLAST.
A partir de la secuencia de RPE_YEAST intentaremos encontrar homólogos lejanos (% identidad de secuencia menor de 20-30%, es decir, aquéllos que BLAST no es capaz de distinguir de parecidos debidos al azar).
Servidor
de PSI-BLAST. (ve a "protein blast", y en la siguiente
página marca la opción "PSI-BLAST")
Restringiremos la búsqueda a la base de datos SwissProt (las
búsquedas serán más rápidas).
Realiza varias iteraciones con PSI-BLAST
y analiza qué proteínas se encuentran en cada ronda. Los
resultados también están disponibles en los siguientes
enlaces: primera ronda, segunda (alineamiento
múltiple), tercera,
cuarta.
Cuestión:
Al realizar la segunda iteración, ¿qué ocurre con
los e-values de las proteínas que aparecieron en la primera
ronda?
Cuestión:
Observa el alineamiento múltiple
de los homólogos (cercanos y lejanos) encontrados en la segunda
ronda. Con respecto al alineamiento múltiple del anterior
ejercicio, ¿observas diferencias? ¿está más
conservado o menos? ¿puede darnos alguna información
nueva incluir homólogos lejanos? ¿qué problema
puede suponer incluir homólogos lejanos?
Cuestión:
Tras la segunda iteración, ¿aparecen nuevas
proteínas? ¿sus evalues son estadísticamente
significativos?
Cuestión:
Observa el gráfico donde se muestra qué parte de las
proteínas ha alineado. Los homólogos nuevos encontrados
en la segunda ronda, ¿con qué zona alinean
principalmente? ¿qué explicación puedes proponer a
lo que observas?
Cuestión:
Tras observar los resultados de las cuatro rondas y qué
proteínas aparecen en cada una, ¿qué puedes decir
de estas proteínas?
6.
Búsqueda de
homólogos de estructura tridimensional conocida.
Ahora trataremos de averiguar si ya se
conoce la estructura 3D de
RPE_YEAST o de alguna proteína homóloga.
El método más sencillo
consiste en buscar por comparación de secuencias (BLAST) en una base de datos de
proteínas de estructura conocida (PDB).
Búsqueda BLAST: abrimos cualquier servidor de BLAST, pegamos la
secuencia de RPE_YEAST y seleccionamos como base de datos PDB. El
resultado podría ser éste.
Cuestión:
¿Se conoce la estructura de RPE_YEAST? ¿la de
algún homólogo?
Cuestión:
¿a qué organismo pertenece el "pdb" más parecido a
RPE_YEAST? observa el alineamiento de ambos y piensa si podría
utilizarse la información estructural del homólogo para
predecir la estructura de RPE_YEAST.
Cuestión:
¿Cómo se podría combinar la información del
alineamiento múltiple con la información estructural?
7.
Identificación
de regiones codificantes utilizando BLAST. (Ramón Alonso
Allende)
En este último ejercicio veremos una
aplicación diferente de BLAST.
>human
AGCTTTCTTCTTTTCCCTGTTGCTCAAATAAATAGTGTTCTTTGCTCAAA
CCCCCTTTCCCTCCTCCTTCTGCAATCTCAGCGCCTAGCGAAATCTGTTT
TCTTCATTGTAACCTCAGCTTCACCGCAATTAATTTTTTTTCCCTCTGGT
CACAAGATAATTCCTGACGCCAGTGAGTCTGGAGGTCAGACGAACAGCAA
ATTGGGGAACAAGGCGGCACTAATTCCTTACAAGTTCCTTGAAAAATCTT
TCGCTTAAAAAAAACGGGGGGTGGGGGGAGCTTCTTTGCTGTTCAGGGAT
TTATGCCTCGCGGAGCTGTGGCTCGAACCAGTGTTGGCTAAGGCGGACTG
GCAGGGGCAGGGAAGCTCAAAGATCTGGGGTGCTGCCAGGAAAAAGCAAA
TTCTGGAAGTTAATGGTTTTGAGTGATTTTTAAATCCTTGCTGGCGGAGA
GGCCCGCCTCTCCCCGGTATCAGCGCTTCCTCATTCTTTGAATCCGCGGC
TCCGCGGTCTTCGGCGTCAGACCAGCCGGAGGAAGCCTGTTTGCAATTTA
AGCGGGCTGTGAACGCCCAGGGCCGGCGGGGGCAGGGCCGAGGCGGGCCA
TTTTGAATAAAGAGGCGTGCCTTCCAGGCAGGCTCTATAAGTGACCGCCG
CGGCGAGCGTGCGCGCGTTGCAGGTCACTGTAGCGGACTTCTTTTGGTTT
TCTTTCTCTTTGGGGCACCTCTGGACTCACTCCCCAGCATGAAGGCGCTG
AGCCCGGTGCGCGGCTGCTACGAGGCGGTGTGCTGCCTGTCGGAACGCAG
TCTGGCCATCGCCCGGGGCCGAGGGAAGGGCCCGGCAGCTGAGGAGCCGC
TGAGCTTGCTGGACGACATGAACCACTGCTACTCCCGCCTGCGGGAACTG
GTACCCGGAGTCCCGAGAGGCACTCAGCTTAGCCAGGTGGAAATCCTACA
GCGCGTCATCGACTACATTCTCGACCTGCAGGTAGTCCTGGCCGAGCCAG
CCCCTGGACCCCCTGATGGCCCCCACCTTCCCATCCAGGTAAGCCTCGAA
GTCGGGACAGGGCTGAACACCCAGGCAAGGATGCTGCGGGACCCTCGGAG
CTCCCGATTGCCTCGCGTAACTCTTCCCTCTTTTCCTCTAATCAGACAGC
CGAGCTCGCTCCGGAACTTGTCATCTCCAACGACAAAAGGAGCTTTTGCC
ACTGACTCGGCCGTGTCCTGACACCTCCAGGTGAGTATCTCCTCTCTTGG
AGAGGGAGGTTTAAACGGCAAGTCCTGGAGTTGGCAGACGTTTTGAAAAA
TTGCCACTCACTCGGTTTAGGGAAACTGAGGCCAGAGAGGGACAAGTGAC
TTGCCCATGGTTGCATCAAATGAATGGCAGAGTCAGTTTCCATGTGATGT
GCATTTAAGCCTTAATGCGCCTGGCCCTGCCTCCGCAGTGGCCGAGGTCT
GGCAAGTAGACATGGTCCGACTAAATACAAGTCTTTCTGTTCCATGTTGT
ATAGGAGCTGTCTTCGGCAGCCCCCTCCCAGCTAGTGTCAATTCCAAGTA
GGAGGGGTAGCGCAACGTCCGCCTGTGGTCTTTGGCGCCAACTGGGTGGG
GGCAGCGTGGGGGGCGGAGTTATCAGGCTGGAGGTACAGACCAAGTTTCC
TCCCTGGCGCCGGCCAGTCTGCGGACGGCCCCCGCCTCGGCACGCTCGGC
GGAAACTGACTGCTCCTTGGTCTTCTTTCCTCCCCCGCCCAGAACGCAGG
TGCTGGCGCCCGTTCTGCCTGGGACCCCGGGAACCTCTCCTGCCGGAAGC
CGGACGGCAGGGATGGGCCCCAACTTCGCCCTGCCCACTTGACTTCACCA
AATCCCTTCCTGGAGACTAAACCTGGTGCTCAGGAGCGAAGGACTGTGAA
CTTGTGGCCTGAAGAGCCAGAGCTAGCTCTGGCCACCAGCTGGGCGACGT
CACCCTGCTCCCACCCCACCCCCAAGTTCTAAGGTCTTTTCAGAGCGTGG
AGGTGTGGAAGGAGTGGCTGCTCTCCAAACTATGCCAAGGCGGCGGCAGA
GCTGGTCTTCTGGTCTCCTTGGAGAAAGGTTCTGTTGCCCTGATTTATGA
ACTCTATAATAGAGTATATAGGTTTTGTACCTTTTTTACAGGAAGGTGAC
TTTCTGTAACAATGCGATGTATATTAAACTTTTTATAAAAGTTAACATTT
TGCATAATAAACGATTTTTAAACACTTGTGTATATGATGACACCCGTCTC
CATTAAGTACTAATGATGCTTTCTCGCACATGGCCGAATTTTGGGAGCTT
TGGGAAAGTGAACTTGCTTATTCTACGAGAGGGAAATGAAAAACTGCCTG
GTTGAGAGGGGATGGGGTGGAGAGAGAAGGGTTCATGATGGGAGTCTCAT
GTCCATTGAGGGATGGGTGCAGAGAAAAGTTCTGGCTCTGCCTCATTATT
TCAGAGATGAAACCAGAGACTGGTGCAAGCT
Trataremos de determinar si hay evidencias de transcripción de algún fragmento de nuestra secuencia (lo cual sería prueba de que hay algún gen). Para ello usaremos la herramienta de BLAST contra una base de datos de ESTs (expressed sequence tags).
* Entramos en la
pagina web del Blast
del NCBI y pinchamos en "Nucleotide-nucleotide BLAST
[blastn]"
* Copiamos nuestra secuencia y la pegamos en la
caja de "search"
* Elegimos la base de datos de "est" en el apartado
"Choose database". En el caso de la secuencia de humano, elegimos la de
ESTs de humanos
* El resto se deja como está y pulsamos
"BLAST!"
* Después de un rato debería salir
un resultado semejante a éste.
Cuestión: ¿qué es un EST?, ¿crees que la secuencia de ADN podría contener algún gen?, de ser así: ¿qué estructura tendría ese gen aproximadamente?
Cuestión: Si no
hubiese librerías de ESTs
y tuvieses una secuencia de ADN ¿se te ocurre alguna forma de
determinar
si esa secuencia contiene algún gen utilizando BLAST? Pista: blastx.
volver al índice |