volver al índice
ir a la teoría

 

Análisis de secuencias
Alineamiento de secuencias. Búsqueda de parecidos.
Alineamientos múltiples. Patrones y perfiles.

Parte práctica

Federico Abascal







Enlaces:



La mayor parte de los ejercicios los haremos con la "Ribulose-phosphate 3-epimerase" de la levadura S. cerevisiae, la cual tiene como código de acceso en Uniprot el de RPE_YEAST. En Uniprot encontramos algunas referencias bibliográficas relacionadas con esta proteína y también información de que participa en la vía de las pentosas fosfato y que tiene un papel en la protección frente a estrés oxidativo.


1. Alineamiento de dos secuencias

Haz un alineamiento de estas dos secuencias (RPE_YEAST y RPE_MYCPN) usando el servidor del EMBL-EBI. RPE_MYCPN es la "Ribulose-phosphate 3-epimerase" de la bacteria Mycoplasma pneumoniae.

>RPE_YEAST
     MVKPIIAPSI LASDFANLGC ECHKVINAGA DWLHIDVMDG HFVPNITLGQ PIVTSLRRSV
     PRPGDASNTE KKPTAFFDCH MMVENPEKWV DDFAKCGADQ FTFHYEATQD PLHLVKLIKS
     KGIKAACAIK PGTSVDVLFE LAPHLDMALV MTVEPGFGGQ KFMEDMMPKV ETLRAKFPHL
     NIQVDGGLGK ETIPKAAKAG ANVIVAGTSV FTAADPHDVI SFMKEEVSKE LRSRDLLD

>RPE_MYCPN
     MLNLVVNREI AFSLLPLLHQ FDRKLLEQFF ADGLRLIHYD VMDHFVDNTV FQGEHLDELQ
     QIGFQVNVHL MVQALEQILP VYLHHQAVKR ISFHVEPFDI PTIKHFIAQI KQAGKQVGLA
     FKFTTPLVNY ERLVQQLDFV TLMSVPPGKG GQAFNSAVFN NLKQAHKYHC SIEIDGGIKL
     DNIHQIQDDV NFIVMGSGFI KLERWQRQQL LKTNQ

a) Prueba a hacer un alineamiento global (opción "needle") y uno local (opción "water").
Cuestión: ¿Observas diferencias? ¿Crees que estas dos secuencias están relacionadas?

b) Prueba a obtener el alineamiento local utilizando distintas matrices de sustitución y distintas penalizaciones para la apertura y extensión de gaps. Por ejemplo, prueba con BLOSUM62 y BLOSUM40.
Cuestión: ¿Observas diferencias? (podéis ver los resultados aquí)

c) Cuestión: ¿cómo podríamos estar más seguros de cuál es el mejor alineamiento? ¿cómo obtenerlo?

 

2. Búsqueda de homólogos en una base de datos. BLAST.

Haz una búsqueda BLAST con RPE_YEAST. El objetivo es encontrar homólogos en otras especies.

Utiliza los servidores de BLAST del EMBL o del EBI, ya que posteriormente nos permitirán obtener más fácilmente las secuencias de las proteínas homólogas que el servidor del NCBI (más tarde las utilizaremos en otro ejercicio para construir un alineamiento múltiple).

Si usamos la versión del BLAST-EMBL:

database=Swiss-Prot (nrdb95 es más completa, pero encontraríamos demasiados homólogos que ralentizarían los siguientes ejercicios).
filter=none
descriptions=250
alignments=250

Si pinchamos en "Get selected sequences" obtendremos la secuencia de las proteínas que hemos marcado (por defecto vienen marcadas las que tienen mejores p-values). Las podéis encontrar en este fichero.

Podéis probar a utilizar el BLAST del NCBI (el del EMBL es la versión WU-BLAST, que es un poco distinta) y ver qué os sale.

Resultados BLAST-EMBL. Resultados BLAST-NCBI.

Cuestiones: Respecto a las dos proteínas que alineamos anteriormente (RPE_YEAST y RPE_MYCPN), ¿qué e-value tienen? ¿es significativo?

 

 

3. Alineamiento múltiple de las secuencias encontradas con BLAST.

En este ejercicio haremos un alineamiento múltiple de los homólogos que hemos encontrado. Utilizaremos ClustalW y Muscle.
Podemos hacerlo a través de la red o bien instalarlos y ejecutarlos localmente.
Las secuencias de los homólogos encontrados con Blast en Swiss-Prot están en este fichero.

Clustalw y Muscle

Servidores para ejecutar Clustalw: EBI, EMBNET, NIG.AC.JP, NPS@GenomeNet.
Para ejecutar Muscle: EBI, Berkeley.

Resultados según Clustalw y Muscle-EBI. Para visualizar los alineamientos pinchad en el botón "Jalview".

Practica un poco con Jalview:

ordena las secuencias según distintos criterios (menú "Calculate > Sort"),
elimina secuencias redundantes ("Edit > Remove redundancy"),
obten un árbol por neighbor joining ("Calculate > Calculate Tree"),
ordena las secuencias según el árbol ("Calculate > sort"),
elimina secuencias (pincha una o varias secuencias y luego "Edit > Delete"),
etc.

Cuestión: ¿observas diferencias entre el alineamiento de Clustalw y el de Muscle? ¿a qué crees que se deben?


4. Extracción de información evolutiva a partir de un alineamiento múltiple.

Ordena las secuencias según el árbol de Neighbor Joining ("Calculate > Sort >  By tree order") y colorea por porcentaje de identidad ("Color").

Cuestión: ¿Hay alguna secuencia particularmente divergente?  En caso de que así fuera: ¿qué función tienen anotada en UniProt?

Cuestión: ¿Existen regiones más conservadas evolutivamente que otras? ¿Por qué?

Cuestión: ¿Dónde podría estar el centro activo? ¿Qué otro tipo de información nos ayudaría a encontrarlo?


5. Búsqueda de homólogos lejanos con PSI-BLAST.

A partir de la secuencia de RPE_YEAST intentaremos encontrar homólogos lejanos (% identidad de secuencia menor de 20-30%, es decir, aquéllos que BLAST no es capaz de distinguir de parecidos debidos al azar).

Servidor de PSI-BLAST. (ve a "protein blast", y en la siguiente página marca la opción "PSI-BLAST")
Restringiremos la búsqueda a la base de datos SwissProt (las búsquedas serán más rápidas).

Realiza varias iteraciones con PSI-BLAST y analiza qué proteínas se encuentran en cada ronda. Los resultados también están disponibles en los siguientes enlaces: primera ronda, segunda (alineamiento múltiple), tercera, cuarta.

Cuestión: Al realizar la segunda iteración, ¿qué ocurre con los e-values de las proteínas que aparecieron en la primera ronda?

Cuestión: Observa el alineamiento múltiple de los homólogos (cercanos y lejanos) encontrados en la segunda ronda. Con respecto al alineamiento múltiple del anterior ejercicio, ¿observas diferencias? ¿está más conservado o menos? ¿puede darnos alguna información nueva incluir homólogos lejanos? ¿qué problema puede suponer incluir homólogos lejanos?

Cuestión: Tras la segunda iteración, ¿aparecen nuevas proteínas? ¿sus evalues son estadísticamente significativos?

Cuestión: Observa el gráfico donde se muestra qué parte de las proteínas ha alineado. Los homólogos nuevos encontrados en la segunda ronda, ¿con qué zona alinean principalmente? ¿qué explicación puedes proponer a lo que observas?

Cuestión: Tras observar los resultados de las cuatro rondas y qué proteínas aparecen en cada una, ¿qué puedes decir de estas proteínas?


6. Búsqueda de homólogos de estructura tridimensional conocida.

Ahora trataremos de averiguar si ya se conoce la estructura 3D de RPE_YEAST o de alguna proteína homóloga.

El método más sencillo consiste en buscar por comparación de secuencias (BLAST) en una base de datos de proteínas de estructura conocida (PDB).
Búsqueda BLAST: abrimos cualquier servidor de BLAST, pegamos la secuencia de RPE_YEAST y seleccionamos como base de datos PDB. El resultado podría ser éste.

Cuestión: ¿Se conoce la estructura de RPE_YEAST? ¿la de algún homólogo?

Cuestión: ¿a qué organismo pertenece el "pdb" más parecido a RPE_YEAST? observa el alineamiento de ambos y piensa si podría utilizarse la información estructural del homólogo para predecir la estructura de RPE_YEAST.

Cuestión: ¿Cómo se podría combinar la información del alineamiento múltiple con la información estructural?




7. Identificación de regiones codificantes utilizando BLAST. (Ramón Alonso Allende)

En este último ejercicio veremos una aplicación diferente de BLAST.

>human
AGCTTTCTTCTTTTCCCTGTTGCTCAAATAAATAGTGTTCTTTGCTCAAA
CCCCCTTTCCCTCCTCCTTCTGCAATCTCAGCGCCTAGCGAAATCTGTTT
TCTTCATTGTAACCTCAGCTTCACCGCAATTAATTTTTTTTCCCTCTGGT
CACAAGATAATTCCTGACGCCAGTGAGTCTGGAGGTCAGACGAACAGCAA
ATTGGGGAACAAGGCGGCACTAATTCCTTACAAGTTCCTTGAAAAATCTT
TCGCTTAAAAAAAACGGGGGGTGGGGGGAGCTTCTTTGCTGTTCAGGGAT
TTATGCCTCGCGGAGCTGTGGCTCGAACCAGTGTTGGCTAAGGCGGACTG
GCAGGGGCAGGGAAGCTCAAAGATCTGGGGTGCTGCCAGGAAAAAGCAAA
TTCTGGAAGTTAATGGTTTTGAGTGATTTTTAAATCCTTGCTGGCGGAGA
GGCCCGCCTCTCCCCGGTATCAGCGCTTCCTCATTCTTTGAATCCGCGGC
TCCGCGGTCTTCGGCGTCAGACCAGCCGGAGGAAGCCTGTTTGCAATTTA
AGCGGGCTGTGAACGCCCAGGGCCGGCGGGGGCAGGGCCGAGGCGGGCCA
TTTTGAATAAAGAGGCGTGCCTTCCAGGCAGGCTCTATAAGTGACCGCCG
CGGCGAGCGTGCGCGCGTTGCAGGTCACTGTAGCGGACTTCTTTTGGTTT
TCTTTCTCTTTGGGGCACCTCTGGACTCACTCCCCAGCATGAAGGCGCTG
AGCCCGGTGCGCGGCTGCTACGAGGCGGTGTGCTGCCTGTCGGAACGCAG
TCTGGCCATCGCCCGGGGCCGAGGGAAGGGCCCGGCAGCTGAGGAGCCGC
TGAGCTTGCTGGACGACATGAACCACTGCTACTCCCGCCTGCGGGAACTG
GTACCCGGAGTCCCGAGAGGCACTCAGCTTAGCCAGGTGGAAATCCTACA
GCGCGTCATCGACTACATTCTCGACCTGCAGGTAGTCCTGGCCGAGCCAG
CCCCTGGACCCCCTGATGGCCCCCACCTTCCCATCCAGGTAAGCCTCGAA
GTCGGGACAGGGCTGAACACCCAGGCAAGGATGCTGCGGGACCCTCGGAG
CTCCCGATTGCCTCGCGTAACTCTTCCCTCTTTTCCTCTAATCAGACAGC
CGAGCTCGCTCCGGAACTTGTCATCTCCAACGACAAAAGGAGCTTTTGCC
ACTGACTCGGCCGTGTCCTGACACCTCCAGGTGAGTATCTCCTCTCTTGG
AGAGGGAGGTTTAAACGGCAAGTCCTGGAGTTGGCAGACGTTTTGAAAAA
TTGCCACTCACTCGGTTTAGGGAAACTGAGGCCAGAGAGGGACAAGTGAC
TTGCCCATGGTTGCATCAAATGAATGGCAGAGTCAGTTTCCATGTGATGT
GCATTTAAGCCTTAATGCGCCTGGCCCTGCCTCCGCAGTGGCCGAGGTCT
GGCAAGTAGACATGGTCCGACTAAATACAAGTCTTTCTGTTCCATGTTGT
ATAGGAGCTGTCTTCGGCAGCCCCCTCCCAGCTAGTGTCAATTCCAAGTA
GGAGGGGTAGCGCAACGTCCGCCTGTGGTCTTTGGCGCCAACTGGGTGGG
GGCAGCGTGGGGGGCGGAGTTATCAGGCTGGAGGTACAGACCAAGTTTCC
TCCCTGGCGCCGGCCAGTCTGCGGACGGCCCCCGCCTCGGCACGCTCGGC
GGAAACTGACTGCTCCTTGGTCTTCTTTCCTCCCCCGCCCAGAACGCAGG
TGCTGGCGCCCGTTCTGCCTGGGACCCCGGGAACCTCTCCTGCCGGAAGC
CGGACGGCAGGGATGGGCCCCAACTTCGCCCTGCCCACTTGACTTCACCA
AATCCCTTCCTGGAGACTAAACCTGGTGCTCAGGAGCGAAGGACTGTGAA
CTTGTGGCCTGAAGAGCCAGAGCTAGCTCTGGCCACCAGCTGGGCGACGT
CACCCTGCTCCCACCCCACCCCCAAGTTCTAAGGTCTTTTCAGAGCGTGG
AGGTGTGGAAGGAGTGGCTGCTCTCCAAACTATGCCAAGGCGGCGGCAGA
GCTGGTCTTCTGGTCTCCTTGGAGAAAGGTTCTGTTGCCCTGATTTATGA
ACTCTATAATAGAGTATATAGGTTTTGTACCTTTTTTACAGGAAGGTGAC
TTTCTGTAACAATGCGATGTATATTAAACTTTTTATAAAAGTTAACATTT
TGCATAATAAACGATTTTTAAACACTTGTGTATATGATGACACCCGTCTC
CATTAAGTACTAATGATGCTTTCTCGCACATGGCCGAATTTTGGGAGCTT
TGGGAAAGTGAACTTGCTTATTCTACGAGAGGGAAATGAAAAACTGCCTG
GTTGAGAGGGGATGGGGTGGAGAGAGAAGGGTTCATGATGGGAGTCTCAT
GTCCATTGAGGGATGGGTGCAGAGAAAAGTTCTGGCTCTGCCTCATTATT
TCAGAGATGAAACCAGAGACTGGTGCAAGCT

Trataremos de determinar si hay evidencias de transcripción de algún fragmento de nuestra secuencia (lo cual sería prueba de que hay algún gen). Para ello usaremos la herramienta de BLAST contra una base de datos de ESTs (expressed sequence tags).

    * Entramos en la pagina web del Blast del NCBI y pinchamos en "Nucleotide-nucleotide BLAST [blastn]"
    * Copiamos nuestra secuencia y la pegamos en la caja de "search"
    * Elegimos la base de datos de "est" en el apartado "Choose database". En el caso de la secuencia de humano, elegimos la de ESTs de humanos
    * El resto se deja como está y pulsamos "BLAST!"
    * Después de un rato debería salir un resultado semejante a éste.

Cuestión: ¿qué es un EST?, ¿crees que la secuencia de ADN podría contener algún gen?, de ser así: ¿qué estructura tendría ese gen aproximadamente?

Cuestión: Si no hubiese librerías de ESTs y tuvieses una secuencia de ADN ¿se te ocurre alguna forma de determinar si esa secuencia contiene algún gen utilizando BLAST? Pista: blastx.

 


volver al índice
ir a la teoría