Alineamiento de secuencias. Búsqueda de parecidos. Alineamientos múltiples

Alineamiento de secuencias. Búsqueda de parecidos.Alineamientos múltiples.
Parte teórica

Federico Abascal
Muchas imágenes (e ideas) están tomadas de las clases
de Paulino Gómez Puertas (enlace), Oswaldo Trelles (enlace)
y Ramón Alonso Allende (enlace).

¿Qué es una secuencia?
¿Por qué comparar secuencias?

Breve introducción acerca de cómo evolucionan las proteínas

¿Cómo comparar secuencias?

¿ADN (ARN) o proteínas? ¿Qué secuencias comparar?
Comparación por identidades
Comparación por parecidos

Matrices de sustitución

Comparación incluyendo inserciones y deleciones
Alineamiento local versus alineamiento global

Búsqueda de parecidos en las bases de datos

Heurísticas de BLAST y FASTA
Estimación de la probabilidad de que un determinado parecido entre secuencias se deba al azar: el e-value
Filtros SEG, XNU, COILS y DUST

Alineamientos múltiples

¿Qué es una secuencia?
es una serie de elementos encadenados uno detrás de otros, por eso hablamos de secuencias de nucleótidos y de secuencias de aminoácidos. A través de letras podemos identificar los distintos monómeros que conforman la macromolécula (ejemplo: A: adenina; T: timina; C: citosina; y G: guanina; ó A: alanina; D: aspártico; E: glutámico; etcétera).

¿Por qué comparar secuencias?
Para comprender la utilidad de la comparación de secuencias y de la búsqueda de homólogos (proteínas que tienen un origen evolutivo común), necesitamos tener claros algunos conceptos acerca de cómo evolucionan las proteínas.

Breve introducción acerca de cómo evolucionan las proteínas.
La idea generalmente aceptada es que a lo largo de la evolución unas especies van dando lugar a otras nuevas. Detrás de estas especiaciones está la variación genética de los organismos, es decir la evolución de los genomas y sus genes, así como de las proteínas codificadas por éstos.

Básicamente podemos distinguir tres formas mediante las cuales evolucionan los genes (y por consiguiente las proteínas):

*mutación: cuando el ADN se replica se pueden producir errores al realizar la copia; también pueden introducirse mutaciones por efecto de agentes externos (mutagénicos) como por ejemplo la luz ultravioleta o ciertos agentes químicos.

*duplicación: cuando un gen se duplica se abre una puerta para la adquisición de nuevas funciones biológicas: las mutaciones en el nuevo gen son más fácilmente tolerables. La mayoría de las veces estos genes terminarán degenerando, convirtiéndose en pseudogenes y más tarde desapareciendo.

*barajado de dominios: muchas proteínas están constituidas por entidades estructurales independientes, a las que llamamos dominios. Mediante recombinación se puede producir un barajado de dominios. Por ejemplo, a partir de la combinación de dominios ya existentes se pueden obtener nuevas proteínas, cuya función será el resultado de las sub-funciones de sus dominios. Es como jugar al lego. Una forma fácil y barata de crear nuevas proteínas.

Cuando observamos diferencias entre secuencias de proteínas homólogas (que tienen un origen evolutivo común), estas diferencias están hablándonos de las propiedades funcionales de las proteínas: algunas diferencias estarán allí porque la mutación no ha alterado la función, han sido más o menos neutrales; alternativamente, otras diferencias quizás tengan que ver con el hecho de que esas proteínas, aunque tengan un origen común, realizan funciones distintas, perteneciendo a distintas subfamilias. Y otras diferencias tendrán que ver con el modo de vida del organismo: por ejemplo, las bacterias que viven en fuentes termales a temperaturas muy altas tienen proteínas con una T (temperatura) de desnaturalización también muy alta, y estas proteínas suelen ser más ricas en cisteínas. Por otra parte, el hecho de que determinadas posiciones de las secuencias permanezcan invariables (posiciones conservadas), nos indica que éstas tienen una especial importancia para el mantenimiento de la estructura o la función de la proteína y su modificación no ha sido tolerada a lo largo de la evolución.
¿Cómo responde un organismo a una mutación? (o dicho de otra forma: ¿cómo le afecta una mutación?): de la respuesta es que lo hace de distinta forma según las distintas situaciones. Por ejemplo, en cuanto a las mutaciones, en general éstas se tolerarán cuando no produzcan alteraciones en la estructura o en la función de la proteína. Esta presión selectiva es de esperar que será menor si existe una duplicación del gen, ya que la pérdida de función no es dramática mientras al menos uno de los genes sea funcional. En cuanto al barajado de dominios, en unos casos producirá proteínas que ofrezcan alguna ventaja y en otros no. En general, dependiendo de lo beneficiosos o perjudiciales que sean los cambios ocurridos los organismos que los porten serán seleccionados positiva o negativamente, lo que determinará que los cambios pasen a generaciones venideras o, visto de otra forma, determinará que en el momento actual, en el que vivimos nosotros, observemos esos cambios: las secuencias que observamos ahora reflejan toda una historia evolutiva en la que las proteínas han ido divergiendo, adquiriendo nuevas funciones, adaptándose a nuevos entornos... y tenemos la oportunidad de desvelar algunos de esos secretos.

Las proteínas son cadenas polipeptídicas de aminoácidos ensamblados secuencialmente (de ahí el nombre de secuencia). La secuencia de una proteína determina qué estructura tridimensional tendrá ésta. El resultado de la adopción de una estructura tridimensional es que se forman superficies moleculares con distintas propiedades, quedando aminoácidos específicos en una orientación determinada, lo que permite a la proteína llevar a cabo su función.

Entonces, podemos decir que la comparación de secuencias es una forma de hacer arqueología, de descubrir qué partes de las secuencias son más importantes (están más conservadas), de descubrir qué proteínas tienen un origen común (existen modelos estadísticos que nos ayudan a distinguir parecidos al azar de parecidos que reflejan un mismo origen evolutivo)... La comparación de secuencias también nos puede servir para predecir la estructura de las proteínas (las proteínas homólogas tienen una misma arquitectura tridimensional), o también nos puede ayudar a predecir la función de las proteínas (aunque en este aspecto hay que ser cautelosos ya que a lo largo de la evolución proteínas con un origen común pueden terminar desarrollando distintas funciones, como veremos más adelante).

¿Cómo comparar secuencias?

¿ADN (ARN) o proteínas? ¿Qué secuencias comparar?
La elección de comparar secuencias de nucleótidos o de aminoácidos depende de la información que busquemos y de los datos de que dispongamos. Uno de los aspectos más importantes para decidir qué queremos comparar radica en que el parecido entre secuencias de nucleótidos con un origen común se pierde más rápidamente que el parecido en las secuencias de aminoácidos correspondientes: por una parte porque el alfabeto es más reducido (cuatro letras frente a veinte) y por otra porque la secuencia de nucleótidos puede cambiar sin que esto se refleje en la de aminoácidos (cambios sinónimos).
La comparación de secuencias de nucleótidos es apropiada cuando:
-queremos comparar secuencias muy parecidas, en las que quizás sólo hay diferencias en uno o dos nucleótidos (estudios filogenéticos, genética de poblaciones, SNPs, etc).
-queremos identificar genes: por ejemplo, si comparamos zonas equivalentes del genoma de ratón y del genoma de humanos, vemos que las regiones exónicas están más conservadas que las intrónicas.
-queremos comparar secuencias no codificantes.
-etcétera.

La comparación de secuencias de aminoácidos es apropiada cuando:
-queremos buscar homólogos, ya sean más o menos cercanos o sean lejanos: no sólo el parecido en la secuencia aminoacídica se pierde más lentamente, sino que sabemos que algunos aminoácidos tienen propiedades más parecidas que otros, por lo que podemos darle más sentido a los cambios que observamos y distinguir mejor entre parecidos fruto del azar y parecidos reflejo de homología.
-queremos identificar regiones importantes de las proteínas.
-etcétera.

Existen distintas formas de comparar secuencias. El objetivo que perseguimos es el de encontrar el alineamiento que maximice el parecido. Consideramos que ese alineamiento es el que con mayor probabilidad refleja los cambios que se han producido a lo largo de la evolución, aunque no consideramos que sea el mejor alineamiento.

Formas de comparar pares secuencias:

(Ejemplo:

secuencia 1: TCAGACGATTG

secuencia 2: ATCGGAGCTG )

Comparación por identidades: Podríamos simplemente desplazar una sobre otra y determinar cuál es la superposición (alineamiento) en la que el número de identidades es mayor:

TCAGACGATTG (r=0)

ATCGGAGCTG

TCAGACGATTG (r=1)

ATCGGAGCTG

TCAGACGATTG (r=0)

ATCGGAGCTG

TCAGACGATTG (r=2)

ATCGGAGCTG

...

TCAGACGATTG (r=4) éste sería el mejor alineamiento

ATCGGAGCTG

...

TCAGACGATTG (r=0)

ATCGGAGCTG

Limitaciones de esta aproximación:

sólo tiene en cuenta identidades, sin embargo sabemos que hay sustituciones (p.e. las transiciones base púrica -> base púrica) que son más probables que otras (como las transversiones base púrica -> base pirimidínica).
no tiene en cuenta la posible existencia de inserciones y deleciones.
no tiene en cuenta la frecuencia de cada símbolo (si dos símbolos muy poco frecuentes coinciden, ha de tener más peso que si coinciden dos símbolos más frecuentes).
otras...

Problema: se conocen millones de secuencias y para compararlas necesitamos una solución computacional: ¿cómo decirle al ordenador que encuentre el mejor alineamiento entre dos secuencias?
La representación mediante una matriz:

Matriz para encontrar el mejor alineamiento

Matriz dot-plot. Las diagonales representan zonas que alinean bien.

Incluyendo información de sustituciones para mejorar el alineamiento

(mejorar el alineamiento quiere decir encontrar un alineamiento que refleje mejor (con mayor probabilidad) la historia evolutiva: qué sustituciones, deleciones e inserciones han hecho divergir a dos secuencias)

Lo que se hace no es asignar un "punto" por cada coincidencia de letras como anteriormente, sino que cada par de letras del alfabeto tiene un peso asociado, así, Leu e Ile (que tienen propiedades físico-químicas muy parecidas) tienen una puntuación positiva, mientras que Trp y Asp (muy distintos) tienen una puntuación negativa. La información de qué amino ácidos son más parecidos la podemos encontrar en las matrices de sustitución.

Matrices de sustitución.
¿cómo determinar si una sustitución determinada (p.e. Cys -> Met) ha de tener una puntuación positiva o negativa, es decir, si es un cambio sin mucha trascendencia o por el contrario, las características de ambos residuos son muy distintas y por tanto la selección natural de dichos cambios es de esperar que sea negativa.

Las matrices de sustitución más conocidas son PAM y BLOSUM. En el caso de BLOSUM, la construcción de la matriz se realiza analizando una gran cantidad de alineamientos y estimando a partir de ellos la frecuencia con que cada par de amino ácidos aparece sustituido (es decir, la frecuencia con que cada par de amino ácidos aparecen en una misma posición del alineamiento). Estas frecuencias son comparadas con la frecuencia con la que por azar esperamos observar esa sustitución (esto es, el producto de las frecuencias con que aparecen en las proteínas cada uno de los aminoácidos). Es el cálculo de log-odds.

El resultado de todo esto es que, en BLOSUM62 vemos que D -> E (aspártico -> glutámico, ambos ácidos) tiene una puntuación positiva de +2, mientras que D -> L (aspártico -> leucina, ácido a hidrofóbico) tiene un valor negativo de -4. Esto nos indica que en los alineamientos utilizados para construir la matriz BLOSUM62, se observó con mayor frecuencia de la esperada el cambio D->E, no así el cambio D->L.

Algunos de los residuos cuya conservación parece más importante son el W (11), la C (9), la H (8), la P (7), etc. (diagonales)

Las distintas matrices BLOSUM como blosum45, blosum62 o blosum80, se construyen a partir de alineamientos en los que las secuencias se parecen al menos un 45%, un 62% o un 80%. La más usada es la blosum62. En teoría la blosum80 proporcionaría mejores alineamientos cuando trabajásemos con secuencias cercanas, y la blosum45 con secuencias más lejanas.

El cálculo del mejor alineamiento según una matriz de sustitución se hace de forma similar al del caso de la comparación por identidades.

AGLS
ATLT Según Blosum62: 4+(-2)+4+1 = 7.

AGLS
ATLT Según Blosum62: 0+(-1)+(-2) = -3.

... (etcétera)

Se rellena la matriz de este modo y después se busca el valor más alto.

Esta aproximación es claramente mejor que la comparación por identidades, pero... aún no sabemos qué hacer con las inserciones y deleciones....

Incluyendo información de inserciones y deleciones:

Cuando queremos comparar secuencias incluyendo inserciones y deleciones, el problema se complica sustancialmente. Por una parte, el número posible de alineamientos se hace enorme, y comprobar la puntuación para cada uno de ellos llevaría muchísimo tiempo. Por otra parte, no sabemos qué puntuación dar a las inserciones/delecciones. Sabemos que deben tener una puntuación negativa, pero no sabemos medirlo.

La primera parte del problema se solucionó cuando Needleman & Wunsch (mejorado posteriormente por Smith & Waterman) propusieron un algoritmo de programación dinámica que permitía encontrar el alineamiento que tuviera una mayor puntuación de forma rápida. Este modo de programar se puede aplicar cuando: 1) el estado inicial contiene soluciones triviales a sub-problemas; 2) cada solución parcial en una etapa posterior puede ser calculada recurriendo a un número fijo de soluciones parciales de etapas anteriores; y 3) el estado final contiene la solución global. El alineamiento de secuencias cumple estos requisitos.

La segunda parte no está del todo resuelta, aunque existen algunos modelos más o menos satisfactorios. Lo más sencillo es asignar una puntuación negativa a cada gap (p.e. -5), pero este modelo penaliza del mismo modo cinco deleciones puntuales en cinco zonas distintas de la proteína que una sola deleción que afecte a cinco residuos consecutivos, cuando sabemos que ésta debería ser más probable. Para evitar eso, se utiliza un modelo de inserciones/deleciones en el que la apertura de un gap en el alineamiento se penaliza más (p.e. con -10) que la extensión (p.e. -1).

ATGA-GATG-AT-GATACCG-ATG

ATGATGATGTATAGATTACGGATG

Caso 2:
ATGAGATG----ATGATACCGATG
ATGATGATGTATAGATTACGGATG

Si penalizásemos de igual modo la apertura y la extensión de gaps (huecos) en ambos casos la penalización global tendría el mismo valor.
Si penalizamos más fuertemente la apertura que la extensión de un gap, el caso 2 tendrá una mejor puntuación, reflejando que es un más probable evolutivamente.

Con el algoritmo de programación dinámica se va rellenando la matriz empezando desde la esquina superior izquierda, y buscando para cada nueva celda, cuál sería la mejor solución (mayor puntuación) teniendo en cuenta las sub-soluciones anteriores.

Para elegir en cada casilla de la matriz cuál es la mejor opción, se elije el máximo de:

Esta forma de "rellenar" la matriz garantiza que obtenemos el mejor alineamiento, sin necesidad de explorar todas las posibilidades.

Un ejemplo: las secuencias:
HEAGAWGHEE
y
PAWHEAE

Alineamiento local versus alineamiento global:

local

global

Búsquedas de parecidos en las bases de datos.

Actualmente las bases de datos contienen un gran número de secuencias, y crecen de forma exponencial. Por ejemplo en Genbank ya hay más de 28.000 millones de pares de bases (nucleótidos), correspondientes a más de 22 millones de secuencias. Por otra parte conocemos aproximadamente un millón y medio de secuencias de proteínas.

En este contexto, aplicar algoritmos como el de Smith & Waterman no es factible, ya que tardarían demasiado tiempo (a no ser que dispusiéramos de máquinas especiales que trabajasen en paralelo). Por eso existen métodos como BLAST y FASTA que aplican heurísticas (o "truquillos") para reducir el tiempo de búsqueda. Estos "truquillos" no garantizan el resultado óptimo pero casi siempre funcionan, y la ganancia en tiempo hace que compense usarlos.

Heurísticas de BLAST y FASTA.
Estos métodos son muy rápidos. Básicamente utilizan los siguientes "truquillos":

tablas de dispersión: en lugar de representar una secuencia como tal, utilizan una tabla tal que:

posición   : 12345678901
secuencia X: TCAGACGATTG
Tabla de disperisón de X:
A   3, 5, 8
C   2, 6
G   4, 7, 11
T   1, 9, 10

Si hacemos lo mismo con una secuencia Y, ahora cuando comparemos X e Y sólo tendremos que recorrer una vez la secuenca Y, y por cada elemento de ella, tantas posiciones como se indique en la tabla de dispersión de X. Dicho de otro modo, si Y empieza por una C, no tenemos que mirar una a una todas las posiciones de X para ver donde hay una C, ya que ya hemos construido una tabla y podemos ver directamente, en la fila de las C, que en X hay una C en las posiciones 2 y 6.

k-tuplas: en lugar de representar una secuencia de proteínas a partir de los 20 aminoácidos posibles, la representan mediante palabras de mayor tamaño, por ejemplo k=2, con lo que el alfabeto aumenta a 400 (20*20). De este modo, la tabla de dispersión tiene más filas (400), pero el número de columnas por fila disminuye, y por tanto el número de coincidencias entre X e Y también disminuye.

Búsqueda en las diagonales en las que más probablemente se encuentra el mejor alineamiento: la idea es no consultar toda la matriz para buscar el mejor alineamiento sino fijarnos sólo en las diagonales en las que, por ejemplo, haya más coincidencias.

La mejor diagonal (la -1) (en este ejemplo no se tiene en cuenta la influencia de los gaps) es la correspondiente a:

GTCCGACTAGTG
   || ||   |
CATCGGAGCTG

La búsqueda del mejor alineamiento la haríamos quizás en las diagonales -1, 2 y 4, olvidándonos del resto. No garantiza el resultado óptimo pero casi siempre funciona, y es mucho más rápido.

Gracias a estos truquillos, el tiempo de comparación de O(NxM) de la programación dinámica de Needleman&Wunsch se reduce a O(N+M), siendo N y M la longitud de las secuencias.

En FASTA (Lipman & Pearson, 1985) se obtienen las mejores diagonales y a partir de ellas se calculan los mejores alineamientos. Posteriormente se intentan unir las diagonales entre sí incluyendo gaps.

El artículo original de BLAST (Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ, 1990) es el más citado de la década de los 90. La principal diferencia con FASTA es el modo en que busca las diagonales. En el caso de FASTA, si usamos una tabla de dispersión con k-tuplas de tamaño 4, sólo se tienen en cuenta las coincidencias entre las secuencias X e Y (p.e, la palabra AAAA en X sólo se corresponderá con AAAA en Y, mientras que si en Y hay AAAT, no se registrará el parecido). Sin embargo en BLAST, cuando se construye la tabla de dispersión de la proteína problema se pre-calculan los parecidos entre las distintas palabras. Por ejemplo: si la proteína problema (X) empieza por CTDCGRSGLI...) y usamos tuplas de k=4, la primera palabra de X será CTDC, y BLAST calculará qué otras palabras (según la matriz de sustitución) tienen una puntuación positiva (por ejemplo CSDC). De este modo se gana en sensibilidad, aunque aumenta el espacio de búsqueda. Para reducir un poco este espacio, sólo se apuntan aquellos parecidos entre palabras suficientemente altos (esto viene dado por un parámetro T de BLAST).

Estimación de la probabilidad de que un determinado parecido entre secuencias se deba al azar: el e-value
Uno de los problemas más importantes una vez hemos encontrado parecidos en las bases de datos es saber si son significativos o si podrían deberse al azar y por tanto no reflejan una relación de homología. En el caso de parecidos muy claros, la respuesta es evidente, pero hay muchos otros parecidos en los que no lo es, y para resolver este problema se han desarrollado diversos modelos estadísticos. Básicamente lo que se hace es calcular la probabilidad de que un alineamiento entre secuencias no relacionadas (por azar) alcance una puntuación (score) determinado; en esto influyen diversos aspectos:

la matriz de sustitución empleada: hay matrices que tienden a dar puntuaciones más positivas que otras.

la composición de aminoácidos de las secuencias alineadas: por ejemplo, si ambas secuencias tienen muchas Cys y éstas en la matriz de sustitución suelen tener puntuaciones más positivas que otros aminoácidos, una puntuación alta de tal alineamiento será menos significativa.

la longitud de las secuencias alineadas (o el tamaño de la base de datos -ver más abajo-): cuanto mayores sean las secuencias, mayor será la probabilidad de que por azar alcancen un determinado score.

A partir de un modelo en el que estudiaron qué scores alcanzaban los alineamientos de secuencias generadas al azar (según las frecuencias observadas de aminoácidos), Karlin & Altschul desarrollaron la siguiente fórmula para el cálculo del e-value:

El e-value (E) de un determinado score indica cuántos alineamientos esperamos que por azar alcancen un score igual o mayor dadas los tres factores antes mencionados (no confundir con el p-value, que indica la probabilidad de que un score se haya alcanzado por azar al menos en una ocasión; e-value y p-value se relacionan mediante la siguiente fórmula:

y tienen un valor prácticamente idéntico en la escala que va de 0 a 0.01).

Cuando tratamos con una base de datos más importante que la longitud de las secuencias es el tamaño de la base de datos: cuanto mayor sea ésta, con mayor probabilidad aparecerán alineamientos que por azar alcancen un determinado score. En la fórmula del e-value K y lambda son dos parámetros que se determinan empíricamente, M y N son las longitudes de las secuencias y S es el score (la puntuación del alineamiento). Pues bien, en el caso del cálculo de e-values en el contexto de la búsqueda en bases de datos M se toma como el tamaño de la base de datos (número total de aminoácidos o nucleótidos; si bien se aplica una corrección -edge effect o efecto de los extremos- que se explica en el enlace: http://www.ncbi.nlm.nih.gov/BLAST/tutorial/Altschul-1.html).

En la práctica tenemos que tener en cuenta lo siguiente: el e-value depende del tamaño de la base de datos (si una DB es 10 veces menor que otra, el e-value será 10 veces menor, también). En general con bases de datos grandes, nos podemos fiar de e-values menores de 1e-05, y en el rango 1e-05 a 0.1 casi siempre nos podemos fiar; por encima de 0.1 ya es más arriesgado. Sin embargo, lo mejor siempre es utilizar el criterio propio, mirar los alineamientos a ojo, hacer alineamientos múltiples, búsquedas con PSI-BLAST, etcétera, como veremos más adelante.

Para saber más acerca de Alignment Scoring Statistics:
http://www.ncbi.nlm.nih.gov/BLAST/tutorial/Altschul-1.html
http://blast.wustl.edu/doc/infotheory.html

Filtros SEG, XNU, COILS y DUST.
Hay algunos casos en los que secuencias sin un origen común, por tener características especiales, pueden alcanzar fácilmente puntuaciones altas en sus alineamientos:

secuencias de baja complejidad (filtro SEG para aminoácidos y filtro DUST para nucleótidos): por ejemplo secuencias con muchas alaninas o prolinas repetidas. Éstas secuencias darán fácilmente alineamientos de alta puntuación con otras secuencias que también tengan por ejemplo zonas ricas en prolinas, aunque no estén relacionadas. Además, casi cualquier forma de alinearlas dará puntuaciones elevadas. Por ejemplo:

secuencia 1: RCTAASAAAAAARAA
secuencia 2: GYAAAAALAAAAAA

Alineamientos con buenas puntuaciones:

RCTAASAAAAAARAA
GYAAAAALAAAAAA

RCTAASAAAAAARAA
GYAAAAALAAAAAA etcétera

El filtro SEG enmascara estas regiones sustituyendo los códigos de los aminoácidos por X.

secuencias repetitivas (filtro XNU): se aplica a secuencias con cortas repeticiones.

secuencias de coiled-coils (filtro COILS): se aplica a secuencias de coiled-coils. Éstas, al tener una periodicidad (suelen tener una Leu o una Ile cada 7 residuos) pueden dar buenas puntuaciones con otras proteínas que también adopten coiled-coils, sin que por ello compartan un origen evolutivo común (sin que sean homólogas).

¿Cuándo aplicar los filtrados? Normalmente lo mejor es probar a realizar la búsqueda (p.e. BLAST) con y sin filtrado, inspeccionar los resultados y determinar si el filtrado en ese caso nos permite eliminar parecidos espúreos (al azar). Si no aporta nada, mejor no utilizarlo porque estamos perdiendo información de secuencia que podría ayudarnos a encontrar homólogos más lejanos.

Alineamientos múltiples

Por alineamiento múltiple nos referimos al alineamiento de más de dos secuencias. Los alineamientos múltiples de secuencias son el pilar central de multitud de métodos bioinformáticos.
Como hemos visto, el alineamiento mediante programación dinámica de dos secuencias tiene una complejidad O(NxM). Pues bien, si queremos alinear tres secuencias, la complejidad sería de O(NxMxL). O dicho de otra forma: si alinear dos secuencias de 300 residuos tardase un segundo, alinear tres secuencias tardaría 300 segundos. Y alinear 10 secuencias tardaría 300⁸ segundos (más que la edad del universo).

Matriz tridimensional para el alineamiento de tres secuencias
(para cuatro secuencias necesitaríamos una matriz de cuatro dimensiones)

En resumidas cuentas, no podemos resolver el problema del mismo modo que para un par de secuencias.

Una aproximación a la solución de este problema la propusieron Carrillo & Lipman en 1988, y posteriormente fue aplicada para el desarrollo del programa MSA (Lipman, Altschul & Kececioglu, 1989). La idea es calcular el parecido entre todos los pares de secuencias, de modo que obtengamos una medida de su distancia evolutiva. Se toman las dos secuencias más cercanas y se alinean entre sí. A partir de este momento ambas secuencias se tratan como una sola (ya veremos más adelante cómo). Se vuelven a alinear las dos más cercanas.... y así sucesivamente hasta que no quedan más.

ClustalW (Thompson, Higgins & Gibson, 1994) es el programa más comúnmente utilizado y sigue un enfoque similar: a partir de la matriz de distancias entre las secuencias se construye una especie de árbol guía y se van alineando las secuencias entre sí de acuerdo a este árbol.

El resultado de estos programas no tiene por qué ser el óptimo, pero normalmente funcionan bien, aunque a veces hay que corregir algunas zonas del alineamiento a mano, utilizando programas como SeaView.

Finalmente, decir que recientemente se ha desarrollado un nuevo método de alineamiento llamado T-coffee (Notredame, Higgins & Heringa, 2000) que resuelve muchos de los problemas de ClustalW, aunque requiere un mayor tiempo de computación. Utiliza algoritmos genéticos para encontrar el alineamiento óptimo. Este tipo de algoritmos (que veréis más adelante) son muy útiles en problemas de optimización.

El recién desarrollado programa Muscle (Edgar, Robert C. 2004) es muy rápido y da unos resultados muy buenos!! Puedes encontrar una descripción de su algoritmo en: http://www.drive5.com/muscle/.

¿Cuál es la utilidad de los alineamientos múltiples? lo veremos en la siguiente clase: Análisis de secuencias: motivos y perfiles.

volver al índice

ir a la práctica