Clase Alineamiento de Secuencias PDF

Alineamiento de secuencias Curso de Bioinformática Pablo Villalobos Navarro Evolución de secuencias, eventos de especiación y duplicación La variabilidad en secuencia se da por diferentes tipos de cambios ¿Qué es un alineamiento? Es una forma de comparar dos o más secuencias de proteínas, ADN o ARN. Los programas que alinean secuencias buscan maximizar una función de puntuación (S) que considera Matchs, mismatchs y gaps. Alineamiento de secuencia nucleotídica (alineamiento de pares) Alineamiento de secuencia de proteínas (alineamiento múltiple) ¿Por qué alineamos secuencias? Alineamos secuencias para encontrar una relación entre ellas. Dos o más proteínas son homólogas cuando comparten un ancestro en común. Identidad y similaridad de secuencias En proteínas: Identidad : el porcentaje de Aa alineados idénticos Similaridad : el porcentaje de residuos alineados con propiedades similares (fisicoquímicas principalmente) Aplicaciones Alineamientos Filogenia. Ensamblado de secuencias. Predicción de contactos en la estructura de proteínas Modelamiento por homología Alineamiento de Pares A pesar de lo simple que pareciera ser, el alineamiento de pares es una de las operaciones más importantes en bioinformática. Busca establecer el grado de relación entre dos secuencias Matriz de Puntuación Matriz de Puntuación Es una matriz usada para puntuar alineamientos en la que sus celdas tienen valores que indican la probabilidad de reemplazar un aminoácido o nucleótido por otro. ¿Cómo asignar puntaje a las posiciones de Aa alineados? Dayhoff: Organizó y estudio las mutaciones en familias de proteínas estrechamente relacionadas. Para ello consideró solo aquellas mutaciones (cambios en secuencia) que provenían de un ancestro común. El “E” ancestral (5 y 6) fue sustituid por A (3) o E (1 -2) y no por G (4). Ancestros A y G nunca cambian directamente. 5 y 6: (E) Reconstrucción (E) (E) Secuencia (E) ancestral (A) (G) Modelo de Dayhoff: Accepted point mutation (PAM) PAM: una mutación puntual en una proteína que ha sido “aceptada por selección natural” en un periodo de tiempo. Dayhoff observó 1572 PAMs en 71 grupos de familias de proteínas. Hay familias de proteínas que tienen más variabildiad (PAMs) que otras. MATRIZ PAM 250 Esta matriz representa a una distancia evolutiva en el que las proteínas tienen un 20% de identidad de secuencia. Si una secuencia tiene una Alanina (A) hay un 6% de posibilidad de que esta sea reemplazada por Lisina (K). Cálculo de (Sij) en una matriz de razón de probabilidades Frecuencia de Sustitución de j por i Frecuencia de que se alinee i por azar Aa original: j Puntaje por reemplazo de una cisteína (j) por leucina (i): Aa de reemplazo: i W->W= 17, Quiere decir que la posibilidiad de encontrar W alineado con W es 50 veces mayor que el alineamiento de este aminoácido al azar. (+17 = 10 log10 x) H->R= 2, Quiere decir que la posibilidad de alinear H con R es 1.6 veces más frecuente que lo esperado por azar. (+2 = 10 log x) 10 Comparación Matrices PAM. PAM10 PAM250 Cerca de un 90% de identidad de Cerca de un 20% de identidad de secuencia. secuencia. ¿Dónde se asignan puntajes más altos a los reemplazos idénticos ? ¿Dónde se penaliza más un “mismatch”? Zona oscura o de “penumbra” Es el límite en donde podemos identificar correctamente la homología entre secuencias con los métodos convencionales. PAM250 (20% identidad sec) Matriz BLOSUM 62 Basada en la base de datos BLOCKS, la que consiste en cerca de 500 grupos de alineamientos locales (bloques) de proteínas distantes filogenéticamente. A diferencia de PAM, estas matrices no son extrapoladas de la comparación de homólogos muy relacionados. Blosum62, la más popular, es calculada con proteínas con máximo 62% de identidad de secuencia. Es la matriz de puntuación utilizada por defecto en BLAST2 Regla para escoger la matriz adecuada Las matrices PAM se basan en información obtenida de familia de proteínas muy emparentadas, asumen que desde matrices para proteínas muy relacionadas (PAM30) se puede extrapolar las probabilidades para proteínas menos emparenta- das. En cambio, las matrices BLOSUM están basadas en observaciones directas de familias de proteínas filogenéticamente distantes. Variación del puntaje de un alineamiento global usando matrices PAM Negro: Globinas muy relacionadas Rojo : Globinas muy poco Relacionadas. Matriz para secuencias Matriz para secuencias menos divergente más divergente El puntaje (Score) es muy dependiente de la matriz que se use. Por lo mismo, la matriz escogida depende de los datos (secuencias) que se tengan. Algoritmos de alineamiento Las matrices permiten puntuar un alineamiento. Además, se requiere un algoritmo que construya el alineamiento (usando una función de puntuación). Se les puede calificar en dos tipos: Alineamiento Global: abarca el largo completo de las secuencias a analizar Alineamiento local: abarca solo partes de las secuencias. Alineamiento Global: Dos secuencias pueden alinearse con un algoritmo de programación dinámica utilizando una matriz. Una secuencia se posiciona en el extremo horizontal y otra en el vertical. La matriz es recorrida por el algoritmo en pasos diagonales para los matchs y mismatchs, y en pasos horizontales o verticales para los gaps en las secuencias. Línea: Horizontal, Gap en sec. roja Vertical, Gap en sec. Verde Diagonal, alineadas Algoritmo de programación dinámica para alineamientos de pares (Needelman and Wunsch) Tres pasos principales: 1) Definir reglas de asignación de puntajes 2)Completar toda la matriz basándose en las reglas de (1) 3) Encontrar un alineamiento con el Puntaje más alto (“traceback”). Usando las reglas, la matriz queda definida de la forma -> El algoritmo recorre la matriz maximizando el puntaje. Tres pasos principales: 1) Definir reglas de asignación de puntajes 2) Completar toda la matriz basándose en las reglas de (1) 3)Encontrar un alineamiento con el Puntaje más alto (“traceback”). Alineamiento Local: algoritmo Smith Waterman No existen puntajes negativos, ya que en esos caso se se asigna 0 Para comenzar se busca el puntaje mayor (13) y se recorre la matriz hasta que se localiza un “0”. BLAST (“Basic local alignment search Tool”) BLAST permite usar una secuencia problema (query) para realizar un alineamiento de pares con una Base de Datos (Target). No necesariamente llega a una solución óptima. Sin embargo, nos provee de parámetros que pueden indicar qué tan buena es la solución entregada. Usualmente W=3 para proteínas y W=11 para ADN. Puntaje basado en una matriz de sustitución ( BLOSUM) Alineamiento de Pares entre Palabra de la “Query” y BD. La Extensión (alineamiento) se realiza hasta encontrar un puntaje S determinado Estrategia general para el uso de BLAST. Los resultados de cada ejecución dependen de los parámetros escogidos Blast Output E-value o valor esperado. Es un parámetro que describe el número de hits (alineamientos) con un puntajes “S” o superiores a “S” que se puede esperar de obtener por azar cuando se hace una búsqueda en una BD de un tamaño determinado. Depende del tamaño de la consulta “query” y de la Base de datos. Donde m y n son el tamaño de “query” y la Base de datos. No existen reglas que definan un valor para E que indique si un resultado es bueno o malo, ya que depende de cada consulta a la base de datos. Mientras E se acerque a 0, la probabilidad de que el alineamiento sea producto del azar es menor. Detectando homólogos lejanos con PSI BLAST. Muchas secuencias tienen homólogos lejanos que son difíciles de detectar con los algoritmos convencionales de BLAST (BLASTp, BLASTn...) esto porque vimos que PAM250 estaba al límite de la zona de penumbra. PSI BLAST es un algoritmo que permite crear matrices de sustitución adecuadas a la búsqueda, es decir, que dependen de la secuencia problema. PAM250 PSI BLAST. Query BD Búsqueda Filtro por En BLAST Valor E. Matriz Posición Alineamiento Específica secuencias ¿Cuál es la ventaja de tener una matriz de posición específica (PSSM)? Alineamiento Múltiple Un alineamiento múltiple es una colección de tres o más secuencias alineadas complementa o parcialmente. Estas observaciones nos permiten relacionarlas ,por ejemplo, dentro una familia de proteínas. Algunos programas: (ClustalW), Praline,MUSCLE), MAFFT, ProbCons, Expresso. Alineamiento Múltiple Métodos exactos: Usan programación dinámica con una matriz multidimensional. Maximizan la suma de todos los alineamiento de pares dentro del grupo de secuencias. Ideal para pocas secuencias, pero poco práctico y aplicable para un gran número de secuencias. Progresivos: Crean inicialmente alineamientos de pares de todas las secuencias con programación dinámica. Con esa información generan una matriz de distancias de secuencias que permite construir un árbol guía que orienta la construcción del alineamiento. El alineamiento se construye partiendo desde las secuencias más similares (Según el árbol) y luego se agregan progresivamente el resto de las secuencias. Iterativos: usan el método progresivo para comenzar, luego modifican el alineamiento con programación dinámica hasta que la solución converge. Basados en estructura. Se basan en que las estructuras evolucionan Más lento que las secuencias. Utilizan información estructural de alta resolución Para optimizar los alineamientos. Alineamiento Progresivo: CLustalW 1.-Se crea un alineamiento de pares de todas las secuencias (todas vs todas) 2.-Con la info. obtenida en (1), se crea una matriz de distancias de secuencias 3.-Se genera un árbol guía basado en (2) 4.-Se construye un alineamiento utilizando el árbol como guía, comenzando por las secuencias más similares y luego alineando sucesivamente el resto de las proteínas. Chowdhury, 2017 Alineamiento Iterativo:MAFFT Basados en estructura Estos algoritmos toman ventaja de la que la estructura en un grupo de proteínas homólogas en general se conserva mucho más que su secuencia. Esto permite alinear estructuras de proteínas homólogas y derivar un alineamiento de secuencias a partir de esa superposición estructural. Correspondencia con la estructura Ausencia de superposición estructural entre aminoácidos del loop. ¿Qué precauciones debiera tenerse al usar un alineamiento de estructura como referencia? Bibliografía Pevsner, J. (2015). Bioinformatics and functional genomics. John Wiley & Sons. Durbin, R., Eddy, S. R., Krogh, A., & Mitchison, G. (1998). Biological sequence analysis: probabilistic models of proteins and nucleic acids. Cambridge university press.

Clase Alineamiento de Secuencias PDF

Document Details

Tags

Related

Summary

Full Transcript