Análisis Filogenético - FilogeniasMPLKB2024_MMendez PDF
Document Details
Uploaded by Deleted User
M. Mendez
Tags
Summary
Este documento introduce los principios del análisis filogenético. Explica conceptos como homología, cladística y máxima verosimilitud, proporcionando una visión general sobre los enfoques para entender las relaciones evolutivas entre los organismos.
Full Transcript
ANÁLISIS FILOGENÉTICO Es el quagga mas parecido a una zebra o a un caballo? Los primeros pasos en la elaboración de filogenias datan del siglo XIX El árbol filogenético ilustra las relaciones de parentesco entre grupos de organismos que provie...
ANÁLISIS FILOGENÉTICO Es el quagga mas parecido a una zebra o a un caballo? Los primeros pasos en la elaboración de filogenias datan del siglo XIX El árbol filogenético ilustra las relaciones de parentesco entre grupos de organismos que provienen evolutivamente de uno o varios ancestros comunes Cuestión reciente de filogenia: ¿son osos los pandas de Asia? INTRODUCCION AL ANALISIS FILOGENETICO ◼ El análisis filogenético fue inicialmente desarrollado para estudios genealógicos basados en caracteres morfológicos. ◼ Sin embargo, su lógica formal y su aplicación se ha extendido a distintos caracteres (cromosómicos, aloenzimáticos y moleculares). Willie Hennig ◼ Entomólogo alemán quien fue el primero en proponer un sistema explícito de reconstrucción filogenética. ◼ Su libro “Grundzüge einer Theorie der phylogenetishen Systematik” (1950), sólo fue conocido en 1966, cuando se tradujo al Inglés. ◼ Su aporte produjo una verdadera revolución en la sistemática tanto a nivel metodológico (método cladista) como conceptual (teoría de clasificación). Existen tres supuestos básicos en cladística: 1) Todo grupo de organismos esta relacionado por descendencia desde un ancestro común. 2) Hay un patrón bifurcante de cladogénesis. 3) El proceso de cambio de los caracteres ocurre en los linajes en el tiempo. La proposición de Hennig (1950) ◼ El método que agrupa organismos usando caracteres derivados compartidos se denomina Cladística o Sistemática filogenética. ◼ Sólo caracteres derivados compartidos (sinapomorfías) pueden darnos luces sobre las relaciones evolutivas (filogenia) de los taxa a estudiar. ◼ Los taxa que comparten mas caracteres derivados son agrupados mas cercanamente que los que no comparten estos caracteres. ◼ Las relaciones entre estos taxa son mostradas en un arbol jerárquico ramificado llamado Cladograma. ◼ El cladograma es construido de tal modo, que el número de eventos de cambio entre caracteres (de un estado al otro) es minimizado (PRINCIPIO DE PARSIMONIA) Todo cladograma es una hipótesis GRUPOS MONOFILÉTICOS Nomenclatura asociada a los cladogramas Árbol enraizado Árbol no enraizado HOMOLOGÍA ¿Cómo se determinan los estados primitivos y derivados? El método del grupo externo (Outgroup) Concepto hennigniano de relación entre los taxa esta basado en la homología ◼ Carácter: rasgo, parte observable en un organismo. ◼ Homología: dos caracteres en dos taxa son homólogos: a) cuando ellos están en el mismo estado en el ancestro o b) si estan en estado diferente, pero tiene una relación ancestro descendiente descrita como preexistente (taxón 1) o novedad (taxón 2). Homología 1 = primitivo (plesiomorfico). 2 = derivado (apomorfico) 0 1 1 1 0 1 2 1 t 1 1 i e 1 1 m p 0 0 o 0 = primitivo. 1 = derivado. PRINCIPIO BASICO “descendencia con modificación” HOMOLOGÍA: CARACTERES MORFOLÓGICOS “Un caracter en dos o más taxa es homólogo, cuando el carácter es encontrado en el ancestro común de ambos taxa o…dos caracteres son homólogos si uno es directamente (o secuencialmente) derivado de otro (E. O. Wiley) HOMOPLASÍA: CARACTERES MORFOLÓGICOS Euphorbiaceae (AFRICA) Cactaceae (NUEVO MUNDO) CARACTERES MOLECULARES cardinalis HOMOLOGÍA: SECUENCIAS DE DNA Fitch, W. TIG, May 2000, Vol. 16, N° 5 APOMORFÍAS HOMOLOGÍAS PLESIOMORFÍAS ORTOLOGÍA HOMOLOGÍAS NIVEL PARALOGÍA MOLECULAR XENOLOGÍA GENES ORTOLOGOS: Relación en que la divergencia de los genes ocurre después de un evento de especiación. FILOGENIA DE SECUENCIAS = FILOGENIA DE LOS TAXA GENES PARALOGOS: Relación en que la divergencia de los genes ocurre después de un evento de duplicación. FILOGENIA DE SECUENCIAS FILOGENIA DE LOS TAXA GENES XENOLOGOS: Relación en que la historia de los genes involucra transferencia interespecífica de material genético. Synología: xenología originada por hibridización de dos especies Distintos tipos de hemoglobina Hardison PNAS 2001 98: 1327-1329 Origen reticulado PROCEDIMIENTO PARA FILOGENIAS MOLECULARES SECUENCIAS PASO CRÍTICO ClustalW, Malign, Pileup ALINEAMIENTO MULTIPLE Phylip,PAUP,MacClade ANALISIS FILOGENÉTICO TreeDrawing ÁRBOL FILOGENÉTICO DNA COMO CARACTER 260 * 280 * 300 * 320 0841r : CCTTCAATTTTTATT-----------------------AGAGTTTTAGGAGAAATAAGTATGTG : 272 0992r : CCTCCAATTTTTATTAGCTTGCCTACTCCTTTGGGCACAGAGTTTTAGGAGAAATAAGTATGTG : 213 3803r : CCTCCAATTTTTATTAGCTTGCCTACTCCTTTGGGCACAGAGTTTTAGGAGAAATAAGTATGTG : 305 4062r : CCTCCAATTTTTATTAGCTTGCCTACTCCTTTGGGAACAGAGTTTTAGGAGAAATAAGTATGTG : 319 3802r : CCTCCAATTTTTATTAGTTTGCCTACTCCTTTGGGCACAGAGTTTTAGGAGAAATAAGTATGTG : 282 ph2f : CCTCCAATTTTTATTAGCTTGCCTACTCCTTTGGGCACAGAGTTTTAGGAGAAATAAGTATGTG : 306 CCTcCAATTTTTATTag ttgcctactcctttggg acAGAGTTTTAGGAGAAATAAGTATGTG Caracteres son posiciones en las secuencias. Estados del caracter son los nucleótidos en las secuencias ANALISIS FILOGENETICO ROB DE SALLE LINNEO JOE FELSENSTEIN METODOS PARA INFERIR RELACIONES FILOGENETICAS Parsimonia. Métodos de Distancia. Máxima Verosimilitud (M. Likelihood) Tipos de métodos computacionales: Algoritmos de agrupamiento: Usan distancias. Son puramente algorítmicos, en los cuales el algoritmo define el criterio de selección del arbol. Tienden a ser muy rápidos para producir un arbol.. Cuidado: Encontrar un arbol singular no es necesariamente igual a encontrar el árbol “verdadero”. Optimización: Usa caracteres o distancias. Primero define un criterio de optimización (largo mínimo de las ramas, menor número de eventos , mayor probabilidad), y luego usa un algoritmo específico para encontrar arboles con el mejor valor para una función objetiva. Cuidado: Encontrar un arbol óptimo no necesariamente implica encontrar el arbol “verdadero”. Métodos de reconstrucción filogenética molecular de árboles: Son métodos matemáticos y estadísticos para inferir divergencia de los taxa, como también largo de las ramas que los conectan. Los métodos se pueden clasificar como sigue: METODO DE COMPUTACION Criterio de Optimización Algoritmo de agrupamiento Caracteres PARSIMONIA TIPO DE DATO MAXIMUM LIKELIHOOD Distancia MINIMUM EVOLUTION UPGMA LEAST SQUARES NEIGHBOR-JOINING El principio de Parsimonia ◼ En términos generales se puede definir como “ Un criterio científico para elegir entre hipótesis competentes que explican los datos del modo más simple y eficiente” (Kitching et al, 1998). ◼ En sistemática filogenética es análogo al principio auxiliar de Hennig “nunca asuma convergencia siempre asuma homología en ausencia de evidencia contraria ”. ◼ Esto nos lleva a siempre elegir aquella hipótesis que involucre el menor número de pasos (“la más parsimoniosa”) Métodos de Parsimonia : Criterio de Optimización : El árbol más parsimoniosos requiere el menor número de pasos (o eventos evolutivos: ej. Sustituciones nucleotídicas) para explicar las secuencias. Ventajas: Son simples, intuitivos, y logicos (posibles por “lápiz y papel”). Pueden ser usados con datos morfológicos y moleculares. Separan tipos de similaridades (homologías y homoplasías). Pueden ser usados para inferir secuencias de ancestros hipotéticos. Desventajas: Son simples, intuitivos, y logicos (PERO no incorporan la estadística). Pueden llegar a ser equívocos sobre todo en la “Felsenstein Zone”: [Ver Swofford et al. (1996) para una discusión de métodos de parsimonia] Primer paso en el análisis de Máxima Parsimonia: Identificar todos los sitios informativos Invariantes: todas las OTU’s que posean el mismo estado del caracter Para el mismo sitio. Cualquier sitio invariante es no informativo Dos tipos de sitios variables: Informativos: Favorece un subset de arboles sobre los otros posibles. No informativos: un caracter que no contiene información relevante desde el punto de vista cladístico (ej. Autapomorfñias). No Informativos: Cada uno implica 3 pasos Análisis de Parsimonia segundo paso: Calcular el mínimo número de sustituciones para cada sitio informativo 1 paso 2 pasos 2 pasos Informativo: favorece arbol 1 sobre los otros 2. Análisis de Parsimonia, el paso final: Sume el número de cambios sobre todos los sitios informativos para cada árbol posible y elija aquel árbol con el menor número de cambios Sitio 3 Sitio 4 Sitio 5 Sitio 9 3 pasos 3 pasos 4 pasos Métodos de distancia ◼ Todos estos métodos requieren tres pasos: ◼ Comparación entre taxa son hechas a partir de todas las secuencias. ◼ El número de diferencias de nucleótidos observadas entre cada par es resumido en una matriz de distancias. ◼ Se estima una filogenia a partir de la matriz de distancia. La estimación de distancias genéticas ◼ La comparación de dos secuencias de DNA revela el número de diferencias entre ellas. ◼ Alternativas : ◼ Sobreestimación o subestimación de cambios en relación al ancestro. ◼ Utilizar modelos de sustitución de DNA (Cambio). Métodos de distancias más usados ◼ UPGMA (Unweighted pair group method with arithmetic averages). ◼ Taxa son agrupados de acuerdo a la menor distancia media entre los taxa involucrados. ◼ Cada OTU contribuye de igual modo a los cálculos. ◼ Supuesto: Igual tasa de evolución a lo largo de todo el dendograma (heterogeneidad pasa inadvertida). MAS QUE UNA CUESTION DE GUSTOS!! Fenetica vs Cladistica METODO DE MAXIMA VEROSIMILITUD (ML) ◼ Primero desarrollado por Cavalli-Sforza & Edwards (1967). ◼ A menudo este método llega a estimados con menor varianza que los otros métodos. ◼ Tiende a ser robusto, aún cuando se violen ciertos supuestos. ¿Cuál es la probabilidad de observar un dato? ◼ Si tiramos una moneda y pensamos que la moneda es normal, entonces podríamos esperar una probabilidad de observar “cara” de 0.5. ◼ Si creemos que esta “arreglada” y esperamos obtener una “cara” el 80 % de la veces ….luego la probabilidad de observar los datos ( una “cara”) es 0.8. ◼ POR LO TANTO: La “likelihood” de hacer ciertas observaciones es enteramente dependiente de un modelo y de los supuestos que subyacen en éste. Moraleja: Los datos NO HAN CAMBIADO, nuestro modelo SI. Por lo tanto, bajo un nuevo p modelo la probabilidad de =? observar los datos HA PARA EL CASO DE LAS HIPÓTESIS FILOGENÉTICAS Filogenias serán inferidas en función de aquellos árboles que me den la máxima probabilidad de acuerdo a un determinado modelo de sustitución nucleotídica. Método de Maximum Likelihood : La likelihood (L) de un árbol filogenético es la probabilidad de observar los datos (secuencia nucleotídica) bajo un árbol dado y un modelo especificado para los cambios en el caracter. La meta es encontrar un árbol (entre todos los posibles) con el valor más alto de L. ìa b c dü ï ï ïb a e fï í ý ïc e a gï ï ï îd c f aþ Probabilidad de dado = a, c, g , t Parámetros del Modelo de Máxima Probabilidad + TOPOLOGÍA La proporción de sitios La tasa relativa de sustitución en la invariantes (). matriz (TRANS v/s TRANSVER). ìa b c dü ï ïb a í ïc e ï e a ï fï ý gï ï + p = [a,c,g,t] + îd c f aþ Las frecuencias de las bases (). Modelos de cambios nucleotídicos Tipos de sustituciones TRANSICIONES T T ◼ Sustituciones que R A C R intercambian una purina A N A por otra purina son S N S llamadas transiciones. V V E E ◼ Sustituciones que R R intercambian una purina S I S por una pirimidina o I O G T O vice-versa son N N llamadas transversiones E TRANSICIONES E S S CODIGO GENETICO Sust. Sinónimas (Silentes) :CUU ----> CUC = Leucine -----> Leucine Sust. No Sinónimas :CUU ----> CCU = Leucine -----> Prolina Substitutions per site per 1000,000,000 years his 0 2 4 6 8 10 12 ton e 3 Ins uli m n yo glo bin alb int umi ap erl n oli e po ukin pro 1 en la evolución tei nA int -1 erf ero nB 1 Synonymous mutations Nonsynonymous mutations rel ax in Mutaciones sinónimas son fijadas con mayor frecuencia Diferentes tipos de secuencias evolucionan a distintas tasas Midiendo el cambio evolutivo ◼ Medida simple: Contar el número de sitios 120 diferentes. Base pair differences 100 ◼ Estimador muy 80 inexacto: 60 ◼ Sitios pueden tener 40 sustituciones 20 repetidas. 0 ◼ Divergencia de 0 5 10 15 20 25 secuencias llega a Time since divergence (Myr) ser menos exacta en su estimación Corrección de diferencias observadas en las secuencias Diferencia Esperada ‘Corrección’ Difer. en las sequencias Diferencia Observada Tiempo Matriz de Cambios Nucleotídicos PAA PAC PAG PAT PCA PCC PCG PCT M= PGA PGC PGG PGT PTA PTG PTG PTT Modelo Jukes-Cantor (JC) ◼ Asume que las cuatro bases tienen igual frecuencia y que las sustituciones son igualmente probables. - - Pt = f = [¼ ¼ ¼ ¼] - - Modelo de un parámetro de “Jukes and Cantor” 100 Transitions 80 60 Base pair 40 differences 20 Transversions 0 5 10 15 20 25 Time since divergence (Myr) Número de transiciones y transversiones entre pares de secuencias mitocondriales de mamiferos (684 pares de bases de COII gene) contra el tiempo de divergencia. Modelo Kimura de 2 parámetros (K2P) ◼ Toma en cuanta diferencias entre transiciones vs. - transversiones - Pt = - 100 90 80 70 - Transiciones () 60 50 40 30 20 Transversiones () f = [¼ ¼ ¼ ¼] 10 0 0 5 10 15 20 25 Hasegawa, Kishino y Yano (1985) (HKY85) ◼ Esencialmente mezcla modelos K2P and F81 , permitiendo la ocurrencia de transiciones y transversiones a distintas tasas y a su vez permitiendo que la frecuencia de bases varíe. - C G T A - G T Pt = f = [A C G T] A C - T A C G - modelo General reversible (REV) ◼ Modelo más general – cada sustitución tiene su propia probabilidad. - Ca Gb Tc Aa - Gd Te Pt = f = [A C G T] Ab Cd - Tf Ac Ce Gf - Comparando los modelos A C G T A C G T A A C C Observado K2P TR G G T T A C G T A C G T A A C C JC HKY85 G G T T Sitios variables ◼ Hay sitios en las secuencias libres de variar. ◼ Intensidad de selección es raramente uniforme…deseable un modelo que varie sitio a sitio. ◼ Esto puede realizarse de dos modos: ◼ Variación sitio específico (posicion-codon) ◼ Usando una aproximaciñon discreta de distribución (gamma distribution). ◼ Nuevamente, estas variables son modeladas para todos los cambios posibles de largo de rama sobre todas las topologías posibles. REGION CONTROL DNAmit variable menos variable variable DISTRIBUCIÓN GAMA Elección del mejor Modelo David Posada Universidad de Vigo Jmodeltest 2 VOLVAMOS AL ANALISIS DE MAXIMA VEROSIMILITUD Método de Maximum Likelihood : La likelihood (L) de un árbol filogenético es la probabilidad de observar los datos (secuencia nucleotídica) bajo un árbol dado y un modelo especificado para los cambios en el caracter. La meta es encontrar un árbol (entre todos los posibles) con el valor más alto de L. ìa b c dü ï ï ïb a e fï í ý ïc e a gï ï ï îd c f aþ Probabilidad de dado = a, c, g , t 1. Calcule la probabilidad para cada sitio. 2. Sume los valores de L para todos los sitios en el árbol. 3. Compare los valores de L para todos los arboles posibles. 4. Elija el arbol con el valor mas alto de L. Comparando hipótesis filogenéticas ◼ Relaciones filogenéticas estimadas a partir de datos de mtDNA Métodos de Maximum likelihood (ML) Criterio de Optimización : ML evalúan hipótesis filogenéticas en términos de probabilidad que un modelo de propuesto de un proceso evolutivo y un arbol no enraizado para los datos observados. El árbol encontrado que tenga el valor más alto de ML será el seleccionado. Ventajas: Están basados en modelos estadísticos y evolutivos. Generalmente es el método más consistente. Pueden ser usados para caracteres (pueden inferir sustituciones exactas) y analizar las tasas. Pueden usarse para inferir secuencias de ancestros (hipotéticos). Pueden considerar el largo de las ramas en arboles no balanceados. Desventajas: No son simples ni intuitivos. Son computacionalmente activos (limita el numero de taxa y largo de secuencias). Violaciones al modelo asumido puede llevar a arboles incorrectos. Conceptos Clave de la Inferencia Bayesiana ◼ 1. Teorema de Bayes ◼ 2. Priorización de Conocimientos Previos ◼ 3. Actualización de Creencias ◼ 4. Probabilidad Posterior Teorema de Bayes ◼ El teorema de Bayes establece la relación entre la probabilidad condicional: Priorización de Conocimientos Previos ◼ En la inferencia bayesiana, se incluye información previa sobre un parámetro en forma de una distribución a priori. ◼ A medida que se obtiene nueva evidencia, la verosimilitud actualiza la probabilidad a priori a la posterior. ◼ La distribución posterior representa las creencias actualizadas sobre el parámetro después de observar los datos. Explicación simple ◼ Nos permite actualizar la probabilidad de un evento basándonos en nueva evidencia o información. ◼ A diferencia de otros métodos, Bayes trabaja "al revés", utilizando lo que ya sabemos sobre un evento para evaluar cómo la nueva información afecta su probabilidad. ◼ El teorema es muy efectivo cuando se aplica correctamente, es decir, cuando los eventos considerados son exclusivos y abarcan todas las posibilidades. Una empresa tiene una fábrica en Estados Unidos que dispone de tres máquinas A, B y C, que producen envases para botellas de agua. Se sabe que la máquina A produce un 40% de la cantidad total, la máquina B un 30%, y la máquina C un 30%. También se sabe que cada máquina produce envases defectuosos. De tal manera que la máquina A produce un 2% de envases defectuosos sobre el total de su producción, la máquina B un 3%, y la máquina C un 5%. P(A) = 0,40 P(D/A) = 0,02 P(B) = 0,30 P(D/B) = 0,03 P(C) = 0,30 P(D/C) = 0,05 Dicho esto, se plantean dos cuestiones: 1. Si un envase ha sido fabricado por la fábrica de esta empresa en Estados Unidos ¿Cuál es la probabilidad de que sea defectuoso? ◼ Se calcula la probabilidad total. Ya que, a partir los diferentes sucesos, calculamos la probabilidad de que sea defectuoso. P(D) =[ P(A) x P(D/A) ] + [ P(B) x P(D/B) ] + [ P(C) x P(D/C) ] = [ 0,4 x 0,02 ] + [ 0,3 x 0,03 ] + [ 0,3 x 0,05 ] = 0,032 ◼ Expresado en porcentaje, diríamos que la probabilidad de que un envase fabricado por la fábrica de esta empresa en Estados Unidos sea defectuoso es del 3,2%. 1. Siguiendo con la pregunta anterior, si se adquiere un envase y este es defectuoso ¿Cuáles es la probabilidad de que haya sido fabricado por la máquina A? ¿Y por la máquina B? ¿Y por la máquina C? Aquí se utiliza el teorema de Bayes. Tenemos información previa, es decir, sabemos que el envase es defectuoso. Claro que, sabiendo que es defectuoso, queremos saber cuál es la probabilidad de que se haya producido por una de las máquinas. P(A/D) = [P(A) x P(D/A)] / P(D) = [0,40 x 0,02] / 0,032 = 0,25 P(B/D) = [P(B) x P(D/B)] / P(D) = [0,30 x 0,03] / 0,032 = 0,28 P(C/D) = [P(C) x P(D/C)] / P(D) = [0,30 x 0,05] / 0,032 = 0,47 Sabiendo que un envase es defectuoso, la probabilidad de que haya sido producido por la máquina A es del 25%, de que haya sido producido por la máquina B es del 28% y de que haya sido producido por la máquina C es del 47%. Ventajas de la Inferencia Bayesiana ◼ 1. Incorporación de Conocimiento Previo ◼ 2. Interpretación Probabilística ◼ 3. Flexibilidad Bayesian Inference of Phylogeny T. Bayes, Phil. Trans. Roy. Soc., 330 (1763). p ( S ΙTi ) p (Ti ) p (Ti Ι S ) = p(SΙTi) p(Ti) T p(Ti|S) probability of the tree Ti given the sequence data S p(S|Ti) probability or likelihood of the data S given tree Ti p(Ti) prior probability of Ti “The denominator sums the probabilities over all possible trees” Likelihood Probabilidad a Probabilidad a posteriori priori Σ de todas las probabilidades a posteriori Integración de todas las posibles combinaciones de largo de ramas y modelos de sustitución nucleotídica. Estimación de las probabilidades a posteriori : ¿Cómo aproximarse? ◼ Calcular esta probabilidad implica: involucrar todos los árboles posibles….para cada árbol se debe integrar sobre todas las combinaciones de largo de rama y modelos de sustitución nucleotídica. (IMPOSIBLE ANALÍTICAMENTE!!!) ◼ Por necesidad la solución debe ser aproximada ◼ Método de Montecarlo Monte Carlo y cadenas Markovianas (MCMC) ◼ MCMC trabaja del siguiente modo: ◼ a) Comienza una cadena markoviana con un árbol ya sea 1) elegido al azar o 2) elegido por el investigador. ◼ b) Un nuevo árbol es propuesto….el proceso de cambio del arbol 1 al 2 debe satisfacer las siguientes condiciones: 1) El mecanismo debe ser estocástico; 2) cada arbol posible debe ser obtenido por aplicaciones repetidas del mismo mecanismo y 3) la cadena debe ser aperiodica. METROPOLIS-COUPLED MARKOV CHAIN MONTE CARLO (MCMCMC o MC 3) ◼ Involucra correr algunas cadenas independientemente. ◼ La primera cadena que se cuenta (cold chain) el resto se denomina cadenas accesorias (heated chain). ◼ Saltos son intentados al azar entre dos cadenas distintas. ◼ Se necesita correr varios análisis independientes para confirmar convergencias. Resultado de esta búsqueda se obtiene un tercer término para la estimación de las probabilidades a posteriori (Proposal Ratio o Término de Hasting)