Práctica 04: Cálculo del Max score en BLASTp (Bioinformática Básica) PDF
Document Details
Uploaded by TidyColumbus
UFV
Carlo Bressa
Tags
Summary
This document provides a practical guide to the calculation of Max score in BLASTp algorithms. The focus is on aligning amino acid sequences, utilizing substitution matrices, and understanding the significance of match/mismatch scores. The document serves a tutorial purpose for students in bioinformatics or molecular biology.
Full Transcript
BIOINFORMÁTICA BÁSICA Prof. Carlo Bressa E-mail: [email protected]...
BIOINFORMÁTICA BÁSICA Prof. Carlo Bressa E-mail: [email protected] Practica 04 Cálculo del Max score en BLASTp Alinear aa - Hemos visto cómo funciona y para qué sirve el BLASTn. En esta práctica nos vamos a centrar en el uso del BLASTp, que es el mismo programa, pero diseñado para buscar secuencias de aa, no de nucleótidos. - La principal diferencia entre las secuencias de nucleótidos y aa es el nº existente de ambos; mientras que solo hay 4 nucleótidos, existen 20 aa distintos, que, además, tienen propiedades fisicoquímicas distintas. Esto es importante porque, analizar la similitud entre secuencias de aa requiere un análisis un poco más profundo donde se tenga en cuenta, no solo la coincidencia de los mismos, sino también sus propiedades. Esto lo veremos mejor más adelante. Cálculo del Max score en BLASTp Hasta ahora hemos visto que el Max Score es un valor calculado para cada uno de los alineamientos que BLAST muestra como resultado de la búsqueda. Esta puntuación me da una idea de cómo de similares son dos secuencias. A mayor valor de S (Max Score), mayor similitud (o identidad) entre dos secuencias y menor valor de E, pues son inversamente proporcionales. ¿Cómo se calcula este valor de Max score en BLASTn*? Donde hay coincidencia se suma +2, y sino, se resta -3 query A T T G A C C T A | | | | | | | | | subject A T T G C C T G A 2 -3 +2 +2 +2 +2 -3 +2 -3 -3 +2 = +3 subject A T T A C C T G A +2 +2 +2 -3 -3 +2 -3 -3 +2 = -2 * Se tiene en consideración: los Match/Mismatch y los Gap Costs. En el ejemplo no tenemos en cuenta de los gaps de los cuales hablaremos más adelante Cálculo del Max score en BLASTp ¿Cómo se calcula este valor de Max score en BLASTp? Esta pregunta tiene especial interés en el caso de los alineamientos de secuencias de aa, pues los de nucleótidos utilizan algoritmos basados en otorgar una puntuación a la coincidencia o no coincidencia de dos nucleótidos. Sin embargo, la puntuación de Max Score en los alineamientos de aa se obtiene siguiendo unas reglas En base a lo que ocurre en la naturaleza y luego se comprueba Un valor por cada mutación resultado de la combinación de matemáticas que se han traducido en “matrices de sustitución”. varias mutaciones Dichas matrices se basan en otorgar una puntuación mayor o menor en función de lo probable que sea que se de cierta variación en la naturaleza. Si es muy probable, el valor será alto y si es poco probable dicho valor será bajo o negativo. Cálculo del Max score en BLASTp Es decir, si 2 secuencias se pueden alinear de varias maneras posibles, BLASTp las alineará de aquella manera en la que el Max score sea mayor, puesto que esto reflejará lo que es más probable en la naturaleza. Podemos cambiar las matrices (cambiando los parámetros) para obtener resultados más parecidos o distintos, según nos interese. La puntuación del Max Score asigna números a los matches y mismatches entre aa, a las propiedades de los mismos y a los huecos introducidos en el alineamiento. Estas matrices de sustitución están creadas a partir de la observación experimental de lo que ocurre realmente en la naturaleza en un nº muy grande de secuencias, es decir, no son extrapolaciones ni aproximaciones matemáticas. BLASTp - Matriz de sustitución Las matrices de sustitución son herramientas matemáticas que Diferentes matrices = diferentes resultados otorgan una puntuación a un alineamiento (Max score, S). En la práctica, estas matrices describen la probabilidad de que un BLOSUM 62 aminoácido cambie a lo largo del tiempo evolutivo. Son La leucina tiene un valor moderadamente alto, por lo que la probabilidad de que se cambie por isoleucina es alto sistemas de puntuación para comparar secuencias de proteínas que tienen en cuenta las limitaciones biológicas de la evolución. Estas limitaciones se han estudiado utilizando una amplia variedad de proteínas, analizando la probabilidad de que ocurra una mutación concreta y asignándole una puntuación. Cuanto más grande sea el número, más similitud Cuanto más grande = menos similitud Pequeño = poca similitud Cuanto más pequeño = más similitud Las matrices de sustitución de proteínas más conocidas son las matrices PAM y BLOSUM desarrolladas para identificar qué cambios en los aminoácidos son más probables a lo largo del tiempo evolutivo. La matriz que se muestra es la BLOSUM62. Las letras a lo largo de los ejes X e Y representan los 20 aminoácidos. Los nº (+) fuera de la diagonal indican una mayor probabilidad de que un aminoácido cambie a otro, mientras que los nº bajos y muy (-) indican una baja probabilidad. Observará que los nº de la diagonal son todos muy (+), indicando que lo más probable es que un aminoácido permanezca igual. Tipos de aminoácidos y sus propiedades Aminoácido Código de tres letras Código de una letra Alanina Ala A Arginina Arg R Asparagina Asn N Ácido aspártico Asp D Cisteína Cys C Glutamina Gln Q Ácido glutámico Glu E Glicina Gly G Histidina His H Isoleucina Ile I Leucina Leu L Lisina Lys K Metionina Met M Fenilalanina Phe F Prolina Pro P Serina Ser S Treonina Thr T Triptófano Trp W Tirosina Tyr Y Valina Val V BLASTp – puntuación de los huecos - Entramos en BLASTp, vamos a “Algorithm Parameters” y seleccionamos la matriz BLOSUM80 en “Scoring Parameters”. Observe los “Gap Costs” (penalización por A la hora de alinear hueco). “Existence” se refiere a la creación de un hueco en el alineamiento, mientras que “Extension” se refiere a la ampliación de un hueco en el mismo. 1. Piense en lo que puede significar un gap (hueco) en términos de la estructura proteica. Es decir, si pensamos en la estructura 3D de dos proteínas alineadas, ¿qué quiere decir que haya un hueco en una de las secuencias? Ejemplo: Indel (inserción-delección) - Si la query es la verde, es inserción - Si la query es la turquesa, será delección - Se muestran “loops” que unen láminas β de un dominio - Se muestran 2 “loops” que unen láminas β de un específico de dos proteínas superpuestas dominio específico de dos proteínas superpuestas - Podemos observar una longitud y orientación similar - Tienen distinta longitud y estructura - No hay inserciones o deleciones - Hay una inserción de 4 aminoácidos (color cyan) Se penaliza más la generación de un hueco que la extensión del mismo. La conservación es más probable que la mutación. La inserción de un aminoácido es muy improbable ya que requiere de introducir 3 nucleótidos y donde no afecte a la proteína o lo mejora, ya que sino se perdería. Al ser tan baja la probabilidad de que ocurra, se debe penalizar para que no afecte a la vida celular. Si al lado de un error se produce otro (que no le afecta o lo mejora), y en el primer error no ha ocurrido nada, en la extensión de este tampoco ocurrirá. Ejemplo de inserción a nivel estructural Alineamiento de secuencias y superposición de estructuras ¿Qué secuencia ADEFWNGWEAGAWGHEYHK- - - -DNEASSSA pertenece a cada ADEFWQGWEALAWGMEYHKEFANDNEASASA estructura? Si un pequeño hueco de 4 aa está "permitido" estructuralmente en una región concreta de la proteína, ¿podría un hueco más grande (de mayor extensión) estar también permitido? Entonces ¿qué debe penalizarse más, una apertura de un - Se muestran 2 “loops” que unen láminas β de un hueco o la extensión del mismo? Realmente esta dominio específico de dos proteínas superpuestas respuesta también depende de qué evento sea más - Tienen distinta longitud y estructura probable en la naturaleza. - Hay una inserción de 4 aminoácidos (color cyan) Ejemplo de puntuación con la matriz Blosum62 – secuencia ficticia Los huecos hay que penalizarlos. Nos va a dar el Score más alto para saber cuál es el alineamiento más adecuado según los parámetros introducidos Alineamiento 1 En este caso el alineamiento 1 es el que más Score tiene y el que mejor alineamiento tiene. Puntuación de alineamiento (Max score, S) de acuerdo a BLOSUM62: ADEFWNGWEAGAWGHE - E 4 + 6 + 5 + 6 + 11 + 5 + 6 + (-10) + (-1) + (-1) + (-10) + 4 + 11 + (-10) +8 + 5 + (-10) + 5 = 34 ADEFWNG - - P - AW - HEAE Alineamiento con mayor puntuación (S) y por tanto el que mejor responde a la realidad en términos biológicos Alineamiento 2 Al penalizar más los huecos el ordenador buscará la secuencia más parecida. Puntuación de alineamiento (Max score, S) de acuerdo a BLOSUM62: ADEFWNGWEAGAWGHE - E 4 + 6 + 5 + 6 + 11 + 5 + 6 + (-4) + (-10) + 4 + (-10) + (-1) + 11 + (-10) + 8 + 5 + (-10) + 5 = 31 ADEFWNGP - A - - W - HEAE La puntuación (S) otorgada por la matriz BLOSUM62 a cada alineamiento está basada en observaciones y análisis experimentales reales de una amplia variedad de proteínas. Mide la probabilidad real en términos biológicos de que sucedan determinadas mutaciones y les otorga una puntuación en función de la probabilidad. Esto es un ejemplo ficticio con secuencias muy cortas donde hay un % de “gaps” y “mismatches” alto, puestos a posta para ver cómo penalizan el valor S final. Las puntuaciones (S) que encontramos en BLAST son (+) y muchas veces de alto valor, pues se le otorga una alta puntuación a la coincidencia de un mismo aa en dos secuencias. Esto se ha comprobado experimentalmente que es lo más probable evolutivamente, sobre todo en zonas conservadas con implicación funcional (diagonal de la matriz). BLASTp 10-15 Introduzca el nº de acceso (NP_001318308), ¿se podría 10-20 introducir otro dato para hacer la búsqueda con BLASTp? Si pones 10-15, te 10-30 saca todos estos, Abra la sección de parámetros del algoritmo y baje el Si hubiese sido 1e-20 NO cambiaría porque es un umbral, y me da los más bajos al que pongo siendo el peor 10-40 10-40 (más abajo), siendo el Si aumento el umbral tampoco cambiaría porque el Max target tampoco cambia umbral de expectativa (E value) de 0.05 a 1e-15. resultado 100 Si lo cambias a 10-20 no influye Está ordenado de mayor (arriba) a menor (abajo) porque el resultado peor sigue 2. Basándonos en lo aprendido anteriormente, ¿por qué estando en 10-40, pero si tu peor resultado es 10-20, sí que influye hacemos esto? En la sección Parámetros de puntuación, la matriz de sustitución por defecto es BLOSUM62. Cambie la matriz de sustitución a BLOSUM80, ¿cambia algo? Compruebe el filtro "Regiones de baja complejidad" 3. ¿Por qué podría querer utilizar este filtro? Marca la opción “Mostrar resultados en una nueva ventana” y haga click en BLAST El aligments, donde hay + hay una mutación por otra base Los signos negativos son huecos (inserciones) en negro en query, y delecciones en rojo Región de baja complejidad: sssss un loop no aporta nada, si hay coincidencias genera un problema ya que cambia la secuencia El 94% es el porcentaje que se alinea con el query, 69,01 es el porcentaje de similitud. 687 es el número de nuclétodos, la cual es más grade, por lo que no aliea bien. Query 17 Dowwload: se puede descargar toda o solo la secuencia que sí se alinea Subject 89 (comienza más adelante) BLASTp El formato de la salida de BLASTp es muy similar al visto con BLASTn. La página se divide en: - Job summary - Descriptions - Graphic summary: conserve domains - Alignment - Taxonomy La primera debe ser esta al no haberla excluído 4. ¿Tiene dominios conservados? BLASTp BLASTm para aminoácidos Para proteínas Probemos un formato diferente para nuestros resultados. Haga click en “Alignments”. Entre las opciones de “Alignment View” elija “Pairwise with dots for identities” para cambiar la representación de los alineamientos: 5. ¿Qué indican los puntos, las letras en rojo y las letras en minúscula de color gris? Los puntos son lo que coincide, las letras en rojo lo que no Specific hits = dominios conservados (lo verde fosforito) Pinchando en el dominio me da la zona conservada y un Los motivos (regiones más pequeñas y muy conservadas) = en gris hueco intervalo en el que se encuentra. BLASTp Pase a la sección “Descriptions”. Observe los resultados y las puntuaciones del valor E de los diferentes resultados. ¿Por qué salen los 100 primeros resultados? Number of hits: secuencias que pertenecen al organismo 6. Desplácese hasta el último resultado. Haga click en el cuadrado azul al lado de “Select all” para deseleccionar todas las secuencias y luego seleccione solamente la última de la página. ¿Cuál es su valor E? ¿Considera que es un buen resultado? % que se % de alinea similitud BLASTp Haz click en “Alignments”; asegúrense que esté seleccionado “Pairwise with dots for identities” en “Alignment view” y finalmente haz click en “Download”. Se puede descargar la secuencia completa o la secuencia alineada (puede hacerse también desde “Descriptions”). Descarga los dos FASTA (completed y aligned) y visualízalos. 7. ¿Qué diferencia hay entre los dos? Es decir ¿qué información contiene uno y qué información contiene el otro). BLASTp En la pestaña “Description” vuelve a seleccionar todas las secuencias. Luego haz click en la pestaña “Taxonomy” 8. ¿Qué significan los nº “Number of hits” y “Score”? (por ejemplo, 10 hits y 1179 en el caso de Arabidopsis thaliana)? Un de click en “Arabidopsis Thaliana hits” y debería averiguarlo - ¿dónde lo lleva? ¿Para qué puede ser útil este enlace? Todas las secuencias homólogas que ha encontrado BLASTp Vuelva a la página “Alignments” y seleccione “Query-anchored with dots for identities” en el “Alignment view” 9. ¿Cómo están organizados ahora los alineamientos? 10. ¿Las sustituciones parecen ocurrir al azar entre las secuencias, o surgen patrones? (Puede tener una mejor idea de esto si se desplaza hacia la mitad de la secuencia: busque "Query" y el aminoácido "61" en la lista). 11. ¿Por qué Crees que esto es así? (Piensa en las trayectorias evolutivas) 12. ¿Con cuales aa de la secuencia query esperas encontrar una “zona” con muchos puntos? ¿Por qué? Para encontrar fácilmente los puntos: buscas en el intervalo al darle a las zonas conservadas (zona verde fosforito en Graphic Summary) Buscar en Query Range Contiene más programas PSI-BLAST – Búsqueda de homólogos lejanos Ahora vamos a utilizar un nuevo algoritmo de búsqueda de proteínas: Position-Specific Iterated (PSI)-BLAST. PSI-BLAST es un programa muy sensible que es muy útil para encontrar proteínas distantes o nuevos miembros de una familia de proteínas. Además, puede utilizar PSI-BLAST cuando su búsqueda estándar de proteínas por BLAST no haya encontrado resultados muy significativos. ¿Cómo funciona? Busca Homólogos que son más lejanos por tener más mutaciones En general, PSI-BLAST comienza con un BLASTp estándar y luego utiliza estos resultados para construir una búsqueda más refinada que se adapte a su consulta en sucesivas iteraciones. Para ello, construye una matriz de Basado en los resultados que tenemos puntuación de posición específica (PSSM) que identifica los cambios de aa específicos que tienen más probabilidades de estar presentes entre su consulta y las secuencias similares de la base de datos. Las matrices de puntuación específicas de posición son esencialmente matrices de sustitución adaptadas a su consulta de interés. PSI-BLAST PAM: A mayor nº menor similitud Todas las matrices de sustitución están indexadas por números (por ejemplo, PAM 120, PAM250, BLOSUM62, A mayor nº, mas simiitud BLOSUM80). Los nº tienen un significado diferente según la matriz de que se trate. Para la matriz PAM, las matrices con nº altos son mejores para los alineamientos más divergentes, mientras que lo contrario para las matrices BLOSUM. Las matrices de puntuación específicas de posición (PSSM) son esencialmente matrices de sustitución que han sido desarrolladas específicamente para la familia de proteínas de interés, a diferencia de las matrices PAM y BLOSUM que han sido desarrolladas para ser generalmente útiles para una amplia gama de secuencias de proteínas. 13. Vuelva a la página blastp y cargue la misma secuencia (NP_001318308) con los parámetros: - Matriz Blosum62 - E value: 1e-8 - Filtro de baja complejidad - Excluimos organismo Arabidopsis Thaliana - Queremos encontrar posibles homólogos lejanos en otros organismos - Queremos evitar que nos salgan infinidad de resultados de secuencias de Arabidopsis Thaliana PSI-BLAST En "Base de datos", seleccione "UniProtKB/Swiss-Prot". La base de datos Swiss-Prot incluye sólo las secuencias de proteínas mejor anotadas (caracterizadas). La contrapartida de utilizar esta base de datos es que contine menos secuencias que la opción nr por defecto. 14. ¿Cómo afectará esto último a nuestros resultados de búsqueda? Cerca de la parte inferior de la página, bajo las opciones PSI/PHI BLAST observe que el umbral de PSI-BLAST es de 0,005. Bajémoslo a 1e-20. Más rápida, pero valores de E menos distintos 1e-9, te salen menos resultados Construye la matriz Seleccione PSI-BLAST 15. ¿Entiende la diferencia que hay entre esos dos valores de E que estamos usando? Quizá viendo los resultados del BLAST lo entendamos mejor. PSI-BLAST Examine la salida de PSI-BLAST. Notará una diferencia significativa. Ahora hay 2 apartados en la sección “Description” (desplácese hacia abajo): - una que tiene secuencias con valores E BETTER que el umbral [PSI-BLAST], Al darle a RUN empezará a - otra que tiene secuencias con valores E WORSE que el umbral [PSI-BLAST]. generar la matriz 16. ¿Dónde está el límite del valor de E? 17. ¿Cuántas secuencias son mejores que el umbral? ¿Qué significa que hayan superado ese umbral? PSI-BLAST Registre el nº de acceso, la puntuación de bits y el valor E de una de las mejores coincidencias en el grupo de secuencias que no alcanzaron el umbral. Ej: Q10PI9.1 Se ha cambiado la matriz de puntiación. Han cambiado los valores de E y el Score. S = 97.1 E= 4e-20 Q10PI9.1 Esta 1ª ronda de PSI-BLAST fue sólo un BLASTp estándar. Ahora ejecutaremos otra iteración para refinar nuestra búsqueda. Las iteraciones sucesivas utilizan todas las secuencias mejores que el punto de corte (E-value) para crear una nueva PSSM, que sustituye a la matriz BLOSUM62 utilizada en la búsqueda original. Esta matriz puntúa basándose en los patrones de conservación de residuos que se dan en cada alineamiento de las secuencias mayores que el umbral – estos patrones son los que hemos visto en la 1ª parte de la práctica al poner “alignment view”: Query anchored with dots for identities y que hemos comentado. 18. Haga clic en "Ejecutar la iteración 2” de PSI-BLAST PSI-BLAST Observará que al lado de algunas de las secuencias hay una marca de verificación verde o están resaltadas en amarillo – estas son secuencias nuevas, las que no eran significativas en la iteración anterior, pero que son significativas con el PSSM refinado. Ahora sí se incluyen 19. ¿Cuántas secuencias nuevas son mejores que el punto de corte ahora? Busque el nº de acceso que observó en el punto 13 (Q10PI9.1). ¿Es mejor que el umbral ahora? ¿Cambian la puntuación de bits y el valor E para esta accesión? S = 105 E= 2e-22 Q10PI9.1 PSI-BLAST 20. Repita la búsqueda otra vez (3ª iteración). ¿Qué nota sobre el nº de nuevas secuencias en cada iteración? ¿Cuántas secuencias nuevas por encima del umbral aparecen en la 3ª iteración? Valor score alto El E cuanto más bajo mejor 21. Haga otra iteración (4ª iteración) ¿qué ocurre? Dará aprox los mismos resultados 22. ¿Cómo deberían ser teóricamente los resultados de PSI-BLAST por encima del umbral? Busca secuencias más lejanas ¿Estamos seguros? PSI-BLAST ¿Cree que podemos hacer todas las iteraciones que queramos? No hacemos más iteraciones de momento. 23. ¿Cómo podríamos utilizar secuencias que no han pasado el umbral pero que nos resultan de interés, por ejemplo, porque son de una especie diferente? Son la misma 24. ¿Si seguimos haciendo iteraciones cree que los resultados obtenidos son Registra las 2 generando un sesgo totalmente fiables? ¿Por qué? El algoritmo PSI-BLAST (Position-Specific Iterated BLAST) es efectivo para detectar relaciones distantes entre secuencias de proteínas mediante la construcción de matrices de sustitución más específicas para un grupo de proteínas. Sin embargo, a medida que se realizan más iteraciones, la confiabilidad de los resultados puede disminuir por varias razones: PSI-BLAST - Acumulación de ruido: con cada iteración, PSI-BLAST incorpora nuevas secuencias para construir el perfil de posiciones específicas. Si en alguna iteración se incluyen secuencias incorrectamente, estas podrían influir negativamente en las iteraciones posteriores, degradando la calidad del perfil y afectando los resultados futuros. - Influencia de secuencias no relacionadas: aunque PSI-BLAST es bueno para identificar secuencias distantes relacionadas, a medida que se avanza en las iteraciones, existe el riesgo de que se incorporen secuencias no relacionadas debido a similitudes débiles. Esto puede causar una expansión del conjunto de secuencias que no están biológicamente relacionadas. - Sesgo del perfil: después de varias iteraciones, el perfil de secuencias puede ser demasiado específico y comenzar a sesgarse hacia un subconjunto particular de secuencias. Esto puede resultar en la pérdida de sensibilidad y la introducción de falsos positivos. En resumen, los resultados obtenidos tras muchas iteraciones en PSI-BLAST pueden no ser totalmente fiables, ya que las secuencias no relacionadas y el ruido acumulado pueden afectar negativamente la precisión del perfil. Es recomendable monitorear cuidadosamente los resultados tras cada iteración y detenerse cuando los nuevos resultados ya no aportan información significativa o cuando se detecta una pérdida de especificidad. Translated BLAST Busca Además de Blastn y Blastp, existen otros 3 tipos de BLAST llamadas blastx, tblastn y tblastx. Estas tres búsquedas pueden agruparse en la categoría general de búsquedas BLAST traducidas. Las búsquedas traducidas permiten “avanzar y retroceder” a nivel secuencias de nucleótidos y de aminoácidos. Es decir, podemos buscar posibles proteínas homólogas partiendo de secuencias de nucleótidos, por ejemplo. Suelen utilizarse para buscar secuencias de proteínas homólogas partiendo, ya sea de secuencias de nucleótidos como de aminoácidos, y comparándolas con secuencias de ADN o proteínas en bases de datos que no están bien anotadas. Los programas BLAST traducidos realizan múltiples búsquedas, una para cada marco de lectura de la doble hebra de la secuencia consulta y otra para cada marco de lectura de la secuencia de ADN de la base de datos. BLASTx Parto de una secuencia consulta de ADN y quiero comprobar si dicha secuencia codifica para alguna proteína en alguna de las 6 posibles pautas de lectura del gen. Como el ADN tiene dos hebras, el programa me va a traducir las 3 pautas de lectura de cada hebra (forward y reverse), realizando así 6 búsquedas. BLASTX, por tanto, traducirá su secuencia de ADN a proteína (en las posibles pautas de lectura) y la alineará con la base de datos (seleccionada) de proteínas. Suponga que tiene una secuencia de nucleótidos misteriosa. Quiere saber si codifica para una proteína y, si es así, de qué proteína se trata. Salen 6 resultados al buscar 2 marcos de lectura de 3 nucleótidos cada una >Mystery_sequence ATGAGTAATAATACATATCAACACGTTTCTAATGAATCTCGTTATGTAAAATTTGATCCTACCGATACGAATTTTCCACCGG AGATTACTGATGTTCACGCTGCTATAGCAGCCATTTCTCCTGCTGGAGTAAATGGAGTTCCTGATGCATCGTCAACAACAA AGGGAATTCTATTTATTCCCACTGAACAGGAAGTTATAGATGGAACTAATAATACCAAAGCAGTTACACCAGCAACGTTG GCAACAAGATTATCTTATCCAAATGCAACTGAAACTGTTTACGGATTAACAAGATATTCAACCAATGATGAAGCCATTGCC GGAGTTAATAATGAATCTTCTATAACTCCAGCTAAATTTACTGTCGCCCTTAATAATGCGTTTGAAACGCGAGTTTCAACT GAATCCTCAAATGGTGTTATTAAAATTTCATCTCTACCGCAAGCATTAGCTGGTGCAGATGATACTACTGCAATGACTCCA TTAAAAACACAGCAGTTAGCTATTAAATTAATTGCGCAAATTGCTCCTTCTGAAACCACAGCTACCGAATCGGACCAAGGT 25. Vaya a la página principal de BLAST, elija el programa GTTGTTCAATTAGCAACAGTAGCGCAGGTTCGTCAGGGAACTTTAAGAGAAGGCTATGCAATTTCTCCTTATACGTTTATG AATTCATCTTCTACTGAAGAATATAAAGGCGTAATTAAATTAGGAACACAATCAGAAGTTAACTCGAATAATGCTTCTGTT GCGGTTACTGGCGCAACTCTTAATGGTCGTGGTTCTACGACGTCAATGAGAGGCGTAGTTAAATTAACTACAACCGCCGG y copie y pegue la secuencia en el cuadro de búsqueda. TTCACAGAGTGGAGGCGATGCTTCATCAGCCTTAGCTTGGAATGCTGACGTTATCCAGCAAAGAGGTGGTCAAATTATCT ATGGAACACTCCGCATTGAAGACACATTTACAATAGCTAATGGTGGAGCAAATATTACGGGTACCGTCAGAATGACTGGC GGTTATATTCAAGGTAACCGCATCGTAACACAAAATGAAATTGATAGAACTATTCCTGTCGGAGCTATTATGATGTGGGCC Utilice la base de datos Non redundant protein GCTGATAGTCTTCCTAGTGATGCTTGGCGCTTCTGCCATGGTGGAACTGTTTCAGCGTCAGATTGTCCATTATATGCTTCTA GAATTGGAACAAGATATGGCGGAAACCCATCAAATCCTGGATTGCCTGACATGCGTGGTCTTTTTGTTCGTGGTTCTGGTC GTGGTTCTCACTTAACAAATCCAAATGTTAATGGTAATGACCAATTTGGTAAACCTAGATTAGGTGTAGGTTGTACCGGTG sequences (nr) y el resto de los parámetros por defecto. GATATGTTGGTGAAGTACAGATACAACAGATGTCTTATCATAAACATGCTGGTGGATTTGGTGAGCATGATGATCTGGGG GCATTCGGTAATACCCGTAGATCAAATTTTGTTGGTACACGTAAAGGACTTGACTGGGATAACCGTTCATACTTCACCAAT GACGGATATGAAATTGACCCAGAATCACAACGAAATTCCAAATATACATTAAATCGTCCTGAATTAATTGGAAATGAAAC ACGTCCATGGAACATTTCTTTAAACTACATAATTAAGGTAAAAGAATGA BLASTx 26. ¿A qué especies pertenecen las secuencias de proteínas con mayor puntuación? ¿De qué organismo procede la proteína codificada en la secuencia? tBLASTn Parto de una secuencia de aa (proteína) conocida y quiero encontrar posibles proteínas homólogas buscando en bases de datos de nucleótidos no anotadas (no caracterizadas). El programa traduce las 2 cadenas de ADN (forward y reverse) de cada secuencia de la base de datos en sus 3 pautas de lectura posibles, haciendo así 6 búsquedas y alineando la proteína resultante, si la hubiese, de alguno de los marcos de lectura con mi proteína de consulta inicial. El objetivo principal sería comprobar si en esa base de datos, que no está bien anotada, pudiese haber alguna secuencia de ADN que codificase para una proteína homóloga a mi proteína de interés. Esto ayudaría a anotar nuevas secuencias de ADN y otorgarles una posible función en caso de encontrar resultados. Esto es útil en los casos en los que se pretenda anotar/definir la función de genes desconocidos (no anotados) partiendo de secuencias de proteínas bien conocidas. Secuencia de AA conocida Secuencias de nucleótidos de la base de datos que el programa traduce a AA en todas las pautas de lectura posibles y las alinea con la secuencia consulta query tBLASTx 3 marcos de lectura Forward reverse Parto de una secuencia de ADN no anotada (no caracterizada) en la que supongo va codificada alguna proteína y quiero buscar directamente en alguna base de datos de ADN (no anotada), posibles proteínas homólogas a la posible proteína que va codificada en mi secuencia. tBlastx traduce mi secuencia consulta de ADN en cada pauta de lectura y la alinea con cada pauta de lectura de secuencias nucleotídicas depositadas en la base de datos usada. Hace, por tanto, 36 búsquedas y me muestra posibles proteínas homólogas, en caso de haberlas. Finalmente, me las alinea con la proteína codificada (en alguna pauta de lectura) en mi secuencia consulta. Database sequence Query sequence Translated BLAST 27. ¿Por qué tblastn y blastx realizan 6 búsquedas, mientras que tblastx realiza 36 búsquedas? 28. ¿Qué programa debería ejecutar si tiene la secuencia codificante de un gen y quiere encontrar proteínas homólogas en la base de datos? Busca proteínas Genómica comparativa Las iniciativas de secuenciación de alto rendimiento, la proteómica, la transcriptómica y otras tecnologías genómicas, junto con la caracterización molecular, han dado lugar a grandes colecciones de datos. Además de una para el propio genoma humano, existe una de gusanos, mosca de la fruta, ratón y la planta Arabidopsis thaliana, entre otros…. Sin embargo, la representación de los datos genómicos es un reto debido a su complejidad y volumen de estos datos. Las herramientas y los medios para mostrar eficazmente estos datos complejos se están desarrollando y mejorando continuamente. Veremos una aplicación que permite comparar regiones genómicas entre especies relacionadas. Es importante destacar que se puede suponer que los genes ortólogos estudiados en una especie tienen funciones similares en otras especies, y se puede suponer que los residuos de los ortólogos que están muy conservados pueden ser críticos para la función de esa proteína. Ahí radica el poder de la genómica comparativa. Genómica comparativa – organismo modelo Un organismo modelo es una especie empleada por los investigadores para obtener información de gran valor acerca de sistemas biológicos a nivel celular, de tejido, órgano y sistema. Se designan así por su larga trayectoria de estudio y se seleccionan por su facilidad de manipulación en el laboratorio, por su buena genética, porque tienen ciclos de generación cortos y por su capacidad de generar mutantes para estudiar determinados rasgos o enfermedades, entre otros factores. A continuación, se observan algunos organismos modelo de distinta naturaleza que han sido completamente secuenciados. Escherichia coli Arabidopsis Thaliana Drosophila melanogaster Mus Musculus Caenorhabditis elegans Bacteriophage T4 Zebra fish (Danio rerio) Exploring genomes with genome browsers Además de una base de datos propia para el genoma humano, existen otras bases de datos específicas de otros organismos modelo, por ejemplo: el gusano, de la mosca de la fruta, el ratón, el pez cebra y la planta Arabidopsis thaliana, entre otros. Cada organismo "modelo" tiene su propia base de datos que permite la exploración de sus regiones genómicas. HAY BASE DE DATOS PARA CADA UNO DE - FlyBase (Drosophila melanogaster) - http://flybase.org ELLOS - WormBase (Caenorhabditis elegans ) - http://www.wormbase.org - The Arabidopsis Information Resoruce (Arabidopsis thaliana) - http://www.arabidopsis.org/ - Mouse (Mus musculus) - https://www.ncbi.nlm.nih.gov/grc/mouse - Zebrafish (Danio rerio) - https://zfin.org/ - NCBI http://www.ncbi.nlm.nih.gov/Genomes/ Seleccione el enlace "Human Genome" en la sección Custom Resources, y luego en los iconos de los cromosomas para la versión más reciente del visor de mapas Ejemplo de genómica comparativa Conéctese al sitio de “Mouse Genome Informatics” en: http://www.informatics.jax.org/ Introduzca Pax6 en el cuadro de búsqueda rápida de la parte superior izquierda. Pax6 es un gen importante para el correcto desarrollo del ojo. Haga clic en el 1er enlace de la lista de resultados, denominado Pax6. Accederá a la página de detalles del gen: En la 2ª fila, llamada “Location & Maps” haga clic en "More" para ampliar la sección y luego haga clic en el enlace Ensembl Genome Browser Ensembl está gestionado por el Instituto Europeo de Bioinformática, el equivalente europeo del NCBI Ejemplo de genómica comparativa 1) Haga click en “Region Comparison”, 2) luego haga click en “Select Species or Regions” para añadir la correspondiente región humana (Primates > Human) luego “apply”. Ejemplo de genómica comparativa Utilice el control deslizante de zoom para alejar la vista de 1.000.000 pares de bases de una vez. Las líneas diagonales finas de color verde en el panel inferior representan regiones cromosómicas similares entre el ratón y el ser humano. 29. ¿Existe un ortólogo humano para este gen? ¿En qué cromosoma se encuentra? Observa los otros ortólogos humanos que rodean al PAX6 y su localización cromosómica. ¿Genes vecinos? 30. ¿Diría usted que hay sintenia entre la región cromosómica que contiene el Pax6 de ratón y el PAX6 humano? ¿Por qué? SINTENIA Entre 2 organismos se identifica una localización de los genes muy parecidas El orden de los genes suele conservarse entre especies estrechamente relacionadas, e incluso entre especies que están menos emparentadas, como el ser humano y el ratón. ¿Qué hemos visto en la unidad 4? 1. Que BLASTp se usa para buscar secuencias de AA (proteínas) que sean homólogas a otra secuencia de interés. Si 2 secuencias no son homólogas, no se pueden relacionar evolutivamente. 2. Las matrices de sustitución se usan para cuantificar la calidad de un alineamiento a través del Max Score (valor de S), aunque el valor de E es más importante para deducir la homología entre dos secuencias. E y S son inversamente proporcionales. 3. Los parámetros de los resultados de BLASTp son esenciales para seleccionar las secuencias que me interesen dependiendo de mi objetivo. 4. PSI-BLAST permite buscar posibles homólogos lejanos utilizando matrices de sustitución más dirigidas a una búsqueda concreta, aunque los resultados obtenidos no siempre son fiables. 5. Se pueden hacer búsquedas más complejas utilizando BLAST traducido. Esto es especialmente útil en la anotación de secuencias - Valor de E Selecciono búsqueda: Selecciono secuencias de - Max Score - ¿Excluyo organismo? Nº acceso de - ¿Modifico matriz de sustitución? interés atendiendo a: - Identidad - ¿Elimino secuencias mal anotadas - Query Cover BLASTp la proteína (XM/XP)? (NP_.....) En Algorithm: PSI-BLAST sirve para buscar - ¿Modifico Word size? secuencias que podrían ser Genómica - ¿Cambio valor de E? Secuencia homólogos lejanos. comparativa y AA ejemplo de Búsquedas complejas BLASTx permite buscar secuencias de AA homólogas a sintenia entre una secuencia CDs de nt concreta ratón y humano