Bioinformática Básica PDF
Document Details
Carlo Bressa
Tags
Summary
This document provides an introduction to bioinformatics, specifically focusing on BLAST (Basic Local Alignment Search Tool) and homology. It covers the basics of sequence annotation and introduces the concept of comparing sequences to identify relationships. The document also presents examples of sequence comparison and the concept of homology.
Full Transcript
BIOINFORMÁTICA BÁSICA Prof. Carlo Bressa E-mail: [email protected] 5 pantallazos...
BIOINFORMÁTICA BÁSICA Prof. Carlo Bressa E-mail: [email protected] 5 pantallazos Practica 03 BLAST y Homología La anotación de secuencias de nucleótidos (genes) o de aminoácidos (proteínas) se suele realizar según su función. Cuando tenemos secuencias mal anotadas (función desconocida) y queremos conocerla, se suelen comparar con secuencias cuya función sí es conocida. De hecho, una de las estrategias bioinformáticas más utilizadas para la anotación funcional de genes y proteínas desconocidas es basarse en su similitud con secuencias que están mejor anotadas y cuya función se conoce. BLAST (Basic Local Alignment Search Tool) es una herramienta bioinformática que sirve para encontrar secuencias de bases de datos que sean similares a una de interés. BLAST y Homología Ejemplo: Alineamiento: Se ordenan proteínas para detectar su nivel de similitud porque puede haber secuencias muy similares que tengan funciones distintas o - Supongamos que conocemos la función de la chapa 1… - Si encontrásemos otra chapa (2) cuya función desconocemos y quisiéramos saberla, tendríamos que comparar ambas chapas. En el caso de las secuencias, la 1 2 similitud entre ambas es muy difícil verla a simple vista, por ello debe haber programas que permitan compararlas – A estas comparaciones se les llama alineamientos. Conociendo la función de una proteína 1 podemos hipotetizar que otra proteína 2, similar, tiene la misma función… dependiendo del grado de similitud y de si son homólogas o no, podremos estar en lo cierto. Como veremos, no siempre dos proteínas similares en secuencia van a tener misma función. Homología y similitud Secuencias similares: Secuencias que comparten un nº significativo de residuos (nucleótidos o aminoácidos). Es decir, secuencias que tienen un gran nº de residuos iguales en ambas secuencias. Las secuencias pueden ser similares por homología o simplemente por azar. Cuanto mayor sea la similitud entre las secuencias, más Dos secuencias pueden ser poco o muy similares probable es que sean homólogas. Secuencias homólogas: secuencias que están relacionadas por una ascendencia común, sean o no similares. La homología es cualitativa: dos secuencias están o no están relacionadas por una ascendencia común. Las secuencias homólogas pueden variar mucho en su nivel de similitud, desde el 100% a 0%. Son o no son homólogas. No existe "un poco homólogo" Son homólogas pero aparecen en especies diferentes a causa de que Homología esas 2 especies se hayan separado pero proviniesen de una misma Secuencias ortólogas : secuencias que están relacionadas a través de un evento de especiación pasado. Se supone que las secuencias ortólogas comparten funciones comunes. Secuencias parálogas : secuencias relacionadas a través de un evento de duplicación de genes en el pasado. Los genes suelen divergir en cuanto a su función después de duplicarse; por lo tanto, se supone que las secuencias parálogas no comparten una función común. ¿Son 2 secuencias ortólogas homólogas entre sí? ¿Y dos secuencias parálogas? Ejemplo muy similar Query Ejemplo poco similar Query BLAST y búsqueda de secuencias homólogas Alineamiento local: el ordenador intentará mantener la secuencia unida, sin generar espacios (delecciones) Para buscar secuencias homólogas a una secuencia de interés usaremos BLAST. Para ello debemos conocer determinada terminología: - Secuencia de consulta (Query sequence): tu secuencia consulta!; la secuencia sobre la que está interesado en obtener más información. - Secuencia encontrada (Subjet o Target Sequence): La secuencia encontrada en una base de datos con similitud a la secuencia consulta. Para comparar dos secuencias se lleva a cabo un alineamiento. Estos pueden ser locales o globales. Alineamiento local (Local alignment): Un alineamiento de 2 o más secuencias que se extiende sólo a través de una parte de las mismas. Alineamiento global (Global alignment): Un alineamiento de 2 o más secuencias que se extiende de extremo a extremo, aunque hay zonas con poca coincidencia. Para alinear un mRNA con su ADN con el objetivo de que los exones se alineen y los intrones queden desapareados y así obtener la secuencia de ADN Búsqueda de secuencias de nucleótidos En primer lugar, necesitamos una secuencia de consulta (Query sequence) para la búsqueda. Empecemos de nuevo con el nº de acceso NP_001318308, pero esta vez utilizaremos la secuencia de nucleótidos correspondiente a la secuencia de la proteína, no la proteína. Debemos encontrar la secuencia codificante del gen metiendo el nº de acceso anterior en el NCBI y luego pinchando en el enlace “Gene”. Haga click en el enlace RefSeq RNAs en el panel "Información relacionada" Búsqueda de la secuencia codificante (CDS) Haga click con el botón derecho en el enlace RefSeq RNAs en el panel "Información relacionada" de la derecha y elija abrir enlace en una nueva pestaña. Esto te lleva al ARNm que codifica la proteína que has estado mirando. Verá que llega a la secuencia de mRNA del GenBank, que corresponde a posición de base 1 - 1949 en este registro. Otra característica es la secuencia codificante (CDS) que corresponde a la posición de base 33 - 1781. 2. ¿Por qué la secuencia de mRNA tiene una longitud mayor que la de CDS? Haga click en CDS. ¿Qué es el nº NM_001336190.1? 2. La secuencia de ARNm suele ser más larga que la CDS (secuencia codificante): - Porque la secuencia de mRNA contiene regiones no codificantes (UTR), las cuales no se traducen en proteínas pero son importantes para la regulación en la traducción y estabilidad del ARNm. 3. El número NM_001336190.1 es un identificador de acceso (Accession Number) de NCBI para una secuencia de ARN mensajero (mRNA). En este caso, corresponde al transcrito mRNA de un gen específico, que incluye tanto la secuencia codificante (CDS) como las regiones UTR (5' y 3'). - NM indica que es un transcrito de ARN mensajero, y 001336190.1 es un número único para identificar esta secuencia específica. El ".1" al final indica que es la primera versión de la secuencia registrada. Búsqueda de la secuencia de nucleótidos Hay que seguir siempre el nº de acceso NOTA: En la pagina del gen PUB12 (Gene), fíjese en los menús de enlace específicos que aparecen cuando pasa el puntero del ratón por encima del gráfico del gen (¡SIN CLICK!) 1. Puede hacer click en los cuadros verdes que indican los exones del gen para obtener enlaces a varias secuencias. ¿Qué información obtiene? Gene < Graphics UTR Se muestra un desplegable con enlaces a distintas secuencias: Intrones - Secuencia genómica del exón (DNA) en verde - Secuencia no traducida del ARNm (morada). - La secuencia de CDS que codifica proteínas (roja) Búsqueda de la secuencia del gen En la página anterior, sobre el panel del visor de secuencias, haga clic en el enlace “Go to nucleotide: Genbank”. Esto le llevará a la región genómica que codifica el ARNm que acaba de ver. 3. ¿Observa alguna diferencia en las características del gen de esta página con respecto a la anterior (refseqRNA)?¿Y en el CDS? ¿Sabría explicar el por qué? (Sugerencia: mira source /mol_type) 4. Por qué en una página la región CDS es continua /desde la posición 33 a la 1781 mientras en la otra está salteada: de 33 a CDS: secuencia codificante 86, de 170 a 286, etc..). Haga click en CDs y compruebe qué ocurre. CDS continua (en RefSeqRNA): secuencia codificante completa del ARNm, intrones eliminados pero sí están las UTR CDS salteada (como en GenBank): ADN genómico completo con exones e intrones. Aparece así porque las partes codificantes están separadas por intrones Obtener la secuencia codificante (CDs) en formato FASTA Una vez sabemos localizar las secuencias de nucleótidos que dan lugar a una secuencia de AA, volvamos al registro de ARNm con el que estábamos trabajando anteriormente (NM_001336190). Si hace click en CDS ve la secuencia codificante (resaltada en marrón). Utilizando la opción "Display: FASTA" en la barra gris de la parte inferior de la página, genere una versión con formato FASTA de la CDS. Ahora tiene la secuencia en el formato más básico y fácil de manejar: el formato FASTA. El formato FASTA es una línea de cabecera que comienza con un '>' seguido de un texto que describe la secuencia, y luego la secuencia real que comienza en la línea siguiente. La secuencia puede ser de ADN o de proteínas, y puede ser continua (desplazándose fuera de la página) o cortada en longitudes más manejables que suelen oscilar entre los 60-80 residuos. BLASTn MÉTODO A: Utilice el enlace “Run BLAST” en la parte “Analizar esta secuencia” de la página web. 5. En la página de BLAST observe que en la sección Enter Query Sequence, el sistema del NCBI ha introducido automáticamente el nº de acceso. En este caso, en el “Query subrange” pone automáticamente sólo la parte de la secuencia codificante de la secuencia de ARNm ¿cuál es? BLASTn https://blast.ncbi.nlm.nih.gov/BLAST_guide.pdf MÉTODO B: Puede copiar y pegar la secuencia CDS en formato FASTA en el cuadro de consulta sin definir un subrango. Para ello abra una nueva ventana en su navegador sin cerrar la anterior y vaya a la página principal del NCBI (www.ncbi.nlm.nih.gov) o la página principal de BLAST desde Google. Como nuestra secuencia es una secuencia de nucleótidos, elegimos “Nucleotide BLAST”. 6. ¿Por qué no tendría que elegir un subrango en este caso? Porque la secuencia FASTA es la secuencia marrón que ya estaba sin intrones ni UTRs Buscaremos en la base de datos completa del NCBI - la base de datos nr es la colección no redundante de secuencias en Optimiza las búsquedas y GenBank. ¿Qué significa no redundante? alineamientos Secuencias idénticas se han unificado en una entrada, incluyendo el acceso, título, GI e información taxonómica por cada entrada 7. Haga click en BLAST y haga una búsqueda ¿hay diferencias de resultado entre el método A o el método B? BLASTn Observe que en el “Program Selection” hay 3 algoritmos: 8. Ahora haga 2 búsquedas excluyendo los modelos obtenidos por predicción (XM/XP) y la propia Arabidopsis thaliana (taxid:3702), pero una usando “Highly similar sequences” (megablast) y otra con “More dissimilar sequences” (discontiguous Megablast) ¿Hay diferencias? Haya usado el método A o el B, investigue las secciones de la página de BLAST. Hay muchos parámetros para controlar cómo se ejecuta el algoritmo (haga click en “[+] Algorithm parameters” en la parte inferior). BLASTn https://youtu.be/t8fKz9rvuOk 9. Haga click en el signo de interrogación en la sección de selección de programas, obtendrá un breve resumen de los diferentes métodos. ¿Cuándo utilizarias megaBLAST o discontinguous megaBLAST? Abra el “Algorithm Parameters” cerca del final de la página: 10. ¿Que es el “Expect threshold” o valor de E? 11. ¿Qué pasaría si lo disminuyera? ¿y si lo aumentara? 12. ¿Cuál sería el efecto de aumentar el Word size? 13. ¿Por qué hay un filtro de regiones de baja complejidad? ¿Deberíamos mantenerlo activado? Parámetros de BLAST La calidad de un BLAST HSP se cuantifica de diferentes maneras. Es importante que entienda las diferencias entre estas métricas y utilice la apropiada. Identidad - el grado de invariabilidad de dos secuencias. Una medida pobre, ya que no tiene en cuenta las sutilezas de las relaciones entre secuencias, por ejemplo, una pequeña región de un dominio altamente conservado en dos secuencias que, por lo demás, están muy poco conservadas. Puntuación de bits (Max Score) - La puntuación del alineamiento (S). Una medida precisa que se normaliza sobre el sistema de puntuación particular empleado y atiende a la similitud de dos secuencias alineadas. Tiene la desventaja de depender de la longitud de la consulta. Valor E - Un valor que se basa en el nº de alineamientos diferentes con puntuaciones (S) al menos tan buenas como la observada, que se espera que ocurran simplemente por azar. Cuanto más bajo sea el valor E, más difícil es que la secuencia encontrada sea debido al azar, es decir, más improbable es que la secuencia encontrada no tenga una relación biológica significativa con la secuencia consulta. Esta es la mejor métrica a utilizar ya que mide el grado de significancia de los datos obtenidos. El valor E depende del tamaño de la base de datos (n) y de la longitud de la secuencia consulta (m). La misma secuencia buscada en diferentes bases de datos que contengan idénticas secuencias de aciertos daría lugar a diferentes valores de E. E = mn2-S Para los más atrevidos: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3820096/ Parámetros de BLAST En la pestaña “Descriptions” aparece la siguiente información: Description: hipervínculo a los nombres de los resultados alineados con mi secuencia problema. Max Score: la puntuación de bit del alineamiento (S). Query Coverage: qué % de la secuencia consulta (query) se alinea con otra secuencia de la base de datos (subjet). Este valor complementa la información aportada por la identidad. E-value: Suele ser la mejor medida de la calidad de los resultados. Los nº más pequeños significan mejores resultados en términos de homología, siendo 0,0 (1e-180) el mejor valor posible. Identity: La identidad o coincidencia encontrada entre la secuencia consulta y otra secuencia subjet. Accession: Nº de acceso de la secuencia encontrada y alineada con la secuencia problema. Total Score: otra puntuación de bits de alineamiento que puede diferir de la puntuación máxima si su consulta coincidió con una sola entrada de la base de datos en varias regiones. Organización de los resultados en BLAST La página de resultados está dividida en secciones. En la parte superior se encuentra el resumen del trabajo, que simplemente muestra detalles sobre su consulta y la base de datos buscada. Puede encontrar más detalles sobre su búsqueda haciendo click en Search Summary. 14. ¿Cuántas secuencias hay en la base de datos nr? ¿Qué secuencias no están incluidas en la base de datos nr? Explore la pestaña Graphic Summary. Mueva el ratón sobre las barras de colores. 15. ¿Qué significan las barras de colores? BLAST y Homología 16. ¿Cuántas coincidencias de secuencias hay para esta secuencia de consulta? 17. ¿Cómo están ordenadas? (puede ordenar estos segmentos de otras maneras, como por identidad, puntuación y posición de inicio de la consulta). 18. ¿Qué sucede si se hace click en el enlace directo de Accession? 19. ¿Qué sucede si hace click en el enlace “Arabidopsis thaliana armadillo/beta- catenin repeat protein (PUB12), mRNA” de la columna “Description”? (si has excluido Arabidopsis thaliana de la búsqueda, saldrá Arabidopsis halleri). BLASTn * Por último, podemos explorar los alineamientos reales en la pestaña “Alignments”. A medida que se desplaza hacia abajo por las alineaciones, verá que la calidad de la alineación disminuye, es decir el valor E aumenta. 20. ¿Qué representan las barras verticales ( | ) entre la secuencia Query y Subject? 21. Qué significa Strand=Plus/Plus, Strand=Plus/Minus? Sugerencia*: ¿los genes van siempre en la misma dirección en una porción de ADN cromosómico? Vuelve a la parte superior de la página y cambie el Alignment View a Query-anchored with dots for identities. Describa la diferencia entre este formato y el anterior. 22. ¿Puede imaginar casos en los que los diferentes formatos podrían ser más útiles? ¿Qué hemos visto en la unidad 3? 1. Hemos aprendido que se puede deducir la función de una secuencia desconocida por homología y similitud con otra secuencia de función conocida. Si no son homólogas no se puede hacer esta deducción, aunque sean parecidas.. 2. Hemos estudiado la diferencia entre homología/similitud y ortología/paralogía de secuencias. 3. Hemos utilizado BLASTn para la búsqueda de secuencias homólogas a partir de una secuencia codificante (CDS). Esta búsqueda se puede hacer con el nº de acceso o copiando y pegando la secuencia CDS en BLASTn. 4. Hemos visto la información aportada por BLASTn en los resultados y lo que indican los distintos parámetros de los mismos. 5. Hemos enfatizado la importancia del valor de E y el Max Score en el estudio de la homología y la similitud entre dos secuencias. Selecciono búsqueda: - ¿Excluyo organismo? - ¿Modifico algoritmo? Query - ¿Elimino secuencias mal Click en “View Resultados divididos en: result in a new Nº acceso de la Subrange anotadas (XM/XP)? window” - Description BLASTn CDS (NM_.....) En Algorithm: - Alignments Click en BLAST - ¿Modifico Word size? - Graphic Summary - ¿Cambio valor de E? - Taxonomy Secuencia Nos fijamos en: CDS - Valor de E Visualización de los resultados: - Max Score - Pairwise - Identidad - Pairwise with dots for identities - Query Cover - Query anchored with dots for identities