Bioinformática: Bases de Datos (PDF)

Máster en Biotecnología Industrial y Ambiental “Técnicas analíticas y tecnologías ómicas” Bioinformática Pedro Perdiguero Jiménez Departamento Genética, Fisiología y Microbiología UD Genética Facultad de Ciencias Biológicas [email protected] INTRODUCCIÓN ¿Qué es la bioinformática? Ciencia que emplea tecnologías computacionales para la gestión y análisis de datos biológicos. Surge para solucionar o investigar problemas que por su complejidad y magnitud sobrepasan la capacidad de análisis del ser humano. Biología Computacional: El desarrollo y aplicación de métodos de análisis de datos y métodos teóricos, modelación matemática y técnicas de simulación computacional, para el estudio de sistemas biológicos, conductuales y sociales. 1990 BLAST > Programa informático de 1970 1981 1987 alineamiento de secuencias de tipo Needleman and Smith and FASTA > Formato de fichero local, ya sea de ADN, ARN o de Wunsch Watterman informático basado en texto, utilizado proteínas, capaz de comparar una algorithm para representar secuencias bien de secuencia problema contra una Alineamiento local ácidos nucleicos, bien de péptido, gran cantidad de secuencias que se Alineamientos de secuencias encuentren en una base de datos globales de dos biológicas Clustal > Alineamiento de secuencias secuencias múltiples. HUMAN GENOME PROJECT INTRODUCCIÓN https://genomevolution.org/wiki/index.php/Sequenced_plant_genomes < 1.000$ INTRODUCCIÓN Existen cientos de base de datos biológicas y su crecimiento esta siendo exponencial, especialmente en aquellas que se nutren de técnicas de secuenciación masiva. Mucha diversidad en las bases de datos >> Resultado de muchos proyectos >> Los datos incluidos en publicaciones “deben” ser de acceso libre Preferencias por bases de datos propias Positivo: Bases de datos especificas, más pequeñas que una general > búsqueda más rápida. Negativo: Dificultad para integrar información de diversas bases de datos INTRODUCCIÓN Y como consecuencia… Aumento en herramientas bioinformáticas Opportunities and challenges in long- read sequencing data analysis ¿Y que pasa con los bioinformáticos? TEMA 1 BASES DE DATOS Pedro Perdiguero Jiménez Departamento Genética, Fisiología y Microbiología UD Genética Facultad de Ciencias Biológicas [email protected] 1. BASES DE DATOS Una base de datos es un “almacén” que nos permite guardar de una forma organizada grandes cantidades de información interrelacionada para que luego podamos encontrar y utilizar fácilmente. Las bases de datos biológicas por tanto serían un “almacén” que nos permite estructurar, organizar, actualizar y manipular datos biológicos incluyendo por ejemplo datos de genómica, proteómica, metabolómica, transcriptómica, relaciones filogenéticas, etc… 1. BASES DE DATOS La base de datos perfecta debe; Presentar una estructura simple que facilite las búsquedas Presentar suficientes anotaciones, pero no excesivas Ser actualizada periódicamente > Nuevas versiones Contener referencias cruzadas (hipervínculos) -> vínculos con otras DB Incluir herramientas (software) para acceso, actualización, inserción, borrado Contener el menor grado de redundancia posible Facilitar la adquisición de los datos en numerosos formatos adecuados para posteriores usos Bases de datos relacionales Identificador clave único 1. BASES DE DATOS Clasificación de las Bases de Datos Atendiendo al origen de los datos almacenados PRIMARIAS: Datos obtenidos experimentalmente depositados directamente por los investigadores. El control de calidad la realiza el investigador Ejemplos; Genbank, GEO, dbSNP SECUNDARIAS: Datos obtenidos a partir del análisis de los datos en las DBs primarias. Diferentes herramientas bioinformáticas bajo el control de una tercera parte Ejemplos; RefSeq, Unigene, SwissProt, Pfam 1. BASES DE DATOS Clasificación de las Bases de Datos Atendiendo al control aplicado en las mismas NO-CURADAS: Son repositorios de información Suelen presentar alto grado de redundancia Alta propensión a presentar errores CURADAS: Revisadas por humanos expertos en la materia Suelen estar limitadas en tamaño, a veces incompletas No presentan redundancia La calidad de los datos es alta 1. BASES DE DATOS Por el tipo de información que contienen distinguimos Bases de datos bibliográficas Bases de datos taxonómicas Bases de datos de nucleótidos Bases de datos genómicas Bases de datos de proteínas Bases de datos de dominios 1. BASES DE DATOS Por el tipo de información que contienen distinguimos Bases de datos microarrays y RNA-seq Bases de datos de marcadores moleculares Bases de datos de ARNs Otras herramientas que Integran estas bases de datos; Genome Browsers; 1. BASES DE DATOS El National Center for Biotechnology Information “International (NCBI) centraliza los bancos de datos y aplicaciones Nucleotide de EEUU Sequence El European Bioinformatics Institute (EBI) realiza una Database función similar en Europa Collaboration” GenomeNet reúne bases de datos diversas en Japón Intercambian información de las nuevas secuencias cada 24 horas NIG Getentry Entrez EMBL NIH SRS Entrez system (text query): https://www.ncbi.nlm.nih.gov/gquery/ 1. BASES DE DATOS PRÁCTICA 1: Entrez NCBI 1. Abrir la página del NCBI https://www.ncbi.nlm.nih.gov/gquery/ 2. En la página principal observamos las diferentes bases de datos que incorpora Entrez. Analizamos las distintas secciones y bases de datos. Vamos a realizar una búsqueda utilizando la barra superior incorporando una palabra clave en la barra de búsqueda (Ej: prdm1) y pulsamos “search”. 3. En la pantalla de resultados podemos observar aquellas bases de datos que incorporan de algún modo nuestro parámetro de búsqueda. Explorar por ejemplo la base de datos de PubMed, Nucleotide and Gene. Analizar la información que contiene cada una de las bases de datos sin profundizar en ella, solo la entrada inicial que aparece. Pubmed > Titulo de artículo, autores, revista en la que se publicó. ¡¡Aplicar filtros!! Nucleotide > Especie, nombre del gen, tamaño en pb, tipo de molécula, accesión number. ¡¡Aplicar filtros!! Gene > Nombre del gen, descripción, localización, Aliases Proteins > Nombre de la proteína, especie, tamaño en aminoácidos, accesión number. En todas estas bases de datos tenemos la posibilidad de realizar filtros de nuestra búsqueda. Estas opciones suelen estar a ambos lados de los resultados. Podríamos por ejemplo seleccionar en función del año de publicación o disponibilidad en el caso de pubmed, o seleccionar aquellos nucleótidos, genes o proteínas de un organismo concreto seleccionando en la parte derecha de los resultados. Probar diferentes opciones. 4. Ahora vamos a entrar en la base de datos que se llama GEO profiles, si utilizaste la palabra “prdm1” veras que contiene 5.139 entradas. Analizar detenidamente la información que encontramos esta base de datos utilizando la primera entrada. Igualmente vemos que podemos aplicar diferentes filtros de la información obtenida. Vamos a poner la opción “Up/down genes” en “differential expression”. ¿Cómo varía el número de genes iniciales?¿Por qué es esta variación?. 5. Sin salir de GEO profiles vamos a hacer una búsqueda avanzada. El buscador admite cualquier tipo de término, no tiene que ser el nombre de un gen, y puedes realizar búsquedas utilizando operadores boleanos (AND-OR-NOT) para reducir más la información obtenida. Ponemos por ejemplo "prdm1" AND “b cells". Buscamos de nuevo, "prdm1" AND “b cells" AND “leukemia”. Vemos cómo vamos acotando la información. ¿Qué pasa ahora si seleccionamos “Up/down genes”? Realiza el proceso completo con algún término de búsqueda que te resulte interesante. 1. BASES DE DATOS GeneBank: Las secuencias son depositadas generalmente manteniendo su formato original, tal y como fue obtenida, interpretada y publicada por sus autores originales. Por tanto es una colección importante de secuencias que no tienen porque estar relacionadas entre sí. Generalmente presenta mucha redundancia y puede contener errores. Bases de datos primarias Nucleotides (genomic DNA or mRNA) EST (Expressed Sequence Tag) STS (Sequence-Tagged Site) GSS (Genome Survey Sequence) HTG (High-Throughput Genomic) [WGS (Whole-Genome shotgun)] [SRA (Short Read Archive)] RefSeq: Lo representa únicamente la mejor secuencia y mas representativa de cada transcrito, RNA, proteína o loci del genoma. Gene: Resume todas las secuencias que mapean en un mismo locus. 1. BASES DE DATOS Beneficios de RefSeq No presenta redundancia Realizan actualizaciones para reflejar el estado actual de las secuencias y datos biológicos asociados Los datos están validados Hay consistencia en los formatos Presentan distintos identificadores en función del tipo de secuencia Administrado por el personal del NCBI y distintos colaboradores 1. BASES DE DATOS Bases de datos de proteínas: La secuencia muchas veces procede de la traducción de secuencias de nucleótidos UniProt es un repositorio central de datos sobre proteínas creado por la combinación de Swiss-Prot, TrEMBL y PIRt UniRef 100, 90 y 50 combina en una sola secuencia representativa proteínas o fragmentos idénticos, con mas del 90 o mas del 50% de homología 1. BASES DE DATOS Otras bases de datos relacionadas con proteínas De estructuras PDB ALPHAFOLD De clasificación CATH SCOP De dominios INTERPRO PFAM SMART PROSITE De interacciones Proteína-Proteína STRING 1. BASES DE DATOS PRÁCTICA 2: Bases de datos genes, proteínas y dominios. 1. Abrir la página de gene (https://www.ncbi.nlm.nih.gov/gene), uniprot (http://www.uniprot.org), interpro (https://www.ebi.ac.uk/interpro/) y string (https://string-db.org/) e incluir nuevamente como parámetro de búsqueda prdm1. 2. Analizamos las distintas secciones e información que contiene cada bases de datos. 3. Gene > Entrar en uno de los genes identificados y analizar las distintas secciones. 4. UniProt > Al hacer la búsqueda inicial aparece una primera tabla con todos los resultados relacionados con nuestra palabra clave, en este caso prdm1. En los resultados podemos observar que hay una serie de entradas con logo dorado, que estarían revisadas manualmente y que pertenecerían a la base de datos Swissprot. El resto provienen de TrEMBL, por tanto están anotadas de manera automática y no revisadas (logo azul). La tabal nos da distintos campos de la proteína como el nombre de entrada, nombre de la proteína, nombre del Gen y organismo. Dentro de los resultados podríamos buscar el CLUSTER UniRef 100-90 o 50%. La idea de estos cluster es reducir redundancia. Accedemos a una proteína y vemos que información contiene en las distintas secciones. 5. InterPro > Agrupa todas las bases de datos relativas a familias, motivos o familias. Podemos ver las entradas relacionadas con una secuencia o gen concreto. 6. String > Buscamos el gen que nos interesa y observamos las redes de interacción con otros genes. 1. BASES DE DATOS Gene 1. BASES DE DATOS UniProtKB 1. BASES DE DATOS InterPro 1. BASES DE DATOS StringDB 1. BASES DE DATOS Formatos: Cada base de datos presenta un formato específico para almacenar la información de cada secuencia. Como norma general consta de una parte con anotaciones que incluye una cabecera y una sección de características y la parte de la secuencia representa el cuerpo central. 1. BASES DE DATOS Formato.gb 1. BASES DE DATOS Formato UniProt 1. BASES DE DATOS PRÁCTICA 3: Formatos. 1. Abrir la página del NCBI (https://www.ncbi.nlm.nih.gov/) y buscar el HE796691 2. Analizar los campos que contiene la cabecera (Accesion, tamaño de la secuencia, organismo al que pertenece, si tiene asociada publicación… Observa que tanto ORGANISM como PUBMED es un link a otras bases de datos (taxonómica y bibliográfica). 3. Analizar las características asociadas a la secuencia… ¿Proviene de ADN genómico o de ARN mensajero?. Si es ADN genómico… ¿contiene intrones? ¿Presenta región codificante para alguna proteína? Si existe proteína ¿Hay link a la base de datos correspondiente? 4. Vamos a utilizar la herramienta que se encuentra a la derecha “Analyze this sequence”. Vemos que tenemos varias opciones, seleccionamos “Highlight Sequence Features”. Se abre debajo una barra adicional en la que podemos seleccionar la región que nos interese dentro de la secuencia… poner por ejemplo CDS y observar como se selecciona solamente la región que codifica la proteína. Ahora ponemos “intron”… vemos como se selecciona la región intermedia. Podríamos realizar igualmente una búsqueda concreta de una región de la secuencia utilizando “Find in this Sequence”. La opción Run Blast la veremos mas adelante en la asignatura. 5. Una vez hemos seleccionado lo que nos interesa de la secuencia podríamos quedarnos únicamente con esa parte de la secuencia en el formato que nos interese. Por ejemplo, me quiero quedar con la región codificante en formato fasta. Seleccionamos “CDS” y FASTA. Se abre una nueva página con el formato seleccionado. Para obtener la secuencia en un archivo vamos a Send > Choose Destination > File y en format seleccionamos “FASTA” 1. BASES DE DATOS Bases de datos de ADN especiales https://www.girinst.org/ Base de datos de ADN repetitivo publicada por el Genetic Information Research Institute. https://www.dfam.org/ Colección abierta de alineaciones de secuencias de ADN de elementos transponibles, con secuencias de consenso y anotaciones del genoma https://www.imgt.org/ Referencia mundial en inmunogenética e inmunoinformática. IMGT® es un recurso de conocimiento integrado de alta calidad especializado en las inmunoglobulinas (IG) o anticuerpos, los receptores de células T (TR), el complejo mayor de histocompatibilidad (MH). Incluye humanos y otros vertebrados 1. BASES DE DATOS Bases de datos de ARNs https://rnacentral.org/ RNAcentral ofrece acceso integrado a un conjunto completo y actualizado de secuencias de ARN no codificantes. Integra bases de datos supervisadas por expertos representando una amplia gama de organismos y tipos de ARN https://rfam.xfam.org/ Rfam es una colección de familias de ARN, cada una representada por alineamientos de secuencias múltiples, estructuras secundarias consenso y modelos de covarianza 1. BASES DE DATOS Bases de datos de ARN ribosomales El ácido ribonucleico ribosómico o ribosomal (ARNr) es el tipo de ARN más abundante (80-85% del ARN total) en las células. Se asocia con proteínas para formar ribosomas (el sitio de síntesis de proteínas). https://www.arb-silva.de/ SILVA proporciona conjuntos de datos completos, de calidad comprobada y actualizados regularmente, de secuencias alineadas de ARN ribosómico (ARNr) de subunidad pequeña (16S/18S, SSU) y grande (23S/28S, LSU) para los tres dominios de la vida (Bacteria, Archaea y Eukarya). https://greengenes.secondgenome.com/ Greengenes proporciona conjuntos de datos completos, de calidad comprobada de secuencias alineadas de ARN ribosómico (ARNr) exclusivamente de la subunidad pequeña (16S) 1. BASES DE DATOS Bases de datos de ARNs largos no codificantes Los ARN largos no codificantes (lncRNAs) son diversos en longitud, secuencia y estructura (lineal o circular), y sus funciones se describen como regulación transcripcional, inducción de cambios epigenéticos e incluso regulación directa de la actividad de la proteína https://lncipedia.org/ Human long non-coding RNAs https://ngdc.cncb.ac.cn/lncbook/ Human long non-coding RNAs https://diana.e-ce.uth.gr/lncbasev3 Repositorio de referencia con ARNs largos no codificantes que han sido validados experimentalmente como diana de miARNs experimentalmente. http://www.noncode.org/ Base de datos dedicada a los ncRNAs, especialmente a los lncRNAs. 1. BASES DE DATOS Bases de datos de otros ARNs Micro RNAs (miARNs) - ARN monocatenario, de una longitud de entre 21 y 25 nucleótidos, que tiene la capacidad de regular la expresión de otros genes mediante diversos procesos, utilizando para ello la ruta de ribointerferencia https://www.mirbase.org/ Secuencias y anotaciones de miARNs publicadas incluyendo la secuencia del micro ARN maduro así como la secuencia de la horquilla a partir de la que se forma. Ultima versión 22.1 (2019) https://mirgenedb.org/ MirGeneDB es una base de datos de miARNs curados manualmente, validados y anotados. Ultima versión 2.1 (2022) incluye más de 16.000 entradas de genes de microARN que representan más de 1.500 familias de miARN de 75 especies de metazoos. https://dianalab.e-ce.uth.gr/html/diana/web/index.php?r=tarbasev8/index Colección de interacciones miARN-gen que han sido validadas experimentalmente por algún medio. 1. BASES DE DATOS Bases de datos de otros ARNs http://snoopy.med.miyazaki-u.ac.jp/ Los pequeños ARNs nucleolares (snoRNAs) están involucrados con la modificación química de los ARNs que forman parte de los ribosomas. Esta base de datos proporciona información completa sobre snoRNAs, sus loci y sus posibles ARNs diana. http://gtrnadb.ucsc.edu/ Los ARN de transferencia (ARNt) son moléculas pequeñas de ARN que cumple una función clave en la síntesis proteica sirviendo como vínculo entre la molécula de ARN mensajero (ARNm) y la cadena creciente de aminoácidos que forman una proteína. Esta base de datos contiene predicciones de genes de ARNt realizadas por tRNAscan-SE en genomas completos o casi completos https://genesilico.pl/modomics/ Base de datos de modificaciones de ARN que proporciona información completa sobre las estructuras químicas de los ribonucleósidos modificados, sus vías de biosíntesis, la localización de los residuos modificados en las secuencias de ARN y las enzimas modificadoras del ARN 1. BASES DE DATOS Bases de datos de otros ARNs https://www.pirnadb.org/ Los piwiARNs son secuencias de pequeños RNAs que tienen aproximadamente de 26 a 31 nucleótidos. Degradan los ARNm de los elementos transponibles. http://www.plantsrnas.org/ Alberga una gran colección de loci generadores de miRNA, phasiRNA y hc-siRNA anotados a partir de ~140 plantas utilizando criterios consistentes y de alta confianza. Bases de datos taxonómicas https://www.itis.gov/ Base de datos con información taxonómica autorizada sobre plantas, animales, hongos y microbios. 1. BASES DE DATOS Bases de anotaciones funcionales y de ontologías http://geneontology.org/ La misión del Consorcio GO es desarrollar un modelo computacional actualizado y exhaustivo de los sistemas biológicos, desde el nivel molecular hasta las vías más amplias y los sistemas celulares y de organismos. El recurso Gene Ontology proporciona una representación computacional de nuestros conocimientos científicos actuales sobre las funciones de los genes (o, más propiamente, de las moléculas de proteínas y ARN no codificante producidas por los genes) de muchos organismos diferentes, desde los humanos hasta las bacterias http://www.gsea-msigdb.org/gsea/msigdb/index.jsp Base de datos de firmas moleculares (MSigDB) es un recurso de decenas de miles de conjuntos de genes anotados y validados experimentalmente para su uso con el software GSEA, dividido en colecciones de humanos y ratones https://www.genome.jp/kegg/pathway.html Colección de mapas de rutas metabólicas que representan nuestro conocimiento de las redes de interacción, reacción y relación moleculares. Dentro de esta base de datos encontramos KEGG GENES es una colección de genes y proteínas en genomas completos de organismos celulares y virus generados a partir de recursos disponibles públicamente, principalmente de NCBI RefSeq y GenBank, y anotados por KEGG en forma de asignación KO (KEGG Orthology) 1. BASES DE DATOS Bases de datos filogenéticas http://phylomedb.org/ PhylomeDB es una base de datos pública con catálogos completos de filogenias de genes (filomas). Permite a los usuarios explorar de forma interactiva la historia evolutiva de los genes mediante la visualización de árboles filogenéticos y alineaciones de secuencias múltiples. http://www.treefam.org/ Treefam es una base de datos compuesta por árboles filogenéticos inferidos a partir de genomas de animales. Proporciona predicciones de ortología/parología, así como la historia evolutiva de los genes. https://www.orthodb.org/ Catálogo jerárquico de ortólogos para la asignación de datos genómicos y funcionales 1. BASES DE DATOS Proyecto Genoma Humano (PGH) Fue un programa de investigación colaborativo e internacional cuya meta era la del mapeo (cartografía) y entendimiento completo de todos los genes de los seres humanos. Todos nuestros genes juntos se conocen como nuestro "genoma". El PGH reveló que existen alrededor de 20,500 genes. El Consorcio Internacional de Secuenciación del Genoma Humano (International Human Genome Sequencing Consortium) publicó la primera versión preliminar del genoma humano en la revista Nature en febrero de 2001, con el 90 por ciento de la secuencia de los tres mil millones de pares de bases del genoma completo. 1. BASES DE DATOS Bases de datos de expresion https://www.ebi.ac.uk/gxa/home https://gtexportal.org/home/ https://www.ebi.ac.uk/gxa/sc/home https://www.humancellatlas.org/ 1. BASES DE DATOS Proyecto ENCODE (ENCyclopedia Of DNA Elements) https://www.encodeproject.org/ Tiene como objetivo delinear todos los elementos funcionales codificados en el genoma humano. Operativamente, se define un elemento funcional como un segmento de genoma discreta que codifica un producto definido (por ejemplo, proteína o ARN no codificante) o muestra una firma bioquímica reproducible (por ejemplo, unión a proteínas, o una estructura de la cromatina específica) 1. BASES DE DATOS https://jaspar.genereg.net/ Conjunto de acceso abierto, curado y no redundante de perfiles, derivados de colecciones publicadas de sitios de unión a factores de transcripción definidos experimentalmente para eucariotas. https://hocomoco11.autosome.org/ Proporciona modelos de unión a factores de transcripción (TF) para 680 TF humanos y 453 de ratón. https://meme-suite.org/meme/index.html MEME Suite permite el descubrimiento de nuevos motivos en colecciones de secuencias de nucleótidos o proteínas no alineadas, y realizar una amplia variedad de análisis basados en motivos. 1. BASES DE DATOS Proyecto 1000 genomas (1KGP) Fue la primera iniciativa propuesta para obtener una base de datos que permita estudiar la variabilidad genética humana. Para ello se inicio un proyecto colaborativo centrado en analizar el material genético de mil personas en todo el mundo. Otras iniciativas Proyecto de Diversidad Genómica de Simons Proyecto 100.000 genomas Pretende secuenciar 100.000 genomas de unos 85.000 pacientes afectados por enfermedades raras o cáncer, está dando lugar a conocimientos innovadores y a continuos descubrimientos sobre el papel que puede desempeñar la genómica en la asistencia sanitaria. Proyectos 1+ Million Genomes Initiative (1+MG) y Beyond 1 Million Genomes (B1MG) El primero pretende hacer accesible la información del genoma de al menos un millón de ciudadanos europeos para la investigación conjunta europea, mientras que el segundo pretende dar apoyo para crear una red de datos genéticos y clínicos en toda Europa 1. BASES DE DATOS https://www.ncbi.nlm.nih.gov/snp/ dbSNP contiene variaciones humanas de un solo nucleótido, microsatélites e inserciones y delecciones a pequeña escala, junto con la publicación, la frecuencia poblacional, la consecuencia molecular y la información de mapeo genómico y RefSeq, tanto para las variaciones comunes como para las mutaciones clínicas. https://cancer.sanger.ac.uk/cosmic COSMIC, el Catálogo de Mutaciones Somáticas en el Cáncer, es el mayor y más completo recurso del mundo para explorar el impacto de las mutaciones somáticas en el cáncer humano. https://www.ncbi.nlm.nih.gov/clinvar/ ClinVar es un archivo público y de libre acceso de informes sobre las relaciones entre las variaciones genéticas humanas y los fenotipos. Facilita el acceso y la comunicación a relaciones confirmadas entre las variantes humanas y el estado de salud observado. https://www.omim.org/ OMIM es un compendio exhaustivo y autorizado de genes y fenotipos genéticos humanos relacionados con le herencia mendeliana que está disponible de forma gratuita y se actualiza diariamente 1. BASES DE DATOS Navegación por genomas (Genome browsers) Los navegadores genómicos permiten explorar genomas completos, mostrando las diferentes anotaciones en pistas apiladas unas sobre otras. Esto permite resumir de manera gráfica una ingente cantidad de información sobre una determinada región del genoma. Herramientas interesantes derivadas Genome data viewer https://www.genomicus.bio.ens.psl.eu https://www.ncbi.nlm.nih.gov/genome/gdv/ Permite navegar en los genomas en varias dimensiones: linealmente a lo largo de los ejes cromosómicos, transversalmente a través Ensembl de diferentes especies, y cronológicamente a https://www.ensembl.org/ lo largo del tiempo evolutivo. UCSC https://genome.ucsc.edu/ 1. BASES DE DATOS BIOMART: Interesante herramienta presente en numerosas bases de datos o buscadores si trabajamos con especies que tienen genoma disponible. 1. BASES DE DATOS PRACTICA 4: Visión rápida de BIOMART 1. Entramos en la base de datos de Ensembl (https://www.ensembl.org/index.html) y pulsamos la opción BIOMART. 2. Seleccionamos en data sets ENSEMBL GENES 110 y la especie que nos interesa (Ej: Human Genes (GRCh38.p14)) 3. Hay multitud de filtros que podemos aplicar para quedarnos solo con aquello que nos interesa. Por ejemplo, En la sección “Filters” > GENE: Limit to genes (external references) > With NCBI gene (formerly Entrezgene) ID(s)... Además, seleccionamos otro filtro de esta pestaña, en este caso GENE: Gene type > protein_coding 4. Después en “Attributes” le indicamos que nos interesa obtener “Features” con los siguientes identificadores; GENE: Ensembl Gene stable ID Gene stable ID version Transcript stable ID versión Transcript stable ID Gene name EXTERNAL: External References NCBI gene (formerly Entrezgene) ID HGNC symbol 5. “Attributes” le indicamos que nos interesa obtener “Sequences” - Primero probamos con “Peptides” - Después con; “5‘ UTR” “Upstream flank” indicando 1000pb 1. BASES DE DATOS Para tener en cuenta... ¿Cual es la mejor DB para análisis de mis secuencias? ¿Cual tiene la mejor calidad de datos? ¿Cual es la más completa? ¿Cual es la más actualizada? ¿Cual es la menos redundante? ¿Cual es la más indexada (permite búsquedas complejas)? ¿Cual es la que responde más rápido? Máster en Biotecnología Industrial y Ambiental “Bioinformática” Pedro Perdiguero Jiménez Departamento Genética, Fisiología y Microbiología UD Genética Facultad de Ciencias Biológicas [email protected] DESPACHO 42 – 1ª planta edificio anexo TEMA 2 SECUENCIACIÓN DE ADN Y ANÁLISIS BIOINFORMÁTICOS Pedro Perdiguero Jiménez Departamento Genética, Fisiología y Microbiología UD Genética Facultad de Ciencias Biológicas [email protected] SECUENCIACIÓN DE ADN Y ANÁLISIS BIOINFORMÁTICOS A tener en cuenta… Origen del material genético que se quiere analizar ADN bacteriano ADN nuclear Procariotas Eucariotas Genomas pequeños Genomas grandes Elevada densidad génica Baja densidad génica Promotores semejantes Promotores heterogéneos ADN plasmídico ADN mitocondrial ADN cloroplástico SECUENCIACIÓN DE ADN Y ANÁLISIS BIOINFORMÁTICOS A tener en cuenta… Partimos de una extracción de ADN ADN Origen de la secuencia que se quiere analizar Ejemplos Secuenciación de genomas completos Estudios epigenéticos Marcadores moleculares Estudios evolutivos ARN Ejemplos Partimos de una extracción de ARN Identificación diferentes ARNs ARN mensajeros (codificantes) ARN ribosomales ARN transferentes ARNs largos no codificantes Pequeños ARNs (micro ARNs o ARNs silenciadores) Caracterización estructura génica Análisis de expresión SECUENCIACIÓN DE ADN Y DE 2. ANÁLISIS ANÁLISIS BIOINFORMÁTICOS SECUENCIAS DE ADN A tener en cuenta… Origen de la secuencia que se quiere analizar Procariotas Eucariotas Sin intrones (ni splicing) Con intrones (splicing) RNA no procesado RNA procesado Genes solapantes Poliadenilación SECUENCIACIÓN DE ADN Y DE 2. ANÁLISIS ANÁLISIS BIOINFORMÁTICOS SECUENCIAS DE ADN A tener en cuenta… Partimos de una extracción de ADN ADN Origen de la secuencia que se quiere analizar ARN Partimos de una extracción de ARN 5’ 3’ 3’ 5’ La gran mayoría de técnicas de La muestra de RNA inicial se secuenciación de ADN requiere algún trata con transcriptasa inversa paso de amplificación por PCR para obtener los cDNAs mRNA 3’ C TTTTTTTTT 5’ cDNA 3’ 5’ PCR SECUENCIACIÓN DE ADN Y DE 2. ANÁLISIS ANÁLISIS BIOINFORMÁTICOS SECUENCIAS DE ADN SECUENCIACIÓN DE ADN Y DE 2. ANÁLISIS ANÁLISIS BIOINFORMÁTICOS SECUENCIAS DE ADN SECUENCIACIÓN DE ADN Y DE 2. ANÁLISIS ANÁLISIS BIOINFORMÁTICOS SECUENCIAS DE ADN La incorporación de un ddNTP, al no tener el grupo hidroxilo 3’, detiene la síntesis de ADN SECUENCIACIÓN DE ADN Y DE 2. ANÁLISIS ANÁLISIS BIOINFORMÁTICOS SECUENCIAS DE ADN SECUENCIACIÓN DE ADN Y DE 2. ANÁLISIS ANÁLISIS BIOINFORMÁTICOS SECUENCIAS DE ADN 5’ TACTCGGCTAAG 3’ SECUENCIACIÓN DE ADN 2. ANÁLISISY DE ANÁLISIS 2. ANÁLISIS BIOINFORMÁTICOS SECUENCIAS DE SECUENCIAS DE ADN Los fragmentos comienzan a migrar por el capilar. Cuando alcanzan la posición del láser, éste excita el fluorocromo de cada uno de los fragmentos de DNA y la señal emitida es recogida por cada uno de los detectores situados en la parte posterior del gel. Las señales se digitalizan y se envían al ordenador SECUENCIACIÓN DE ADN Y DE 2. ANÁLISIS ANÁLISIS BIOINFORMÁTICOS SECUENCIAS DE ADN Acrilamida vs Electroforesis capilar Los secuenciadores automáticos generan una serie de picos de distintos colores (un color para cada base), que corresponden al resultado de la reacción de secuenciación. Esta información está contenida en el cromatograma. SOFTWARE Chromas Bioedit Formato.abi SECUENCIACIÓN DE ADN Y DE 2. ANÁLISIS ANÁLISIS BIOINFORMÁTICOS SECUENCIAS DE ADN SIEMPRE, la síntesis de un ácido nucleico se produce en sentido 5’→3’ POR TANTO, La secuencia que nos envían desde el servicio de secuenciación va a estar siempre en sentido 5’→3’ SECUENCIACIÓN DE ADN Y DE 2. ANÁLISIS ANÁLISIS BIOINFORMÁTICOS SECUENCIAS DE ADN SECUENCIADORES DE SEGUNDA GENERACIÓN ROCHE 454 ABI SOLID ION TORRENT ILLUMINA SECUENCIACIÓN DE ADN Y DE 2. ANÁLISIS ANÁLISIS BIOINFORMÁTICOS SECUENCIAS DE ADN ROCHE 454 ABI SOLID ION TORRENT PCR en emulsión y PCR en emulsión PCR en emulsión pirosecuenciación y ligación y síntesis Imágenes publicadas por M. Metzker. Nat Rev Genet. 2010 Jan;11(1):31-46. SECUENCIACIÓN DE ADN Y DE 2. ANÁLISIS ANÁLISIS BIOINFORMÁTICOS SECUENCIAS DE ADN ROCHE 454 ABI SOLID ION TORRENT PCR en emulsión y PCR en emulsión PCR en emulsión pirosecuenciación y ligación y síntesis ~ 400-700 pb Up to 100 pb 200-400 pb SECUENCIACIÓN DE ADN Y DE 2. ANÁLISIS ANÁLISIS BIOINFORMÁTICOS SECUENCIAS DE ADN SOLEXA GENOME ANALYZER Puente y síntesis Utilizan la amplificación clonal in vitro por medio de un PCR en puente Imágenes publicadas por M. Metzker. Nat Rev Genet. 2010 Jan;11(1):31-46. SECUENCIACIÓN DE ADN Y DE 2. ANÁLISIS ANÁLISIS BIOINFORMÁTICOS SECUENCIAS DE ADN Max 600 pb Kit 600 ciclos - 300PE Celdas de flujo (Flowcells) Conceptos Básicos Secuenciación Illumina Longitud del la lectura – Desde 50pb hasta 300pb Single end (SE) si secuenciamos el fragmento únicamente con un adaptador o Pair end (PE) si secuenciamos con los dos adaptadores obteniendo por tanto secuencia en ambos extremos SECUENCIACIÓN DE ADN Y DE 2. ANÁLISIS ANÁLISIS BIOINFORMÁTICOS SECUENCIAS DE ADN SECUENCIADORES DE TERCERA GENERACIÓN PacBio Oxford Nanopore SECUENCIACIÓN DE ADN Y DE 2. ANÁLISIS ANÁLISIS BIOINFORMÁTICOS SECUENCIAS DE ADN PacBio SECUENCIACIÓN DE ADN Y DE 2. ANÁLISIS ANÁLISIS BIOINFORMÁTICOS SECUENCIAS DE ADN Oxford Nanopore SECUENCIACIÓN DE ADN Y DE 2. ANÁLISIS ANÁLISIS BIOINFORMÁTICOS SECUENCIAS DE ADN PacBio Oxford Nanopore SECUENCIACIÓN DE ADN Y DE 2. ANÁLISIS ANÁLISIS BIOINFORMÁTICOS SECUENCIAS DE ADN Conceptos importantes tagging Adaptors – Son secuencias de ADN incorporadas durante la construcción de las librerías que posibilitan la amplificación de fragmentos y la secuenciación. Específicos de cada tecnología. Sample Index – Son secuencias de ADN (aprox. 8 nt) incorporadas durante la construcción de las librerías. Cada muestra queda marcada con un código lo que permite multiplexar las muestras durante la secuenciación. Unique Molecular Identifier (UMIs) – Son secuencias de ADN aleatorio (aprox. 12-16nt) que permiten el marcaje individual de cada transcrito. Esto permite la corrección de errores introducidos durante los ciclos de amplificación por PCR Cell Barcode (CB) – En librerías de Single Cell Sequencing, son secuencias de ADN conocidas que permiten el marcaje específico de cada célula, lo que posibilita individualizar la información genética de cada célula durante el análisis bioinformático Ejemplo amplicón secuenciación Single cell secuencing Adaptor Cell Unique Adaptor Sample Barcode molecular Index identifier SECUENCIACIÓN DE ADN Y DE 2. ANÁLISIS ANÁLISIS BIOINFORMÁTICOS SECUENCIAS DE ADN FORMATO.fastq El “Phred quality score” varía con la plataforma de secuenciación SECUENCIACIÓN DE ADN Y DE 2. ANÁLISIS ANÁLISIS BIOINFORMÁTICOS SECUENCIAS DE ADN FORMATO.fastq SECUENCIACIÓN DE ADN Y DE 2. ANÁLISIS ANÁLISIS BIOINFORMÁTICOS SECUENCIAS DE ADN FORMATO.fastq SOFTWARE FastQC SECUENCIACIÓN DE ADN Y DE 2. ANÁLISIS ANÁLISIS BIOINFORMÁTICOS SECUENCIAS DE ADN SECUENCIACIÓN DE ADN Y DE 2. ANÁLISIS ANÁLISIS BIOINFORMÁTICOS SECUENCIAS DE ADN.fastq Control de calidad de FastQC las lecturas.fastq Pelado y filtrado Trimmomatic Cutadapt de lecturas FastX toolkit.fastq SECUENCIACIÓN DE ADN Y 2. ANÁLISIS ANÁLISIS 3.DE ANÁLISISBIOINFORMÁTICOS SECUENCIAS DE GENOMAS DE ADN Genómica Genoma: conjunto de la información genética de un organismo. La genómica es la rama de la biología que se encarga del estudio de los genomas. Estudio: estructura, función y evolución Tradicionales Novedosas genética mendeliana, bioinformática o aplicación de métodos genética cuantitativa, informáticos en el análisis de datos genética de poblaciones y experimentales y simulación de los sistemas genética molecular biológicos SECUENCIACIÓN DE ADN Y 2. ANÁLISIS ANÁLISIS 3.DE ANÁLISISBIOINFORMÁTICOS SECUENCIAS DE GENOMAS DE ADN Caracterización del genoma de un organismo Técnicas citogenéticas  cariotipo Mapeo de ligamiento  mapa genético Secuenciación del genoma  mapa físico SECUENCIACIÓN DE ADN Y 2. ANÁLISIS ANÁLISIS 3.DE ANÁLISISBIOINFORMÁTICOS SECUENCIAS DE GENOMAS DE ADN La secuenciación de genoma completo (WGS) hace referencia al examen de un genoma mediante la lectura y la unión de pequeños fragmentos para determinar la secuencia de ADN de cromosomas completos La secuenciación de novo, hace referencia a secuenciar un organismo de nuevo, del cual no hay una secuencia modelo o de referencia. Las lecturas secuenciadas se ensamblan como contigs. Una vez que el genoma ha sido completamente secuenciado, ensamblado y anotado, se genera una secuencia de referencia. SECUENCIACIÓN DE ADN Y 2. ANÁLISIS ANÁLISIS 3.DE ANÁLISISBIOINFORMÁTICOS SECUENCIAS DE GENOMAS DE ADN Recomendaciones para secuenciar de un genoma ¡Muy importante! - Seleccionar un individuo que sea un buen ADN/ARN de alta calidad representante de la especie y que pueda proporcionar suficiente ADN. Integro – Sin degradación - Extraer más ADN del que cree que necesita. Libre de contaminantes Guardar tejido para utilizarlo en la extracción de ADN más adelante. Otras consideraciones… - Extraer ARN y hacer ARNseq del mismo individuo Evitar en lo posible hacer pooles para utilizar los datos de expresión durante la anotación. Preferentemente librerías libres de PCR Presencia de otros organismos Presencia de DNA de orgánulos SECUENCIACIÓN DE ADN Y 2. ANÁLISIS ANÁLISIS 3.DE ANÁLISISBIOINFORMÁTICOS SECUENCIAS DE GENOMAS DE ADN A tener en cuenta: Características del genoma Tamaño Inciso Bases de datos biológicas… tamaño de genomas Animales - http://www.genomesize.com Hongos - http://www.zbi.ee/fungal-genomesize Plantas - http://data.kew.org/cvalues Bacteria y arquea - http://www.genomesize.com/prokaryotes/ SECUENCIACIÓN DE ADN Y 2. ANÁLISIS ANÁLISIS 3.DE ANÁLISISBIOINFORMÁTICOS SECUENCIAS DE GENOMAS DE ADN A tener en cuenta: Características del genoma Tamaño > Mayor tamaño de genoma requiere mas cantidad de secuenciación. Secuencias repetitivas > Regiones que aparecen en múltiples localizaciones a lo largo del genoma Necesidad de secuencias largas que den información de la región flanqueante. Heterocigosidad > Los ensamblajes de genomas dan una únicas secuencia representativa (un alelo). Alelos muy diferentes pueden dar errores en el ensamblaje al desdoblar las secuencias. En especies con alta heterocigosidad es recomendable seleccionar individuos que presenten consanguinidad/endogamia. Nivel de ploidía > Recomendable utilizar tejidos haploides Contenido en Guanina-Citosina (GC) > Estas regiones son problemáticas para secuenciadores Illumina. Requieren mayor cobertura o el uso de secuencias largas (PacBio o Nanopore) SECUENCIACIÓN DE ADN Y 2. ANÁLISIS ANÁLISIS 3.DE ANÁLISISBIOINFORMÁTICOS SECUENCIAS DE GENOMAS DE ADN A tener en cuenta: Decidir con antelación qué tecnología de secuenciación a utilizar y herramientas bioinformáticas para ensamblar el genoma. Con ello planificar los recursos computacionales. - Dependerá mucho del tamaño del genoma, que determinará la cobertura necesaria…. ….. y esa necesidad de secuenciación determinará el precio. En la actualidad lo mas recomendable para ensamblar un genoma eucariota es la secuenciación mixta empleando secuencias cortas Pair End (Illumina) y secuencias largas (PacBio o Nanopore) En muchas ocasiones apoyado por otra tecnología como secuenciación Hi-C SECUENCIACIÓN DE ADN Y 2. ANÁLISIS ANÁLISIS 3.DE ANÁLISISBIOINFORMÁTICOS SECUENCIAS DE GENOMAS DE ADN La secuenciación Hi-C es una técnica de captura de la conformación cromosómica de alto rendimiento para analizar la organización espacial del genoma y mapear el plegamiento cromosómico de orden superior y los dominios topológicos asociados. https://www.jove.com/es/v/1869/hi-c-a-method-to-study-the-three-dimensional-architecture-of-genomes SECUENCIACIÓN DE ADN Y 2. ANÁLISIS ANÁLISIS 3.DE ANÁLISISBIOINFORMÁTICOS SECUENCIAS DE GENOMAS DE ADN Flujo de trabajo standard durante el ensamblaje de un genoma Control de calidad de las lecturas Pelado y filtrado de lecturas Trimmomatic Ensamblaje de secuencias en Contigs Ensamblaje de Contigs en scaffolds Validación del ensamblaje del genoma Evalúa los ensamblajes del genoma calculando Ensamblaje en varias métricas. Cromosomas Proporciona medidas cuantitativas para evaluar el ensamblaje del genoma basándose en las expectativas evolutivas del contenido de los genes a partir de ortólogos de copia única casi universales SECUENCIACIÓN DE ADN Y 2. ANÁLISIS ANÁLISIS 3.DE ANÁLISISBIOINFORMÁTICOS SECUENCIAS DE GENOMAS DE ADN Flujo de trabajo standard durante el ensamblaje de un genoma 1. Anotación estructural Métodos ab initio – intrínsecos Predicción de señales (codones de inicio, de terminación, sitios de splicing) Análisis del contenido (regiones codificantes y no codificantes) Predicción de genes (Programas específicos; Augustus, GeneMark, fgenesh, GeneScan) Predicción génica GENOMA Programas Específicos ENSAMBLADO Eugene Marker combiner Identificación de isoformas Métodos por similitud – extrínsecos, de evidencias externas Illumina Secuenciación procedente de RNA (cDNA, ESTs, RNAseq) Información de bases de datos de proteínas (Swissprot, TrEMBL) PacBio Genomas relacionados con la especie de estudio Elementos transponibles Datos de expresión SECUENCIACIÓN DE ADN Y 2. ANÁLISIS ANÁLISIS 3.DE ANÁLISISBIOINFORMÁTICOS SECUENCIAS DE GENOMAS DE ADN Flujo de trabajo standard durante el ensamblaje de un genoma 2. Anotación funcional Comparación de los Proteínas Dominios/Motivos Ortólogos genes identificados con diferentes bases de Uniprot NCBI CDDs KEGG KO datos para identificar Swissprot InterPro Phylome RefSeq Pfam OrthologDB homología significativa SignalIP Nombre del gen/proteína Términos GO Dominios, sitios funcionales Rutas metabólicas/reacciones SECUENCIACIÓN DE ADN Y 2. ANÁLISIS ANÁLISIS 3.DE ANÁLISISBIOINFORMÁTICOS SECUENCIAS DE GENOMAS DE ADN Una de las aplicaciones comunes tras realizar una búsqueda de homologías es la asignación de posibles funciones a las secuencias estudiadas. Las proteínas, dominios y motivos presentes en las bases de datos contienen información de la posible función o funciones que llevan a cabo. Estas funciones se organizan en ontologías. Las ONTOLOGIAS son vocabularios controlados y estructurados, que sirven básicamente dos propósitos fundamentales: - Disponer de colecciones estandarizadas de términos. - Organizar el conocimiento en un campo alrededor del lenguaje utilizado, ya que las relaciones entre términos reflejan la realidad biológica. Las mas comunes son: - Gene Ontology - Enzyme Commission Nomenclature SECUENCIACIÓN DE ADN Y 2. ANÁLISIS ANÁLISIS 3.DE ANÁLISISBIOINFORMÁTICOS SECUENCIAS DE GENOMAS DE ADN Gene Ontology (GO) Vocabulario controlado que describe los genes según su rol en los procesos biológicos (Biological Process, BP) su función molecular (Molecular Function, MF) o su localización en componentes celulares (Cellular Component, CC). A mayor nivel mas especificidad. Cada sub-ontología tiene sus propios términos y jerarquía Existen relaciones entre los términos PADRES y los HIJOS - Parte de - Instancia de Las bases de datos de Proteínas se han sumado a esta iniciativa e incluyen los términos GO como parte de sus anotaciones. SECUENCIACIÓN DE ADN Y 2. ANÁLISIS ANÁLISIS 3.DE ANÁLISISBIOINFORMÁTICOS SECUENCIAS DE GENOMAS DE ADN ECs (Enzyme Commission numbers) Los números EC es una nomenclatura de clasificación numérica para las enzimas, basado en las reacciones químicas que catalizan. Las rutas metabólicas descritas están disponibles en bases de datos. La mas importante es la Kyoto Encyclopedia of Genes and Genomes (KEGG) Reacciones de oxidación/reducción y de EC 1 Deshidrogenasa, transferencia de átomos de H, O o Oxidorreductasas oxidasa electrones desde una substancia a otra. Transferencia de un grupo funcional EC 2 Transaminasa, desde una substancia a otra. El grupo Transferasas quinasa puede ser metil-, acil-, amino- o fosfato. EC 3 Formación dos productos de un Lipasa, amilasa, Hidrolasas substrato por hidrólisis. peptidasa Adición o eliminación no hidrolítica de EC 4 grupos de los substratos. Pueden Descarboxilasa Liasas romper los enlaces C-C, C-N, C-O o C- S. EC 5 Isomerasa, Isomerización de una molécula. Isomerasas mutasa Unión de dos moléculas por síntesis de EC 6 nuevos enlaces C-O, C-S, C-N o C-C Sintetasa Ligasas con la rotura simultánea de ATP. SECUENCIACIÓN4.DE ADN Y 2. ANÁLISIS ANÁLISIS ALINEAMIENTO 3.DE ANÁLISISBIOINFORMÁTICOS SECUENCIAS DE DE SECUENCIAS GENOMAS DE ADN Alineamientos de secuencias y anotación funcional BLAST (Basic Local Alignment Search Tool) encuentra regiones de similitud entre secuencias biológicas. El programa compara secuencias de nucleótidos o proteínas con bases de datos de secuencias y calcula la significación estadística. Tipos de Blast blastn > Busca secuencias de nucleótidos homologas utilizando otra secuencia de nucleótidos blastp > Busca proteínas homologas utilizando la secuencia de aminoácidos de una proteína. blastx > Busca proteínas homologas utilizando una secuencia de nucleótidos que es traducida durante la búsqueda. tblastn > Busca secuencias de nucleótidos a partir de la secuencia de aminoácidos de una proteína. BLAST y otros algoritmos proporcionan un valor que evalúa la significancia del algoritmo. El “Expect value” representa el numero de alineamientos diferentes con scores equivalentes o mejores que el obtenido que esperaríamos encontrar en una búsqueda al azar sobre la base de datos. A menos “E value”, el score obtenido es mas significativo SECUENCIACIÓN4.DE ADN Y DE 2. ANÁLISIS ANÁLISIS ALINEAMIENTO BIOINFORMÁTICOS SECUENCIAS DE SECUENCIAS DE ADN Alineamiento de secuencias para la anotación funcional de genomas/transcriptomas Blast2GO: Herramienta que integra la búsqueda en bases de datos mediante BLAST y la extracción posterior de información mediante el análisis de los resultados. Programa muy útil cuando trabajamos con especies no modelo para realizar la anotación y análisis funcional de nuestras secuencias. 1) Búsqueda de secuencias homologas mediante blast (Blast) 2) Búsqueda de funciones asociadas existentes en los resultados de blast (Mapping) 3) Asignación de funcionalidad (Annotation) 4) Ampliación de anotación en bases de datos Modulo Functional Analisis OmicsBox de dominios (InterProScan) 5) Identificación de genes que codifican enzimas en rutas metabólicas SECUENCIACIÓN4.DE ADN Y DE 2. ANÁLISIS ANÁLISIS ALINEAMIENTO BIOINFORMÁTICOS SECUENCIAS DE SECUENCIAS DE ADN 50_Secuencias_Prokka_CDS.fasta SECUENCIACIÓN4.DE ADN Y DE 2. ANÁLISIS ANÁLISIS ALINEAMIENTO BIOINFORMÁTICOS SECUENCIAS DE SECUENCIAS DE ADN SECUENCIACIÓN4.DE ADN Y DE 2. ANÁLISIS ANÁLISIS ALINEAMIENTO BIOINFORMÁTICOS SECUENCIAS DE SECUENCIAS DE ADN SECUENCIACIÓN4.DE ADN Y DE 2. ANÁLISIS ANÁLISIS ALINEAMIENTO BIOINFORMÁTICOS SECUENCIAS DE SECUENCIAS DE ADN SECUENCIACIÓN4.DE ADN Y DE 2. ANÁLISIS ANÁLISIS ALINEAMIENTO BIOINFORMÁTICOS SECUENCIAS DE SECUENCIAS DE ADN SECUENCIACIÓN4.DE ADN Y DE 2. ANÁLISIS ANÁLISIS ALINEAMIENTO BIOINFORMÁTICOS SECUENCIAS DE SECUENCIAS DE ADN SECUENCIACIÓN4.DE ADN Y DE 2. ANÁLISIS ANÁLISIS ALINEAMIENTO BIOINFORMÁTICOS SECUENCIAS DE SECUENCIAS DE ADN SECUENCIACIÓN4.DE ADN Y DE 2. ANÁLISIS ANÁLISIS ALINEAMIENTO BIOINFORMÁTICOS SECUENCIAS DE SECUENCIAS DE ADN SECUENCIACIÓN4.DE ADN Y DE 2. ANÁLISIS ANÁLISIS ALINEAMIENTO BIOINFORMÁTICOS SECUENCIAS DE SECUENCIAS DE ADN SECUENCIACIÓN4.DE ADN Y DE 2. ANÁLISIS ANÁLISIS ALINEAMIENTO BIOINFORMÁTICOS SECUENCIAS DE SECUENCIAS DE ADN SECUENCIACIÓN4.DE ADN Y DE 2. ANÁLISIS ANÁLISIS ALINEAMIENTO BIOINFORMÁTICOS SECUENCIAS DE SECUENCIAS DE ADN SECUENCIACIÓN DE ADN Y ANÁLISIS BIOINFORMÁTICOS Otras herramientas de anotación funcional http://eggnog-mapper.embl.de/ http://eggnog-mapper.embl.de/MM_8rco46_g/ SECUENCIACIÓN4.DE ADN Y 2. ANÁLISIS ANÁLISIS ALINEAMIENTO 3.DE ANÁLISISBIOINFORMÁTICOS SECUENCIAS DE DE SECUENCIAS GENOMAS DE ADN Análisis de transcriptomas y expresión diferencial El transcriptoma es el conjunto de moléculas de ARN mensajero (mARN) y de ARN no codificante presente en una célula o tejido concreto. Ácido ribonucleico (ARN) ~ 5% ~ 15% ~ 80% Otros ARNs (lncRNA, miRNA, siRNA, piRNA) SECUENCIACIÓN4.DE ADN Y 2. ANÁLISIS ANÁLISIS ALINEAMIENTO 3.DE ANÁLISISBIOINFORMÁTICOS SECUENCIAS DE DE SECUENCIAS GENOMAS DE ADN La transcriptómica es el estudio RNA-seq de los perfiles de expresión génica; Secuencias obtenidas a partir de RNA > cDNA evaluación simultánea de los niveles de expresión de múltiples genes en un tejido determinado en un momento concreto. Tenemos genoma No tenemos genoma de referencia de referencia Ensamblaje de novo del transcriptoma Remapeo y obtención de datos de abundancia Ensamblaje de transcritos empleando el mapeo con splicing y obtención de datos de abundancia SECUENCIACIÓN4.DE ADN Y 2. ANÁLISIS ANÁLISIS ALINEAMIENTO 3.DE ANÁLISISBIOINFORMÁTICOS SECUENCIAS DE DE SECUENCIAS GENOMAS DE ADN Flujo de trabajo standard análisis de expresión RNAseq.fastq Control de calidad de Análisis de Expresión Diferencial FastQC las lecturas.fastq Mínimo 3 réplicas biológicas por Pelado y filtrado Trimmomatic Cutadapt cada condición de lecturas FastX toolkit.fastq Sin splicing Con splicing Mapeo lecturas sobre Bowtie2 HiSat2 Ejemplo genoma de referencia Bwa Tophat2 Células Novoalign Star Control tumorales.sam/.bam Soap minimap3 Identificación, catalogación Cufflinks Strawberry y extracción de valores de StringTie Rsem mapeo para cada gen HTSeq.txt Análisis de expresión Deseq2 Limma diferencial EdgeR Cuffdiff SECUENCIACIÓN4.DE 3. ADN 2. ANÁLISIS Y ANÁLISIS ALINEAMIENTO INTERPRETACIÓN 3.DE ANÁLISISBIOINFORMÁTICOS SECUENCIAS DE DE SECUENCIAS FUNCIONAL GENOMAS DE ADN GO:0002376 immune system process 5.05e-19 GO:0001817 regulation of cytokine production 2.19e-15 GO:0009987 cellular process 3.28e-15 “Single enrichment analysis” Genes sobreexpresados en la clase B En un estudio de expresión diferencial los genes que muestran variaciones significativas tras aplicar el estadístico adecuado quedan Test estadístico para Test estadístico para identificar genes agrupados en función de la identificar funciones expresados de manera expresión. En el ejemplo nos (términos GO) diferencial (t-test, sobrerrepresentados en ANOVA, RankProd) interesaría conocer que uno y otro grupo (Test ajustando p-valor por funcionalidades están presentes de Fisher) contrastes multiples. de manera significativa en cada (FDR, Bonferroni) grupo. En este caso comparamos un grupo frente al otro. Genes sobreexpresados en la clase A GO:0046903 secretion GO:0051248 negative regulation of protein metabolic process GO:0044271 cellular nitrogen compound biosynthetic process SECUENCIACIÓN4.DE 3. ADN 2. ANÁLISIS Y ANÁLISIS ALINEAMIENTO INTERPRETACIÓN 3.DE ANÁLISISBIOINFORMÁTICOS SECUENCIAS DE DE SECUENCIAS FUNCIONAL GENOMAS DE ADN “Gene set enrichment analysis” En este caso los genes no son seleccionados de acuerdo a un análisis previo. No se establece realiza un filtro estadístico inicial. Los genes son seleccionados bajo la perspectiva de biología de sistemas detectando previamente grupos de genes de funcionalidad relacionada. Incorpora las medidas experimentales a la información previa disponible SECUENCIACIÓN4.DE 3. ADN 2. ANÁLISIS Y ANÁLISIS ALINEAMIENTO INTERPRETACIÓN 3.DE ANÁLISISBIOINFORMÁTICOS SECUENCIAS DE DE SECUENCIAS FUNCIONAL GENOMAS DE ADN Los grupos de genes que interesa investigar han sido previamente seleccionados por el investigador e incluidos en grupos denominados Gene set (A). Podrían ser los genes incluidos en cada ruta metabólica, genes que previamente han sido identificados para una función concreta o que habían mostrado coexpresión en experimentos previos… Interesaría conocer cual de estos grupos esta enriquecido de manera significativa en nuestro experimento del que tenemos una matriz de datos de expresión (B). (A) (B) SECUENCIACIÓN4.DE 3. ADN 2. ANÁLISIS Y ANÁLISIS ALINEAMIENTO INTERPRETACIÓN 3.DE ANÁLISISBIOINFORMÁTICOS SECUENCIAS DE DE SECUENCIAS FUNCIONAL GENOMAS DE ADN Gene Gene Gene Set 1 Set 2 Set 3 Tras aplicar un análisis estadístico los genes quedan ordenados en un ranking. Cuando una función no esta relacionada con nuestro experimento lo esperable por azar NO se establece el es que los genes que están filtro estadístico incluidos en el Gene Set se como en “Single distribuyan de manera aleatoria, Enrichment Análisis” sin un orden claro, a lo largo del ranking (Gene Set 1) Cuando una función este enriquecida los genes incluidos en el Gene Set estarán distribuidos a lo largo del ranking preferentemente hacia alguna de las clases (Gene Set 2 y 3). SECUENCIACIÓN4.DE 3. ADN 2. ANÁLISIS Y ANÁLISIS ALINEAMIENTO INTERPRETACIÓN 3.DE ANÁLISISBIOINFORMÁTICOS SECUENCIAS DE DE SECUENCIAS FUNCIONAL GENOMAS DE ADN Pasos que sigue GSEA: 1) Calcula un “Enrichment Score” (ES) para cada Gene Set 2) Estima el nivel de significancia (p-valor) asociado al ES 3) Ajusta el p-valor por hipótesis multiples Que necesitamos para correr GSEA: 1) Matriz de expresión (O una lista de genes ordenados según un ranking) 2) Indicaciones del fenotipo Fenotipos discretos (2 o mas) Fenotipos continuos (Series temporales) 3) Gene Sets 4) Anotaciones del chip (Opcional si trabaja con microarrays) SECUENCIACIÓN4.DE 3. ADN 2. ANÁLISIS Y ANÁLISIS ALINEAMIENTO INTERPRETACIÓN 3.DE ANÁLISISBIOINFORMÁTICOS SECUENCIAS DE DE SECUENCIAS FUNCIONAL GENOMAS DE ADN ¡¡¡FORMATOS ESPECIFICOS!!! *.gct *.cls *.gmt TEMA 3 ANÁLISIS BIOINFORMÁTICOS PARA LA ANOTACIÓN COMPLETA DE GENOMAS Pedro Perdiguero Jiménez Departamento Genética, Fisiología y Microbiología UD Genética Facultad de Ciencias Biológicas [email protected] 3. ANOTACIÓN COMPLETA DE GENOMAS Metodologías que ayudan a completar la anotación de un genoma Búsqueda de Variantes (SNPs, indels, SRR) Búsqueda de Elementos Funcionales Identificación de variantes (dRAD-seq, ddRADseq) Análisis de transcriptomas (RNA-seq, miRNA-seq) Estudios evolutivos Análisis de epigenomas (MNasa-seq, ATAC-seq, DNAsa-seq, FAIRE-seq) Estudios de asociación (GWAS) Análisis de elementos reguladores (ChIP-seq) Análisis de metilación (BS-seq) 3. ANOTACIÓN COMPLETA DE GENOMAS Flujo de trabajo standard búsqueda de variantes.fastq Control de calidad de FastQC las lecturas.fastq Pelado y filtrado Trimmomatic Cutadapt de lecturas FastX toolkit.fastq Sin splicing Con splicing Mapeo lecturas sobre Bowtie2 HiSat2 genoma de referencia Bwa Tophat2 Novoalign Star.sam/.bam Soap minimap3 3. ANOTACIÓN COMPLETA DE GENOMAS Formatos de alineamientos.SAM (Sequence Alignment/Map) Archivo delimitado por tabulaciones que se divide en las líneas de cabecera que son opcionales y están precedidas por el símbolo "@", y las líneas de alineamiento. Actualmente es el formato más utilizado para almacenar alineamiento o mapeos de secuencias procedentes de secuenciación masiva. Casi todos los programas de alineamiento generarán como salida archivos SAM..BAM (Binary Alignment/Map) Es la versión binaria del archivo.SAM que contiene la misma información pero en un archivo de tamaño mas reducido..BAI (Binary Alignment Index) Es un índice del genoma necesario para visualizar el archivo.BAM previamente ordenado 3. ANOTACIÓN COMPLETA DE GENOMAS Formatos de anotación de un genoma.BED (Browser Extensible Data) Es un formato de archivo de texto utilizado para almacenar regiones genómicas como coordenadas y anotaciones asociadas. Los datos se presentan en forma de columnas separadas por espacios o tabulaciones. Lo mínimo Lo mas común 3. ANOTACIÓN COMPLETA DE GENOMAS Flujo de trabajo standard búsqueda de variantes.fastq Control de calidad de FastQC las lecturas.fastq Pelado y filtrado Trimmomatic Cutadapt de lecturas FastX toolkit.fastq Sin splicing Con splicing Mapeo lecturas sobre Bowtie2 HiSat2 genoma de referencia Bwa Tophat2 Novoalign Star.sam/.bam Soap minimap3 Marcaje y limpieza Picard SAMTools de replicados DeDup.bam Identificación, catalogación GATK SAMTools y filtrado de variantes FreeBayes DeepVariant.vcf 3. ANOTACIÓN COMPLETA DE GENOMAS Formatos de alineamientos.VCF (Variant Call Format) Archivo de texto utilizado en bioinformática para almacenar las variaciones de la secuencia de los genes..BCF (Binary Call Format) Es la versión binaria del archivo.VCF que contiene la misma información pero en un archivo de tamaño mas reducido. 3. ANOTACIÓN COMPLETA DE GENOMAS Flujo de trabajo standard búsqueda de variantes.fastq Control de calidad de FastQC las lecturas.fastq Pelado y filtrado Trimmomatic Cutadapt de lecturas FastX toolkit.fastq Sin splicing Con splicing Mapeo lecturas sobre Bowtie2 HiSat2 genoma de referencia Bwa Tophat2 Novoalign Star.sam/.bam Soap minimap3 Marcaje y limpieza Picard SAMTools de replicados DeDup.bam Identificación, catalogación GATK SAMTools y filtrado de variantes FreeBayes DeepVariant.vcf Predicción de efectos de snpEFF variantes variantes VEP 3. ANOTACIÓN COMPLETA DE GENOMAS Uso de variantes para análisis evolutivos o estudios de asociación Los polimorfismos de un solo nucleótido (SNPs) son marcadores que brindan información sobre la diversidad genética y, al mismo tiempo, son útiles para establecer diferencias interpoblacionales. 3. ANOTACIÓN COMPLETA DE GENOMAS Uso de variantes para análisis evolutivos o estudios de asociación Genome Wide Association Study (GWAS) Es un análisis de una variación genética a lo largo de todo el genoma humano con el objetivo de identificar su asociación a un rasgo observable. Los GWAS suelen centrarse en asociaciones entre los polimorfismos de un solo nucleótido (SNPs) y rasgos fenotípicos específicos, como pueden ser las enfermedades. 3. ANOTACIÓN COMPLETA DE GENOMAS Análisis de epigenomas ChIP-seq se basa en la inmunoprecipitación de la cromatina de sitios de unión de proteínas asociadas al ADN. La cromatina se fija en las células y luego se fragmenta mediante sonicación o digestión con MNasa antes de enriquecerla para el epítopo proteico de interés utilizando un anticuerpo específico. Los enlaces cruzados se invierten utilizando proteinasa K y calor y el ADN se prepara entonces para el análisis por secuenciación, hibridación de matriz o PCR Meyer, Clifford A.et al., Nature Reviews Genetics 15.11(2014):709-721. 3. ANOTACIÓN COMPLETA DE GENOMAS Análisis de epigenomas DNase-seq emplea la digestión con DNasa I de la cromatina para identificar regiones reguladoras del genoma, incluyendo potenciadores y promotores y sitios de unión de factores de transcripción. El ADN de los núcleos aislados se digiere con DNasa I a una concentración que debe optimizarse para cada experimento. Se prepara una libreria a partir de los fragmentos digeridos mediante la ligación de adaptadores y la escisión de etiquetas de secuencia de ~20 pb, seguida de la selección del tamaño de una molécula única de la biblioteca o mediante el fraccionamiento bioquímico de los fragmentos seguido de la ligación de adaptadores de secuenciación. Meyer, Clifford A.et al., Nature Reviews Genetics 15.11(2014):709-721. 3. ANOTACIÓN COMPLETA DE GENOMAS Análisis de epigenomas ATAC-seq utiliza una transposasa hiperactiva para insertar marcadores transponibles con adaptadores específicos, capaces de unir cebadores para secuenciar, en regiones abiertas de cromatina. Luego, la PCR se puede usar para amplificar secuencias adyacentes a los transposones insertados, lo que permite la determinación de secuencias de cromatina abiertas sin provocar un cambio en la estructura de la cromatina. Meyer, Clifford A.et al., Nature Reviews Genetics 15.11(2014):709-721. 3. ANOTACIÓN COMPLETA DE GENOMAS Análisis de epigenomas MNasa-seq usa la nucleasa microcócica (endo-exonucleasa micrococcal nucleasa) derivada de la bacteria Staphylococcus aureus. Se basa en la digestión del ADN abierto para aislar bandas de ~ 140 pb de los nucleosomas o bandas más cortas si se determina la información del factor de transcripción. Meyer, Clifford A.et al., Nature Reviews Genetics 15.11(2014):709-721. 3. ANOTACIÓN COMPLETA DE GENOMAS Análisis de epigenomas FAIRE-seq se basa en el uso de formaldehído para reticular las proteínas diana con el ADN y luego la sonicación posterior y la extracción con fenol-cloroformo para separar el ADN no reticulado y el ADN reticulado. El ADN no reticulado se secuencia y analiza, lo que permite la observación directa de la cromatina abierta. Meyer, Clifford A.et al., Nature Reviews Genetics 15.11(2014):709-721. 3. ANOTACIÓN COMPLETA DE GENOMAS Flujo de trabajo standard secuenciación epigenoma.fastq Control de calidad de FastQC las lecturas.fastq Pelado y filtrado Trimmomatic Cutadapt de lecturas FastX toolkit.fastq Sin splicing Mapeo lecturas sobre Bowtie2 genoma de referencia Bwa Novoalign.sam/.bam Soap Marcaje y limpieza Picard SAMTools de replicados DeDup.bam Macs2 Bcp Llamada de picos Sicer Homer.narrowPeak.broadPeak Macs2 Visualizador de picos deepTools. bigWig Meyer, Clifford A.et al., Nature Reviews Genetics 15.11(2014):709-721..bedGraph 3. ANOTACIÓN COMPLETA DE GENOMAS Formatos asociados a análisis de epigenoma.narrowPeak /.broadPeak Se utiliza para proporcionar los llamados picos/regiones de enriquecimiento de la señal basados en datos agrupados y normalizados. Es como el formato BED pero incorpora nuevas columnas relativas a la intensidad del pico y la significancia.narrowPeak.broadPeak.bigWig Útil para datos densos y continuos que se mostrarán en el Navegador del Genoma como un gráfico 3. ANOTACIÓN COMPLETA DE GENOMAS Flujo de trabajo standard secuenciación epigenoma Generar perfiles epigenómicos Mapear la accesibilidad de la cromatina en diferentes tejidos o condiciones Identificar las posiciones de los nucleosomas Identificar factores de transcripción importantes Conocer patrones de A

Bioinformática: Bases de Datos (PDF)

Document Details

Tags

Related

Summary

Full Transcript