Transcriptómica - Caren Vega Retter PDF

Document Details

EfficaciousRuby50

Uploaded by EfficaciousRuby50

Caren Vega Retter

Tags

RNA sequencing Transcriptomics RNA-Seq analysis Molecular Biology

Summary

These lecture notes describe transcriptomics and the RNA-Seq analysis process, including experimental design, data analysis, and normalization methods.

Full Transcript

Transcriptómica Caren Vega Retter ¿Transcriptoma? + Es el conjunto de moléculas de ARN presentes en una célula, tejido u organo. Caracterizar el transcriptoma de una muestra biológica en una condición y tiempo...

Transcriptómica Caren Vega Retter ¿Transcriptoma? + Es el conjunto de moléculas de ARN presentes en una célula, tejido u organo. Caracterizar el transcriptoma de una muestra biológica en una condición y tiempo determinado ¿Qué información nos entrega la secuenciación del RNA? Construir un transcriptoma Descubrir nuevos genes Generar redes de co-expresión Determinar genes con expresión diferencial Encontrar Isoformas, eventos de splicing Debemos considerar.... Diseño experimental (RNA-Seq) ¿Cuál es el objetivo de la secuenciación? Análisis de expresión de isoformas Transcriptomas pobremente anotados Paired-end de novo assembly Análisis de expresión de genes en organismos bien anotados Single-end Profundidad de secuenciación y réplicas Réplicas Técnicas Biológicas Variabilidad en las medidas: ruido técnico y variación biológica Trabajo en grupo: 5 minutos Fuentes de variación Biológicas: sexo, edad, condición, perturbación. Técnicas: ¿diferencias en el tiempo la colecta?, diferencias en el tiempo de procesamiento, diferencias en los reactivos (extracción de RNA), en la generación de las librerias. Profundidad de la secuenciación (cobertura) Actualmente se habla de cantidad de reads, pero……. Cobertura 2x, 3x, 4x, etc Número de lecturas secuenciadas para una muestra dada Datos de utilidad: kb (kbp) = kilo base pairs = 1,000 bp Mb (Mbp) = mega base pairs = 1,000,000 bp Gb (giga base pairs) = 1,000,000,000 bp. Entonces…. Especie de estudio = 1 GB Secuenciación = 4 GB ¿Cuál es la profundidad? DNA codificante, aproximadamente 1% (5%) Genoma 1 GB ¿transcriptoma? Entonces…. Especie de estudio = 1 GB = 0,01 GB (transcriptoma) Secuenciación = 0,20 GB ¿Cuál es la profundidad? Análisis de datos de RNA-Seq ¿Cuál es el flujo de trabajo? +Control de calidad +Mapeo (Alineamiento) +Cuantificación +Anotación +Detectar expresión diferencial Cuando se hace un RNA-Seq ¿que se obtiene? Primera línea: comienza con @ y es seguida por el identificador de la secuencia Segunda línea: es la secuencia. Tercera línea: comienza con símbolo + y puede ser seguido por el mismo identificador de la línea 1. Cuarta línea: contiene los valores de calidad de la secuencia, tiene la misma cantidad de símbolos como letras tiene la secuencia. Control de calidad +Calidad de los reads +Contenido de GC Outliers +Presencia de adaptadores presentado más de 30% de +Errores de secuenciación discordancia, deberían ser eliminados (GC) FastQC Trimmomatic NGSQC Control de calidad Phred o Q Mapeo/alineamiento Conessa et al., 2016 Calidad del mapeo % de reads Uniformidad mapeados Genoma vs transcriptoma de referencia: mapeo único vs multi-mapping De novo ensamble Consiste en crear un genoma o transcriptoma de referencia Contig_1 Contig_2 Contig_3 SOAPdenovo- Trans, Oases, Trans-ABySS or Trinity Paired-end MAPEO DE LOS READS Contig_1 Contig_2 Contig_3 Cuantificación Basado en el número de lecturas que mapean a cada gen/contig Secuencia Ind_1 Ind_2 Ind_3 Ind_4 Contig_1 7 5 20 22 Contig_2 15 11 2 1 Contig_3 0 2 8 10 Contig_4 246 230 451 500 Contig_5 780 665 1002 978 Contig_6 3 0 2 0 Contig_7 14 13 5 7 Normalización - Número total de reads - Largo del gen RPKM Diversos métodos de normalización FPKM TPM RPKM: Read per Kilobase Million FPKM: Fragment per Kilobase Million TPM: Transcript Per Kilobase Million Normalización dentro de una muestra RPKM (Single-end) Read per Kilobase Million. Million: Cantidad de Reads en la secuenciación (Normalización 1) Kilobase: largo del gen (Normalización 2). Gen Ind 1 Ind 2 Ind 3 W (1Kb) 5 25 16 Total reads Ten of reads X (3 Kb) 15 30 10 Ind 1: 30 Ind 1: 3 Y (2Kb) 0 10 5 Ind 2: 73 Ind 2: 7.3 Ind 3: 39 Ind 3: 3.9 Z (4Kb) 10 8 8 Gen Ind 1 RPM Ind 2 RPM Ind 3 RPM W (1Kb) 1.67 3.42 4.1 X (3Kb) 5 4.11 2.56 Primera normalización Y (2Kb) 0 1.37 1.28 Z (4Kb) 3.33 1.1 2.05 Gen Ind 1 RPKM Ind 2 RPKM Ind 3 RPKM W (1Kb) 1.67 3.42 4.1 Segunda X (3Kb) 1.67 1.37 0.85 normalización Y (2Kb) 0 0.69 0.64 Z (4Kb) 0.83 0.28 0.51 Calculen ustedes Gen Ind 1 Ind 2 Ind 3 A (2Kb) 8 8 5 B (1.5 Kb) 40 28 33 C (2.5 Kb) 20 30 15 D (1Kb) 60 70 65 Veamos que obtuvieron Gen Ind 1 RPM Ind 2 RPM Ind 3 RPM A (2Kb) 0.63 0.59 0.42 B (1.5 Kb) 3.13 2.06 2.8 C (2.5 Kb) 1.56 2.21 1.27 D (1Kb) 4.69 5.15 5.51 Gen Ind 1 RPKM Ind 2 RPKM Ind 3 RPKM A (2Kb) 0.32 0.3 0.21 B (1.5 Kb) 2.09 1.37 1.87 C (2.5 Kb) 0.62 0.88 0.51 D (1Kb) 4.69 5.15 5.51 FPKM (Paired-end) The only difference between RPKM and FPKM is that FPKM takes into account that two reads can map to one fragment (and so it doesn’t count this fragment twice). TPM Count up all the RPK Divide the read counts by TPM is very similar to values in a sample and the length of each gene RPKM. The only divide this number by in kilobases. This gives difference is the order of 1,000,000. This is your you reads per kilobase operations. “per million” scaling (RPK). factor. Divide the RPK values by the “per million” scaling factor. This gives you TPM. Diferencias entre “dentro de la muestra” y “entre muestras” Conessa et al., 2016 Reproducibilidad REPLICAS TÉCNICAS: REPLICAS BIOLÓGICAS: SPEARMAN R2 > 0.9 PCA Anotación Gene Ontology (GO) describe el conocimiento en tres dominios biológicos: Cellular Component: La ubicación asociada a una estructura celular donde el producto génico ejecuta la función. (Anatomía Celular) Biological Process: Proceso biológico asociado. Por ejemplo, reparación celular. Molecular Function: Términos que describen actividades moleculares. Puede ser catálisis o transporte. (Activity) EGGNOG- MAPPER-V2 Blast2Go Expresión diferencial Comparación entre condiciones (entre muestras) + Genes expresados diferencialmente entre condiciones + Nos entrega información sobre procesos biológicos implicados o asociados a las condiciones de interés Up-regulated o Down- Regulated DEG ¿Y cómo comparamos entre muestras? Problemas: Diferencias en los tamaños de las librerías. Diferencias en la composición de las librerías (tejidos – condiciones - etc). DESeq2 Programas que permiten Cuffdiff determinar expresión diferencial. edgeR Tienen sus propias normalizaciones limma-voom Sleuth Debemos estar familiarizados con formatos como SAM - BAM Estas normalizaciones permiten: - Eliminar los transcritos - Suavizar el efecto de los que se expresan en una outliers en el conteo de sola condición. los reads. - Identificar genes que se expresan diferencialmente entre una condición y otra, pero que pueden verse opacados por los outliers. Análisis de sobre- Fisher Exact test: permite determinar si hay una representación sobre-representación o sub-representación (en comparación con el resto del genoma) de (enriquecimiento) ciertas categorías en los genes expresados diferencialmente. RNA-Seq MEL Mayores tasas de sobre-expresión (16.62 – 24.32) Fosfoenolpiruvato Enzima controladora de citosólico la gluconeogénesis Intestinal trypsin Proteólisis 3 genes con alta sobre-expresión asociados al cáncer Proteína nuclear cisteína rica en serina-1 Ornitina Factor de transcripción descarboxylasa Junb-like Asociado con la Asociados a la supresión promoción y progresión de tumores. de tumores. Enrichment analysis of genes up-regulated in Mel Categoría kinetochore microtubule C centrosomal corona C kinetochore binding F cortical microtubule cytoskeleton C microtubule nucleation P microtubule bundle formation P microtubule plus-end binding F phosphoenolpyruvate carboxykinase (GTP) activity F phosphoenolpyruvate carboxykinase activity F 3-beta-hydroxy-delta5-steroid dehydrogenase activity F microtubule polymerization P Enrichment analysis of genes up-regulated in Pel Categoría methyltransferase complex C PEL response to metal ion cerebellum structural organization P P hindbrain structural organization P transforming growth factor beta receptor, cytoplasmic mediator activity F autophagic cell death P peptidase activator activity involved in apoptotic process F cysteine-type endopeptidase activator activity involved in apoptotic process F pICln-Sm protein complex C methylosome C endoplasmic reticulum chaperone complex C intracellular organelle lumen C organelle lumen C nuclear part C membrane-enclosed lumen C response to inorganic substance P cell volume homeostasis P mitotic cell cycle arrest P histone acetyltransferase activity (H4-K8 specific) F histone acetyltransferase activity (H4-K5 specific) F Set1C/COMPASS complex C histone acetyltransferase activity (H4-K16 specific) F H4 histone acetyltransferase activity F activation of cysteine-type endopeptidase activity involved in apoptotic process P misfolded protein binding F histone H4-K8 acetylation P histone H4-K5 acetylation P cyclin-dependent protein serine/threonine kinase inhibitor activity F histone methyltransferase activity (H3-K4 specific) F cyclin-dependent protein serine/threonine kinase regulator activity F cellular response to glucose starvation P activation of cysteine-type endopeptidase activity P Recapitulemos…… Referencia

Use Quizgecko on...
Browser
Browser