Tema 6 Organización del genoma en eucariotas I PDF
Document Details
Uploaded by SmilingBegonia
Universidad de Valencia
Tags
Summary
Este documento analiza la organización del genoma en eucariotas, incluyendo temas como la variación del tamaño del genoma, la paradoja del valor C y G, la cinética de reasociación y clasificación del DNA repetitivo. Se incluyen ejemplos de proyectos genoma en eucariotas como el proyecto Genoma humano.
Full Transcript
Tema 6 TEMA 6: ORGANIZACIÓN DEL GENOMA EN EUCARIOTAS (I) Características generales Variación del tamaño del genoma, paradojas del valor C y G Cinética de reasociación y complejidad del genoma Clasificación del DNA repetitivo: secuencias funcionales y no funcionales Ejemplos de proyectos gen...
Tema 6 TEMA 6: ORGANIZACIÓN DEL GENOMA EN EUCARIOTAS (I) Características generales Variación del tamaño del genoma, paradojas del valor C y G Cinética de reasociación y complejidad del genoma Clasificación del DNA repetitivo: secuencias funcionales y no funcionales Ejemplos de proyectos genoma en eucariotas: El proyecto Genoma humano y otros proyectos asociados Otros proyectos genoma 1 Tema 6 1. Características generales 03‐10‐24: 102697 genomas secuenciados, 3062 en borrador y 13395 en progreso (https://gold.jgi.doe.gov/distribution) CARACTERÍSTICAS DE LOS GENOMAS EUCARIOTAS (I) No existe correlación entre el tamaño del genoma de un organismo o el número de genes que contiene y su complejidad A mayor complejidad del organismo eucariota encontramos que: 1. El genoma contiene mayor cantidad de DNA repetido (principalmente secuencias no codificantes y elementos transponibles) 2. Las secuencias que codifican proteínas representan una pequeña parte del genoma (↑ regiones reguladoras, UTRs, intrones, ncRNAs, secuencias intergénicas) Como consecuencia, los genomas de organismos más complejos son menos compactos (< densidad génica) 2 Tema 6 1. Características generales CARACTERÍSTICAS DE LOS GENOMAS EUCARIOTAS (II) A mayor complejidad del organismo, genes con más exones/intrones y de mayor tamaño 3 Tema 6 1. Características generales CARACTERÍSTICAS DE LOS GENOMAS EUCARIOTAS (III) En organismos complejos los genes no están uniformemente distribuidos: regiones pobres y ricas en genes Genes in class III region of HLA (human leukocyte antigen) complex are tighly packed, and overlapping in some cases. Arrows show the direction of transcription (chromosome 6). 4 Tema 6 1. Características generales CARACTERÍSTICAS DE LOS GENOMAS EUCARIOTAS (IV) Presencia de genes solapados (overlapping genes) Different types of overlapping human genes. (c) Nested gene. (d) Embedded gene. (e) Genes on opposite strands with overlapping locus but no overlap in the exonic region. (f) Tail‐to‐tail overlap involving 3’‐UTRs. (g) Head‐to‐head overlap involving 5’‐UTRs and coding sequence. Dark (red) boxes: coding sequence; light (blue) boxes: untranslated regions. Makalolowska et al. 2005 a Percentage calculated after exclusion of nested genes 5 Tema 6 1. Características generales CARACTERÍSTICAS DE LOS GENOMAS EUCARIOTAS (V) Ejemplos de genes solapados en el genoma humano (A) El intrón 27b del gen NF1 (neurofibromatosis tipo 1) contiene tres pequeños genes, todos transcritos de la cadena complementaria. (B) El intrón 2 del gen HTR2C contiene un gen de snoRNA y cuatro genes de miRNAs, que forman parte del transcrito primario de HTR2C, y posteriormente son procesados a partir de la secuencia del intrón 2. 6 Tema 6 2. Variación del tamaño del genoma y paradoja del valor C TAMAÑOS DE LOS GENOMAS EUCARIOTAS La cantidad de DNA por genoma haploide es una característica de cada especie y se conoce como valor C ESPERADO: Relación entre tamaño del genoma y la complejidad del organismo como en procariotas (a mayor complejidad mayor tamaño de genoma y más genes) OBSERVADO: NO hay correlación entre la complejidad del organismo y el tamaño de su genoma PARADOJA DEL VALOR C 7 Tema 6 2. Variación del tamaño del genoma y paradoja del valor G ¿Se relaciona la complejidad del organismo con el número de genes (proteínas)? NO hay correspondencia entre la complejidad del organismo y el número de genes en su genoma PARADOJA DEL VALOR G Explicación: Procesado alternativo (mayor proteoma con los mismos genes) Expansión del DNA no codificante (secuencias reguladoras) Genes de RNAs funcionales (difíciles de identificar) Modificaciones de las proteínas 8 Tema 6 2. Variación del tamaño del genoma Las grandes diferencias en el tamaño del genoma en eucariotas se deben a la proliferación, en algunos casos, de secuencias repetidas* * (p.e. elementos transponibles y otras) Fragmentos de 200 kb del genoma de diferentes eucariotas: tamaño (Mb) 3.100 12,2 175 2.500 9 Tema 6 3. Cinética de reasociación y complejidad del genoma CINÉTICA DE REASOCIACIÓN Las primeras evidencias de la existencia de secuencias repetidas en los genomas eucariotas proceden de estudios de cinética de reasociación Técnica que mide la tasa de reasociación de cadenas complementarias de DNA (Britten y Kohne, 1968) y permite estudiar la complejidad de los genomas: 1. Fragmentación (200‐300 pb) 2. Desnaturalización 3. Renaturalización 4. Medida de la fracción de ssDNA a lo largo del t C0t1/2: t de reacción en que la mitad Curva C0t del DNA está renaturalizado C = [DNA de cadena sencilla a tiempo t] C0 = [DNA de cadena sencilla a tiempo t0] 10 Tema 6 3. Cinética de reasociación y complejidad del genoma Curvas Cot en virus y procariotas Un solo tipo de secuencias en procariotas A > C0t1/2 > tamaño del genoma (y > nº de genes) Distintos tipos de secuencias en eucariotas: Curvas Cot en eucariotas secuencias de copia única secuencias moderadamente repetidas secuencias altamente repetidas 11 Tema 6 3. Cinética de reasociación y complejidad del genoma The proportions of different sequence components vary in eukaryotic genomes. The absolute content of non‐ repetitive DNA increases with genome size but reaches a plateau at about 2 × 109 bp. NR: one copy MR: short sequences (several kb), 10‐1000 X repeated (i.e. transposable elements) HR: very short sequences ( 200 nt Human assembly and gene annotation: http://www.ensembl.org/Homo_sapiens/Info/Index 17 Tema 6 5. Ejemplos de proyectos genoma en eucariotas: Genoma humano The GRCh38 reference assembly contains 151 Mbp of unknown sequence distributed throughout the genome, including pericentromeric and subtelomeric regions, recent segmental duplications, ampliconic gene arrays, and ribosomal DNA (rDNA) arrays, all of which are necessary for fundamental cellular processes. Zahn 2022 Each bar is a linear visualization of a chromosome, with the chromosome number shown at left. Red segments denote previously missing sequences that the T2T Consortium resolved. The Telomere‐to‐Telomere (T2T) Consortium completed a comprehensive human reference genome (T2T‐CHM13). It was generated primarily by long‐read sequencing of a hydatidiform mole, a doubly haploid growth (CHM: Complete hydatidiform mole). Nurk et al. 2022 18 Tema 6 5. Ejemplos de proyectos genoma en eucariotas: Genoma humano Cromosoma Y More than half of the Y chromosome was missing from the GRCh38 reference sequence. The T2T consortium presents the complete 62,460,029‐bp sequence of a human Y chromosome from the HG002 genome (T2T‐Y) that corrects multiple errors in GRCh38‐Y and adds over 30 million base pairs of sequence to the reference, showing the complete ampliconic structures of gene families TSPY, DAZ and RBMY; 41 additional protein‐coding genes, mostly from the TSPY family; and an alternating pattern of human satellite 1 and 3 blocks in the heterochromatic Yq12 region. Rhie et al. 2023 From top to bottom, alignment of GRCh38‐Y and T2T‐Y. Regions with sequence identity over 95% are connected and coloured by alignment direction (grey, forward; orange, reverse). Gene density plot shows enriched protein‐coding genes in ampliconic sequences. Sequence class, palindromes, IRs and AZFa–AZFc are annotated. Composite repeat arrays are named after the contained ampliconic genes. Segmental duplications (SDs) are coloured by duplication types defined in DupMasker. Centromere (cen) and satellite (sat) annotations highlight the alternating HSat1 and HSat3 pattern comprising Yq12. Non‐B DNA track shows that regions forming alternative sequence structures are enriched in centromeric and satellite repeats. SINE, including AluY, are highly enriched in PAR1. All other non‐SINE TEs are found only in the euchromatin. All repeats within T2T‐Y are visualized by StainedGlass, with similar repeats coloured by percentage identity in the style of an alignment dotplot. Het., heterochromatic; mon, monomeric. 19 Tema 6 5. Ejemplos de proyectos genoma en eucariotas: Genoma humano 20 Tema 6 5. Ejemplos de proyectos genoma en eucariotas: ENCODE Proyecto ENCODE (Encyclopedia of DNA Elements, 2003‐12) Objetivo: Identificar todos los elementos funcionales del genoma humano Operationally, a functional DNA element was defined as a discrete genome segment that makes a defined product (protein or ncRNA) or displays a reproducible biochemical signature (such as a protein‐binding capacity or a specific chromatin structure) http://encodeproject.org/ENCODE/ http://www.nature.com/encode/#/threads * Genome‐wide analyses: identificación de transcritos, modificación de histonas, unión de factores de transcripción, conformación de la cromatina, metilación de DNA, etc. * Se utilizaron ~ 140 tipos celulares (líneas celulares inmortalizadas: HeLa, HepG2, K562, HUVEC, etc.) 21 Tema 6 5. Ejemplos de proyectos genoma en eucariotas: ENCODE Proyecto ENCODE (2012) The ENCODE Project Consortium 2012 Algunas conclusiones: El 80.4% del genoma humano participa al menos en un proceso bioquímico asociado a RNA o cromatina en al menos un tipo celular Alrededor del 75% del genoma se transcribe en algún tipo celular Genes solapados: se sintetizan transcritos solapantes de ambas cadenas de DNA ≠ estados de la cromatina (>/< compactación) correlación entre expresión génica y modificaciones/TFs Muchos polimorfismos (SNPs) asociados con enfermedades por GWAS (genome‐wide association studies) se localizan en elementos funcionales no codificantes, en o cerca de regiones definidas por ENCODE 22 Tema 6 5. Ejemplos de proyectos genoma en eucariotas: ENCODE Proyecto ENCODE Phase 3 (2020) The ENCODE Project launched with the goal of developing a comprehensive map of functional elements in the human genome. The project has been extended to model organisms, particularly the mouse. In ENCODE3, nearly a million and more than 300,000 candidate cis‐regulatory element annotations have been generated for human and mouse, respectively. * Nuevos tipos de ensayos * ↑ el número de muestras * Organismos modelo (ratón) * Impacto de la variación genética en la regulación del genoma * Potencial de la base de datos ENCODE como recurso en cáncer * Elementos reguladores implicados en el desarrollo prenatal de mamíferos The ENCODE Project Consortium 2020 23 Tema 6 5. Ejemplos de proyectos genoma en eucariotas: Epigenomics The Roadmap Epigenomics Project (2008‐15) Objetivo: definir epigenomas http://www.roadmapepigenomics.org/ de referencia de los principales tipos de células humanas, Romanoski y Glass 2015 para asociar características epigenómicas con fenotipos clínicos y biológicos 24 Tema 6 5. Ejemplos de proyectos genoma en eucariotas: Epigenomics The Roadmap Epigenomics Project Roadmap Epigenomics Consortium (2015) Algunas conclusiones: Todas las células del cuerpo humano tienen el mismo genoma, pero diferentes epigenomas Cuando las células madre se diferencian en un tejido su epigenoma cambia, y la dinámica de las marcas epigenómicas permite establecer relaciones significativas entre tipos celulares, tejidos y linajes Variaciones genéticas asociadas a enfermedades (Alzheimer, cáncer, etc.), como mutaciones o SNPs, tienen un efecto sobre los patrones epigenéticos en tejidos relevantes para estas 25 Tema 6 5. Ejemplos de proyectos genoma en eucariotas: 1000 genomes project 1000 genomes project (2008‐15) http://www.internationalgenome.org/ http://www.nature.com/nature/journal/v526/n7571/full/526052a.html Objetivo: estudiar la variación genética en la población humana * 2504 genomas de 26 poblaciones humanas (procedentes de cinco zonas distintas) * Se analizaron cambios a pequeña escala (50 bp: inserciones de elementos transponibles, deleciones, CNVs e inversiones) SNV: single nucleotide variation; CNV: copy number variation 26 Tema 6 5. Ejemplos de proyectos genoma en eucariotas: 1000 genomes project Resultados: * African populations show considerably greater diversity than all other populations (out‐of‐Africa model of human origins) * Genetic diversity within Central and South American populations correlates with the degree of recent African ancestry 1000 genomes Project Consortium 2015 FIN, Finnish; GBR, British; CEU, French; IBS, Spanish; TSI, Italian; CHS, Han Chinese South; DX, Dai Chinese; CHB, Han Chinese Beijing; JPT, Japanese; KHV, Vietnamese; GIH, Gujerati Indians; STU, Sri Lanka Tamils; PJL, Pakistan Punjabis; ITU, Indian Telugi; BEB, Indians Bengalis; PEL, Perruvians; MXL, Mexicans; CLM, Colombians; PUR, Puerto Ricans; ASW, African Americans; ACB, Afro‐Caribeans; GWD, Gamvians; YRI, Nigerian Yoruba; LWK, Kenyan Luhya; ESN, Nigerian Esan; MSL, Sierra Leone Mende Genetic diversity in 26 different human populations. Each + sign indicates a single individual. Individuals showed from 3.90 to 5.05 million variant sites per genome. * Small‐scale changes: 99.95% (86.96% SNVs, 12.99% indels); Structural variations: 0,05% 27 Tema 6 5. Ejemplos de proyectos genoma en eucariotas: Human pangenome A draft human pangenome reference https://humanpangenome.org/ https://www.nih.gov/news‐events/news‐releases/scientists‐release‐new‐human‐pangenome‐reference Liao et al. 2023 The first draft of the human pangenome reference contains 47 phased, diploid assemblies from a cohort of genetically diverse individuals. These assemblies cover more than 99% of the expected sequence in each genome and are more than 99% accurate at the structural and base pair levels. Based on alignments of the assemblies, they generated a draft pangenome that captures known variants and haplotypes and reveals new alleles at structurally complex loci. They also added 119 million base pairs of euchromatic polymorphic sequences and 1,115 gene duplications relative to the existing reference GRCh38. Roughly 90 million of the additional base pairs are derived from structural variation. 28 Tema 6 5. Ejemplos de proyectos genoma en eucariotas: VGP y otros Vertebrate Genomes Project (en progreso) https://vertebrategenomesproject.org/ The Vertebrate Genomes Project (VGP) aims to generate near error‐free reference genome assemblies of ~70,000 extant vertebrate species. Otros proyectos (en progreso): ‐ Earth BioGenome Project (Sequencing life for the future of life): https://www.earthbiogenome.org/ It aims to sequence, catalog, and characterize the genomes of all of Earth’s eukaryotic biodiversity over a period of 10 years (Phase I: one representative species for each of the approximately 9,300 eukaryotic taxonomic families) ‐ The Darwin tree of life: https://www.darwintreeoflife.org/ This project aims to sequence the genomes of all 70,000 species of eukaryotic organisms in Britain and Ireland. ‐ European Reference Genome Atlas (ERGA): https://www.erga‐biodiversity.eu/ The ERGA initiative is a pan‐European scientific response to current threats to biodiversity. 29 Bibliografía Capítulos de libros Capítulo 7: Eukaryotic nuclear genomes. Brown T. A. (2017, 2023). Genomes 4 y Genomes 5. Garland Science, CRC Press. Capítulo 21: Genomics, Bioinformatics, and Proteomics. Klug W. S., Cummings M. R., Spencer C. A. y Palladino M. A. (2015). Concepts of Genetics, 11th edition. Pearson Inc. Capítulo 4: The content of the genome. Krebs JE, Goldstein ES y Kilpatrick ST. (2017). Lewin’s Genes XII. Jones & Barlett Publishers. Capítulo 7: Comparative Genomics. Lesk A. M. (2017). Introduction to Genomics. Oxford University Press. Capítulos 9, 11 y 13: Uncovering the architecture and working of the human genome; An overview of human genetic variation; Comparative genomics and genome evolution. Strachan T y Read A. (2018). Human Molecular Genetics, 5th Edition. CRC Press, Taylor & Francis Group. Capítulo 13: Manipulación del DNA a escala genómica. Real M.D., Latorre A. y Rausell C. (2017). Técnicas de Ingeniería Genética. Editorial Síntesis Artículos Abascal F, Acosta R, Addleman NJ, et al. (2020). Perspectives on ENCODE. Nature 583, 693–698 Ecker JR. (2012). ENCODE explained. Nature 489: 52‐3. Forrest, A., Kawaji, H., Rehli, M. et al. (2014). A promoter‐level mammalian expression atlas. Nature 507, 462–470. Karczewski KJ, Francioli LC, Tiao G, et al. (2020). The mutational constraint spectrum quantified from variation in 141,456 humans. Nature 581: 434‐443. Lewin HA, Robinson GE, Kress WJ, et al. (2018). Earth BioGenome Project: Sequencing life for the future of life. Proc Natl Acad Sci USA 115: 4325‐4333. Liao W‐W et al. (2023). A draft human pangenome reference. Nature 617: 312‐324. Maher B. (2012). The Human Encyclopaedia. Nature 489: 46‐48. Makalowska I, Lin CF, Makalowski W. (2005). Overlapping genes in vertebrate genomes. Comput Biol Chem 29: 1‐12. Miga KH, Koren S, Rhie A, Vollger MR, et al. (2020). Telomere‐to‐telomere assembly of a complete human X chromosome. Nature 585, 79–84. Miga KH, Wang T. (2021). The Need for a Human Pangenome Reference Sequence. Annu Rev Genomics Hum Genet 22: 81‐102. Nurk S, Koren S, Rhie A, Rautiainen M, et al. (2022). The complete sequence of a human genome. Science 376: 44–53. Rhie A, Nurk S, Cechova M, Hoyt SJ, et al. (2023). The complete sequence of a human Y chromosome. Nature 621: 344‐354. Roadmap Epigenomics Consortium (2015). Integrative analysis of 111 reference human epigenomes. Nature 518: 317‐30. Romanoski CE, Glass CK. (2015). Roadmap for regulation. Nature 518: 314‐6. Sudmant et al. (2015). An integrated map of structural variation in 2,504 human genomes. Nature 526: 75‐81. The ENCODE Project Consortium (2012). An integrated encyclopedia of DNA elements in the human genome. Nature 489: 57‐74. The 1000 Genomes Project Consortium (2015). A global reference for human genetic variation. Nature 526: 68‐74. Zahn LM. (2022). Filling the gaps. Science 376: 42‐43. 30 Recursos online Genomes OnLine Database, GOLD (datos actualizados sobre genomas de eucariotas secuenciados): https://gold.jgi.doe.gov/distribution The Human Genome Project: https://www.genome.gov/human‐genome‐project Human assembly and gene annotation: http://www.ensembl.org/Homo_sapiens/Info/Index ENCODE (ENCyclopedia Of DNA Elements) Project: http://encodeproject.org/ENCODE/ http://www.nature.com/encode/#/threads ENCODE 3: la enciclopedia de elementos reguladores del ADN ha sido actualizada: https://genotipia.com/genetica_medica_news/encode/ FANTOM (Functional ANnoTation Of the Mammalian genome) Project: https://fantom.gsc.riken.jp/ https://www.nature.com/collections/jcxddjndxy Roadmap Epigenomics Project: http://www.roadmapepigenomics.org/ The 100,000 Genomes Project: https://www.genomicsengland.co.uk/about‐genomics‐england/the‐100000‐genomes‐project/ The Vertebrates Genomes Project: https://vertebrategenomesproject.org/ The Earth BioGenome Project: https://www.earthbiogenome.org/ The European Reference Genome Atlas: https://www.erga‐biodiversity.eu/ 1000 Genomes Project: http://www.internationalgenome.org/ http://www.nature.com/nature/journal/v526/n7571/full/526052a.html Montoliu L. (2023) ¿Por qué necesitábamos un pangenoma humano? https://urldefense.com/v3/__https://montoliu.naukas.com/2023/05/21/por‐que‐necesitabamos‐un‐pangenoma‐ humano/?s=03__;!!D9dNQwwGXtA!R1TTOte8wHhstcYIk5lIFkYCeHqnZE6DeNvRv6VMBYQresdMTwMx3‐F5DIIcqrDrb5vFAxH9ZPqqPQp32R9j$ https://elpais.com/ciencia/2023‐05‐10/el‐primer‐pangenoma‐humano‐revela‐120‐millones‐de‐letras‐mas‐en‐el‐adn.html https://theconversation.com/los‐ultimos‐retazos‐del‐genoma‐humano‐vienen‐de‐la‐mano‐del‐cromosoma‐y‐212124 31