DT2 Genoombiologie Past Paper PDF
Document Details

Uploaded by PlushKrypton3130
Tags
Summary
This document appears to be lecture notes on genomic biology, with sections on topics such as genomic variation, pangenomes, structural variants, and comparative genomics. It includes diagrams, tables, and descriptions of concepts related to these topics, suitable for an undergraduate course. No questions are present.
Full Transcript
DT2 genoombiologie Inhoud W5..........................................................................................................................................2 Genomic variation and pangenomes....................................................................................2 Journal...
DT2 genoombiologie Inhoud W5..........................................................................................................................................2 Genomic variation and pangenomes....................................................................................2 Journal club.........................................................................................................................5 W6..........................................................................................................................................9 Structural Variants in Cancer Biology....................................................................................9 Journal club....................................................................................................................... 12 W7........................................................................................................................................ 14 Comparative Genomics & Synteny (of animals) & Recent Human evolution.......................... 14 Synteny/Colinearity:....................................................................................................... 14 Selectie:........................................................................................................................ 15 Orthologie-inferentie...................................................................................................... 16 Incomplete lineage sorting:............................................................................................. 16 Journal club....................................................................................................................... 17 W8........................................................................................................................................ 20 Gene and Genome Duplications......................................................................................... 20 W5 Genomic variation and pangenomes Typen genomische variatie: - Single nucleotide variaties – SNP/ SNV - Indels – inserties/ deleties (1 bp - 1000 bp) - Structural variants (SV) – grotere variaties o Detecteren met paired end sequencing - Mobiele elementen – SINE, LINE Transpositie (300bp - 6 kb) - Genomische structurele variatie (1 kb - 5 Mb) o Grootschalige inserties/deleties (Copy Number Variation: CNV) o Segmentale duplicaties (> 1kb, > 90% sequentieovereenkomst) o Chromosomale inversies, translocaties, fusies Elk individu heeft 1% variabel tov referentie Hoe varianten detecteren: Pangenoom: - Waarom hebben we pangenomen nodig? o Alignments vatten de relaties tussen sequenties samen, waardoor vermoedelijke evolutionaire en functionele informatie zichtbaar wordt o Pangenomen kunnen de volledige set genomische elementen in een bepaalde soort of clade modelleren, waardoor de referentie-bias wordt verminderd. - Wat is een pangenoom o Verder gaan dan een enkel referentiegenoom ▪ Vertekening ▪ Ontbrekende gebieden/onvolledig o Term pangenoom gepopulariseerd in microbiologie in 2005 (Tettelin et al., 2005) o Pan betekent alles, ▪ Core genen/ genomische regio’s ▪ Vervangbare/accessory genen/ genomische regio’s ▪ Unieke genen/ genomische regio’s Pangenomes can be open and closed Associatie pangenoomgrootte en levensstijl: Differences between core and dispensable genes: Vergelijking prokaryoot en eukaryoot pangenoom: - Bij prokaryoot spreek je van genen, bij eukaryoot van genomische regio’s Methoden voor het construeren van pangenomen: Visualisatie van pangenoomgrafieken op genoomniveau: Variatiegrafiek geeft beide sequenties en elk type variatie ertussen weer: - Je krijgt als het ware 2 paden met wie welke mutaties heeft PANgenomics - pangenoomgrafiek bouwen Journal club 1. What is the paper about? Dit artikel beschrijft de op pangenomen gebaseerde analyse van zes T2T Peronospora effusa genomen, een oomycete pathogeen van spinazie. Het benadrukt de algemene syntenische aard van deze genomen, maar merkt ook op dat er specifieke genoomregio's zijn die variatie tussen stammen vertonen. Deze regio's zijn geassocieerd met repetitieve elementen en zijn typisch verrijkt voor effectorgenen zoals RxLR-genen. 2. What are the three main claims? Conserveerde genoomstructuur: Het onderzoek toont een hoge mate van behoud in zowel chromosomale structuur als geninhoud tussen de geanalyseerde P. effusa isolaten. Transposable element activity: Transposeerbare elementen (TE's) zijn geïdentificeerd als de primaire aanjagers van genomische variatie tussen de isolaten, goed voor ongeveer 80% van de waargenomen verschillen.. Pathogenicity-related gene variability: Ondanks de algemene instandhouding vertonen genen met betrekking tot pathogeniteit, in het bijzonder effectorgenen, een aanzienlijke variabiliteit. Deze variatie wordt voornamelijk toegeschreven aan veranderingen in het aantal genkopieën binnen effectorgenclusters.. 3. Do you think the authors convincingly demonstrate their claims? Ja, de auteurs presenteren overtuigend bewijs om hun beweringen te ondersteunen. Het onderzoek maakt gebruik van hoogwaardige telomeer-naar-telomeer genoom assemblages van zes verschillende P. effusa isolaten, gebruikmakend van een combinatie van Nanopore long- read en Hi-C sequencing technologieën. De pangenoomgrafiekanalyse maakt een uitgebreide en gedetailleerde vergelijking van de genomen van de isolaten mogelijk, waardoor de onderzoekers met hoge nauwkeurigheid geconserveerde regio's, variaties en genclusters kunnen identificeren. De auteurs bieden visualisaties en statistische analyses, waaronder verzadigingsplots, fylogenetische bomen en dN/dS-verhoudingen, om hun bevindingen over genoomconservering, TE-activiteit en pathogeniteitsgerelateerde genvariatie te ondersteunen. 4. What and why, in your opinion, is the most important figure of the paper? Zoals bij eerdere journal clubs is het antwoord op deze vraag discutabel. Ik zou kunnen pleiten voor figuur 3, omdat het verschillende belangrijke elementen benadrukt, zoals de open pangenome aard van Pe, vooral met betrekking tot pathogeniteitsgerelateerde genen, en het laat zien welke repetitieve elementen recentelijk het meest actief zijn. Maar figuur 2 is ook van groot belang, omdat het de eigenlijke pangenoomgrafieken laat zien, de variaties op deze grafiek en de nadruk legt op deze effectorgenclusters die van groot belang zijn. 5. If any, what is the biggest technical/experimental issue? Hoewel deze zes genomen T2T geassembleerd zijn, moeten ze nog opgelost worden op haplotype niveau, aangezien dit een diploïde soort is. Haplotype divergentie is waarschijnlijk van belang in termen van aanpassing via recombinatie enz. Ook zou er meer genetische diversiteit kunnen worden opgenomen (er zijn nog steeds maar zes verschillende individuen gebruikt voor dit pangenoom). 6. If you were the lab conducting the study, what experiment/analysis would you do next and using what type of information obtained from the study? Het zou van groot belang zijn om de variatie in effectorgenclusters te onderzoeken. Door gebruik te maken van de geïdentificeerde effectorgenenclusters (bijvoorbeeld die op chromosomen 6 en 13), kan het onderzoek zich richten op het ontwikkelen van experimentele systemen voor specifieke effectorgenen van verschillende P. effusa isolaten. Door de relevantie van deze effectoren op een reeks spinaziecultivars te vergelijken, kon de studie een direct verband aantonen tussen het aantal effectorgenen en sequentievariatie en het vermogen van de ziekteverwekker om gastheerresistentie te overwinnen. Deze analyse zou cruciale inzichten verschaffen in de genetische basis van het aanpassingsvermogen en zou kunnen leiden tot de ontwikkeling van duurzamere strategieën voor ziektebeheer. 7. What specific roles do transposable elements play in the observed genomic variation between the Peronospora effusa isolates, and how do they contribute to the pathogen’s adaptability? Er kunnen verschillende relevante rollen worden geïdentificeerd, zoals: Genomische variatie: De studie identificeert TE's als de belangrijkste bron van genomische variatie, goed voor 80% van de waargenomen verschillen tussen isolaten. Deze variatie ontstaat door TE inserties, deleties en uitbreidingen, wat leidt tot diversiteit in genoomgrootte en organisatie. Recent activity: Analyse onthult een recente uitbreiding van specifieke TE-families, met name LTR Gypsy en Copia elementen, evenals SINE-achtige sequenties, wat duidt op hun voortdurende activiteit in het P. effusa genoom. Gene cluster dynamics: TE-activiteit wordt waargenomen in de buurt van genen met kopie- aantalvariatie, met name effectorgenen. Dit suggereert dat TE's duplicatie en diversificatie van genen kunnen faciliteren, wat mogelijk bijdraagt aan de evolutie van nieuwe pathogeniciteitsmechanismen. Adaptive potential: Door genomische variatie te genereren en genexpressie te beïnvloeden, voorzien TE's P. effusa van een flexibele genetische gereedschapskist. Hierdoor kan de ziekteverwekker zich snel aanpassen aan veranderende omgevingen, zoals de introductie van nieuwe spinaziecultivars met verschillende resistentiegenen. 8. The authors conclude that the chromosomes of P. effusa are arranged in a specific configuration. What is this specific configuration, what does that mean, and how does the data corroborate this? De auteurs stellen voor dat de chromosomen van P. effusa in een Rabl-configuratie in de kern zijn gerangschikt. Deze configuratie, die aanvankelijk werd waargenomen bij ontluikende gist, wordt gekenmerkt door een specifieke ruimtelijke ordening van chromosomen (zie Sup Fig 4): Centromere clustering: Centromeren, de gebieden van chromosomen waar spindelvezels zich vasthechten tijdens de celdeling, hebben de neiging om samen te klonteren aan één pool van de kern. Telomere organization: Telomeren, de beschermende uiteinden van chromosomen, bevinden zich aan de tegenoverliggende pool. Verschillende aanwijzingen uit het onderzoek ondersteunen deze conclusie: Hi-C heatmaps (Sup Fig 4): Analyse van Hi-C gegevens, die interacties tussen verschillende regio's van het genoom onthullen, laat verschillende patronen zien die wijzen op de configuratie van Rabl. De heatmaps laten sterke interacties zien tussen telomere regio's en tussen centromere regio's, wat consistent is met hun ruimtelijke nabijheid in de kern. Centromere-specific element (see Fig 1): De aanwezigheid van een Copia-achtig transposon dat specifiek verrijkt is in centromerische gebieden van de meeste chromosomen ondersteunt verder hun clustering in de Rabl-configuratie. 9. Why is it important to re-annotate each P. effusa genome based on the pangenome graph? Genvoorspelling is inherent moeilijk en daarom foutgevoelig. Door gebruik te maken van de pangenoom alignment, inclusief indicatie van geconserveerde regio's en variant informatie, zal het re- annotatie proces waarschijnlijk nauwkeuriger zijn en vergelijkbaar tussen de verschillende stammen, wat goede vergelijkingen mogelijk maakt. 10. A specific class of effector genes appears to cluster in regions on the genome. Which class is referred to here? What can we learn about these effector clusters from the presented analysis? Do these effectors occur also elsewhere in the genome(s)? RXLR-effectorgenen clusteren in specifieke genomische gebieden, waarbij twee prominente clusters op chromosoom 13 zijn geïdentificeerd. Deze clusters vertonen een aanzienlijke variatie in aantal kopieën tussen de verschillende P. effusa isolaten. Zo bevatten de twee grootste clusters op chromosoom 13 respectievelijk 24 tot 26 kopieën en 14 tot 23 kopieën. Hoewel er sprake is van clustering van deze effectoren, kunnen ze ook op andere plaatsen worden gevonden. De effectoren binnen deze clusters lijken opvallend veel op elkaar, wat duidt op recente uitbreiding. Bovendien toont ongepubliceerd onderzoek uit ons laboratorium aan dat deze andere effectoren juist het meest tot expressie komen! Blijkbaar hebben geclusterde effectoren de neiging om transcriptioneel tot zwijgen te worden gebracht. 11. Based on the predicted order of events for the expansion and diversification of the second effector cluster in P. effusa, which genetic innovation happened first, likely? Deze vraag verwijst naar figuur 7D. Volgens de door de auteurs voorgestelde volgorde van gebeurtenissen, vond de insertie van twee LTR zigeunerfamilies rond een bestaand effectorgen waarschijnlijk het eerst plaats. Deze insertie creëerde een genomische omgeving die bevorderlijk is voor latere duplicaties. Na deze eerste insertie werd de regio met het effector gen en de flankerende LTR zigeuners gedupliceerd, wat leidde tot de uitbreiding van de effector cluster. Zie figuur 7D en tekst rond regels 525/526 12. Why did the authors choose these six P. effusa isolates for their pangenome graph-based analysis? De auteurs selecteerden zorgvuldig zes P. effusa isolaten om een breed spectrum van genetische diversiteit binnen de pathogenenpopulatie te vertegenwoordigen, met als doel een breed scala aan genomische variaties vast te leggen. 13. Based on the presented data, do you deem it likely that P. effusa evolves by frequent, large chromosomal rearrangement? Why not, why yes? De gegevens suggereren dat P. effusa niet primair evolueert door frequente, grote chromosomale herschikkingen. Verschillende bevindingen ondersteunen deze conclusie: High conservation of chromosome structure: De studie onthult een opvallende mate van behoud in chromosoomstructuur tussen de zes P. effusa isolaten, ondanks hun fylogenetische afstand en het feit dat ze verschillende rassen vertegenwoordigen. Dit behoud wordt verder benadrukt door de grotendeels collineaire chromosoomorganisatie die is waargenomen tussen P. effusa en andere Peronosporaceae-soorten.. Limited evidence of rearrangements: De studie identificeert twee grote structurele herschikkingen (inversies) in twee isolaten, maar dergelijke gebeurtenissen lijken relatief zeldzaam in de algemene context van de geconserveerde genoomstructuur. W6 Structural Variants in Cancer Biology Wat gebeurt er op moleculair niveau bij kanker? Mutaties in het genoom veroorzaken kanker - Kankercellen zijn genomisch instabiel (ze accumuleren genomische veranderingen) - Niet alle veranderingen hebben effect op de cel o Passenger mutaties - Tumoren zijn heterogeen; cellen hebben verschillende mutaties Hallmarks and emerging hallmarks of cancer Waarom komen specifieke mutaties (bijv. mutaties in P53-, BRAF- en KRAS-genen) bij veel patiënten voor? - P53 is een driver-gen en heeft veel rollen in een cel. Snelste manier als het ware voor een kanker. Welke mutatie het is verschilt per kankertype. Kenmerken van genomische instabiliteit - Tumor Mutational Burden (TMB) = som van SNV's - Fractie Genoom Veranderd (FGA) = som van SCNA's - Tumor Break Load (TBL) = sum of SVs Kanker wordt gekenmerkt door genomische veranderingen (alterations) Hoe kunnen we SNV's, SCNA's en SV's detecteren? 1. Alignment to Reference (Read mapping) o INPUT ▪ Miljoenen gesequencede fragmenten [fastq bestand] ▪ Een referentiegenoomsequentie [geformatteerde database] o PROCES ▪ Stringmatching van de sequentielezingen tegen de referentie (kleine variaties toestaan), lijkt op blast ▪ Referentie- en gesequenced organisme moeten nauw verwant zijn (ten minste dezelfde soort) o OUTPUT ▪ Uitlijning van gelezen met referentiegenoom [BAM-bestand] 2. Vergelijken met referentie en kijken waar de veranderingen zitten Copy number variation calling (SCNAs) - Normalised read count: Log(observed reads / expected reads) o 0 = zoveel reads als je verwacht o Hoger = meer kopiën (duplicatie) o Lager = deletie (Meestal halve, je mist 1 vd 2 chromosomen) Waarom is het lastig om SVs te herkennen? - Heterogeniteit van tumoren - Niet meer aan het aantal reads kunnen zien of het een SV is Verschillende SV typen: 4 strategiën om SVs te identificeren: - Balanced = DNA hoeveelheid blijft hetzelfde, unbalanced niet hetzelfde Quantifying the Tumor Break Load - A measure for genomic instability - Capture the extent of copy number associated structural variation Microsatilite instability - Microsatellieten (MS) zijn korte tandem herhalingen (1-6 nucleotiden) verspreid over het hele genoom, vatbaar voor een hoge mutatiegraad. - Mismatch reparatie machinerie kapot -> Leidt tot hoog aantal SNV's Detecting subgroups of genomic instability - Simple counting measures can discern tumor types many point mutations: MSI-H and POLE/D1 - Many SVs: MSS Poor correlation between TBL and TMB in MSS CRC & between TBL and FGA in MSS CRC: Journal club What is the paper about? De paper gaat over de toepassing van een biomarker om de prognose van colorectal cancer te voorspellen (een prognostic biomarker). De biomarker betreft tumour break load (TBL). TBL is het aantal genomische breekpunten per sample. What are the main claims of this paper (claims for patients, claims underlying biology)? - TBL is a distinct measure of genomic instablility (niet (totaal) gelijk aan bestaande measures, het meet dus iets unieks). - TBL heeft prognostische waarde voor stadium 2/3 colorectal cancer (het kan voorspellen hoe de ziekte verloopt). - De biologische impact van TBL is significant. Namelijk: hoge en lage TBL hebben een verschillend genexpressieprofiel (je kunt dit zien als een verschillende genotype/verschillende celtypen). Do you think the authors convincingly demonstrate their claims? Ja, voor alle claims is er duidelijk bewijs. Voor claim 1 kan verwezen worden naar figuur 2 waarbij de correlatie tussen TBL en TMB/FGA heel laag is/niet aantoonbaar is. Voor claim 3 geldt dat ook, maar hier kun je vragen stellen over de causaliteit van de hoge/lage TBL genexpressieprofiel. Er wordt echter niet beweerd (is dus geen claim) welke richting deze causaliteit op werkt. What and why, in your opinion, is the most important figure of the paper? Hierover kan zoals eerder besproken worden gediscussieerd. Wat heeft de meeste “impact”; in dit geval de klinische impact (dat is in deze figuur 4). De biologische impact (figuur 3) is vervolgens van belang. Een ander belangrijk figuur is bijv. figuur 2 wat laat zien dat TBL een unieke genomische feature betreft. Vanuit de context van de cursus genoombiologie zou je dit ook als belangrijkste kunnen aanduiden. If any, what is the biggest technical/experimental issue? How was the work validated? Het paper is gebaseerd op SNP-arrays wat al een verouderde techniek betreft. Met dit soort arrays kun je alleen ongebalanceerde veranderingen (SCNAs) detecteren. Gebalanceerde veranderingen met significante impact via BPs mis je hiermee. Je zou tegenwoordig gebruik willen maken (en dat is ook zo in de kliniek) van NGS-data. Hiermee kun je bijv. ook kijken naar gebalanceerde structurele veranderingen. If you were the lab conducting the study, what experiment/analysis would you do next and using what type of information obtained from the study? Bijvoorbeeld: het uitvogelen van het (moleculaire) mechanisme achter verhoogde genomische instabiliteit (bij hoge TBL dus). Op het moment dat je het mechanisme hebt achterhaald kun je bijvoorbeeld gaan nadenken over mogelijke behandelingen (bijvoorbeeld via drug targets). Explain what a high-TBL is, what a low-TBL is, and how this can be calculated. De TBL wordt gedefinieerd als het aantal breekpunten waarbij de copy number variatie (SCNAs) afwijkend is (ongebalanceerd). Subvraag: kun je gebelanceerde SCNAs vinden met deze techniek? Een hoge TBL wijst op een monster waarbij er veel van dat soort breekpunten zijn. Bij een lage TBL zijn er weinig breekpunten. “TBL-high and TBL-low groups were preselected using the upper 75% and lower 25% quantiles of the TBL distribution.”. What are other measures of genomic instability? How are they related to the TBL (and how can you see this?) FGA en TMB; FGA is net als TBL gebaseerd op de SCNAs. Maar de associatie met breekpunten toont een significant verschillende biologie aan want FGA en TBL zijn weinig gecorreleerd. TMB duidt op hoge mutatiesnelheid, uit het paper blijkt dat CRC tumoren met hoge TMB juist vaak lage TBL hebben. What is the main conclusion, based on Figure 3A? What data, and which methods were needed to produce this result? Op basis van het model van de biologische expressie profielen (dat is de biologische impact) kan hoge en lage TBL met hoge nauwkeurigheid worden voorspelt. Dus kennelijk bevat dat genexpressie profiel informatie/kenmerken die gecorreleerd zijn met de TBL status. What molecular mechanism causes patients with a high-TBL status to have a worse prognosis? Dat is nog niet bekend (staat dus ook niet in het paper). Maar in de discussie wordt wel een mogelijke kandidaat naar voren geschoven: “One molecular process that may be involved is the mediation of the cGAS-STING antiviral pathway. The cGAS-STING pathway might be induced by the high number of SCNA-associated double-strand DNA breaks in TBL-high samples. Activation of the cGAS-STING pathway subsequently activates the nuclear factor kappa B (NF-kB) pathway downstream of STING, which can facilitate migration, invasion and metastasis”. W7 Comparative Genomics & Synteny (of animals) & Recent Human evolution Synteny/Colinearity: - Syntenie o Het behoud van dezelfde volgorde van loci op chromosomen van verschillende soorten - Microsyntenie o Behoud van kleine blokken genen (meestal slechts een handvol) die in dezelfde volgorde voorkomen binnen het genoom - Macrosyntenie o Grootschalig behoud van blokken genen (honderden tot duizenden of meer) op chromosomen tussen soorten. Human –Chimp Dotplot: - Elk blokje is een chromosoom - Je zet een stipje als er een bepaalde overeenkomst in sequentie is tussen chimpansee en mens - Hier en daar zijn break points in synteny o Ons chr. 2 is 1 chromosoom, bij apen zijn het er 2 - Inversie: volgorde gebroken Mouse–human synteny: - Muis gekleurd op basis van mens Volgorde is kapot maar inhoud is hetzelfde: - Te zien aan witte stukken ertussen bij without mixing Synteny (colineariteit) maakt alignment van genomen mogelijk - Wat in termen van detectie elementen onder behoud of onder positieve selectie/ adaptatie mogelijk maakt Selectie: - Deleterious, neutral and advantageous mutations o Deletious: mutatie verdwijnt o Advantageous: toename in frequentie/ wordt gefixeerd Binnen syntenische blokken kun je een genoomafstemming maken; in deze genoomafstemming kun je selectie meten Door genomen binnen syntenische blokken uit te lijnen, kunnen conservatiescores worden berekend en kan selectie worden gemeten Ongeveer 5,5% van het menselijk genoom heeft zuiverende selectie ondergaan, wat wijst op belangrijke functionele elementen Orthologie-inferentie - Het proces om te bepalen welke genen in verschillende soorten orthologen zijn, wat betekent dat ze divergeerden als gevolg van een speciatiegebeurtenis. De rode genen zijn ortholoog aan elkaar, de blauwe genen zijn ortholoog aan elkaar: Orthologie vs horizontale genoverdracht Horizontale genoverdracht - Uitwisseling van genetisch materiaal tussen organismen via niet-reproductieve mechanismen - Komt veel voor bij prokaryoten, wordt steeds meer erkend bij eukaryoten - Een fylogenie van genen die horizontale genoverdracht hebben ondergaan zou de verkeerde soortboom opleveren Incomplete lineage sorting: - Het behouden en willekeurig sorteren van voorouderlijke polymorfismen, waardoor fylogenieën op basis van deze polymorfismen soms afwijken van de organismale geschiedenis Menselijke genetische diversiteit ondersteunt het Out of Africa model, met een afname van diversiteit naarmate de geografische afstand tot Afrika toeneemt. Admixture/ gene flow/ interbreeding: populaties die genetisch verschillen kunnen samen alsnog kinderen krijgen. Verhoogt de diversiteit. Is een belangrijk aspect van de menselijke evolutie, zoals blijkt uit het genoom van Covid-19 en de menging met Neanderthalers en Denisovanen Analyse van Neanderthaler-DNA toont aan dat er kruising heeft plaatsgevonden met moderne mensen buiten Afrika, wat heeft bijgedragen aan hun genetische samenstelling. Denisovanen zijn een andere soort mensachtigen waarvan DNA-bewijs is gevonden in moderne menselijke populaties. Current model: Leaky replacement - Beschrijft de complexe evolutionaire geschiedenis van de mens, met meerdere migratiegolven en menging tussen verschillende mensachtigen. Genstroom van archaïsche mensen heeft mogelijk bijgedragen aan de aanpassing van moderne mensen aan nieuwe omgevingen, zoals blijkt uit het EPAS1-gen in Tibetanen, dat geassocieerd wordt met aanpassing aan grote hoogte. Journal club What is the paper about? So there is tons of features in the genome, i.e. variants that cause diseases, DNaseI Hypersensitive Sites, which on longer time scales (mammals, vertebrates) do not seem conserved. This discrepancy is an issue for our ability to predict the impact of mutations, and for our understanding of the relation between function and genome evolution. This paper addresses this discrepancy by making a massive primate alignments which gives us sites conserved in primates. What are the main claims of this paper (claims for patients, claims underlying biology)? That we can now detect primate specific constrained sequence elements that are not detectable in mammal (or vertebrate) alignments. That these primate specific constrained sequence elements are functional, in the sense that they drive transcription, explain disease, etc. Do you think the authors convincingly demonstrate their claims? Yes. Except it is so much, and so much different statistics / bar charts that I am sometimes lost in the myriad of figures. Further convincing demonstration should in addition come from whether other researchers will utilize this resource (it is ultimately a resource). What and why, in your opinion, is the most important figure of the paper? Figure 2 especially a, c, d show that primate specific constrains are a “thing”, they are “real” and they explain e.g. DNaseI Hypersensitive Sites that mammal constraints do not explain. If any, what is the biggest technical/experimental issue? How was the work validated? The inference of constrained is ultimately an evolutionary inference. So direct validation is difficult. What is extensively done is correlating/looking for enrichment of a whole host of genomic signals. Next to DHS, these signals include variants affecting complex disease, loci seemingly under purifying selection in modern human populations, transcription factor binding sites, enformer predictions etc. In addition in figure 2 there is luciferase assay to show these constrained elements drive expression while the orthologous mouse sequence does not (at least in two out of three examples) Another nice validation would be to dive deeper in a relevant disease, and how this resource helps to better differentiate causative genetic variation for this particular disease and its variant. Such a concretization would help to contextualise the use-case and to make the impact more insightful. If you were the lab conducting the study, what experiment/analysis would you do next and using what type of information obtained from the study? If I would be a geneticist working on human evolution, I would now look for loci that are constrained within primates but different in human. And see if these can be linked to any functional signal. If I were a more clinical biomedical bioinformatician, I would utilize these regions to improve my severity of phenotypic effect predictor. ~65 million and ~100 million do not seem so different, nevertheless the paper argues there is much less time for non-coding DNA to change within the primates compared the placental mammal. What is key to understand this argument? The total size of the tree. i.e. the total branch lengths of all species in the tree and the change in that tree are much larger than 30% of 100. You get many more deeply branching lineages and so the total “coverage” branch length in the tree is much higher. See e.g. the first paragraph of the manuscript where they contrast from a previous study the “total phylogenetic branch length” where primates were 10% of the placental tree. This study aligns ~239 genomes. Looking at figure 1b what stands out in terms of “number of aligned species”. Speculate on one technical/data, and one evolution/data reason for this pattern? What stands out is that the parts of the chromosomes where the coverage is low are the centromeres, (as well as acrocentric chromosome short arms (which are more or less gene free, and the Y chromosome). I think two things are happening that together create low coverage. First these regions in other genomes are poorly assembled if they are only short reads. Second they are evolutionary so dynamic that there is no synteny and thus no alignment. In figure 3e, can you speculate what a negative PhyloP score means in terms of the genome alignment, and perhaps in terms of biology/evolution? A negative PhyloP score suggests more variation than expected. Perhaps positive selection, as complete lack of purifying selection should be zero and not negative. How is figure 4(a/d) showing that genetic variation that affects complex disease can be explained/predicted to be deleterious relative to the wild type from the genome alignment in this study, whereas that was not possible in previous studies. There is an example in 4d, and many the graphs in 4a at 65 million years, where there is an enrichment for loci which causes a phenotype (complex disease) that not in mammal constrained loci but are in primate constrained loci. As articulated in the article: “Fine-mapped variants underlying clinical phenotypes and complex traits were enriched across all classes of distal accessible chromatin element and footprints, including those with primate-specific constraint” W8 Gene and Genome Duplications Gen-duplicaties komen veel voor in diverse genomen. Bacteriën en prokaryoten hebben wat minder duplicaties Fylogenetische analyses van veel genen, zoals globine, tonen de aanwezigheid van genduplicaties aan. Tandem genverdubbelingen leiden tot clusters van homologe genen op het chromosoom: - Tandem gen duplicatie: een type mutatie waarbij een regio van een chromosoom wordt gedupliceerd en de kopieën naast elkaar blijven liggen. - Hemoglobine is hier ook een voorbeeld van - Hox genen zijn hier een voorbeeld van Genbomen wijzen ook op de prevalentie van genverdubbelingen (SSD & WGD) Genbomen maken "timing" van genverdubbelingen mogelijk. Vb globine: Lineage-specifieke genduplicaties (of genfamilie-uitbreidingen) zijn frequent en relevant voor de evolutie van specifieke lijnen. Een voorbeeld is de genfamilie-uitbreiding (p53) bij olifanten. De meeste gedupliceerde genen worden niet-functioneel (non-functionalisatie). Gedupliceerde genen die behouden blijven, dienen vaak een specifiek doel, zoals: - Neofunctionalisatie: 1 kopie krijgt een nieuwe functie, terwijl de andere de oorspronkelijke functie behoudt. - Subfunctionalisatie: beide kopieën specialiseren zich in een deel van de oorspronkelijke functie. - Dosage effect: beide kopieën blijven actief om de expressie van het gen te verhogen. Een overvloed aan duplicaties aan de basis van gewervelden, zoals blijkt uit genbomen, suggereert een WGD. Dit wordt ondersteund door het feit dat continue duplicaties en verliezen een andere verdeling van duplicaties over tijd zouden opleveren. Tijd loopt van nieuw naar oud > begint altijd met veel duplicaties dus naar mate de tijd vordert verschuiven die naar rechts Ks, het gemiddelde aantal synonieme nucleotideverschillen tussen genen, correleert met divergentietijd en wordt gebruikt om de timing van duplicaties te bepalen. Ks-plots tonen aan dat de meeste kleinschalige genduplicaties in het menselijk genoom recent zijn. Syntenie, de geconserveerde volgorde van genen op chromosomen, is het sterkste bewijs voor WGD. Paramecium is een voorbeeld van een autopolyploïde met sterke syntenie binnen de soort. Saccharomyces cerevisiae vertoont geen perfecte intra-species syntenie, wat wijst op een oude WGD. Om de syntenie te bevestigen is vergelijking met een outgroup-soort nodig. De aanwezigheid van vier Hox-clusters en overvloedige duplicaties staan aan de basis van gewervelden → ondersteunen een WGD. De mapping van één chromosoomregio van de lancetvis naar meerdere chromosomen van gewervelden levert overtuigend bewijs voor tetraploïdie bij gewervelden. Veel WGD's blijken allopolyploïden te zijn, ontstaan door hybridisatie. → nog steeds heel veel synteny tussen genoom 1 en genoom 2, maar komen stiekem van verschillende voorouders. - Xenopus laevis is een voorbeeld. Na polyploïdie treedt rediploïdisatie op, waarbij 4n het nieuwe 2n wordt. Allopolyploïden vertonen vaak biased fractionating, waarbij het dominante subgenoom meer genen, hogere expressie en sterkere zuiverende selectie behoudt. Vb Xenopus laevis: