Teste 3 Introdução à Bioinformática - IB PDF
Document Details
Uploaded by PeerlessAllusion3710
NOVA FCT
IB
Margarida Santos
Tags
Summary
This document is a past paper test on introduction to bioinformatics, focusing on large-scale sequencing technologies (HTS) and their applications, such as RNA-seq and whole-genome sequencing (WGS). It examines different techniques and analyses relevant to gene expression measurements.
Full Transcript
Margarida Santos – 24/25 TESTE 3 – INTRODUÇÃO À BIOINFORMÁTICA Assim, surgiram as TECNOLOGIAS DE Tecnologias de sequenciação em larga escala SEQUENCIAÇÃO EM LARGA ESCALA (HTS). Como podemos medir a expressão de genes? O PCR em...
Margarida Santos – 24/25 TESTE 3 – INTRODUÇÃO À BIOINFORMÁTICA Assim, surgiram as TECNOLOGIAS DE Tecnologias de sequenciação em larga escala SEQUENCIAÇÃO EM LARGA ESCALA (HTS). Como podemos medir a expressão de genes? O PCR em tempo real (PCR quantitativo) combina As técnicas de sequenciação mais recentes a amplificação por PCR convencional com a permitem medir de forma mais fácil todos os deteção e medição do produto em cada ciclo do genes de uma amostra sem conhecimento prévio processo, utilizando fluorescência. dos mesmos. Vantagens: Quantificação precisa; Sensibilidade elevada; Especificidade. ILLUMINA SEQUENCE Desvantagens: muito trabalho para medir poucos 1. Preparação da biblioteca (amostra) genes de cada vez. 2. Geração dos Clusters: amplificação (como No entanto, quando são muitos genes ou não usamos florescência, se fosse só uma quando não temos nenhuma ideia de que gene é molécula o sinal não era suficientemente que estamos a estudar, este método não é forte). Neste caso, quando o RNA ou DNA é eficiente. Assim, surgiram técnicas que nos fragmentado, são colocados adaptadores permitem estudar esses genes de uma só vez: universais nas extremidades e, assim, vão conseguir prender-se à lâmina, MICROARRAYS independentemente da sequência. Vantagem: não dependemos do desenho dos primers ou sondas para genes específicos. 3. Sequenciação: semelhante à sequenciação de Sanger – adicionamos um nt de cada vez que tem florescência própria. Ainda é utilizado. Baseia-se numa lâmina com várias sondas que funcionam como primers (todos iguais). A sonda é especifica para um certo gene e o RNA que lhe for específico fica lá hibridado. Este RNA é marcado com florescência. Portanto, depois da hibridação, ao fazer um scan da lâmina, conseguimos observar este sinal de florescência. + florescência = + RNA temos na nossa amostra -> é uma forma de quantificar. Destas máquinas vai sair um ficheiro FASTQ, semelhante ao FASTA, com milhões de sequências Vantagens: Maneira mais fácil de medir genes que irão ser comparadas em bases de dados. predefinidos em diferentes amostras. Robusto. Note-se que no ficheiro vão estar presentes todas Quantificação de muitos genes num só ensaio. as sequências medidas, independentemente de Desvantagem: requer um conhecimento prévio serem iguais ou não, ou seja, uma sequência que dos genes para fazer sondas apropriadas à apareça muitas vezes num ficheiro representa um Estamos dependentes das sondas – importante se mRNA mais expresso. estivemos a trabalhar com um organismo onde não conhecemos bem o genoma ou com um genoma modificado. APLICAÇÕES DAS HTS Whole-Genome Sequencing (WGS) 1 Margarida Santos – 24/25 Com DNA obtém-se a sequenciação do genoma miRNA-seq completo e informações relativamente a Sequências < 200nt. Com estes resultados não é mutuações pontuais, indels, alterações do possível ver expressão de genes. Obtém-se outras número de cópias, etc. Estas informações podem informações, note-se que nem todos os RNAs já estar disponíveis em bases de dados. codificam para proteínas. Inferir mutações: em cima temos o genoma de referência. Em baixo temos as nossas seq. Se depois de alinharmos, verificarmos que todas as seq têm uma base diferente do genoma de referência à mutação. Inferir alterações de copy number: podem dever- se a mutações, polimorfismos, grandes deleções ou grandes amplificações do genoma e translocações. Visível se não há reads ou se há mais reads do que o esperado. As translocações são detetadas se na mesma seq tivermos duas partes provenientes de cromossomas diferentes. Não (?) ou sim (?) podemos detetar patogénicos ChlP-seq Processo: Extrair o dna à hibridar um anticorpo. Os Fatores de Transcrição (FTs) que estiverem agarrados ao DNA vão ter esse anticorpo ligado. De seguida, fragmentamos o DNA e selecionamos os que têm o anticorpo para sequenciação. Assim, vamos obter as regiões do genoma onde se ligam os FTs. RNA-seq Se quisermos medir expressão génica. Serve para a medir o transcritoma para seq> 200nt. Para sequenciar RNA é preciso passá-lo a cDNA (transcrição reversa). Os picos são as zonas onde tínhamos mais reads. Aplicações: estudar o epigenoma, ver onde está a polimerase, ver a expressão de um gene. 2 Margarida Santos – 24/25 O que muda entre estas técnicas e o WGS é Estas 3 abordagens são denominadas de bulk sempre o primeiro passo (preparação da sequecing, o contrário de single-cell biblioteca): sequencing. - na RNA-seq temos de converter o RNA em cDNA para obtermos uma maior estabilidade. Single-cell: Isola-se o RNA de cada célula. Os - na miRNA-seq preparamos uma biblioteca com RNAs de cada células possuem diferentes bar os RNAs mais pequenos: importante para comparação de amostras 6 Margarida Santos – 24/25 GTExPortal Importante à Ver documento feito na aula prática – tem pormenores importantes e ajuda a compreender melhor (a maior parte já está aqui) Esta base de dados contém dados de vários estudos realizados em tecidos humanos saudáveis em relação à expressão de vários genes. Agrupa os dados pelos 53 tipos de tecidos diferentes do corpo humano e tem em conta traços fenotípicos como sexo, idade, etnia etc.. Ajuda a responder às questões: Como a expressão X varia através de tecidos? É tecido-Específico? Nestas análises é preciso perceber que os dados Como a expressão muda entre o tipo de de RNA-seq podem explicar fenótipos, mas é género? preciso partir dalguns pressupostos. Como a expressão muda em perfis de Para além de poderem acontecer erros técnicos, célula única? os níveis de RNA não estão 100% correlacionados Como a expressão de isoformas muda com a atividade das proteínas. Os RNAs não são entre os tecidos? traduzidos todos ao mesmo ritmo, o seu Como a expressão de genes parálogos transporte para fora do núcleo depende de vários muda através dos tecidos? fatores, podem ocorrer eventos de splicing alternativo e para além disso a atividade das próprias proteínas é regulada por diversos fatores. TPMs -> transcritos por minuto (medida standard que representa os níveis de expressão normalizados). Mineração (mining) de Dados para extrair Informações e gerar Conhecimento científico. 7 Margarida Santos – 24/25 Este gene é expresso na maior parte dos tecidos. O violin plot é o mais usado atualmente em artigos. Não é tissue specific – para ser específico a maior parte tinha de estar com o nível de expressão baixa 1. Boxplot: Mostra a mediana, quartis e outliers. É útil para resumos estatísticos simples. como no cérebro (nulo). É mais expresso no 2. Density Plot: Representa a distribuição de esófago e no coração. probabilidade suavizada dos dados. 3. Histograma + Linha de Densidade: Combina Pode ser necessário ir a “filtrar” e remover as frequência (barras) com uma curva suavizada da culturas de células, para ficarmos apenas com densidade. tecidos in vivo. 4. Violin Plot: Junta boxplot e densidade em um só gráfico, mostrando distribuição e estatísticas com Podemos variar o gráfico para ver a distribuição mais detalhes. por sexo. Para efeitos de publicação em artigos científicos é preciso validar estes dados com testes estatísticos p-value. Podemos consultar estes dados para perceber que tipo de células devemos usar numa experiência para um determinado gene. Expressão genética nos tecidos Podemos ver a expressão por tipo de célula, é preciso ter em conta a quantidade de amostras analisadas. As barras pretas agrupam a maioria dos dados, já que representam o intervalo interquartil (IQR), ou seja, os 50% centrais da distribuição (entre o 1º quartil – Q1 – e o 3º quartil – Q3). Isso significa que a maior parte dos valores está concentrada nessa faixa. Exemplo prática: Logo, para analisar os dados, devemos focar-nos nessa zona. Os que têm uma maior expressão apresentam a barra preta mais acima. Exemplo prática: 8 Margarida Santos – 24/25 Aqui precisamos de observar qual barra preta está Para avaliar como a expressão de genes mais acima (perto dos 5). Neste caso, a expressão parálogos muda através dos tecidos: é maior nos miócitos, o que está em concordância com o observado na pergunta 1. Expressão de diferentes isoformas Estão organizados por tecidos, isoformas e TPMs. A cor da bolinha representa as TPMs, sendo as mais escuras as mais expressas. Podemos tirar conclusões se existem isoformas comuns a todos os tecidos ou se existem isoformas típicas de um tecido. Obtemos o seguinte gráfico: Exemplos práticas: Podemos ver que não estão igualmente distribuídos pelos tecidos. Apesar de estarem presentes mais ou menos nos mesmo tecidos, estão em níveis de expressão bastante diferentes. Expressão de exon junctions. Pode indicar que haja determinados exões específicos para uns tecidos, seria preciso comparar as exon junctions e as isoformas para isso. Pode estar relacionado com motivos epigenéticos também, entre outras coisas. 9 Margarida Santos – 24/25 Os mais semelhantes com o nosso gene, TPM 1, são os parálogos TPM 2 e TPM 4. O TPM 3 tem um nível baixo de expressão geral. No entanto, é expresso no músculo esquelético. Por serem parálogos, a função é semelhante, mas pode ter particularidades – os genes podem ter especializado funções mais particulares e distintas após a duplicação Genómica na Biomedicina Multi-Omics para o profiling de Tumor Biopsies Da mesma forma que existem portais de dados de pessoas saudáveis, existem portais para determinadas patologias. É o caso do cBioPortal onde podemos consultar e associar alterações genéticas em doentes oncológicos. Termos acesso à omics é muito útil – podemos utilizar informação que já está disponível para muitos tipos de cancro. Estes consórcios sequenciam o genoma, trascritoma, microRNAs, a metilação do DNA e Progressão e heterogeneidade do tumor proteínas para muitos pacientes e para muitos tipos de cancros. Medicina de precisão: não se aplica só ao cancro. Para identificar os pacientes e determinar o seu Podemos consultar um gene e ver que alterações perfil molecular de sofreu em vários tipos de cancro: forma a escolher a terapia mais adequada, é necessário caracterizar os tumores através de sequenciamento de amostras. Esse processo envolve: - Identificação de biomarcadores que permitem classificar as biópsias com base em características moleculares específicas. - Análise de genes-alvo (target genes) que podem ser utilizados como pontos de intervenção terapêutica, possibilitando tratamentos personalizados e mais eficazes. Os primeiros são os cancros mais afetados. 10 Margarida Santos – 24/25 Estes gráficos também nos mostram o tipo de alteração: Verde – mutação Roxo – estrutural Vermelho – amplificação Azul – deleção Cinzento – múltiplas alterações Hotspot: sítios com tendência a ter mais mutações (e mutações mais significantes para o desenvolvimento do tumor (?)). Nem todos os genes mutados têm hotspots. As bolinhas representam mutações e a sua cor o tipo de Se a boxplot dos outros estiver abaixo da do mutação. diploide é porque houve menos expressão (e mais expressão se estiver acima). O aumento da expressão pode dever-se a alterações nos promotores, como criar novos RBP, TF... /nota: as poucas bolinhas (na amplificação) representam poucas amostras. Conseguimos ver o domínio mais mutado. /nota da aula: às vezes temos a amplificação com Exemplo prática: pouca expressão, porquê? A transcrição depende de regiões regulatórias (promotores, enhancers) e da presença de fatores necessários. Se a amplificação incluir apenas os exões sem os elementos regulatórios essenciais, o gene São só 7 doentes (ver eixo dos y) – valor demasiado amplificado pode apresentar baixa expressão. baixo para nº de doentes com esta mutação para se tirarem conclusões. Há outros tipos de alterações genéticas que Cada bolinha – mutação; altura – quantos genes também podem afetar a expressão genética: estão mutados (freq). mutações e regiões regulatórias. As mutações estão distribuídas ao longo da proteína – não há nenhuma predominância muito visível. Tipo de alteração: No hotspot – trucanting; no geral – missense. Alterações no transcritoma Nem todas as alterações vão ter impacto no desempenho da função do gene - podem não alterar a formação da proteína funcional. Uma alteração possível é no número de cópias do gene, seja deleção ou amplificação (redução é pouco comum) - alterações transcritómicas. Estes gráficos abordam a genómica (copy number alterations) e a transcritómicas (gene expression). No eixo X temos os diferentes tipos de alterações no número de cópias do gene CDKN2A, que, neste caso, são: Deep Deletion, Shallow Deletion, Diploid (referência), Gain, Amplification. 11 Margarida Santos – 24/25 /nota: trucanting – NMD; no mutation – não houve mesmo mutação; not profiled – mutação não identificada. Disease free survival (relapse) Determinadas mutações podem afetar negativa ou positivamente a sobrevivência do paciente. É possível consultar o tempo em que um paciente Alterações moleculares nas doenças oferecem a está livre do tumor. oportunidade para: Diagnóstico ➔ marcadores de diagnóstico com alta especificidade; Prognóstico ➔ usado como valores preditivos para o resultado clínico; Terapêutica ➔fornecer orientações importantes para a seleção da estratégia de tratamento; Monitoramento de doenças ➔ avaliar doença residual ou recorrência Prognóstico A análise de sobrevivência não tem apenas em conta a morte, mas eventos como ataques cardíacos, AVCs, reaparecimento do tumor. Ou seja, mede o tempo que demora até à morte do paciente. A vermelho- pessoas com tumores. Ver ficheiro aula prática. 12 Aula 1 Ib Aa Rita Grosso 1. Perceber o que são os genome browsers (andar pelo genoma) 2. Vamos aprender uma ferramenta: In-Silico PCR (permite saber onde os primers hibridam no genoma) 3. Explore HTS alignments Trascritoma – medirmos rna – rna seq Genome browsers (como um google maps para o genoma) - Há vários browsers, mas vamos usar o UCSC Genome browser - Tem genoma de vários organismos, mas nó vamos trabalhar com o humano - Caixas + largas -> exões ; linhas -> intrões ; intermédios -> UTR , setas -> direção - Há vários MYC - várias isoformas dos vários genes - A parte de baixo é informação - podemos selecionar a info que queremos (selecionar e fazer refresh) EXERCÍCIO 1 - Clicar em GENECODE e pôr full. Clicar em NCBI e pôr full. Por em zoom out 1.5x. Exploring the MYC gene: Which strand is the gene transcribed from? Foward How many different transcripts variants (isoforms) are there for this gene? 14 isoformas no total (12 do genecode, 2 do NCBI) Doest the databases GENCODE (Ensembl) and NCBI show the same isoforms? Há 1 isoforma igual How many different exons are there for this gene? 3 exões (se olharmos para o conjunto de forma + geral --> 3 exões principais que são comuns a todas as isoformas: apesar de uns serem maiores que outros, estão na mesma "região") Which exon contains the transcription start site? 1º de todos (seja UTR – os intermédios - ou exão - o mais grosso) Which exon contains the translation start site? 1º exão (mais grossos) EXERCÍCIO 2 - Escolher o que não tem alternative Primer 1 Os primers são os dois retangulos pretos e os genes os que estão a baixo Which genes will be amplified by the primers below? B2M ENSG (????) What is the expected length size of the amplified fragment? 86 pb Which regions of the MYC will be amplified? Which exons/introns? (fazer zoom out para ver – se pusermos o cursor em cima vemos o nº do exão) ---- não há MYC neste If such primers were used to quantify gene expression (e.g. rtPCR) which MYC isoform(s) would be measured? Podemos quantificar porque os primers ficam na zona dos exões. Ver foto acima. Primer 2 Which regions of the MYC will be amplified? Which exons/introns? (fazer zoom out para ver – se pusermos o cursor em cima vemos o nº do exão) Exão 2 e 3 EXERCÍCIO 3 Exploring the MYC gene: - nota: se não estivermos a conseguir ajiustar o zomm pesquisar na caixa de pesquisa MYC e vai dar o zoom ideal Which strand originated the reads sequenced by HTS? Is it consistent with the annotated gene strand for MYC? Fw porque os gráficos de cima são mais altos :) Sim, bate certos com os exercícios anteriores. How many exons appeared to be included in the mRNA? Which isoform shows higher expression? Temos três montanhas – 3 exões a ser transcritos (alinham e +/- com os exões do MYC). A segunda abaixo da azul clarinha é a isoforma que tem maior expressão, porque é a que se alinha melhor com as montanhas. não é a azul clarinha porque é mais comprida do que o esperado Can you depict different nucleotides between the aligned reads and the reference sequence in the first exon? Hint: Zoom in to the region chr8:128,748,335-128,748,425 (i.e. paste this coordinates in the top box) - Se aparecer uma letra significa que nessa posição é diferente