Summary

Este documento discute a genómica, incluindo a introdução à genómica e as diferentes tecnologias de sequenciação, como a sequenciação de Sanger. O texto abrange os princípios e aplicações destes métodos, proporcionando uma visão geral da disciplina.

Full Transcript

Genómica 1. Introdução à genómica Relembrando… Genoma – património genético de um sistema biológico. DNA genómico – corresponde a todo o DNA na célula (em eucariontes → DNA no núcleo + DNA mitocondrial + DNA cloroplastidial + DNA plasmídeo). Genómica – abordagem q...

Genómica 1. Introdução à genómica Relembrando… Genoma – património genético de um sistema biológico. DNA genómico – corresponde a todo o DNA na célula (em eucariontes → DNA no núcleo + DNA mitocondrial + DNA cloroplastidial + DNA plasmídeo). Genómica – abordagem que permite determinar a sequência nucleotídica não só a nível de um gene, mas de todo o genoma. A genómica nasce com o surgimento da sequenciação de Sanger (1ª técnica que permitiu determinar a sequência nucleotídica no DNA) e, assim como as demais “ómicas”, foi marcada pelo desenvolvimento tecnológico. Com o passar do tempo, este desenvolvimento permitiu o aumento gradual do poder de sequenciação (b → Mb → Gb), o que permitiu a sequenciação de genomas cada vez maiores. Sequenciação do Sequenciação do Sequenciação de primeiro organismo vivo genoma completo do Sanger (Haemophilus fago λ influenzae) Sequenciação do Sequenciação do Sequenciação do genoma de Drosophila genoma humano genoma se S. cerevisae melanogaster A possibilidade de sequenciar genomas abriu portas para novos estudos e, em pouco tempo, o campo da sequenciação de genomas tornou-se uma área muito competitiva (a nível de mercado); tanto que cada empresa passou a desenvolver protocolos próprios para a extração, purificação, fracionamento e sequenciação do DNA. Logo, para consolidar a crescente quantidade de informação acerca do DNA de diferentes organismos, assim como para realizar o assembly dos fragmentos sequenciados, surgiu a necessidade do investimento em ferramentas bioinformáticas. Nota: as empresas que investiram na sequenciação eram ou públicas ou privadas, e a metodologia de cada uma era diferente. Públicas – dividir e clonar os segmentos do cromossoma, distribuir os fragmentos pelo mundo (cada grupo de investigação era responsável por um cromossoma), sequenciar cada fragmento, assembly dos fragmentos; Privadas – extrair o DNA, fragmentar, sequenciar todos os fragmentos (investimento em bioinformática para o assembly). 2. Tecnologias de sequenciação 2.1. Sequenciação de Sanger A técnica de sequenciação de Sanger baseia-se na terminação prematura da replicação do DNA, utilizando para o efeito nucleótidos modificados, denominados dideoxinucleótidos (ddNTP). Estas moléculas diferem dos nucleótidos normais pela substituição do grupo 3’ OH da pentose por um átomo de H, o que impossibilita a formação da ligação fosfodiéster com o nucleótido seguinte. Metodologia clássica Após a extração, purificação e fragmentação do DNA (molde), são preparadas quatro misturas reacionais contendo primers marcados com isótopos radioativos (“aleatórios” para diferentes regiões do genoma), dNTPs, água ulta-pura, DNA polimerase e tampão. Para além destes reagentes, é também adicionado a cada tubo ddNTP’s (um tipo por tubo), tendo o cuidado de estabelecer um rácio entre o ddNTP e o dNTP correspondente. Por fim, a cada tubo reacional adiciona-se a amostra de DNA molde purificado. A seguir, promove-se a desnaturação do DNA por aumento da temperatura. Com a separação das duas cadeias de DNA, os primers vão ligar à cadeia molde nos sítios onde houver complementaridade, e a polimerase vai promover a síntese da nova cadeia de DNA. A incorporação dos dNTP’s ou ddNTP’s à nova cadeia ocorre de forma aleatória, sendo que, quando dá-se a adição de um ddNTP, a síntese termina. Deste modo, em cada tubo teremos fragmentos de DNA de diferentes tamanhos, porém todos a terminarem no mesmo nucleótido (isto é, têm o mesmo nucleótido na extremidade 3’). Após a reação, o produto é aplicado em poços de um gel de agarose (desnaturante, para separar a nova cadeia do molde) e é realizado ensaio de eletroforese. Após revelação do resultado obtido no gel por autorradiografia (os primers emitem radiação, que marca o filme de raios X, indicando a posição da banda no gel), é possível distinguir os diferentes produtos da replicação. Então, faz-se a leitura dos resultados partindo do fragmento de menor peso molecular (base do gel) para o de maior peso molecular (topo do gel). Como cada poço corresponde a um ddNTP, é possível determinar a sequência através da ordem na qual as bandas “organizam-se” no gel. Assim, ao “ler o gel” de baixo para cima, sabemos a sequência do fragmento em questão. Metodologia moderna Difere da metodologia clássica na medida que, ao invés de utilizar primers marcados radioativamente, são utilizados ddNTP’s marcados com fluorescência, sendo que cada ddNTP é identificado por uma cor diferente. Esta alteração da marcação por radioatividade por marcação por fluorescência é vantajosa, na medida que diminui os riscos à saúde associados com o manuseamento de isótopos radioativos. O restante procedimento pode ser igual ao da metodologia clássica (envolvendo a preparação de quatro misturas reacionais, uma para cada ddNTP), ou pode envolver a preparação de apenas uma única mistura reacional, contendo todos os reagentes e todos os quatro ddNTP’s (metodologia moderna). Na metodologia moderna, a leitura da sequência é automatizada. A amostra é aplicada no topo de um capilar contendo uma matriz em gel. É então realizado um ensaio de eletroforese em capilar, onde, conforme a corrente elétrica é aplicada no gel, os diferentes fragmentos migram de acordo com o seu tamanho e, conforme o fazem, passam por um laser, responsável por excitar os fluoróforos dos ddNTP’s. Após a excitação, o sinal emitido pelo fluoróforo é detetado pelo próprio aparelho, que traduz o sinal no ddNTP correspondente. Assim, após a leitura sucessiva dos ddNTP’s terminais de cada fragmento conforme estes migram pelo gel, o aparelho traduz estas informações na sequência correspondente, sob a forma de um cromatograma. Nota: quantificação da fidelidade da sequenciação Escala PHRED – Por vezes, devido à sobreposição de sinais no espetro, o software pode não identificar uma base corretamente. O valor do PHRED score reflete a probabilidade de erro na chamada de uma base, sendo que quanto maior for, maior será o grau de confiança na identificação. 2.2. Sequenciação de nova geração (NGS) ou sequenciação de alto débito (HTS) As tecnologias de sequenciação de nova geração (NGS) permitem sequenciar uma grande quantidade de amostras simultaneamente, sendo, por isso, também chamadas de sequenciação de alto débito (HTS). Com a sequenciação de múltiplos fragmentos de DNA em simultâneo, diminui-se o tempo necessário para sequenciar uma sequência de DNA (e até mesmo um genoma inteiro), assim como os custos associados a este processo. Nota: o surgimento destas novas técnicas não significa o abandono da sequenciação de Sanger – esta ainda é utilizada para sequências de ≈ 1kb. Para sequenciar genomas, usa-se mais as NGS, apesar de que os dados obtidos da sequenciação de Sanger podem, por vezes, complementar os resultados das NGS. Como foi a primeira a ser desenvolvida, a sequenciação de Sanger constitui a primeira geração de tecnologias de sequenciação. Com o desenvolvimento tecnológico, surgiram novas tecnologias, como a Pirossequenciação e a Illumina, que constituem a segunda geração, e, por fim, a PacBio e a Nanopore, que constituem a terceira geração. É importante referir que as tecnologias NGS (segunda geração) baseiam-se na sequenciação de fragmentos de DNA relativamente pequenos, mas com alto débito (throughput), isto é, realiza milhares de pequenas sequenciações em paralelo. Já as tecnologias de terceira geração apresentam menor throughput comparativamente às NGS, mas têm a vantagem de gerarem leituras maiores, isto é, sequenciam fragmentos maiores de DNA. a) Pirossequenciação (Roche 454) Primeiramente, o DNA é digerido com enzimas de restrição, de modo a obter fragmentos menores e, portanto, passíveis de serem sequenciados. Então, são ligados adaptadores às extremidades de cada fragmento, para permitir a sua ligação a esferas de resina. Depois, é feita uma filtragem, na qual serão removidas todas as esferas de resinas não ligadas. Por fim, junta-se a amostra filtrada com outros reagentes, entre eles os de PCR (à exceção dos nucleótidos), e, por fim, a amostra é aplicada em poços de reação, contidos no próprio sequenciador. O resto do processo realiza-se em ciclos de adição e lavagem de nucleótidos dos poços, realizados pelo próprio aparelho. Quando é adicionado um determinado nucleótido, a DNA polimerase só será capaz de sintetizar a nova cadeia caso o nucleótido adicionado seja complementar ao nucleótido livre seguinte na cadeia template. Ao ser adicionado à nova cadeia, o nucleótido liberta um grupo pirofosfato (PPi), que será substrato de reações posteriores, cujo produto emitirá luz. Ou seja, caso o nucleótido adicionado seja complementar ao nucleótido correspondente na cadeia template, haverá síntese da nova cadeia e, consequentemente, a emissão de luz. A intensidade luminosa é captada por um sensor, presente no próprio aparelho, e, desta forma, é possível saber quantas unidades do nucleótido adicionado foram incorporadas na nova cadeia (maior intensidade -> mais nt adicionados). Por outro lado, caso o nucleótido adicionado não seja complementar ao nucleótido correspondente na cadeia template, não haverá incorporação, nem libertação do PPi nem, por fim, emissão de luz. Através destes ciclos de adição, lavagem e nova adição de nucleótidos torna-se possível, por “tentativa e erro”, descobrir a sequência do fragmento de DNA. Problema – inicialmente, a tecnologia não tinha sensibilidade suficiente para detetar uma única incorporação (emissão de um único fotão). A solução encontrada foi, através de PCR por emulsão, amplificar o fragmento ligado à esfera, isto é, aumentar o número de cópias de um mesmo fragmento de DNA ligado a uma mesma esfera. Deste modo, a incorporação de um único nucleótido não daria origem a um único fotão, mas a um sinal amplificado (a incorporação de um nucleótido é feita em simultâneo em todas as cópias). Problema principal – devido ao poder de resolução das câmaras (sensores), estas facilmente ficavam “saturadas” com o sinal emitido pela incorporação de muitos nucleótidos seguidos (difícil identificar se houve incorporação de 4, 5 ou 6 nucleótidos, por exemplo). Isto poderia conduzir a erros na sequenciação (considerar um nucleótido a mais ou a menos, dando origem a um frameshift). Por isso, com o passar do tempo, esta técnica foi descontinuada. b) Illumina (sequenciação por síntese ou “bridge-PCR”) Esta técnica assemelha-se à técnica por Pyrosequencing, no sentido de que a sequenciação do DNA é feita através da síntese de uma nova cadeia de DNA, nucleótido a nucleótido. Porém, nesta técnica, para além de não se utilizarem esferas de resina, mas sim uma matriz plana (flow cell), o sinal que é medido pelo aparelho não está relacionado à libertação de PPi, mas sim à fluorescência do próprio nucleótido incorporado. Inicialmente, tal como na técnica de Pyrosequencing, o DNA é fragmentado e são adicionadas às suas extremidades adaptadores diferentes. Este DNA híbrido é então desnaturado e aplicado na matriz, onde se encontram ancorados dois tipos de sequências de oligonucleótidos, complementares aos adaptadores ligados nas extremidades do DNA. Quando a molécula de DNA encontra uma das sequências de oligonucleótidos ancoradas compatível com um dos seus adaptadores, ela liga-se por complementaridade. Segue-se então a síntese da uma nova cadeia (utilizando dNTP’s normais, não marcados), seguida da lavagem da cadeia template original. Desta forma, obtemos uma cópia da cadeia de DNA original ancorada à matriz. Como os oligos presentes na matriz são cópias de ambos os adaptadores ligados ao DNA original, a nova molécula, ainda ancorada, vai-se curvar (formando uma “ponte”), ligando a sua outra extremidade a um oligo complementar, também ancorado. Segue-se então uma nova síntese de DNA (ainda com dNTP’s normais), desta vez resultando em duas cadeias de DNA ancoradas, e assim sucessivamente até que todos os oligos tenham ligados a si uma cópia do DNA (cluster generation). Por fim, será realizada uma nova síntese, desta vez utilizando nucleótidos marcados com fluorescência (semelhante aos usados na técnica de Sanger moderna). Os nucleótidos vão, então, competir pela incorporação na nova cadeia, e cada nucleótido, ao ser incorporado, vai emitir o seu sinal de fluorescência característico, que será captado pelo próprio aparelho, permitindo a sequenciação dos mesmos. Porém, a sequenciação não é realizada de uma vez, mas sim por partes (indexes), de modo a reduzir erros associados. Logo, no fim deste processo, obtemos uma série de indexes, cada um referente a uma parte de cada fragmento do DNA. Estes indexes são posteriormente alinhados e comparados, de modo a descartar alinhamentos ambíguos. Desta forma, faz-se a sequenciação do DNA original. 2.3. Sequenciação de terceira geração As tecnologias de terceira geração diferem das de segunda e primeira geração pois baseiam-se em long sequence reads, isto é, permitem sequenciar fragmentos maiores de DNA. A “big idea”, neste caso, é de que, quanto maior for o fragmento a ser sequenciado, melhor. a) Nanopore Nanopore são proteínas transmembranares que existem naturalmente. Nesta técnica, estas proteínas são inseridas em membranas artificiais eletro-resistentes (não há difusão de eletrões através da membrana em si). Cria-se, então, um gradiente de potencial elétrico, e passa a existir um fluxo contínuo de eletrões através da nanopore. Este fluxo pode ser perturbado pela passagem (ou não) de moléculas de DNA, RNA ou proteínas por dentro da nanopore, o que permite a sua identificação. Quando uma amostra de DNA purificado (e previamente preparado para este processo) é aplicada na flow cell, as moléculas de DNA vão entrar nos poços onde estão as membranas, sendo posteriormente guiadas para a nanopore com o auxílio de estruturas denominadas tether. Faz-se, então, passar o DNA por dentro da nanopore. Ligado à sua extremidade está uma proteína motora, que, devido ao seu tamanho, não passa por dentro da nanopore, restringindo-se à entrada da mesma. No entanto, esta proteína motora promove a separação das duas cadeias de DNA, deixando apenas uma delas passar para dentro da nanopore enquanto a outra permanece do lado de fora. Conforme a cadeia de DNA vai passando pelo nanopore, cada nucleótido perturba o potencial elétrico de uma forma característica. Estas perturbações são registadas pelo próprio sequenciador, que traduz estes dados na sequência de nucleótidos correspondente. O sistema Nanopore apresenta diversas vantagens, nomeadamente: Verificação da sequenciação – Após a sequenciação de uma das cadeias, a proteína motora “puxa” a cadeia separada, induzindo a sua passagem pelo nanopore. Deste modo, é feita a sequenciação da segunda cadeia do DNA. A sequenciação de ambas as cadeias do DNA é vantajosa na medida que ajuda a diminuir eventuais erros de sequenciação (atua como um “tira-teima”); Identificação de nucleótidos modificados – Tal como cada nucleótido perturba o potencial elétrico de maneira característica (o que permite identificá-los conforme atravessam a nanopore), os nucleótidos contendo modificações epigenéticas também perturbam o potencial elétrico de maneira característica. Assim, torna-se possível não só sequenciar o DNA, mas também identificar as marcas epigenéticas nele presentes (importante a nível do estudo epigenético); Sequenciação de cromossomas inteiros – Uma vez que a sequenciação se baseia apenas na passagem da molécula de DNA pela nanopore, o limite de sequenciação é o próprio tamanho da molécula. Isto é, enquanto houver molécula a atravessar a nanopore (e ligação à internet), há sequenciação (os resultados da leitura vão sendo armazenados na nuvem), o que possibilita a sequenciação de longos fragmentos de DNA e, no limite, até de cromossomas inteiros. Potencial de sequenciar outras biomoléculas – Assim como cada nucleótido perturba o potencial elétrico de maneira característica, cada monómero de biomoléculas como aminoácidos ou açúcares, por exemplo, também vão perturbar o potencial de maneira característica. Assim, o sistema Nanopore tem potencial para sequenciar outras biomoléculas poliméricas, sendo o aprimoramento desta tecnologia para este efeito uma área emergente. b) PacBio (Single Molecule Real-Time (SMRT) sequencing) Tal como o nome sugere, a tecnologia SMRT sequencing fundamenta-se na observação de uma única DNA polimerase a replicar um fragmento de DNA de maneira contínua, no interior de poços reacionais específicos para o efeito, na SMRT cell. A SMRT cell, por sua vez, contém, no seu interior, milhares de poços reacionais (zero-mode waveguides), cada um contendo, na sua base, uma única DNA polimerase ancorada. Deste modo, quando é aplicada a amostra contendo o DNA (previamente preparado para este ensaio) na SMRT cell, cada poço vai receber apenas uma molécula de DNA (tanto devido à presença de uma única polimerase, quanto devido às dimensões do poço em si). Inicialmente, após a extração e purificação do DNA genómico, procede-se à fragmentação deste, podendo estes fragmentos variarem entre 500 – 30.000 pb, dependendo da aplicação. Então, procede-se à reparação das extremidades dos fragmentos, seguida da ligação de adaptadores (de sequência conhecida) específicos para este ensaio, que se destinam a tornar o fragmento numa molécula cíclica (SMRT bells). Deste modo, ao fim desta etapa, forma-se uma biblioteca contendo os diversos fragmentos do DNA genómico ligados aos adaptadores. Após a construção da biblioteca de gDNA, são adicionados à mistura reacional primers complementares à sequência dos adaptadores e dNTP’s ligados a marcadores fluorescentes (um marcador diferente por dNTP). Por fim, a amostra é então aplicada na SMRT cell, que, de seguida, é inserida no sequenciador. Dá-se, então, início à reação de replicação do DNA template, onde, conforme a DNA polimerase adiciona os nucleótidos à nova cadeia, dá-se a libertação dos fluoróforos a eles ligados, o que resulta num sinal específico, que identifica o nucleótido incorporado. Esta sequência de sinais é captada e interpretada pelo próprio sequenciador, que não só traduz estes sinais na sequência do DNA template, mas também mede a cinética de incorporação dos nucleótidos em tempo real. Como a molécula de DNA template é cíclica, a replicação do DNA não se limita apenas a uma das cadeias, nem apenas a uma única “volta” na molécula. A DNA polimerase realiza a replicação de maneira contínua, dando origem a uma molécula longa de DNA contendo tanto a cadeia sense quanto a antisense. Para chegar à sequência consenso, é realizado o alinhamento das leituras contidas na molécula sintetizada (desconsiderando a sequência relativa aos adaptadores), o que contribui para a diminuição de eventuais erros associados à leitura aquando da incorporação de um nucleótido. 3. Genome assembly Idealmente, as técnicas de sequenciação deveriam permitir a sequenciar todos os nucleótidos de uma ponta a outra do cromossoma; no entanto, devido a limitações tecnológicas, a maioria das técnicas de extração atuais acaba por fragmentar o gDNA, em partes menores ou maiores. Deste modo, a sequenciação pode ser realizada em short reads (técnicas NGS) ou long reads (sequenciação de terceira geração). Nota: sequenciar um cromossoma inteiro através da sequenciação de terceira geração depende, acima de tudo, da capacidade de se extrair o cromossoma sem quebrá-lo. A reconstrução da sequência é realizada com o auxílio de ferramentas bioinformáticas (assemblers). Neste processo, os fragmentos de DNA sequenciados são alinhados entre si, de maneira a identificar regiões de sobreposição, o que vai permitir a “montagem” de partes da sequência de DNA, denominadas contigs. Estas contigs serão, por sua vez, alinhadas entre si, de maneira a reconstituir segmentos cada vez maiores da sequência (scaffolds), sendo o objetivo final “montar” todo o genoma numa única contig. No entanto, independentemente do método utilizado, todas as montagens estão sujeitas a alguns problemas comuns, que acabam por resultar na produção de vários contigs, em vez de apenas um. Falta de cobertura; Elementos repetidos no genoma; Erros de sequenciação; Existem duas abordagens fundamentais relativamente ao assembly: De novo assembly – alinhamento dos contigs sem ter informação sobre o genoma do organismo, isto é, sem parâmetros para o assembly; Reference assembly – alinhamento dos contigs contra um genoma de referência, isto é, utilizando outro genoma como referência para o assembly. Hybrid assembly -- Nota: o reference assembly normalmente não é utilizado para genomas microbianos, uma vez que, nestes organismos, o genoma é muito variável (devido à ocorrência de transferência horizontal de genes, InDels, SNP’s, etc.). Deste modo, caso fosse realizado o reference assembly nestes organismos, o alinhamento resultante teria “buracos” (regiões presentes na nova construção, mas que não estão presentes na referência). Em suma, como o genoma microbiano é muito variável ao longo do tempo, normalmente faz-se o assembly de novo para estes organismos. Já o genoma humano, por outro lado, é menos propenso a estas alterações ao longo do tempo, podendo, assim, ser “montado” através de reference assembly. Como referido, o assembly do genoma é realizado com auxílio a ferramentas bioinformáticas (assemblers), que são responsáveis pelo alinhamento dos dados brutos obtidos da sequenciação em contigs. O objetivo é realizar o assembly do genoma completo no menor número possível de contigs; logo, a “melhor” ferramenta para a montagem do genoma será aquela que consegue o fazer. No entanto, é importante referir que a ferramenta que é a “melhor” para um organismo pode não o ser para outro.

Use Quizgecko on...
Browser
Browser