Resumo Genómica Funcional em Plantas PDF
Document Details
Uploaded by Deleted User
Tags
Related
- Unraveling the Functional Dark Matter through Global Metagenomics PDF
- Introductory Lecture on Functional Genomics PDF
- Tema 10 - Estrategias para la Identificación y Caracterización de Genes y Promotores PDF
- APUNTES TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS PDF
- Genome 23: Functional Genomics, Proteomics, and Bioinformatics PDF
- Sequencing and Functional Genomics Part 1 PDF
Summary
Este documento fornece um resumo da genómica funcional em plantas, abordando a história e importância da investigação em plantas e apresentando organismos modelo, com foco em Arabidopsis thaliana. Explora as vantagens e o impacto de Arabidopsis nas pesquisas científicas.
Full Transcript
Resumo genómica funcional em plantas 1. História e importância da investigação em plantas Por que estudar plantas? – As plantas contribuem para a viabilidade da vida na Terra. Para além disso, apresentam características que lhes conferem interesse a nível económico. Fotossíntese → ca...
Resumo genómica funcional em plantas 1. História e importância da investigação em plantas Por que estudar plantas? – As plantas contribuem para a viabilidade da vida na Terra. Para além disso, apresentam características que lhes conferem interesse a nível económico. Fotossíntese → captam CO2, libertam água e O2; Fontes de novos compostos de interesse/fármacos/drogas terapêuticas; Fontes de fibras para papel/tecido; Potencial de limpeza dos solos; Plantações e comercialização; Fontes de energia renováveis. Joseph Priestly – As plantas têm importância na renovação do ar. Carl von Linné – Impulsionador da botânica para estudos de fisiologia, anatomia e reprodução. Charles Darwin – Investigações na botânica para suportar a teoria da seleção natural. Gegor Mendel – Investigação com ervilheiras para a formulação das leis mendelianas da hereditariedade. Norman Borlaug – “Pai da revolução verde”, prémio Nobel pela contribuição na produção de alimentos a nível mundial. Mais pessoas morrem no mundo de malnutrição que de cancro; Não é só pouca comida, mas também o mau consumo de nutrientes essenciais; Plantas transgénicas → plantas modificadas geneticamente para crescerem mais facilmente (mesmo em situações de stress) e serem “fortificadas” em nutrientes essenciais (ex: tomates negros – ricos em antioxidantes, arroz amarelo – rico em vitamina A). 2. Organismos modelo em plantas Os organismos modelo surgem através do trabalho realizado por vários grupos de investigação. Isto é, quanto mais se estuda um determinado organismo, mais se desenvolvem ferramentas que facilitam o seu estudo e, consequentemente, mais se sabe sobre ele. Assim, a partilha de informação entre diferentes grupos de investigação sobre um determinado organismo permite a formação de uma base de conhecimentos que vai contribuir (e muito) para estudos posteriores. Os organismos modelo são objeto de estudo para processos biológicos, e estes, por sua vez, podem ser extrapolados para outros organismos. No entanto, não existe apenas um único organismo modelo em plantas, mas sim um organismo modelo para cada classe de plantas (ex: Arabidopsis – angiospérmicas, etc.). Assim, o investimento no estudo de modelos de plantas tem o objetivo de elucidar não só mecanismos básicos da vida (genómica funcional), mas também a plasticidade evolutiva. Nota: O estudo da assimetria floral de Antirrhinum majus não é realizado na própria planta, pois esta não é uma planta modelo, mas sim em Arabidopsis thaliana, por exemplo. Os mecanismos de regulação da expressão de genes relacionados à assimetria floral (regulados pelo DIV, DRIF e RAD) são estudados em Arabidopsis e, assim, extrapolados para A. majus. Nota: A importância das plantas modelo na investigação resume-se não só no estudo da genómica funcional, mas também da sistenia (conservação da posição de genes e da estrutura do genoma em espécies filogeneticamente próximas). Por exemplo, entender o controlo do tamanho de uma planta pode levar a plantas mais produtivas. Importante – Para que uma planta possa ser considerada como modelo, esta deve ser transformável! Modelos: Medicago truncatula (tremoços) – vivem em simbiose com a bactéria Rhizobium nas raízes; estas bactérias têm a capacidade de fixar nitrogénio e torná-lo disponível para a planta, não sendo necessário o uso de fertilizantes; Zea mays (milho) – elevado interesse económico (principal componente da dieta do ser humano); Arabidopsis thaliana – é dos organismos mais utilizados para o estudo de processos biológicos. No entanto, o estudo de organismos não-modelo também tem relevância, por diversos motivos: Alguns processos biológicos são impossíveis de estudar em organismos modelo, pois têm vias de síntese específicas – plantas aromáticas O interesse económico pode, por vezes, justificar o seu estudo – milho, girassol, tomate, etc. As novas tecnologias de sequenciação tornam possível o estudo nestes organismos, para além de permitir o sequenciamento de novos genomas. 3. Arabidopsis thaliana como modelo Existe uma grande variedade de Arabidopsis diferentes, dependendo do seu local de origem. Vantagens: Ciclo de vida curto; Pequenas dimensões; Alta densidade genómica; Genoma pequeno; Fácil transformação; Várias ferramentas disponíveis: o Chips de DNA (Afimetrix); o Sistemas de recombinação; o RNAi; o Linhas mutantes (existe uma coleção de linhas mutadas, dependendo do gene com que se queira trabalhar); Produz muitas sementes (maior probabilidade de alguma delas ser resultado da transformação). Impacto da Arabidopsis na investigação: Fatores de transcrição DREB Estes fatores de transcrição foram primeiramente identificados em Arabidopsis, estando envolvidos na resposta ao stress relacionado com a seca e frio extremos (proteção contra a dessecação). Posteriormente, foram identificados genes ortólogos no milho, no arroz e no trigo. Nota: genes ortólogos são genes que divergiram por especificação, isto é, são genes presentes em espécies diferentes que originaram de um mesmo ancestral comum (evolução divergente). A descoberta do mecanismo de ação destes TF permitiu a transferência destes conhecimentos para outras espécies: Milho e brássicas (couves e Arabidopsis) tolerantes à seca; Cenouras bio-fortificadas (aumento da absorção de Ca2+; Tomate, alfafa e arroz tolerantes ao sal; Arroz e trigo tolerantes a stress. Estudo de processos celulares básicos em humanos Apesar de quase 1,6 bilhões de anos de evolução divergente, grande parte dos genes em Arabidopsis têm ortólogos em humanos. Assim, o estudo dos processos celulares nos quais estes genes se encontram envolvidos em Arabidopsis pode permitir a extrapolação destes conhecimentos para o organismo humano. Entre estes processos estão: Recetores do sistema imune – são semelhantes em humanos e plantas; Função de chaperonas no citosol – permitem o correto dobramento das proteínas; Bioquímica da degradação de proteínas; Criptocromos no controlo do relógio circadiano; Epigenética (metilação do DNA mediada por RNA, descoberta de siRNA e proteínas Dicer); Transporte de iões; Sinalização por proteínas G; Variação genética natural. 4. Estratégias do estudo de genómica funcional em plantas Genómica estrutural X Genómica funcional Centra-se no estudo da estrutura dos genes e Aproveita-se dos dados disponibilizados pelos dos genomas (sequências de DNA, localização projetos de genómica, proteómica e restantes de genes/intrões/exões, identificação de regiões “ómicas” para determinar a função dos genes no intergénicas, etc.) organismo. Estratégias para o estudo da genómica funcional: Genética direta (forward genetics) Inicia-se com a mutação aleatória de organismos e da seleção dos fenótipos de interesse. A seguir, tenta-se descobrir qual o gene cuja mutação foi responsável pelo fenótipo observado. Genética inversa (reverse genetics) A partir da sequência do gene de interesse (obtida pelas novas tecnologias de sequenciação), usa- se da mutagénese para estudar o fenótipo e, assim, a função do gene. Relembrando – Para poder aplicar estas estratégias, é necessário que a planta seja transformável, pois é importante conseguir gerar perdas ou ganhos de função. Ganho de função → sobre-expressão ou expressão ectópica o Expressão ectópica – expressão anormal do gene num tipo de célula, tecido ou estado de desenvolvimento no qual o gene não é, normalmente, expresso; pode ser causada por uma doença ou induzida de forma a determinar a função do gene; o Uso de um promotor forte (viral) → CalMV 35S (promotor do vírus do mosaico da couve-flor). Perda de função → knockdown ou knockout o Knockdown – diminuição parcial da expressão do gene; o Knockout – diminuição total da expressão do gene. o A perda de função faz-se através da inserção de T-DNA ou transposões no gene; ▪ Transposões: vetores construídos a partir de elementos móveis de várias espécies, com utilização mais restrita em plantas; a mutação é induzida pela mobilização do transposão (ação da transposase) de uma região do DNA hospedeiro para o interior do gene; ▪ T-DNA: vetores construídos a partir do plasmídeo Ti (tumor inducing) de Agrobacterium; a mutagénese é conseguida após a transformação da planta com a bactéria (transferência horizontal do plasmídeo). Importante – o T-DNA não serve apenas para fazer o knockout de genes, mas também para inserir construções de genes recombinantes para o genoma de plantas. 5. Mutagénese Tipos de mutações Pontuais: causadas por SNP’s, podendo ser de 3 tipos: o Silenciosas – devido à redundância do código genético, o codão mutado codifica para o mesmo aminoácido que o codão normal; o Nonsense – o nucleótido mutado altera o codão, tornando-o num codão STOP, o que leva à paragem da transcrição; o Missense – a mutação altera o codão e, consequentemente, o aminoácido por ele codificado: ▪ Conservativa – a estrutura do novo aminoácido permite a interação da proteína de maneira semelhante à proteína normal (a função pode ser reduzida); ▪ Não conservativa – a estrutura do novo aminoácido é muito diferente do original, e a função da proteína é afetada/alterada (pode aumentar, diminuir ou dar origem a nova função). Exclusões, inserções e rearranjos – geralmente causam perda de função Agentes mutagénicos São usados para introduzir, artificialmente, variação genética numa população, com o intuito de alterar a função de um gene. Estas mutações, por sua vez, podem ser SNP’s (single-nucleotide polymorphisms), InDel’s (inserções e deleções), grandes rearranjos cromossómicos, etc. Podem ser: Agentes químicos (EMS) o Coloca-se as sementes durante um certo tempo numa solução contendo EMS; o Causam mutações pontuais (substituições C/G por T/A); o Alta eficiência (centenas de mutações no genoma); o Resultam num largo espetro de mutações, incluindo perda ou ganho de função; o A mutação é difícil de encontrar no genoma. Agentes físicos (iões/neutrões acelerados, raios X) o Utilizadas para a seleção dos alimentos que comemos; o Causam grandes inserções/deleções/arranjos; o Média eficiência; o Resultam principalmente em perdas de função. Agentes biológicos (transposões e T-DNA) o Causam a inserção de (grandes) sequências específicas de DNA no genoma; o Baixa eficiência; o Resultam principalmente perdas de função; o A mutação é fácil de identificar. CRISPR-Cas9 O sistema CRISPR-Cas9 é uma ferramenta de edição genética através da qual é possível, também, realizar o knockout de genes. Esta técnica difere do T- DNA ou o EMS, por exemplo, por introduzir alterações em sítios específicos no genoma, e não aleatoriamente. Este sistema consiste numa molécula de guide RNA ligada a uma nuclease Cas9, formando um complexo que será capaz de reconhecer uma região específica no genoma e, após o reconhecimento, irá clivar ambas as cadeias de DNA. Após a clivagem, a própria célula reconhece o dano causado no DNA e tenta corrigí-lo. Nesta etapa, é possível induzir a introdução das mutações desejadas no DNA através da manipulação da maquinaria de reparo da célula. Limpeza de fundo genético Métodos que geram muitas mutações têm um inconveniente: não se sabe qual a mutação responsável pelo fenótipo, nem se é apenas uma única mutação que o gera. Assim, de maneira a garantir que os indivíduos em análise tenham o fundo genético o mais próximo possível do fundo genético parental, à exceção da mutação, faz-se o backcrossing (retrocruzamento). Cruzar a linha mutante com a linha wild type em várias gerações (>4) e selecionar as linhagens que ainda possuem o fenótipo; Em cada cruzamento da linha mutante com a WT, a percentagem da linha WT vai aumentar e a da mutante vai diminuir em 50%. Mapeamento Os agentes mutagénicos químicos e físicos levam à necessidade de construir um mapa das mutações por eles introduzidas no genoma. Mapa físico X Mapa genético Representação da posição física dos genes no Representação das posições e distâncias relativas cromossoma (medida em bp) dos genes no cromossoma (medida em cM – as distâncias são medidas em % de crossing-over, por isso é relativa) Map-based cloning Útil quando a região no genoma onde ocorre a mutação não é bem conhecida; Permite identificar um gene com base na sua localização relativa no genoma — através do mapeamento por linkage (mapa genético), o fenótipo pode ser associado a uma região do genoma, onde muito provavelmente estará o gene responsável por ele; Sabendo a localização aproximada do gene mutante, torna-se mais fácil amplificar (PCR), clonar esta região, sequenciá-la e, por fim, compará-la à linha WT; Em suma, através do mapa genético, obtemos a posição aproximada do sítio de inserção (utilizando os marcadores genéticos como referência) e, após a sequenciação, podemos determinar a posição exata do sítio de inserção no cromossoma (mapa físico). 6. Transformação com Agrobacterium tumefaciens Agrobacterium tumefaciens é uma bactéria do solo que tem a capacidade de infetar células vegetais e transferir uma sequência do seu DNA (T-DNA) para estas células. Esta bactéria, ao infetar a célula, causa o aumento da proliferação celular para seu proveito, o que provoca tumores em plantas. Esta bactéria contém um plasmídeo conhecido como plasmídeo Ti (tumor inducing). Neste plasmídeo ocorre a transcrição de genes virais, que permitem a expressão do T-DNA. Este, por sua vez, deve ser compactado e deve conseguir migrar da célula de origem até o núcleo da célula vegetal, onde alcança o DNA genómico e integra-se no mesmo. Este mecanismo é utilizado genética molecular para realizar o knockout de genes em plantas (introduzir mutações). No entanto, por engenharia genética, é possível introduzir, no interior da região T-DNA, um gene repórter e/ou um marcador de seleção sob controlo de um promotor forte (35S). Assim, o T-DNA que entra no genoma da célula vegetal não só causa o knockout do gene, mas também permite a seleção de transformantes. Citocinina e auxina: hormonas envolvidas na divisão celular (e na sua regulação) → quando inseridas no genoma da célula vegetal, promovem o crescimento das células (formação de tumor). Opina: fonte de carbono para Agrobacterium → quando inserido no genoma da célula vegetal, promove a produção de opinas pela célula transformada, que secreta esta molécula para o meio (disponibilização de fontes de carbono para Agrobacterium). Como é feita a transformação em Arabidopsis no laboratório? – Mergulha-se as flores em solução contendo Agrobacterium transformada com o vetor recombinante, produz-se as sementes e planta-se. A primeira linha de plantas resultante das sementes corresponde a T1. A seleção de transformantes é feita através do uso de herbicidas. Uma das vantagens em se utilizar este tipo de vetores (plasmídeo Ti) para mutagenizar populações (ao contrário dos métodos químicos ou físicos) é o facto de que o T-DNA é um marcador molecular. Isto é, a sequência do T-DNA usado no vetor é conhecida, e, por tail-PCR, é possível determinar o local no genoma onde ocorreu a inserção (permite amplificar e sequenciar as regiões flanqueadoras do sítio de inserção). No entanto, com o desenvolvimento das técnicas de sequenciação, hoje em dia facilmente se sequencia um genoma completo. O T-DNA pode ser utilizado não só como mutagénico (knockout de genes), mas também para a transformação de plantas com genes exógenos, de maneira a estudar a sua função no organismo. Por exemplo, a inserção de um T-DNA contendo um promotor que se pretende estudar fundido a um gene repórter GUS, podemos estudar a atividade do promotor pela expressão do produto corado nas plantas. Confirmação do sucesso da transformação A resistência ao antibiótico do T-DNA pode ser perdida com gerações – precisamos de outras formas para garantir que o DNA exógeno foi inserido. Primeiramente, extrai-se o gDNA, e depois podemos utilizar das seguintes técnicas para confirmar se houve transformação: PCR – usar primers para os genes no interior do T-DNA (por exemplo, genes de resistência a Kan) Genes repórteres – análise da coloração GUS ou da fluorescência GFP RT-PCR – verifique se a expressão do gene é alterada (por exemplo, RNAi, ganho de função, knockout) Nota: no entanto, estas técnicas, à exceção do RT-PCR, não permitem confirmar se o fenótipo observado é, efetivamente, um knockout do gene. Fatores envolvidos no controlo da expressão de genes Número de cópias integradas – Em teoria, o aumento do número de cópias de transgenes deveria resultar no aumento da expressão da proteína repórter, no entanto cópias múltiplas são mais propensas a mecanismos de silenciamento dos transgenes; assim, para uma expressão mais previsível, inserções de cópia única são preferíveis. Local de integração do transgene – O transgene pode ser inserido numa região do genome que é altamente transcrita, ou numa região menos transcrita; assim, a tolerância da região para receber DNA exógeno afeta diretamente a sua expressão (regiões de heterocromatina (muito empacotada) e DNA repetitivo estão geralmente associadas ao silenciamento de transgenes). Efeito do posicionamento; Fatores epigenéticos; Etc. 7. Estudo de mutantes da prática (mutantes perda-de-função em A. thaliana) Genotipagem A genotipagem de plantas envolve diferentes etapas: 1) Crescimento das linhas mutantes (a mutação é, neste caso, a inserção de T-DNA); 2) Isolamento do gDNA de plantas individuais; 3) Amplificação por PCR (seguida de ensaio de eletroforese em gel de agarose). Amplificação por PCR A genotipagem por PCR compreende duas reações diferentes: BP Reação wild type → identificar as plantas wild type; Reação transgene → identificar as LP RP LP plantas homozigóticas para a inserção do T-DNA Importante – o cruzamento dos resultados obtidos para cada reação permite identificar as plantas heterozigóticas As reações têm como propósito amplificar diferentes fragmentos de DNA, consoante os primers utilizados. Estes primers, por sua vez, são construídos de maneira a ter ou homologia com as regiões flanqueadoras do sítio previsto de inserção do T-DNA (LP e RP) ou com o T-DNA inserido (BP). A escolha (e aquisição) dos primers pode ser feita através da ferramenta T-DNA Primer Design, da base de dados SIGnAL. Nota: a orientação do T-DNA inserido é importante – pois assim, ao escolher o primer BP temos de saber se ele fará par com LP ou RP (na reação T-DNA PCR só será adicionado LP+BP ou RP+BP). Nota: na ferramenta T-DNA Primer Design inserimos o nome da linha mutante escolhida e o próprio programa nos fornece uma lista de primers disponíveis e compatíveis para uso. Assim, ambas estas reações de PCR serão realizadas para cada planta que queremos genotipar. No contexto da aula, foi feita a genotipagem de 16 plantas, mas metade da turma realizou a reação wild type (para as 16 plantas) e metade a reação transgene (para as 16 plantas). Após a amplificação, as amostras foram aplicadas em poços num gel de agarose e fez-se um ensaio de eletroforese. Normalmente, a presença de uma única banda no gel indica que a amplificação ocorreu com sucesso, e o mesmo princípio se aplica neste ensaio. Assim, nas reações wild type, será possível observar uma única banda (correspondente ao produto RP + LP) nos poços correspondentes às amostras onde não houve inserção do transgene, enquanto que, nas reações transgene, o inverso acontece (isto é, observa-se uma única banda (produto RP + BP ou LP + BP) nos poços onde houve inserção do transgene). No entanto, para algumas amostras, será possível observar a presença de uma banda em ambos os ensaios. Este resultado é indicativo de que a amostra origina de uma planta heterozigótica (hemizigótica) para a mutação (o transgene encontra-se inserido em apenas um dos cromossomas). Assim, ao sobrepor os resultados obtidos em ambos os géis, podemos representá-los num único gel hipotético, como na figura abaixo. WT Heterozig. Hemizig. LP + RP LP + BP ou RP + BP Organismos modelo e introdução às “ómicas” 1. Organismos modelo Organismos modelo são espécies ou organismos específicos escolhidos para o estudo científico por possuírem características que os tornam “atrativos” para a investigação, entre elas: Ciclo de vida curto (à escala humana); Pequenas dimensões (em fase adulta); Facilidade de criação em laboratório; Disponibilidade na natureza; Baixo custo de criação (e manutenção). O principal objetivo do estudo destes organismos é explorar o conhecimento sobre processos biológicos fundamentais à vida, cujo funcionamento pode, por vezes, ser extrapolado para outros organismos. Isto é, o estudo de um determinado processo biológico num organismo modelo permite uma melhor compreensão deste mesmo processo em organismos superiores. Modelos atuais Drosophila melanogaster; C. elegans; Saccharomyces cerevisae; Arabidopsis thaliana; Escherichia coli; Zebra fish; Ratinho; Etc… Relações entre organismos modelo Muitos organismos modelo são espécies que partilham características em comum com outros organismos, o que permite o estudo de processos biológicos de forma comparativa. Assim sendo, a escolha de um modelo relaciona- se com a sua proximidade filogenética do organismo que se pretende estudar: quanto maior for esta proximidade, mais características são conservadas entre os dois indivíduos. Nota: evidentemente, nem sempre a escolha do modelo o mais próximo filogeneticamente possível se justifica. Por exemplo, é possível estudar mecanismos celulares humanos em levedura, não apenas em ratinhos de laboratório Logo, com base nas características conservadas, alguns modelos são preferencialmente escolhidos em determinados tipos de estudo: Drosophila melanogaster – estudos de biologia do desenvolvimento; Mus musculus – estudos de doenças humanas; C. elegans – estudos de processos celulares e de desenvolvimento. 2. “Ómicas” – introdução As “ómicas” nada mais são que áreas da biologia que se concentram no estudo, em larga escala, de biomoléculas específicas, de maneira a compreender a função, interação e dinâmica dos sistemas biológicos de uma forma mais integrada. Assim, cada “ómica” foca num conjunto específico de biomoléculas, abrangendo diferentes níveis de organização biológica, desde a sequência genética até a expressão de proteínas. Definição – Componentes, na sua totalidade, de uma determinada natureza de biomolécula. Nota: Proteómica = estudo de todas as componentes englobadas no “universo” proteína. Exemplos de ómicas: Transcriptómica – estudo do RNA; centra-se na análise de todos os RNA’s transcritos a partir do DNA para compreender quais genes se encontram ativos ou inativos em diferentes condições; Proteómica – estudo do património proteico expresso numa célula, tecido ou organismo num dado momento; Genómica – estudo do genoma de um organismo; centra-se no estudo da estrutura, função, evolução, variação e expressão dos genes; Metabolómica – estudo do património metabólico; centra-se no estudo das vias metabólicas e mudanças que podem ocorrer devido a alterações ambientais; Etc… As ómicas seguem o seguinte raciocínio: Manipulação Mapeamento de das interações, Identificação Integração das biomoléculas de maneira a de interações diferentes (genes, perceber como entre estas "omas" e proteínas, funcionam e moléculas "ómicas" ligandos, etc.) como são reguladas A expansão das “ómicas” relaciona-se com o desenvolvimento de novas tecnologias (pirossequenciação, microarrays, espetrometria de massa, etc.). Estas novas tecnologias, por sua vez, permitem a obtenção rápida e facilitada de uma grande quantidade de dados a partir de amostras biológicas, o que contribui para esta perspetiva holística das “ómicas”. Em suma, o objetivo final das “ómicas” é não só compreender o funcionamento de cada componente do organismo, mas também como estes componentes interagem entre si. Genómica 1. Introdução à genómica Relembrando… Genoma – património genético de um sistema biológico. DNA genómico – corresponde a todo o DNA na célula (em eucariontes → DNA no núcleo + DNA mitocondrial + DNA cloroplastidial + DNA plasmídeo). Genómica – abordagem que permite determinar a sequência nucleotídica não só a nível de um gene, mas de todo o genoma. A genómica nasce com o surgimento da sequenciação de Sanger (1ª técnica que permitiu determinar a sequência nucleotídica no DNA) e, assim como as demais “ómicas”, foi marcada pelo desenvolvimento tecnológico. Com o passar do tempo, este desenvolvimento permitiu o aumento gradual do poder de sequenciação (b → Mb → Gb), o que permitiu a sequenciação de genomas cada vez maiores. Sequenciação do Sequenciação do Sequenciação de primeiro organismo vivo genoma completo do Sanger (Haemophilus fago λ influenzae) Sequenciação do Sequenciação do Sequenciação do genoma de Drosophila genoma humano genoma se S. cerevisae melanogaster A possibilidade de sequenciar genomas abriu portas para novos estudos e, em pouco tempo, o campo da sequenciação de genomas tornou-se uma área muito competitiva (a nível de mercado); tanto que cada empresa passou a desenvolver protocolos próprios para a extração, purificação, fracionamento e sequenciação do DNA. Logo, para consolidar a crescente quantidade de informação acerca do DNA de diferentes organismos, assim como para realizar o assembly dos fragmentos sequenciados, surgiu a necessidade do investimento em ferramentas bioinformáticas. Nota: as empresas que investiram na sequenciação eram ou públicas ou privadas, e a metodologia de cada uma era diferente. Públicas – dividir e clonar os segmentos do cromossoma, distribuir os fragmentos pelo mundo (cada grupo de investigação era responsável por um cromossoma), sequenciar cada fragmento, assembly dos fragmentos; Privadas – extrair o DNA, fragmentar, sequenciar todos os fragmentos (investimento em bioinformática para o assembly). 2. Tecnologias de sequenciação 2.1. Sequenciação de Sanger A técnica de sequenciação de Sanger baseia-se na terminação prematura da replicação do DNA, utilizando para o efeito nucleótidos modificados, denominados dideoxinucleótidos (ddNTP). Estas moléculas diferem dos nucleótidos normais pela substituição do grupo 3’ OH da pentose por um átomo de H, o que impossibilita a formação da ligação fosfodiéster com o nucleótido seguinte. Metodologia clássica Após a extração, purificação e fragmentação do DNA (molde), são preparadas quatro misturas reacionais contendo primers marcados com isótopos radioativos (“aleatórios” para diferentes regiões do genoma), dNTPs, água ulta-pura, DNA polimerase e tampão. Para além destes reagentes, é também adicionado a cada tubo ddNTP’s (um tipo por tubo), tendo o cuidado de estabelecer um rácio entre o ddNTP e o dNTP correspondente. Por fim, a cada tubo reacional adiciona-se a amostra de DNA molde purificado. A seguir, promove-se a desnaturação do DNA por aumento da temperatura. Com a separação das duas cadeias de DNA, os primers vão ligar à cadeia molde nos sítios onde houver complementaridade, e a polimerase vai promover a síntese da nova cadeia de DNA. A incorporação dos dNTP’s ou ddNTP’s à nova cadeia ocorre de forma aleatória, sendo que, quando dá-se a adição de um ddNTP, a síntese termina. Deste modo, em cada tubo teremos fragmentos de DNA de diferentes tamanhos, porém todos a terminarem no mesmo nucleótido (isto é, têm o mesmo nucleótido na extremidade 3’). Após a reação, o produto é aplicado em poços de um gel de agarose (desnaturante, para separar a nova cadeia do molde) e é realizado ensaio de eletroforese. Após revelação do resultado obtido no gel por autorradiografia (os primers emitem radiação, que marca o filme de raios X, indicando a posição da banda no gel), é possível distinguir os diferentes produtos da replicação. Então, faz-se a leitura dos resultados partindo do fragmento de menor peso molecular (base do gel) para o de maior peso molecular (topo do gel). Como cada poço corresponde a um ddNTP, é possível determinar a sequência através da ordem na qual as bandas “organizam-se” no gel. Assim, ao “ler o gel” de baixo para cima, sabemos a sequência do fragmento em questão. Metodologia moderna Difere da metodologia clássica na medida que, ao invés de utilizar primers marcados radioativamente, são utilizados ddNTP’s marcados com fluorescência, sendo que cada ddNTP é identificado por uma cor diferente. Esta alteração da marcação por radioatividade por marcação por fluorescência é vantajosa, na medida que diminui os riscos à saúde associados com o manuseamento de isótopos radioativos. O restante procedimento pode ser igual ao da metodologia clássica (envolvendo a preparação de quatro misturas reacionais, uma para cada ddNTP), ou pode envolver a preparação de apenas uma única mistura reacional, contendo todos os reagentes e todos os quatro ddNTP’s (metodologia moderna). Na metodologia moderna, a leitura da sequência é automatizada. A amostra é aplicada no topo de um capilar contendo uma matriz em gel. É então realizado um ensaio de eletroforese em capilar, onde, conforme a corrente elétrica é aplicada no gel, os diferentes fragmentos migram de acordo com o seu tamanho e, conforme o fazem, passam por um laser, responsável por excitar os fluoróforos dos ddNTP’s. Após a excitação, o sinal emitido pelo fluoróforo é detetado pelo próprio aparelho, que traduz o sinal no ddNTP correspondente. Assim, após a leitura sucessiva dos ddNTP’s terminais de cada fragmento conforme estes migram pelo gel, o aparelho traduz estas informações na sequência correspondente, sob a forma de um cromatograma. Nota: quantificação da fidelidade da sequenciação Escala PHRED – Por vezes, devido à sobreposição de sinais no espetro, o software pode não identificar uma base corretamente. O valor do PHRED score reflete a probabilidade de erro na chamada de uma base, sendo que quanto maior for, maior será o grau de confiança na identificação. 2.2. Sequenciação de nova geração (NGS) ou sequenciação de alto débito (HTS) As tecnologias de sequenciação de nova geração (NGS) permitem sequenciar uma grande quantidade de amostras simultaneamente, sendo, por isso, também chamadas de sequenciação de alto débito (HTS). Com a sequenciação de múltiplos fragmentos de DNA em simultâneo, diminui-se o tempo necessário para sequenciar uma sequência de DNA (e até mesmo um genoma inteiro), assim como os custos associados a este processo. Nota: o surgimento destas novas técnicas não significa o abandono da sequenciação de Sanger – esta ainda é utilizada para sequências de ≈ 1kb. Para sequenciar genomas, usa-se mais as NGS, apesar de que os dados obtidos da sequenciação de Sanger podem, por vezes, complementar os resultados das NGS. Como foi a primeira a ser desenvolvida, a sequenciação de Sanger constitui a primeira geração de tecnologias de sequenciação. Com o desenvolvimento tecnológico, surgiram novas tecnologias, como a Pirossequenciação e a Illumina, que constituem a segunda geração, e, por fim, a PacBio e a Nanopore, que constituem a terceira geração. É importante referir que as tecnologias NGS (segunda geração) baseiam-se na sequenciação de fragmentos de DNA relativamente pequenos, mas com alto débito (throughput), isto é, realiza milhares de pequenas sequenciações em paralelo. Já as tecnologias de terceira geração apresentam menor throughput comparativamente às NGS, mas têm a vantagem de gerarem leituras maiores, isto é, sequenciam fragmentos maiores de DNA. a) Pirossequenciação (Roche 454) Primeiramente, o DNA é digerido com enzimas de restrição, de modo a obter fragmentos menores e, portanto, passíveis de serem sequenciados. Então, são ligados adaptadores às extremidades de cada fragmento, para permitir a sua ligação a esferas de resina. Depois, é feita uma filtragem, na qual serão removidas todas as esferas de resinas não ligadas. Por fim, junta-se a amostra filtrada com outros reagentes, entre eles os de PCR (à exceção dos nucleótidos), e, por fim, a amostra é aplicada em poços de reação, contidos no próprio sequenciador. O resto do processo realiza-se em ciclos de adição e lavagem de nucleótidos dos poços, realizados pelo próprio aparelho. Quando é adicionado um determinado nucleótido, a DNA polimerase só será capaz de sintetizar a nova cadeia caso o nucleótido adicionado seja complementar ao nucleótido livre seguinte na cadeia template. Ao ser adicionado à nova cadeia, o nucleótido liberta um grupo pirofosfato (PPi), que será substrato de reações posteriores, cujo produto emitirá luz. Ou seja, caso o nucleótido adicionado seja complementar ao nucleótido correspondente na cadeia template, haverá síntese da nova cadeia e, consequentemente, a emissão de luz. A intensidade luminosa é captada por um sensor, presente no próprio aparelho, e, desta forma, é possível saber quantas unidades do nucleótido adicionado foram incorporadas na nova cadeia (maior intensidade -> mais nt adicionados). Por outro lado, caso o nucleótido adicionado não seja complementar ao nucleótido correspondente na cadeia template, não haverá incorporação, nem libertação do PPi nem, por fim, emissão de luz. Através destes ciclos de adição, lavagem e nova adição de nucleótidos torna-se possível, por “tentativa e erro”, descobrir a sequência do fragmento de DNA. Problema – inicialmente, a tecnologia não tinha sensibilidade suficiente para detetar uma única incorporação (emissão de um único fotão). A solução encontrada foi, através de PCR por emulsão, amplificar o fragmento ligado à esfera, isto é, aumentar o número de cópias de um mesmo fragmento de DNA ligado a uma mesma esfera. Deste modo, a incorporação de um único nucleótido não daria origem a um único fotão, mas a um sinal amplificado (a incorporação de um nucleótido é feita em simultâneo em todas as cópias). Problema principal – devido ao poder de resolução das câmaras (sensores), estas facilmente ficavam “saturadas” com o sinal emitido pela incorporação de muitos nucleótidos seguidos (difícil identificar se houve incorporação de 4, 5 ou 6 nucleótidos, por exemplo). Isto poderia conduzir a erros na sequenciação (considerar um nucleótido a mais ou a menos, dando origem a um frameshift). Por isso, com o passar do tempo, esta técnica foi descontinuada. b) Illumina (sequenciação por síntese ou “bridge-PCR”) Esta técnica assemelha-se à técnica por Pyrosequencing, no sentido de que a sequenciação do DNA é feita através da síntese de uma nova cadeia de DNA, nucleótido a nucleótido. Porém, nesta técnica, para além de não se utilizarem esferas de resina, mas sim uma matriz plana (flow cell), o sinal que é medido pelo aparelho não está relacionado à libertação de PPi, mas sim à fluorescência do próprio nucleótido incorporado. Inicialmente, tal como na técnica de Pyrosequencing, o DNA é fragmentado e são adicionadas às suas extremidades adaptadores diferentes. Este DNA híbrido é então desnaturado e aplicado na matriz, onde se encontram ancorados dois tipos de sequências de oligonucleótidos, complementares aos adaptadores ligados nas extremidades do DNA. Quando a molécula de DNA encontra uma das sequências de oligonucleótidos ancoradas compatível com um dos seus adaptadores, ela liga-se por complementaridade. Segue-se então a síntese da uma nova cadeia (utilizando dNTP’s normais, não marcados), seguida da lavagem da cadeia template original. Desta forma, obtemos uma cópia da cadeia de DNA original ancorada à matriz. Como os oligos presentes na matriz são cópias de ambos os adaptadores ligados ao DNA original, a nova molécula, ainda ancorada, vai-se curvar (formando uma “ponte”), ligando a sua outra extremidade a um oligo complementar, também ancorado. Segue-se então uma nova síntese de DNA (ainda com dNTP’s normais), desta vez resultando em duas cadeias de DNA ancoradas, e assim sucessivamente até que todos os oligos tenham ligados a si uma cópia do DNA (cluster generation). Por fim, será realizada uma nova síntese, desta vez utilizando nucleótidos marcados com fluorescência (semelhante aos usados na técnica de Sanger moderna). Os nucleótidos vão, então, competir pela incorporação na nova cadeia, e cada nucleótido, ao ser incorporado, vai emitir o seu sinal de fluorescência característico, que será captado pelo próprio aparelho, permitindo a sequenciação dos mesmos. Porém, a sequenciação não é realizada de uma vez, mas sim por partes (indexes), de modo a reduzir erros associados. Logo, no fim deste processo, obtemos uma série de indexes, cada um referente a uma parte de cada fragmento do DNA. Estes indexes são posteriormente alinhados e comparados, de modo a descartar alinhamentos ambíguos. Desta forma, faz-se a sequenciação do DNA original. 2.3. Sequenciação de terceira geração As tecnologias de terceira geração diferem das de segunda e primeira geração pois baseiam-se em long sequence reads, isto é, permitem sequenciar fragmentos maiores de DNA. A “big idea”, neste caso, é de que, quanto maior for o fragmento a ser sequenciado, melhor. a) Nanopore Nanopore são proteínas transmembranares que existem naturalmente. Nesta técnica, estas proteínas são inseridas em membranas artificiais eletro-resistentes (não há difusão de eletrões através da membrana em si). Cria-se, então, um gradiente de potencial elétrico, e passa a existir um fluxo contínuo de eletrões através da nanopore. Este fluxo pode ser perturbado pela passagem (ou não) de moléculas de DNA, RNA ou proteínas por dentro da nanopore, o que permite a sua identificação. Quando uma amostra de DNA purificado (e previamente preparado para este processo) é aplicada na flow cell, as moléculas de DNA vão entrar nos poços onde estão as membranas, sendo posteriormente guiadas para a nanopore com o auxílio de estruturas denominadas tether. Faz-se, então, passar o DNA por dentro da nanopore. Ligado à sua extremidade está uma proteína motora, que, devido ao seu tamanho, não passa por dentro da nanopore, restringindo-se à entrada da mesma. No entanto, esta proteína motora promove a separação das duas cadeias de DNA, deixando apenas uma delas passar para dentro da nanopore enquanto a outra permanece do lado de fora. Conforme a cadeia de DNA vai passando pelo nanopore, cada nucleótido perturba o potencial elétrico de uma forma característica. Estas perturbações são registadas pelo próprio sequenciador, que traduz estes dados na sequência de nucleótidos correspondente. O sistema Nanopore apresenta diversas vantagens, nomeadamente: Verificação da sequenciação – Após a sequenciação de uma das cadeias, a proteína motora “puxa” a cadeia separada, induzindo a sua passagem pelo nanopore. Deste modo, é feita a sequenciação da segunda cadeia do DNA. A sequenciação de ambas as cadeias do DNA é vantajosa na medida que ajuda a diminuir eventuais erros de sequenciação (atua como um “tira-teima”); Identificação de nucleótidos modificados – Tal como cada nucleótido perturba o potencial elétrico de maneira característica (o que permite identificá-los conforme atravessam a nanopore), os nucleótidos contendo modificações epigenéticas também perturbam o potencial elétrico de maneira característica. Assim, torna-se possível não só sequenciar o DNA, mas também identificar as marcas epigenéticas nele presentes (importante a nível do estudo epigenético); Sequenciação de cromossomas inteiros – Uma vez que a sequenciação se baseia apenas na passagem da molécula de DNA pela nanopore, o limite de sequenciação é o próprio tamanho da molécula. Isto é, enquanto houver molécula a atravessar a nanopore (e ligação à internet), há sequenciação (os resultados da leitura vão sendo armazenados na nuvem), o que possibilita a sequenciação de longos fragmentos de DNA e, no limite, até de cromossomas inteiros. Potencial de sequenciar outras biomoléculas – Assim como cada nucleótido perturba o potencial elétrico de maneira característica, cada monómero de biomoléculas como aminoácidos ou açúcares, por exemplo, também vão perturbar o potencial de maneira característica. Assim, o sistema Nanopore tem potencial para sequenciar outras biomoléculas poliméricas, sendo o aprimoramento desta tecnologia para este efeito uma área emergente. b) PacBio (Single Molecule Real-Time (SMRT) sequencing) Tal como o nome sugere, a tecnologia SMRT sequencing fundamenta-se na observação de uma única DNA polimerase a replicar um fragmento de DNA de maneira contínua, no interior de poços reacionais específicos para o efeito, na SMRT cell. A SMRT cell, por sua vez, contém, no seu interior, milhares de poços reacionais (zero-mode waveguides), cada um contendo, na sua base, uma única DNA polimerase ancorada. Deste modo, quando é aplicada a amostra contendo o DNA (previamente preparado para este ensaio) na SMRT cell, cada poço vai receber apenas uma molécula de DNA (tanto devido à presença de uma única polimerase, quanto devido às dimensões do poço em si). Inicialmente, após a extração e purificação do DNA genómico, procede-se à fragmentação deste, podendo estes fragmentos variarem entre 500 – 30.000 pb, dependendo da aplicação. Então, procede-se à reparação das extremidades dos fragmentos, seguida da ligação de adaptadores (de sequência conhecida) específicos para este ensaio, que se destinam a tornar o fragmento numa molécula cíclica (SMRT bells). Deste modo, ao fim desta etapa, forma-se uma biblioteca contendo os diversos fragmentos do DNA genómico ligados aos adaptadores. Após a construção da biblioteca de gDNA, são adicionados à mistura reacional primers complementares à sequência dos adaptadores e dNTP’s ligados a marcadores fluorescentes (um marcador diferente por dNTP). Por fim, a amostra é então aplicada na SMRT cell, que, de seguida, é inserida no sequenciador. Dá-se, então, início à reação de replicação do DNA template, onde, conforme a DNA polimerase adiciona os nucleótidos à nova cadeia, dá-se a libertação dos fluoróforos a eles ligados, o que resulta num sinal específico, que identifica o nucleótido incorporado. Esta sequência de sinais é captada e interpretada pelo próprio sequenciador, que não só traduz estes sinais na sequência do DNA template, mas também mede a cinética de incorporação dos nucleótidos em tempo real. Como a molécula de DNA template é cíclica, a replicação do DNA não se limita apenas a uma das cadeias, nem apenas a uma única “volta” na molécula. A DNA polimerase realiza a replicação de maneira contínua, dando origem a uma molécula longa de DNA contendo tanto a cadeia sense quanto a antisense. Para chegar à sequência consenso, é realizado o alinhamento das leituras contidas na molécula sintetizada (desconsiderando a sequência relativa aos adaptadores), o que contribui para a diminuição de eventuais erros associados à leitura aquando da incorporação de um nucleótido. 3. Genome assembly Idealmente, as técnicas de sequenciação deveriam permitir a sequenciar todos os nucleótidos de uma ponta a outra do cromossoma; no entanto, devido a limitações tecnológicas, a maioria das técnicas de extração atuais acaba por fragmentar o gDNA, em partes menores ou maiores. Deste modo, a sequenciação pode ser realizada em short reads (técnicas NGS) ou long reads (sequenciação de terceira geração). Nota: sequenciar um cromossoma inteiro através da sequenciação de terceira geração depende, acima de tudo, da capacidade de se extrair o cromossoma sem quebrá-lo. A reconstrução da sequência é realizada com o auxílio de ferramentas bioinformáticas (assemblers). Neste processo, os fragmentos de DNA sequenciados são alinhados entre si, de maneira a identificar regiões de sobreposição, o que vai permitir a “montagem” de partes da sequência de DNA, denominadas contigs. Estas contigs serão, por sua vez, alinhadas entre si, de maneira a reconstituir segmentos cada vez maiores da sequência (scaffolds), sendo o objetivo final “montar” todo o genoma numa única contig. No entanto, independentemente do método utilizado, todas as montagens estão sujeitas a alguns problemas comuns, que acabam por resultar na produção de vários contigs, em vez de apenas um. Falta de cobertura; Elementos repetidos no genoma; Erros de sequenciação; Existem duas abordagens fundamentais relativamente ao assembly: De novo assembly – alinhamento dos contigs sem ter informação sobre o genoma do organismo, isto é, sem parâmetros para o assembly; Reference assembly – alinhamento dos contigs contra um genoma de referência, isto é, utilizando outro genoma como referência para o assembly. Hybrid assembly -- Nota: o reference assembly normalmente não é utilizado para genomas microbianos, uma vez que, nestes organismos, o genoma é muito variável (devido à ocorrência de transferência horizontal de genes, InDels, SNP’s, etc.). Deste modo, caso fosse realizado o reference assembly nestes organismos, o alinhamento resultante teria “buracos” (regiões presentes na nova construção, mas que não estão presentes na referência). Em suma, como o genoma microbiano é muito variável ao longo do tempo, normalmente faz-se o assembly de novo para estes organismos. Já o genoma humano, por outro lado, é menos propenso a estas alterações ao longo do tempo, podendo, assim, ser “montado” através de reference assembly. Como referido, o assembly do genoma é realizado com auxílio a ferramentas bioinformáticas (assemblers), que são responsáveis pelo alinhamento dos dados brutos obtidos da sequenciação em contigs. O objetivo é realizar o assembly do genoma completo no menor número possível de contigs; logo, a “melhor” ferramenta para a montagem do genoma será aquela que consegue o fazer. No entanto, é importante referir que a ferramenta que é a “melhor” para um organismo pode não o ser para outro. Metagenómica 1. Introdução à metagenómica Também conhecida como genómica ambiental, ecogenómica ou genómica de comunidades, a metagenómica é o estudo do material genético extraído diretamente de amostras ambientais (água, solo, etc.). Esta abordagem é especialmente relevante pois permite o estudo da componente biótica de um determinado nicho biológico, o que fornece informação valiosa não apenas a nível das populações de microrganismos, mas também da interação destes com o ambiente onde estão inseridos. Nota: tudo o que tem “meta-” envolve amostras ambientais → metagenómica, metaproteómica, etc. A metagenómica representa uma abordagem revolucionária em Biologia Molecular pois baseia-se no uso das novas tecnologias de sequenciação para sequenciar todo o material genético extraído de amostras ambientais. Isto é possível devido às capacidades de alto débito das tecnologias de sequenciação. Assim, a sequenciação de DNA ambiental é vantajosa por diversos motivos, nomeadamente: Grande parte dos organismos presentes na natureza não consegue crescer em ambiente laboratorial; Mesmo que o conseguissem, populações clonais dos organismos não representam o ambiente natural dos mesmos; As espécies não vivem isoladas, elas comunicam-se entre si e com o ambiente em que estão inseridas, sendo estas características importantes no estudo de um determinado nicho ecológico; Muitas das proteínas existentes na natureza têm função desconhecida; no entanto, através da sequenciação do material genético, torna-se possível identificar estas proteínas em contextos ecológicos e biológicos inéditos, assim como desvendar novos processos celulares fundamentais e potencialmente aplicáveis a outros organismos, como por exemplo o ser humano; Nota: a sequenciação também permite identificar novas proteínas potencialmente relevantes sob a perspetiva da biotecnologia. Para além do estudo ambiental, a metagenómica também tem especial relevância no estudo do microbioma humano, isto é, o estudo das comunidades de microorganismos que coloniza diferentes partes do organismo humano (intestino, pele, cavidades oral e nasal, etc). Sob esta mesma ótica, o estudo do microbioma de outros animais (ex: galinha) e até mesmo de superfícies como teclados de computador também se torna relevante. 2. Sequenciação de DNA e perfil microbiano Os estudos realizados em consequência da sequenciação de diversos genomas permitiram a identificação de genes marcadores. Estes genes são utilizados em DNA metabarcoding (ou amplicon metagenomics) por permitirem a identificação dos organismos a níveis variáveis de especificidade. Os genes marcadores, de um modo geral, correspondem a genes altamente conservados entre espécies, o que permite o desenho de primers “consenso” (“válidos”, que possam ser utilizados por diferentes grupos de investigação de maneira a “normalizar” os resultados obtidos). No entanto, estes genes apresentam também, no seu interior, regiões altamente variáveis entre espécies, o que vai permitir a identificação do organismo. Assim, o conceito de DNA metabarcoding relaciona-se com os genes marcadores na medida que estas regiões variáveis correspondem ao “código de barras” do organismo, isto é, a um código único e específico que identifica aquela espécie. Deste modo, a sequenciação destas regiões e posterior alinhamento dos dados obtidos contra as bases de dados genómicas vai permitir a identificação do(s) organismo(s) em estudo. Genes marcadores mais utilizados: 16S rRNA (procariontes) e 18S (eucariontes) ITS-1 e ITS-2 COX1 (eucariontes) O problema da definição de espécie: A definição clássica de espécie baseia-se na capacidade de dois organismos distintos se reproduzirem e gerarem descendentes férteis (só são da mesma espécie se tal for verificado). No entanto, este conceito, quando transposto para bactérias e fungos, torna-se problemático, pois estes microrganismos não realizam reprodução sexuada; a transferência de informação genética é, neste caso, realizada através de processos como a transferência horizontal de genes e a infeção por vírus, por exemplo. Assim, torna-se necessário estabelecer um parâmetro para o agrupamento (binning) de sequências obtidas de amostras ambientais. Operational Taxonomic Unit (OTU) – define, de maneira arbitrária, as unidades taxonómicas (grupos nos quais as reads serão agrupadas) de acordo com a divergência entre as sequências analisadas. Em suma, corresponde a um parâmetro que define um grupo. o Numa mesma amostra, vão existir diferentes OTU’s, isto é, diferentes agrupamentos de sequências. Estas OTU’s, por sua vez, são utilizadas para caracterizar e quantificar a diversidade de comunidades microbianas em estudos de diversidade, através do cálculo das diversidades α e β; o Diversidade α – diversidade dentro duma amostra (num único timepoint) → corresponde à contagem de OTUs numa mesma amostra; o Diversidade β – diversidade entre amostras (ao longo de diferentes timepoints) → corresponde à diferença da composição das OTU’s de diferentes amostras. Os genes marcadores são, normalmente, genes “housekeeping”, isto é, genes essenciais ao normal funcionamento do organismo e que se encontram expressos em todas as células. Logo, têm menor probabilidade de estarem envolvidos na transferência horizontal de genes; Nota: é importante referir que, numa mesma célula, normalmente existem múltiplas cópias dos genes 16S (ou 18S); isto deve ser levado em consideração aquando da interpretação dos resultados, pois a “quantidade” de gene sequenciado pode não corresponder à quantidade daquele organismo numa dada amostra (falso positivo). No esquema, os organismos A e B encontram-se presentes no meio em igual abundância, mas, por terem número de cópias diferentes do gene marcador, os resultados obtidos poderiam facilmente ser mal-interpretados, dando origem a um falso positivo. Assim, os genes marcadores atuam como binning tags; estes, por sua vez, podem ser analisados com base na sua composição ou com base na semelhança, a nível das sequências; Nota: binning = agrupamento em OTU’s. Bases de dados para genes marcadores: Silva e RDP Softwares utilizados para binning tags: TETRA e PhyloPythia (Composition-based binning), MEGAN e ARB (Similarity-based binning) Importante – A sequenciação dos genes marcadores, apesar de permitir a identificação a nível da espécie/estirpe, apenas tem utilidade caso já exista informação sobre este organismo nas bases de dados genómicas. No entanto, existem muitos microrganismos que ainda não foram sequenciados, nem mesmo identificados. Representações gráficas dos dados: Gráficos de barras simples → “Quais espécies estão presentes?” Curvas de rarefação → “O quanto da comunidade foi amostrado?” Principal Component Analysis (PCA) → “Quais são os principais fatores a segregarem as comunidades?” Bootstrapping e jack-knifing → “O quão confiáveis são as nossas medições de diversidade?” 3. Whole shotgun metagenomics e single-cell genomics Whole genome metagenomics X Single-cell metagenomics Sequenciação do conteúdo de ácidos nucleicos Sequenciação do conteúdo de ácidos nucleicos realizado pelas tecnologias HTS. de uma única célula. Tem o objetivo de analisar comunidades Tem o objetivo de analisar as características microbianas complexas, permitindo não apenas genéticas de uma única célula, revelando a identificação de microrganismos, mas também informações que poderiam ser ocultas por a caracterização das suas funções e interações. abordagens que consideram uma população como um todo. Na abordagem single-cell genomics, a análise do genoma é feita célula a célula, logo, cada assembly será constituído por fragmentos do genoma de uma mesma célula. Já na abordagem da metagenómica, o material genético de uma dada amostra é analisado como um todo, podendo, assim, ocorrer o cross- assembly, onde fragmentos de DNA genómico de diferentes células são unidos num mesmo assembly. Assim, podemos considerar que a metagenómica envolve uma etapa “a mais” comparativamente à single-cell genomics, na medida que envolve a construção de assemblys e a identificação dos organismos presentes em cada assembly (phylogenetic binning). 4. Considerações especiais Independente do tipo de sequenciação, é importante ter em mente os seguintes aspetos: Armazenamento por longos períodos pode comprometer a integridade da amostra (perda seletiva de algumas espécies); A sequenciação de DNA genómico não discrimina entre microrganismos vivos e mortos; para isso, teríamos de extrair e sequenciar RNA; Realizar a sequenciação da região 16S utilizando bases degeneradas (bases “ambíguas”) é mais eficiente, pois permite uma melhor cobertura da diversidade de regiões variáveis; para além disso, escolher as regiões variáveis com cuidado; Incluir réplicas em todos os ensaios; Os resultados da amplificação do 16S podem ter “bias”, isto é, podem dar origem a falsos positivos devido à variação do número de cópias por célula; A sequenciação não é livre de erros (erros associados à própria plataforma utilizada, sequenciação acidental dos adaptadores, etc.); A própria preparação de uma biblioteca pode introduzir erros na sequência; A própria reação de PCR pode introduzir erros na sequência; A amplificação por PCR não é perfeita, pois a polimerase pode “pular” partes da molécula de DNA, dando origem a produtos de amplificação quiméricos. Em suma: Transcritómica 1. Introdução à transcritómica Normalmente, quando se fala na regulação da expressão génica, refere-se à regulação da transcrição. Assim, o conjunto de todos os genes a serem transcritos num determinado momento é denominado transcritoma. Os métodos de análise da expressão génica permitem obter um verdadeiro “snapshot” dos transcritos (mRNA) no interior da célula (ou de um conjunto de células) num determinado timepoint, e é através deste “snapshot” que se torna possível identificar os genes a serem expressos quando a célula se encontra sob determinadas condições num determinado momento. No entanto, uma vez que a expressão génica é variável ao longo do tempo, raramente obtêm-se um perfil de RNA idêntico em 2 timepoints distintos, e é justamente esta variação dos níveis de RNA que permitem analisar como a expressão varia em resposta a diferentes estímulos, ou ao longo do ciclo celular, etc. Assim, o estudo do transcritoma pode auxiliar na compreensão do funcionamento de sistemas como um todo, permitindo até mesmo a identificação de anormalidades causadas por patologias, como o cancro. 2. Métodos para o estudo do transcritoma O estudo do transcritoma origina, de um modo geral, grandes quantidades de dados, pois consiste numa análise que engloba todo o património de RNA presente numa célula (ou conjunto de células). Existem dois métodos principais para o estudo do transcritoma: os microarrays e os sequencing-based methods. Microarrays Os microarrays consistem em pequenas placas (chips) contendo sondas (DNA) contra todos os genes de um determinado organismo. Isto é, cada placa de microarray contém milhares de pequenos poços reacionais, cada um contendo sondas fixas no seu interior. Assim, cada poço corresponde a um único gene. Quando uma amostra contendo RNA marcado é aplicada nos poços, o RNA complementar à sonda vai-se ligar a ela e, assim, não será removido após lavagem. Devido à presença do RNA marcado, o poço passa a emitir sinal, que é captado pelo próprio aparelho responsável pela leitura da placa. As sondas são sequências de nucleótidos como queremos e onde queremos – os oligonucleótidos ligados nos poços não precisam de ser transcritos completos de um gene, podem transcritos parciais (cDNA) ou até mesmo fragmentos de DNA genómico. Os microarrays permitem a comparação direta da expressão génica em duas amostras distintas – marcação de cada amostra com uma sonda de uma cor, e verificar os sinais em cada poço (sobreposição dos sinais significa expressão do gene em ambas as amostras). Nota: Southern e Northern blot e os microarrays As técnicas de Southern e Northern fundamentam-se no princípio da complementaridade de bases (hibridação). Northern – RNA no gel, posso hibridar com sondas (DNA ou RNA); Southern – DNA no gel, tenho de desnaturar antes de hibridar com sondas; O blotting (transferência para uma membrana de nitrocelulose) surge desta necessidade em aquecer o DNA para desnaturar, uma vez que o calor derrete os géis de agarose. Os microarrays, por sua vez, surgem como uma extrapolação do raciocínio do Northern e Southern blot, só que em vez de se utilizar sondas contra um ou alguns genes, usam-se sondas contra todos os genes do organismo. Problemas Splicing – a existência de diferentes variantes de splicing para um mesmo gene implica a construção de sondas contra cada uma destas variantes; A sequência do gene deve ser conhecida, para que seja possível construir a sonda e ter maior fiabilidade dos resultados; A possibilidade da construção de diferentes sondas para utilização com esta técnica dá margem para um enviesamento dos resultados, na medida que torna possível a construção de sondas com maior ou menor hibridação com o mRNA alvo. Custo elevado; trabalhoso – as sondas tinham de ser feitas pelos próprios investigadores; Affymetrix Gene Chip System – surge como alternativa para solucionar o problema da construção das sondas. Sondas pré-feitas, “padronizadas” – diminui o enviesamento dos resultados; Facilidade de uso – os investigadores têm apenas de purificar o RNA e aplicar na placa; Não há mistura de amostras – o sinal emitido pelo RNA marcado é de uma só cor; Não soluciona as questões relacionadas às variantes de splicing; Software computacional traduz os dados obtidos da leitura das intensidades dos sinais na placa e agrupa-os, permitindo a interpretação dos níveis de expressão; Restringiu-se apenas a organismos modelo. Importante – os microarrays e Gene Chips são atualmente técnicas obsoletas, aceites apenas como técnicas de rastreio e dependendo da validação dos resultados obtidos por RT-PCR, por exemplo. Sequencing-based methods (RNA-seq) Esta técnica baseia-se na sequenciação de todo o transcritoma através das novas tecnologias de sequenciação. Não depende, a priori, da informação do genoma, e pode ser aplicada tanto em eucariontes quanto em procariontes. O RNA-seq permite a quantificação dos níveis de expressão com maior precisão que as demais técnicas. Os resultados obtidos podem, ainda, ser confirmados por qRT-PCR, por exemplo. Vantagem relativamente aos microarrays – os microarrays tendem a subestimar os níveis de expressão, o RNA-seq já não. Na sequenciação, o limite de deteção é a quantidade de RNA sequenciado; já nos microarrays, o limite de deteção é a saturação do sinal; o Para solucionar a saturação do sinal, pode-se diluir a amostra, sob o risco de perda do sinal dos genes menos expressos; o Na sequenciação, o que pode acontecer é não sequenciarmos o suficiente da amostra; já nos microarrays, podemos até ter amostra o suficiente, mas não detetarmos os níveis de expressão com exatidão devido à saturação do sinal. Para além disso, o RNA-seq exige quantidades menores de amostra inicial, relativamente aos microarrays RNA-seq mapping – consiste, basicamente, na determinação dos níveis de expressão de cada um dos genes no genoma de um organismo, para um determinado timepoint. O RNA-seq permite a sequenciação de todo o RNA; O mapping consiste apenas no cruzamento da informação obtida da sequenciação com o genoma, já conhecido, do organismo; diz-nos quais genes estão a ser expressos, e em que quantidades. Proteómica 1. Introdução à proteómica A proteómica fundamenta-se no estudo em larga escala e caracterização do conteúdo proteico de uma determinada amostra. O seu principal objetivo é a descrição dos mecanismos funcionais e das funções das proteínas numa célula, tecido ou organismo, sob uma perspetiva espaço-temporal. Assim, esta abordagem permite responder a questões como: Quais proteínas estão presentes? Em que concentrações? Qual a localização delas? Quais interações proteína-proteína ocorrem? Quais isoformas se encontram presentes? Quais modificações pós-tradução apresentam? 2. Tecnologias em proteómica A proteómica é, como muitas das outras ómicas, impulsionada pelo desenvolvimento tecnológico. Estas tecnologias, por sua vez, “cobrem” as diferentes etapas do estudo de proteínas, desde a separação até a análise das interações proteína-proteína. Eletroforese 1D e 2D → separação, visualização e quantificação Cromatografia (afinidade, MudPit, LC, etc.) → separação Sistemas de expressão de proteínas (FRET, Y2H, etc.) → interações proteína-proteína Técnicas analíticas (espetrometria de massa, NMR, cristalografia de raios X) → caracterização Preparação de amostras A preparação de amostras de proteínas é mais exigente que a preparação de amostras de ácidos nucleicos. Isto deve-se em grande parte à grande diversidade de propriedades das proteínas (solubilidade, ponto isoelétrico, tamanho, etc), o que exige um conjunto mais amplo de técnicas de extração e purificação. Por outro lado, os ácidos nucleicos têm estrutura e propriedades mais “constantes”, o que permite a utilização de técnicas relativamente mais simples para a sua extração e purificação. Para além da diversidade de propriedades, existe também a questão das proteases. Enquanto que, para os ácidos nucleicos, os “inimigos” são as nucleases (que não são muitas, e podemos facilmente inibí-las), para as proteínas, os “inimigos” são as proteases (que são muitas), e é difícil “lutar contra elas”. Normalmente, fala-se em Western blot para a purificação de proteínas de interesse; no entanto, à escala genómica (porque o objetivo da proteómica é o estudo de todo o património proteico da célula) o uso desta técnica torna-se “problemático”, pois exigiria o uso de anticorpos contra todas as proteínas existentes. Muitas das proteínas presentes nas células ainda não se encontram totalmente caracterizadas, o que impossibilita, assim, a obtenção de todos os anticorpos necessários. Então, como fazer? → eletroforese 2D E porque não a eletroforese 1D? – Uma vez que se trata de uma amostra contendo muitas e muitas proteínas, as proteínas com pesos moleculares muito próximos não terão muita resolução no gel. Para aumentar a resolução, torna-se então, necessário adicionar mais um parâmetro para a separação. Eletroforese 2D A eletroforese bidimensional é uma técnica de separação de proteínas que, ao combinar duas fases de separação, permite uma resolução mais detalhada das proteínas presentes numa amostra. Assim, as duas dimensões (parâmetros de separação) são: 1ª dimensão (focagem isoelétrica) – separação pelo ponto isoelétrico (pI); Nota: pI – valor de pH para o qual a carga global da proteína é igual a 0. 2ª dimensão (SDS-PAGE) – separação pelo peso molecular. Preparação da amostra para a focagem isoelétrica Para obter uma boa focagem em ensaios 2DE, as proteínas da amostra devem ser completamente desnaturadas. A desnaturação garante que as proteínas estejam todas presentes numa única configuração, para além de evitar a agregação e as interações intermoleculares. Composição da solução de amostra: Agente caotrópico (ureia ou tioureia) → desnaturar as proteínas; Nota: Agente caotrópico – molécula que, em solução aquosa, é capaz de romper as pontes de H entre as moléculas de água, o que afeta a estabilidade da conformação nativa de outras moléculas na solução, enfraquecendo o efeito hidrofóbico. Agentes redutores (DTT) → aumentar a solubilidade da amostra (quebra as pontes dissulfeto, mantendo as proteínas desnaturadas); atua em conjunto com a ureia para garantir a desnaturação de todas as proteínas; Detergente não iónico ou zwitteriónico (Triton X-100)→ evita a agregação por meio das interações hidrofóbicas; Nota: Por que não o SDS? – Porque o SDS confere carga uniforme às proteínas, o que iria interferir com a focagem isoelétrica (ainda não queremos que as proteínas tenham todas a mesma carga global). Inibidores de protease → algumas proteases permanecem ativas, mesmo em presença de altas concentrações de ureia. Anfólitos → estabelecem a gama de valores de pH para a dimensão da focagem isoelétrica; Como é feita a 2DE? 1) Focagem isoelétrica – A amostra é aplicada numa tira IPG, que é então inserida num aparelho e ligada a um cátodo numa das extremidades e num ânodo na outra. Esta tira, por sua vez, consiste num suporte imobilizado (gel de poliacrilamida) contendo um gradiente de pH. Assim, as proteínas, nas suas formas catiónicas ou aniónicas, vão migrar ao longo deste gel até encontrarem o seu pI (zona de pH onde a proteína passa para a sua forma zwitteriónica (carga global igual a 0)). Uma vez na forma zwitteriónica, a proteína deixa de migrar. Deste modo, ao fim de algum tempo, as proteínas encontram- se separadas pelo ponto isoelétrico. 2) SDS-PAGE – A tira IPG é fundida a um novo gel de poliacrilamida, e faz-se, então, o ensaio de SDS- PAGE normalmente. As proteínas na tira IPG, já “alinhadas”, agora vão migrar na vertical no novo gel, já não de acordo com o sei pI, mas com o seu peso molecular. Nota: A tira IFG deve ser previamente equilibrada em solução de SDS. Nota: A eletroforese 2D assemelha-se aos microarrays na medida que permite uma análise, à escala global, dos níveis de expressão das proteínas de uma dada amostra. Porém, ao contrário dos microarrays, não há como saber, apenas através da observação no gel, qual mancha corresponde a qual proteína. Para isso, seria necessário remover cada “manchinha” do gel e identificá-la, individualmente (espetrometria de massa) → e é por isso que, quanto maior for a separação entre as “manchinhas” (maior tamanho do gel, também), melhor! Deteção das proteínas e obtenção de resultados O método utilizado para a deteção das proteínas no gel é um fator determinante para a visualização dos resultados obtidos após a eletroforese, seja ela 1D ou 2D. Isto porque diferentes métodos de deteção apresentam diferentes sensibilidades, isto é, apresentam um limite mínimo de quantidade de proteína na amostra para que esta seja detetada. Assim, a escolha do método utilizado deve ser cuidadosamente pensada. Cada técnica de deteção tem uma cinética de reação associada (dinamic range). Quanto mais estreita for esta gama de cinética, mais facilmente dá-se a saturação do sinal. Exemplo: coloração com nitrato de prata → o gel rapidamente fica preto se imerso na solução por muito tempo. Resultado: Azul de Coomassie Nitrato de prata Pitfalls da eletroforese 2D (e soluções) Baixa resolução das manchas (pouca distância entre as manchas): o Manchas muito juntas na horizontal → Ajuste da gama de pH (aumenta a “escala” na horizontal); o Manchas muito juntas na verical → Ajuste das condições de SDS-PAGE (aumenta a “escala” na vertical); o Manchas muito “borradas” → Baixa qualidade dos reagentes (TEMED mais “velho”). Baixa resolução das manchas (linhas verticais ou horizontais): o Linhas horizontais (num dos lados do gel) – O DTT pode tornar-se ionizado acima do seu pKa de 8 e migrar em direção ao ânodo durante a IEF em gradientes básicos de pH; o Linhas verticais (ao longo de todo o gel) – Altas concentrações de sais aumentam a força iónica da solução e levam à precipitação de proteínas → remoção do excesso de sais; o Linhas verticais (mais curtas) – A amostra está muito concentrada, ou não se solubilizou completamente → incubação com DTT e IAA ajudam a solubilizar.