Genômica e Bioinformática PDF
Document Details
Uploaded by LowRiskAntigorite2601
ICB-USP
Robson Francisco de Souza
Tags
Related
- Resumen de Biología Raven 13e, Capitulo 2 (PDF)
- Primer Examen - Repaso - Objetivos PDF
- Capítulo I: Estudiando el sistema nervioso PDF
- Apuntes de Biología 2º Bachillerato PDF
- Guía de Biología 2023-2024 - Universidad Autónoma de Chiriquí
- Tema 1: La Célula - Biología - Universidad Alfonso X el Sabio (UAX) - 2023 - PDF
Summary
Este documento apresenta uma introdução à Biologia de Sistemas, abordando tópicos como a teoria de grafos, as técnicas 'ômicas', e a importância dos bancos de dados, além de exemplos de redes biológicas e seu interactoma.
Full Transcript
Genômica e Bioinformática BMP0216 Introdução à Biologia de Sistemas Robson Francisco de Souza, Ph.D LEEP: Laboratório de Estrutura e Evolução de Proteínas ICB/USP BMP0216 – Genômica e Bi...
Genômica e Bioinformática BMP0216 Introdução à Biologia de Sistemas Robson Francisco de Souza, Ph.D LEEP: Laboratório de Estrutura e Evolução de Proteínas ICB/USP BMP0216 – Genômica e Bioinformática Biologia de Sistemas Tópicos Teoria de grafos: conceitos e métodos – Exemplos e aplicações – Ferramentas: cytoscape Biologia de Sistemas – Introdução: definição, características e estratégias – Ômicas: dados para biologia de sistemas 01 March 2002 Vol 295, Issue 5560 – Bancos de dados: versão computável das “ômicas” BMP0216 – Genômica e Bioinformática Biologia de Sistemas Teoria de Grafos Vocabulário da teoria matemática de redes Teoria de grafos Grafo Entidade matemática abstrata composta por um conjunto (G) de vértices (V, também chamados nós) e arestas (E) que representam as ligações entres nós Redes biológicas, assim como Rede formada pelos editores outros tipos de redes, podem ser (arestas) da Wikipedia que, durante um mês no verão de convenientemente 2013, contribuiram wikis para versões em diferentes línguas representadas por grafos (vértices). BMP0216 – Genômica e Bioinformática Grafos: tipos Grafos podem ser cladssificados em função das propriedades dos nós e arestas ou do tipo de caminhos que podem existir no grafo (arquitetura). Exemplos: Cíclico X acíclico Dirigido X não-dirigido Ponderado (com pesos wij) X não-ponderado Grafos dirigidos 4 wAB wBC wAC Acíclico Cíclico Acíclico Acíclico Não-ponderado Não-ponderado Não-ponderado ponderado Grafos não-dirigidos 5 6 7 8 wAB wBC wAC Não-ponderado Não-ponderado Não-ponderado ponderado BMP0216 – Genômica e Bioinformática Teoria de grafos Grau ou conectividade do nó (ki) Grafo não-dirigido Grafo dirigido ki = número de nós diretamente conectados Dois tipos de graus: kIN e kOUT kA = 5 kIN(A) = 4 kOUT(A) = 1 BMP0216 – Genômica e Bioinformática Teoria de grafos Distribuição de graus P(k) P(k) é a probabilidade de um determinado nó ter grau k, ou seja, a fração de nós com aquele grau Em redes biológicas, a distribuição dos graus geralmente obedece a uma lei de potências, ou seja, P(k) = ak—m Redes que obedecem uma lei de potências também são conhecidas como redes livres de escala (scale- free) BMP0216 – Genômica e Bioinformática Teoria de grafos Hubs Nós conectados a um número muito elevado de outros nós São centrais na rede e com frequência desempenham um papel importante na sua estabilidade / função BMP0216 – Genômica e Bioinformática Teoria de grafos G(V,E) |V| = 69 |E| = 71 BMP0216 – Genômica e Bioinformática Teoria de grafos G(V,E) |V| = 69 |E| = 71 6 componentes conectados Identificação de componentes conectados BMP0216 – Genômica e Bioinformática Teoria de grafos Exemplos de propriedades topológicas de grafos Distância entre dois nós Diâmetro Corresponde ao caminho mais curto Distância mais longa em toda a rede (menor número de nós) BMP0216 – Genômica e Bioinformática Propriedades comuns em redes biológicas A distribuição da conectividade entres os vértices (grau) segue uma lei de potências Mundo pequeno: Normalmente um gene ou proteína está a apenas alguns passos de qualquer outro gene – hubs, que são comuns nas redes biológicas, são importantes para isso! Robustez: Resistência contra a remoção aleatória de nós (e.g. perda de genes) Modularidade: alto coeficiente de agrupamento BMP0216 – Genômica e Bioinformática Modularidade Um grafo é dito modular quando pode ser dividido em subgrafos quase-independentes, ou seja, com número de conexões (arestas) a nós de outros módulos significativamente menor que o número de conexões dentro de cada módulo BMP0216 – Genômica e Bioinformática Teoria de grafos Redes livres de escala são robustas Sistemas complexos são tolerantes à remoção aleatória de seus elementos A topologia da rede tem um papel fundamental na robustez, que é a capacidade da rede de resistir a perturbações, como a perda de componente (e.g. genes) Entretanto, essas redes são suscetíveis a ataques diretos em seus hubs Em ensaios com leveduras, genes que são hubs tendem a ser essenciais, pois suas remoção impacta muitos sistemas diferentes e inviabiliza a sobrevivência da célula BMP0216 – Genômica e Bioinformática Exemplo de “hubs” e robustez Chaperonas são nós em redes de interação proteína-proteína que conferem robustez ao proteoma (ajudam as proteínas a preservar seu enovelamento) Os sistemas de reparo de DNA possuem papel equivalente tanto na resiliência contra mutagênicos como na indução de um fenótipo hiper- mutante sob condições de estresse BMP0216 – Genômica e Bioinformática Teoria de grafos Motivos, ou seja, padrões topológicos Exemplos de motivos que podem ser encontrados em redes biológicas Bulyk, M. L., & Walhout, A. J. M. (2013). Gene Regulatory Networks. In Handbook of Systems Biology (pp. 65–88). Elsevier. http://doi.org/10.1016/B978-0-12-385944-0.00004-6 BMP0216 – Genômica e Bioinformática Biologia de Sistemas Definição Área interdisciplinar que combina métodos e técnicas matemáticas e computacionais com experimentos biológicos para entender como as interações dos componentes de um sistema biológico determinam o comportamento global do sistema. Objetivos Partir de dados e do conhecimento da estrutura (arquitetura estática) e da dinâmica (tempo) do sistema biológico e prever e/ou controlar (tratamento) seu comportamento e projetar novas versões do sistemas (biologia sintética) BMP0216 – Genômica e Bioinformática Biologia de Sistemas Características Difere da abordagem reducionista em biologia, onde um ou poucos componentes são isolados e analisados para, a partir de sua caracterização, entender seu efeito no comportamento do sistema Envolve a criação e análise de Biologia de sistemas no PubMed modelos que permitam entender as propriedades emergentes Depende da integração e análise de conjuntos massivos de dados gerados por múltiplas fontes A forma atual desse campo está intimamente ligada à ascensão das tecnologias de larga escala em biologia (“ômicas”) BMP0216 – Genômica e Bioinformática Propriedades emergentes Definição Propriedades de um sistema que só existem no nível do sistema e que não podem ser deduzidas pela simples adição do comportamento e das propriedades de seus componentes. Mote “O todo é maior do que a soma das partes” Implicação Abordagens reducionistas (e.g. gene a gene) serão limitadas e não captam toda a complexidade de um sistema com centenas de milhares de componentes e interações. A compreensão do sistema começa com o estudo da topologia de sua rede de interações, fundamental para a construção de modelos biológicos realistas. BMP0216 – Genômica e Bioinformática Propriedades emergentes Exemplos: – O magnetismo, que só existe quando milhões de spins de elétrons nos átomos de um material ficam alinhados por causa das interações de elétrons vizinhos – O comportamento coletivo de enxames e/ou revoadas de animais/insetos, que deriva das insterações dos indivíduos no enxame mas é uma propriedade distinta dessas interações – A consciência humana? Não são exemplos: – O funcionamento de um relógio mecânico: pode ser entendido a partir do estudo do funcionamento de cada parte isoladamente – A organização regular dos átomos em um metal sólido Links – Biological Complexity and Integrative Levels of Organization – How Ants Find Your Picnic Basket (https://www.youtube.com/watch?v=D9LiMrcm7Kg) Biologia de Sistemas: De cima para baixo (top-down) Do mais complexo (sistema) para o menos complexo (identificação dos componentes relevantes) por maio da análise e integração de dados A essência dessa estratégia é partir da determinação do estado do sistema como um todo em uma condição de referência e frente a uma perturbação e, a partir da comparação dos estados do sistema nas duas condições, deduzir o papel dos componentes O produto típico desta estratégia é uma lista de componentes relevantes para um processo e/ou um modelo fenomenológico de suas interações 10.1016/j.tim.2006.11.003 BMP0216 – Genômica e Bioinformática Biologia de Sistemas De baixo para cima (bottom-up) Do mais simples (componentes e suas propriedades individuais conhecidas) para o mais complexo (o sistema) por da proposição, simulação e teste de modelos explícitos para as interações entre os componentes O objetivo último dessa estratégia é construir modelos capazes de prever as propriedades emergentes de um sistema a partir do estado de seus componentes BMP0216 – Genômica e Bioinformática Identificação de genes associados com doenças (top-down) Set 228 genes BMP0216 – Genômica e Bioinformática Identificação de genes associados com doenças (top-down) Down-regulated genes Up-regulated genes Control Schizophrenic Control Schizophrenic BMP0216 – Genômica e Bioinformática Identificação de genes associados com doenças (top-down) Os 228 genes diferencialmente expressos em esquizofrênicos foram avaliados quanto ao seu padrão de co-expressão durante a diferenciação de neurônios (iPS-NPC) in vitro. Resultado: a co-expressão de alguns desses genes é diferente em controles (fibroblasto para iPS-057) e afetados (fibroblasto -> iPS-C2 / iPS-C11) BMP0216 – Genômica e Bioinformática Modelo do ciclo celular (bottom-up) Crescer e dividir Quatro fases – G1: crescimento – S: duplicação – G2: crescimento – M: mitose BMP0216 – Genômica e Bioinformática Modelo do ciclo celular (bottom-up) Chen, Mol. Biol. Cell, 2004 Modelo do controle do ciclo celular, baseado no consenso da literatura BMP0216 – Genômica e Bioinformática Modelo do ciclo celular (bottom-up) Sistema de equações diferenciais acopladas que descreve a rede de controle do ciclo celular Chen, Mol. Biol. Cell, 2004 BMP0216 – Genômica e Bioinformática Modelo do ciclo celular (bottom-up) O Modelo consegue prever as variações de concentração de proteínas e o ganho de massa observado experimentalmente no ciclo celular Prevê também, corretamente, o fenótipo de vários mutantes Erros nas predições do modelo indicam as partes que precisam revisão Chen, Mol. Biol. Cell, 2004 BMP0216 – Genômica e Bioinformática Tecnologias “Ômicas” Definição Tecnologia que permitem medir o estado de milhares de variáveis de um sistema biológico em uma ou mais condições Procedimento para análise funcional – Isolamento (amostra) – Detecção – Identificação e/ou Análise (quantificação) Na maioria dos casos em que o objetivo é a quantificação, apenas um valor relativo, ou seja, a variação entre duas condições, pode ser obtido. Exemplos: transcriptômica, proteômica e metabolômica. BMP0216 – Genômica e Bioinformática Tecnologias “Ômicas” Badomics words and the power and peril of the ome-meme, GigaScience (2012) 1:6. Microarrajos – Genômica / Pós-genômica (resequenciamento) Arranjos para detecção de SNPs – Transcriptômica – Microarranjos de proteínas – Chip-Chip: microarranjos de imunoprecipitação de cromatina Sequenciamento em larga escala (HTS) – Genômica / Pós-genômica (resequenciamento) Detecção de polimorfirmos (SNPs), deleções e variações no número de cópias de genes Epigenômica: identificação em larga escala de sítios de metilação (bisulphite sequencing) – Transcriptômica – Tn-Seq: mutagênese por transpósons + HTS – Chip-Seq: interação DNA-proteína – RIP-Seq, CLIP-Seq: interação RNA-proteína Espectroscopia de massa (MS) – Proteômica: sequencimento e quantificação de proteínas – Metabolômica: detecção e quantificação de metabólitos Imagens de alta resolução in vivo – Técnicas de larga escala baseadas em fluorescência BMP0216 – Genômica e Bioinformática Tecnologias “Ômicas”: Genômica Várias dessas tecnologias vocês viram nesse curso ao longo do semestre... BMP0216 – Genômica e Bioinformática Tecnologias “Ômicas”: Transcriptômica Experimento de microarranjos (microarray) H T TP://UPLOAD.W I K I M ED I A.ORG /W I K I PED I A /COM M ON S/0/0 E/M I CROARRAY 2.GI F Verde: mais expresso no controle Green: expressed only in control Vermelho: mais expresso na célula sob estudo Red: expressed only in an experimental cell Amarelo: expresso Yellow: equally expressed inem ambos both samples Black: N OT expressed in either control or sample Preto: não é expresso H T TP://UPLOAD.W I K I M ED I A.ORG /W I K I PED I A /EN /C/C8/M I CROARRAY -SCH EM A.JPG Depende do mapeamento prévio de genes no genome (exceto tiling) CSE/BI M M /BEN G 181 M AY 24, 2011 SERGEI L K OSAKOV SK Y PON D [ SPON D @UCSD.EDU ] Compara os níveis de expressão em duas amostras (controle X alvo) BMP0216 – Genômica e Bioinformática Tecnologias “Ômicas”: Transcriptômica RNA-Seq BMP0216 – Genômica e Bioinformática 5 peptídeos Tecnologias “Ômicas”: MS íons (M+H)+; Espectrometria de massa (quando aplicada a biomoléculas!) Seqüenciamento do m/z 872 A espectrometria de massa (MS) é usada para determinar, com altíssima precisão, as massas das moléculas presentes em uma amostra Consiste em converter as moléculas na amostra em íons gasosos e, em seguida, separar esses íons de acordo com a razão entre sua massa e sua carga (m/z). Após a separação, os íons atingirão um detector que registrará a massa de cada subpopulação de moléculas BMP0216 – Genômica e Bioinformática Tecnologias “Ômicas”: MS Espectrometria de massa: proteômica A espectrometria de massa (MS) é usada em proteômica para identificar e quantificar as proteínas presentes em uma amostra A espectrometria de massa (MS) é usada em proteômica para identificar e quantificar as proteínas presentes em uma amostra Com controles adequados pode ser usada para detectar modificações pós-traducionais (PTM) BMP0216 – Genômica e Bioinformática Tecnologias “Ômicas”: MS Espectrometria de massa: metabolômica Análise da totalidade de moléculas de baixo peso molecular e metabólitos presentes em um organismo Human Metabolome project (2007) => Human Metabolome database (http://www.hmdb.ca/) Medidas simultâneas das variações na concentração de metabólitos serão úteis para: Validar e ajustar modelos bottom-up (modelagem) Diagnóstico de condições patológicas (clínica) Essa análise pode ser restrita a uma lista de metabólitos conhecidos (dirigida) ou ter como alvo a detecção de quaisquer compostos presentes na(s) amostra(s) BMP0216 – Genômica e Bioinformática Tecnologias “Ômicas”: Proteômica Microarrajos de proteína Diversas empresas produzem microarranjos com grandes coleções de proteínas ou anticorpos contra proteínas humanas (ou de outros organismos) fixadas em sua superfície Microarranjos de proteínas só podem fornecer dados sobre conjuntos de proteínas pré-definidos. Essa limitação não interfere no seu uso para diagnóstico Podem ser usados para quantificar as proteínas ou identificar parceiros de interação BMP0216 – Genômica e Bioinformática Tecnologias “Ômicas”: Interactoma Duplo-híbrido BMP0216 – Genômica e Bioinformática Tecnologias “Ômicas”: Interactoma Duplo-híbrido Características Depende da disponibilidade de um sistema heterólogo Número de experimentos é alto... Procedimento é laborioso pois usa técnicas clássicas de clonagem Resultado Depende de muito trabalho manual Interação binária Produz falsos positivos BMP0216 – Genômica e Bioinformática Tecnologias “Ômicas”: Interactoma Tandem-affinity purification (TAP) BMP0216 – Genômica e Bioinformática Tecnologias “Ômicas” Problemas Os experimentos de larga escala permitem determinar os componentes das redes biológicas e suas interações, porém: Em muitos casos (e.g. interactoma), geram dados estáticos que são usados para interpretar sistemas dinâmicos Muitas vezes geram dados de baixa qualidade Costumam apresentar lacunas (dados ausentes) Os tipos de dados gerados por cada tecnologia são heterogêneos BMP0216 – Genômica e Bioinformática Redes biológicas Redes biológicas são construídas a partir da compilação, em larga escala, de dados sobre as interações entre componentes celulares. Exemplos: Redes metabólicas Redes de regulação transcricional Transdução de sinal Interactoma: interações físicas entre proteínas Interações genéticas (epistastasia) BMP0216 – Genômica e Bioinformática Alguns tipos de redes biológicas BMP0216 – Genômica e Bioinformática Redes regulatórias Consistem em redes que modelam a influência de fatores de transcrição (FT) sobre genes por meio de interações com suas regiões promotoras Rede de interações físicas entre os fatores de transcrição e as regiões promotoras de genes metabólicos de C. elegans BMP0216 – Genômica e Bioinformática Redes de co-expressão gênica http://bioinfow.dep.usal.es/coexpression/network.jpg Uma rede de co-expressão conecta genes cujo padrão de expressão é correlacionado, ou seja, os genes conectados terão sua expressão aumentada ou reduzida de BMP0216 – Genômica e Bioinformática Interações genéticas Wikipedia BMP0216 – Genômica e Bioinformática Interactoma de levedura Vértices: proteinas Arestas: interações físicas Determinado por meio de experimentos de duplo- híbrido Brown, TA (2006) Genomes 3 BMP0216 – Genômica e Bioinformática Interactoma humano Towards a proteome-scale map of the human protein–protein interaction network. Rual, Vidal et al. Nature 437, 1173-1178 (2005) BMP0216 – Genômica e Bioinformática Vias de sinalização e vias metabólicas Uma via pode ser definida como um conjunto de moléculas que interagem formando um módulo que executa uma determinada função biológica, como a síntese de um ou mais produtos (via metabólica) ou a ativação de uma ou mais respostas fisiológicas a um sinal externo (via de sinalização) Os catálogos dessas vias, como de outras redes biológicas, foram construídos manualmente por curadores com base em décadas de conhecimento acumulado na literatura KEGG: http://www.kegg.jp/ Reactome: http://www.reactome.org/ Biocyc: http://biocyc.org/ (agora precisa pagar! ) BMP0216 – Genômica e Bioinformática KEGG: Ciclo celular a BMP0216 – Genômica e Bioinformática Predição de Redes biológicas Além do crescente catálogo de métodos experimentais, outra área intensa de pesquisa é o desenvolvimento de métodos capazes de predizer interações entre componentes biológicos Vários bancos de dados catalogam essas predições e disponibilizam ferramentas para os biológos experimentais explorarem as interações propostas para seus genes e proteínas de interesse BMP0216 – Genômica e Bioinformática Contexto genômico Conservação da vizinhança genômica Gene X Gene A Gene B Organismo 1 Gene A Gene B Gene Y Exemplos de inferências Organismo 2 - Mesmo sentido de transcrição Gene Z Gene A Gene B Organismo 3 possíveis operons - Sentidos opostos Par regulador / regulado Inferência: Pressões selectivas favorecem a co-regulação destes genes implicando um vínculo funcional BMP0216 – Genômica e Bioinformática Conservação da vizinhança: vias metabólicas BMP0216 – Genômica e Bioinformática Contexto genômico: pedra da Rosetta biológica Fusão de genes Gene A Gene B Organismo 1 Gene AB Organismo 2 Marcotte,E.M. (1999) Detecting Protein Function and Protein-Protein Interactions from Genome Sequences. Science, 285, 751–753. Inferência: a fusão dos genes gera uma vantagem adaptativa portanto os produtos gênicos interagem funcional Vários estudos confirmam que esse ou fisicamente método é um excelente preditor!!!! BMP0216 – Genômica e Bioinformática Predição de funções e novas enzimas Preencher gaps em vias conhecidas Identificar novas vias metabólicas Predizer a natureza de novos compostos Origin and evolution of peptide-modifying dioxygenases and identification of the wybutosine hydroxylase/hydroperoxidase. Nuc. Acids Res., 2010, 38(16):5261–5279 BMP0216 – Genômica e Bioinformática Bancos de dados Recapitulando: Os experimentos de larga escala, que produzem as redes biológicas que acabamos de ver, foram inicialmente acoplados a grandes projetos colaborativos Tais iniciativas impulsionaram a expansão e criação de novos bancos de dados para os dados “ômicos” Os esforços colaborativos continuam a produzir conjuntos de dados cada vez maiores O avanço da tecnologia vem permitindo que um ou poucos laboratórios obtenham conjuntos de dados tão grandes quanto os que eram apenas publicados por consórcios uma década ou mesmo cinco antes!!!!! Demonstração: OMICTools (https://omictools.com/): portal que lista e classifica dezenas de ferramentas e bancos de dados usados em bioinformática e biologia de sistemas. Exemplo: PPIs estão em Workflow -> Pathway analysis -> Protein-protein interaction data BMP0216 – Genômica e Bioinformática Banco de dados STRING Combina múltiplos tipos de dado: Contexto genômico Expressão gênica Interações (PPI) Text mining http://string-db.org/ Referências https://omictools.com http://vcell.org/ Marian Walhout, Marc Vidal & Job Dekker. Handbook of Systems Biology: Concepts and Insights, Academic Press (2013). Bruggeman, F. J., & Westerhoff, H. V. (2007). The nature of systems biology. Trends in Microbiology, 15(1), 45–50. http://doi.org/10.1016/j.tim.2006.11.003 Henry et al. (2014) OMICtools: an informative directory for multi-omic data analysis, Database (Oxford University Press), doi: 10.1093/database/bau069. BMP0216 – Genômica e Bioinformática