Resumo Blast (Aula 3) - PDF

Resumo Blast (aula 3) Status Not started tipo resumo Alinhamentos de sequências As sequências são comparadas por várias razões: 1. Identificação de similaridades: compara as sequências ajudar a identificar semelhanças que podem indicar um ancestralidade comum. Sequências que são semelhantes têm maior probabilidade de ter estruturas e funções biológicas semelhantes. 2. Alinhar uma sequência desconhecida com uma sequência de função/estrutura conhecida pode fornecer informações valiosas sobre a função/ estrutura da sequência desconhecida. 3. O alinhamento de sequências permite a análise de relações evolutivas entre diferentes organismos e ajudam a entender como é que as sequências mudaram ao longo do tempo (como mutações ou regiões conservadas) O que é alinhamento de sequência? Procedimento de comparação de 2 ou mais sequências, procurando séries de carateres individuais que se encontrem na mesma ordem nas sequências. Similaridade: Sequências são similares se o número de carateres idênticos (ou seja, emparelhados durante o alinhamento) é elevado. Nota: Não é possível comparar sequências biológicas sem realizar o seu alinhamento, devido a mutações O que alinhar em sequências biológicas? Resumo Blast (aula 3) 1 a. DNA/RNA b) Proteínas (20 letras representando os diferentes aminoácidos Tipos de alinhamento Globais: Tentam-se alinhar ambas as sequências na sua totalidade, assumindo que têm tamanhos iguais. Identificam ⇒ genes/proteínas com estruturas globais e funções semelhantes Locais: Tentam-se alinhar segmentos das sequências Identificam ⇒ zonas conservadas ao longo da evolução que configurem, por exemplo, zonas funcionais ativas de proteínas Alinhamento é um problema de otimização O alinhamento entre 2 sequências não é nada mais do que o processo pela procura pelo melhor emparelhamento de carateres (letras) entre 2 sequências ⇒ dada uma função de mérito que avalie cada possível alinhamento. Resumo Blast (aula 3) 2 Formulação do problema Dadas: 2 Sequências de proteínas, DNA, entre outros Função objetivo: permite avaliar cada possível alinhamento Retornar: O emparelhamento ótimo entre as 2 sequências, retendo a ordem relativa dos elementos de cada sequência (pode-se introduzir espaçamentos entre cada uma delas), tal que a função objetivo seja a máxima possível. Função Objetivo É aditiva - porque soma pontos por correspondências e aplica penalizações para as diferenças, como substituições e lacunas. É construída com: 1. Matriz de substituição: Fornece pontuações para cada par de carateres (ou aminoácidos) alinhados - esta pontuação é adicionada à função de mérito. São calculadas com base num modelo que considera as probabilidades de substituição de um aminoácido por outro em sequências relacionadas. O valor será o log da divisão das probabilidades de substituição em sequências relacionadas sobre a probabilidade de substituição em sequências não relacionadas, multiplicado por 10. observado score = log( ) × 10 esperado Exemplo: Temos 1000 pares de aminoácidos retirados de bons alinhamentos O par SL aparece 9 vezes e a probabilidade do aminoácido L é 15%. Valor esperado de ocorrências para o par SL ⇒ 15% x 10% x 1000 = 15 O score do par SL seria então ⇒ 10 x log (9/15) = -2 Resumo Blast (aula 3) 3 Se os valores observados e esperados forem o mesmo o score será de 0. Exemplo de matrizes de substituição - Matrizes BLOSUM As matrizes BLOSUM são criadas usando blocos conservados de aminoácidos (AAs) em proteínas. Estas regiões conservadas são segmentos de proteínas que mantêm uma estrutura ou função importante ao longo da evolução e, portanto, mudam muito pouco entre diferentes organismos. Existem várias matrizes BLOSUM, cada uma com um número que representa o nível de similaridade entre as sequências usadas para construí-la. Esse número, chamado de "i" em "BLOSUMi", indica a percentagem mínima de similaridade entre as sequências conservadas de onde os dados foram retirados. Por exemplo, a BLOSUM62 foi construída usando sequências que compartilham pelo menos 62% de similaridade. Esse valor indica que a matriz é adequada para alinhamentos de sequências com uma relação evolutiva moderada. Matrizes com números mais baixos (como BLOSUM45) são usadas para sequências menos semelhantes, enquanto números mais altos (como BLOSUM80) são usados para sequências mais próximas. 2. Penalizações por espaçamentos (gaps) - Affine gap penalty P = g + (r × x) P - penalidade do espaçamento r - penalidade pela extensão de um espaçamento por mais um carater g - penalidade pelo inicio do espaçamento x - número de carateres do espaçamento Ou P = g + r ( len - 1), onde len é o número de espaçamentos seguidos Exemplo: Resumo Blast (aula 3) 4 Considerando que: A Matriz usada foi a BLOSUM62 Penalizações: g = -12, r = -2 Logo, a função de mérito do alinhamento é: −1 + 6 + 7 + 4 − 12 + 6 + (−12 − 2 ∗ 1) + 4 − 2 + 4 + 11 + 5 + 5 + 4 + 0 = 27 Algoritmos para alinhamento: Matrizes de pontos: análise e alinhamento visuais Programação dinâmica: métodos exatos que garantem solução ótima > Needleman / Wunsch - alinhamentos globais > Smith / Waterman - alinhamentos locais Métodos heurísticos: mais rápidos, mas menos precisos: > FASTA > BLAST Resumo Blast (aula 3) 5 Procura por sequências similares em bases de dados - BLAST Descrever e analisar algoritmos e ferramentas usadas para uma dada sequência (query) para procurar sequências mais similares em bases de dados de grandes dimensões Métodos heurísticos de alinhamento de sequências (como o BLAST ou FASTA) Não garantem uma solução ótima. São mais rápidos que os algoritmos de programação dinâmica, mas se as sequências a comparar forem pouco similares o ideal será usar o PB porque tem mais sensibilidade. Ideais para procurar em bases de dados onde se tem uma sequência e se procurar sequências similares em conjuntos de elevada cardinalidade (grandes bases de dados) Critérios de avaliação destes algoritmos: Temos de ter em conta: Sensibilidade: sequências homólogas na BD que são retornadas. Foca-se em encontrar todas as sequências homologas na base de dados VP Sensibilidade = FN + V P Precisão: sequências similares retornadas que são homólogas. Foca-se na proporção de sequências identificadas como relevantes que são realmente homologas. ~o = VP P recisa V P + FP Eficiência computacional VP - verdadeiros positivos (Sequências homólogas efetivamente detetadas) FP - falsos positivos (Sequencias detetadas que não são homólogas) FN - falsos negativos (Sequências homólogas não detetadas) BLAST - Basic Local Alignment Search Tool Resumo Blast (aula 3) 6 Algoritmos mais utilizado na atualidade, para a pesquisa de sequencias em BDs Passos: 1. Divide a sequência de consulta em fragmentos curtos (palavras) e procura por essas palavras na BD 2. Quando uma palavra é encontrada na BD (hit) , o BLAST expande o alinhamento a partir desse ponto nas duas direções, para identificar regiões de similaridade 3. A extensão ocorre até o alinhamento baixar de um score pré-definido O BLAST calcula também um valor E (E-value) para cada alinhamento encontrado após a procura, isto ajuda a filtrar resultados que são relevantes vs aqueles que podem ser apenas coincidências. Versões mais atuais do BLAST com refinamentos: 1. Passou-se a exigir 2 hits próximos independentes por uma distâncias não superior a um parâmetro dado - isto leva a menos extensões e logo a maior rapidez do algoritmo. Também permite incluir gaps na zona estendida entre os dois hits. 2. Vários High-scoring Segment Pairs podem ser combinados para gerar alinhamentos maiores e de melhor qualidade Programas BLAST Nucleotide BLAST - blastn: procura uma sequência de DNA na base de dados de DNA Protein BLAST - blastp : procura uma sequência de proteína na base de dados de proteínas Blastx - procura uma sequência de DNA traduzida na base de dados de proteínas Tblastn - procura uma sequência de proteína na base de dades de sequências de DNA traduzidas Tblastx - procura uma sequência de DNA traduzida na base de dados de sequências de DNA traduzidas. Aspetos importantes a ter em atenção ao usar o BLAST: Qualquer pedido de análise BLAST vai demorar algum tempo Resumo Blast (aula 3) 7 Quanto maior o tamanho da sequência, maior o tempo de processamento e menor será a especificidade da pesquisa Algoritmos otimizados de procura (DNA) - nucleotide BLAST blastn - permite uma pesquisa muito sensível e é mais lento megablast - é o algoritmo mais usado, mais rápido e mais adequado para sequências maiores: c continuous megablast ⇒ otimizado para a identificação de espécies discontinuous megablast ⇒ otimizado para a comparação entre espécies Algoritmos otimizados de procura (proteínas) - protein BLAST blastP e quickBlastP - são algoritmos mais rápidos e menos sensíveis PSI-BLAST, PHI-BLAST, DELTA-BLAST ⇒ algoritmos mais lentos e mais sensíveis Qual a significância estatística do alinhamento? Ou seja a avaliação da relevância dos resultados obtidos durante o alinhamento 1. E-Value Representa o número esperado de alinhamentos aleatórios que têm um score igual ou superior ao score observado. Um E-value menor indica que o alinhamento é menos provável de ter ocorrido por acaso. 2. Max Score É a pontuação de alinhamento máxima calculado a partir da soma das recompensas relativas aos nucleótidos/aminoácidos coincidentes e penalidades por mismatches e gaps. Um max score elevado sugere que existe uma forte similaridade entre as sequências, indicando que elas podem ter uma relação evolutiva, funcional ou estrutural significativa. 3. Total score Resumo Blast (aula 3) 8 É a soma das pontuações obtidas em todas as partes (ou segmentos) do alinhamento entre a sequência alvo (por exemplo, uma sequência de consulta) e as sequências da base de dados. A diferença entre Total Score e Max Score torna-se evidente quando há múltiplas partes das sequências que correspondem. O Total Score agrega todas as contribuições de pontuação, resultando num valor que pode indicar a qualidade geral do alinhamento, enquanto o Max Score reflete apenas a melhor correspondência encontrada em qualquer parte do alinhamento. 4. Percent identity: Medida que indica a proporção de resíduos (ou nucleotídeos, no caso de sequências de DNA) idênticos entre duas sequências alinhadas. Esta métrica é frequentemente utilizada em análises de alinhamento de sequências para avaliar o grau de similaridade entre elas. Quanto maior, mais similares são as sequências o que pode indicar uma relação evolutiva, funcional ou estrutural. 5. Query cover: É o número que descreve quanto da sequência alvo é coberta pela sequência com que se está a comparar. Se a sequência da base de dados abranger toda a sequência alvo, a cobertura é 100%. Basicamente compara o tamanho das sequências. 6. Accession Length: É o tamanho da sequência. Identities: Refere-se ao número de resíduos (nucleotídeos ou aminoácidos) idênticos em um alinhamento. Por exemplo, se num alinhamento de duas sequências de proteína 25 dos 50 resíduos são idênticos, então temos 25 identidades. Resumo Blast (aula 3) 9 Percent Identity: Representa a proporção de resíduos idênticos em relação ao comprimento total do alinhamento. Positive: Refere-se ao número de resíduos (nucleotídeos ou aminoácidos) que são idênticos ou que têm propriedades químicas semelhantes entre as duas sequências. Gap: Representa a inserção ou deleção de um ou mais nucleotídeos ou aminoácidos em uma das sequências comparadas. Resumo Blast (aula 3) 10

Resumo Blast (Aula 3) - PDF

Document Details

Tags

Related

Summary

Full Transcript

Upgrade to continue