Allineamento di sequenze PDF
Document Details
Uploaded by PropitiousIndianapolis
Prof. Di Maria Antonio
Tags
Summary
This presentation explains sequence alignment, a fundamental concept in bioinformatics. It details how nucleotide and amino acid sequences are compared and aligned to understand evolutionary relationships. The presentation also clarifies the principle of conservation of mass in chemical reactions.
Full Transcript
Allineamento di sequenze Prof. Di Maria Antonio 1 Allineamento di sequenze Confronto tra sequenze Allineamento pairwise Blast 2 Confronto tra sequenze Il confronto fra sequenze (nucleotidiche o aminoacidi...
Allineamento di sequenze Prof. Di Maria Antonio 1 Allineamento di sequenze Confronto tra sequenze Allineamento pairwise Blast 2 Confronto tra sequenze Il confronto fra sequenze (nucleotidiche o aminoacidiche) è uno dei compiti fondamentali della bioinformatica. E’ possibile confrontare sequenze perché in natura le strutture molecolari non vengono create ex-novo ma vengono modificate a partire da modelli preesistenti attraverso reazioni chimiche (principio di conservazione della massa). In una reazione chimica gli atomo non vengono né creati né distrutti ma riorganizzati per formare nuove molecole o combinazioni di atomi. 3 Confronto tra sequenze Esempio: idrogeno (H2) e ossigeno (O2) non sono create ex-novo, ma combinati per formare le molecole d'acqua (H2O) La variabilità genetica in una sequenza deriva principalmente da mutazioni, ossia sostituzioni di basi, inserzioni o cancellazioni (indel). Le mutazioni, quindi, rappresentano l’unità base dell’evoluzione, e sono responsabili della diversità genetica tra individui di una specie. 4 Confronto tra sequenze Le mutazioni sono dovute ad errori nella replicazione del DNA, esposizione a mutageni ambientali (sostanze chimiche o radiazioni) o altri processi biologici. Alcune mutazioni sono dannose e possono portare a malattie genetiche, mentre altre possono essere neutre o persino vantaggiose per un individuo, contribuendo così al processo 5 evolutivo. Sequenze omologhe, parologhe e ortologhe Definizioni: Due sequenze (DNA, RNA, proteine) sono omologhe se condividono una discendenza comune da un antenato comune. Sono sequenze simili evolute da una sequenza ancestrale condivisa a seguito di duplicazioni, divergenze e successive alterazioni. Discendenza comune: sequenze di geni omologhi in specie diverse suggeriscono che queste specie condividono un antenato comune che possedeva quel gene Divergenza evolutiva: Nel corso dell'evoluzione, le sequenze omologhe possono subire mutazioni, inserzioni, delezioni differenti, ma le sequenze continuano a condividere somiglianze di base. 6 Sequenze omologhe, parologhe e ortologhe La divergenza è spesso utilizzata per ricostruire alberi filogenetici e studiare le relazioni evolutive tra le specie. Sequenze omologhe presenti nella stessa specie si dicono paraloghe. Sequenze omologhe presenti in specie diverse sono detti ortologhe. Obiettivi del confronto: Filogenesi molecolare Evoluzione dei singoli genomi Caratterizzazione di proteine con funzioni sconosciute. 7 Confronto tra sequenze Filogenesi molecolare: il confronto tra sequenze nucleotidiche o aminoacidiche, consente di costruire alberi filogenetici che illustrino le distanze ed i rapporti evolutivi tra le molecole analizzate. La filogenesi molecolare non consente lo studio evolutivo degli organismi ma permette di identificarne le relazioni evolutive molecolari. Caratterizzazione di proteine con funzione ignota: Il confronto di una proteina a funzione ignota con una famiglia di proteine a funzione nota può permettere di formulare ipotesi sulla funzione della prima. 8 Allineamento di sequenze Per poter procedere al confronto tra sequenze nucleotidiche o proteiche è necessario che queste vengano allineate. L’allineamento cerca di risalire alle operazioni di sostituzione o indel che hanno portato alla formazione di una sequenza a partire da un’altra. Un esempio di allineamento multiplo di 5 sequenze aminoacidiche: 9 Allineamento di sequenze I puntini (gap) denotano una cancellazione di basi avvenuta nella sequenza. I gap vengono inseriti per allineare le sequenze, ovvero garantire il maggior numero di nucleotidi uguali (o aminoacidi) nelle stesse posizioni. La lunghezza del gap indica quante basi o residui mancano nella sequenza allineata. 10 Allineamento di sequenze Confronto tra sequenze Allineamento pairwise Blast 11 Allineamento pairwise Il problema più semplice è l’allineamento di una coppia di sequenze, detto allineamento pairwise. Definizioni: Sia S una sequenza. Con il simbolo |S| denotiamo la lunghezza di S e con S[i] indichiamo l’i-esimo carattere di S. Esempio: S = acbcdb, avremo |S|=6 e S=b. Siano S e T due sequenze. Un allineamento pairwise A associa ad S e T le sequenze S’ e T’, che possono contenere uno o più caratteri detti gap (ad es. “-” oppure “.”), in modo che |S’|=|T’| 12 Allineamento pairwise Il gap indica una cancellazione nella sequenza o, equivalentemente, un’inserzione nell’altra sequenza (chiamate operazioni di INDEL). Esempio: Date le due stringhe acbcdb e cadbd, un possibile allineamento è dato dalle sequenze: a c - - b c d b - c a d b - d - 13 Bontà allineamento pairwise Per valutare la bontà di un allineamento pairwise, bisogna definire il concetto di similarità o distanza tra due sequenze allineate. Nota: Due sequenze che presentano alta similarità sono poco distanti, due sequenze che presentano bassa similarità sono molto distanti. Similarità: Valuta quanto due sequenze siano simili. Si confrontano i caratteri allineati delle due sequenze e per ciascun confronto si assegna un punteggio, che sarà più alto in caso di corrispondenza (match) è più basso in caso di non corrispondenza (mismatch). Il punteggio finale di similarità (detto score dell’allineamento) sarà ottenuto sommando i punteggi di ciascun confronto. 14 Bontà allineamento pairwise Esempio: Assegniamo un punteggio di +2 per ogni match esatto e un punteggio di -1 per ogni mismatch o indel; La similarità tra le due sequenze secondo l’allineamento considerato sarà: Distanza: La distanza valuta la dissimilarità o diversita tra sequenze. Si confrontano i caratteri allineati delle due sequenze e per ciascun confronto si assegna un punteggio, che sarà più basso in caso di corrispondenza (match) e più alto in caso di non corrispondenza (mismatch). Il punteggio finale sarà 15 ottenuto sommando i punteggi di ciascun confronto. Bontà allineamento pairwise Esempio: Assegniamo uno score pari a 0 nel caso di match, pari ad 1 in caso di sostituzione di caratteri e pari a 2 in caso di allineamento con un gap; La distanza tra le due sequenze secondo l’allineamento considerato sarà: Distanza di editing: E’ possibile calcolare la distanza tra due stringhe utilizzando, una misura alternativa chiamata distanza di editing. Minimo numero di operazioni da eseguire (inserimenti, cancellazioni, sostituzioni) per trasformare una sequenza in un’altra. 16 Bontà allineamento pairwise Esempio: per trasformare la prima sequenza nella seconda dobbiamo inserire una g, sostituire una c con una t, e cancellare una g. La distanza di editing tra le due sequenze è dunque 3. 17 Score di allineamento Se x e y sono singoli caratteri o spazi, allora con il simbolo sigma denotiamo una funzione detta scoring function. Lo score dell’allineamento di una coppia di sequenze è dato da: dove l =|S’|=|T’|. 18 Allineamento ottimale Date due sequenze biologiche S e T, l’allineamento ottimale di S e T è l’allineamento che massimizza la similarità tra le sequenze o che minimizza la loro distanza (una volta stabiliti i punteggi per valutare la similarità o la distanza). Il problema dell’allineamento pairwise di due sequenze consiste nel trovare l’allineamento ottimale tra due sequenze. Scelta dei punteggi: E’ funzione del contesto e dal tipo di sequenza che stiamo considerando. Nel caso di sequenze nucleotidiche, un punteggio che discrimina match e mismatch va bene. Nel caso di sequenze proteiche, il punteggio dovrà tener conto anche delle similarità chimico-fisiche tra gli aminoacidi. Punteggio medio-alto 19 ad aminoacidi con proprietà simili Allineamento globale vs locale L’allineamento pairwise globale ottimale mette in luce l’eventuale similarità globale tra due sequenze. L’allineamento pairwise locale ottimale mette in evidenza le eventuali similarità locali tra le due sequenze. Due sequenze possono anche essere molto diverse nella loro interezza ma avere comunque delle regioni molto simili. Da tale similarità è spesso possibile formulare ipotesi sulla presenza di determinati motivi (ovvero sottosequenze ricorrenti) quindi sulla funzione delle molecole analizzate. 20 Allineamento di sequenze Confronto tra sequenze Allineamento pairwise Blast 21 Algoritmi per allineamento pairwise Il metodo più ovvio per allineare consiste nel provare tutti i possibili allineamenti e restituire quello con lo score migliore. Questo approccio è dispendioso e impraticabile sebbene conduca sicuramente ad un allineamento ottimale. Allineare sequenze di appena 20 caratteri (lunghezza inusuale per una sequenza, che solitamente è formata da un numero molto maggiore di caratteri) richiederebbe un tempo sicuramente inaccettabile. L’algoritmo di allineamento pairwise più popolare è BLAST (Basic Local Alignment Search Tool). 22 Algoritmi di BLAST BLAST è un algoritmo di allineamento pairwise locale. BLAST non si limita semplicemente al confronto tra due sequenze date, ma può anche ricercare sequenze simili ad una sequenza data. BLAST può eseguire migliaia di confronti fra sequenze in pochi secondi, dunque in poco tempo è possibile confrontare una sequenza query con un’intera banca dati per ricercare tutte le sequenze simili ad essa. 23 Descrizione algoritmo di BLAST 1. Si inizia con l’estrare tutte le possibili word di w lettere dalla sequenza data in input, detta anche query (w=3 per le proteine, w=11 per il DNA). Questi elementi sono chiamati w-mer. 2. Per ogni word della sequenza da esaminare viene costruita una lista di possibili words che, se confrontate con la word in questione, hanno un punteggio superiore ad un valore-soglia T (compreso fra 11 e 15) calcolato di volta in volta in base alla composizione e alla lunghezza della sequenza in esame. 24 Descrizione algoritmo di BLAST Nel caso di sequenze proteiche, viene utilizzata la matrice dei punteggi di sostituzione BLOSUM (BLOcks SUbstitution Matrix). Usata per valutare la somiglianza tra amminoacidi nelle sequenze proteiche. Esistono diverse varianti della matrice BLOSUM. La matrice BLOSUM62 è una delle più comuni. 25 Descrizione algoritmo di BLAST Nella matrice BLOSUM, i numeri rappresentano i punteggi di sostituzione tra coppie di amminoacidi. Maggiori valori assoluti indicano una maggiore somiglianza tra gli amminoacidi, mentre valori più bassi indicano una minore somiglianza. ES: PQG – PKG: 7 + 1 + 6 = 14; PQG – PMG = 7 + 0 + 6 = 13 26 Descrizione algoritmo di BLAST 3. Si confronta la lista di words con punteggio oltre la soglia T con le sequenze contenute nel database alla ricerca di match esatti: 4. Riscontrata una corrispondenza (hit), che rappresenta un allineamento iniziale, essa viene estesa a monte e a valle fino a quando l’allineamento locale ottenuto ha un punteggio superiore ad un valore-soglia S. 27 Descrizione algoritmo di BLAST 28 Descrizione algoritmo di BLAST L’implementazione più popolare dell’algoritmo BLAST si trova sul sito dell’istituto americano NCBI (National Center for Biotechnology Information): http://www.ncbi.nlm.nih.gov/BLAST Sono disponibili numerosi tipi di BLAST; I più popolari sono: BLASTN (Nucleotidi – Nucleotidi); BLASTP (Proteine - Proteine); 29 Il formato FASTA >eyeless [Drosophila melanogaster] MFTLQPTPTAIGTVVPPWSAGTLIERLPSLEDMAHKG HSGVNQLGGVFVGGRPLPDSTRQKIVELAHSGARPCD ISRILQVSNGCVSKILGRYYETGSIRPRAIGGSKPRV ATAEVVSKISQYKRECPSIFAWEIRDRLLQENVCTND NIPSVSSINRVLRNLAAQKEQQSTGSGSSSTSAGNSI SAKVSVSIGGNVSNVASGSRGTLSSSTDLMQTATPLN SSESGGASNSGEGSEQEAIYEKLRLLNTQHAAGPGPL EPARAAPLVGQSPNHLGTRSSHPQLVHGNHQALQQHQ QQSWPPRHYSGSWYPTSLSEIPISS… 30 Parologhi di BCL2 Inseriamo la sequenza del gene BCL2 nell’uomo (o carichiamo da un file di testo) Scegliamo database e organismo 31 Parologhi di BCL2 I match trovati hano un valore di significanza statistica (indicato come E value). Indica quanto è statisticamente probabile che quel match sia casuale. La significatività del metch trovato cresce al decrescere della soglia. Abbassando la soglia avremo meno risultati in uscita ma più significativi. Filtro per mascherare segmenti a bassa complessità composizionale, ovvero il cui matching avrebbe scarso significato biologico. 32 Parologhi di BCL2 E’ anche possibile cambiare la dimensione delle words della query che BLAST va a ricercare nel database. Il valore di default per le sequenze nucleotidiche è 28, per quelle proteiche 6. Risutlato della query 33 Parologhi di BCL2 Allineamenti Trovati 34 Parologhi di BCL2 Graphic Summary: mostra la distribuzione dei matches trovati, assegnando colori diversi in base agli score. Uno score maggiore indica un match più significativo. Cliccando sulla barra si ottiene l’allineamento corrispondente. 35 Parologhi di BCL2 36 Parologhi di BCL2 L’allineamento migliore mostra un match del 100%: abbiamo ritrovato lo stesso BCL2 nel database. Abbiamo il link alla sequenza trovata, ed alla pagina corrispondente nella banca dati Gene. 37 Interpretazione output di BLAST Query e subject rappresentano, rispettivamente, la sequenza data in input e una sequenza presente in banca dati. I numeri a sinistra e a destra delle due sequenze rappresentano la posizione iniziale e finale nelle due sequenze dell’allineamento locale trovato. La riga in mezzo tra le due sequenze riporta: Caso sequenze nucleotidiche: | indica un match in una posizione; Caso proteine: il carattere corrispondente indica un match, + indica che due aminoacidi sono simili. Assenza di caratteri indica mismatch in entrambi i tipi si sequenza. 38 Ortologhi di BCL2 Inseriamo nuovamente la sequenza del gene BCL2 nell’uomo. Selezioniamo Homo Sapiens come organismo. Selezioniamo l’opzione exclude per indicare che vogliamo cercare in tutti gli organismi TRANNE quello specificato (homo sapiens). Clicchiamo su BLAST. 39 BLASTP, TBLASTN e BLASTX BLASTP è la versione di BLAST per le proteine. Funziona esattamente come la versione per le sequenze nucleotidiche. TBLASTN, che sta per "Translated BLAST Nucleotide-Nucleotide" confrontare una protein sequence con il database di sequenze nucleotidiche. Per effettuare il confronto, le sequenze nucleotidiche vengono tradotte in sequenze aminoacide. ll confronto tra sequenze proteiche e sequenze di nucleotidi è uno strumento essenziale per comprendere la relazione tra geni e proteine all'interno di un genoma e per studiare l'evoluzione e la funzione delle proteine. BLASTX traduce una sequenza nucleotidica in sequenza di proteine e la ricerca nel database delle proteine. 40 BLAST per allineamento di due sequenze Ciascuno dei tool della famiglia BLAST può essere usato per eseguire allineamenti pairwise locali tra una sequenza di input (detta query) e una o più sequenze di riferimento (dette subject). Bisogna selezionare l’opzione Align two or more sequences e inserire nella casella di testo sottostante le sequenze subject. In input la sequenza della proteina TBP dell’uomo e quella di TBP della Drosophila 41 BLAST per allineamento di due sequenze I risultati mostrano un allineamento delle parti C-terminali delle due sequenze, con identità pari all’86%. C-terminale è l'estremità "carbossi" di una catena polipeptidica o proteica. Corrisponde all'ultimo amminoacido nella sequenza proteica. “dominio a sella” con cui TBP interagisce con il DNA, che risulta altamente conservato rispetto al resto della sequenza. 42