Podcast
Questions and Answers
Quale dei seguenti NON è un livello di organizzazione della bioinformatica?
Quale dei seguenti NON è un livello di organizzazione della bioinformatica?
- Parte applicativa
- Aspetto computazionale
- Analisi di mercato (correct)
- Sviluppo di software
Quale affermazione descrive meglio il ruolo del biotecnologo nel contesto della bioinformatica?
Quale affermazione descrive meglio il ruolo del biotecnologo nel contesto della bioinformatica?
- Si occupa esclusivamente della parte computazionale delle analisi.
- Gestisce e organizza le banche dati di sequenze biologiche.
- Fornisce l'input necessario per formalizzare il problema biologico e definire nuovi studi. (correct)
- Sviluppa algoritmi complessi per l'analisi dei dati.
Qual è la principale limitazione del metodo Sanger rispetto alle tecnologie NGS?
Qual è la principale limitazione del metodo Sanger rispetto alle tecnologie NGS?
- Non consente di clonare i frammenti di DNA.
- La lettura delle sequenze si basa sulla separazione elettroforetica, limitando il grado di parallelizzazione. (correct)
- Richiede una fase di amplificazione.
- Ha un elevato grado di parallelizzazione.
Quale caratteristica distingue le tecnologie di sequenziamento definite ‘a single molecule’?
Quale caratteristica distingue le tecnologie di sequenziamento definite ‘a single molecule’?
Cosa indica il simbolo ‘>’ nel formato FASTA?
Cosa indica il simbolo ‘>’ nel formato FASTA?
Qual è la funzione principale del sistema Phred nello score di qualità delle reads?
Qual è la funzione principale del sistema Phred nello score di qualità delle reads?
In un articolo scientifico, quale sezione è in genere ricca di citazioni di lavori precedenti?
In un articolo scientifico, quale sezione è in genere ricca di citazioni di lavori precedenti?
Cosa indica l'Impact Factor di una rivista scientifica?
Cosa indica l'Impact Factor di una rivista scientifica?
Qual è la differenza principale tra Scopus, Web of Science e Google Scholar nell'ambito della raccolta di citazioni?
Qual è la differenza principale tra Scopus, Web of Science e Google Scholar nell'ambito della raccolta di citazioni?
Cosa rappresenta l'h-index di un autore?
Cosa rappresenta l'h-index di un autore?
Perché è importante confrontare le sequenze biologiche?
Perché è importante confrontare le sequenze biologiche?
Cosa significa che due geni sono omologhi?
Cosa significa che due geni sono omologhi?
Cosa distingue principalmente un allineamento globale da uno locale?
Cosa distingue principalmente un allineamento globale da uno locale?
Qual è la funzione del window filter nel metodo Dot Plot?
Qual è la funzione del window filter nel metodo Dot Plot?
Nella programmazione dinamica per l'allineamento di sequenze, cosa rappresentano i gap?
Nella programmazione dinamica per l'allineamento di sequenze, cosa rappresentano i gap?
Qual è lo scopo delle matrici di sostituzione come PAM e BLOSUM nell'allineamento di sequenze?
Qual è lo scopo delle matrici di sostituzione come PAM e BLOSUM nell'allineamento di sequenze?
Cosa distingue l'algoritmo di Smith-Waterman da quello di Needleman-Wunsch?
Cosa distingue l'algoritmo di Smith-Waterman da quello di Needleman-Wunsch?
Qual è lo scopo principale degli allineamenti euristici di sequenze come FASTA e BLAST?
Qual è lo scopo principale degli allineamenti euristici di sequenze come FASTA e BLAST?
Cosa sono le High-Scoring Pair(HSP) in BLAST?
Cosa sono le High-Scoring Pair(HSP) in BLAST?
Cosa rappresentano i valori di Expect (E-value) in un risultato BLAST?
Cosa rappresentano i valori di Expect (E-value) in un risultato BLAST?
Qual è la funzione principale di un read mapper negli algoritmi NGS?
Qual è la funzione principale di un read mapper negli algoritmi NGS?
Cosa si intende per space-seed indexing negli algoritmi di read mapping?
Cosa si intende per space-seed indexing negli algoritmi di read mapping?
Quale problema cerca di risolvere la trasformata di Burrows-Wheeler (BWT) nel read mapping?
Quale problema cerca di risolvere la trasformata di Burrows-Wheeler (BWT) nel read mapping?
Cosa si intende per multiple mapping delle reads?
Cosa si intende per multiple mapping delle reads?
Qual è la funzione principale del formato SAM (Sequence Alignment/Map)?
Qual è la funzione principale del formato SAM (Sequence Alignment/Map)?
Cosa rappresenta il CIGAR in un file SAM?
Cosa rappresenta il CIGAR in un file SAM?
Nell'analisi di multiple sequence alignment, cosa si intende con “omologia posizionale”?
Nell'analisi di multiple sequence alignment, cosa si intende con “omologia posizionale”?
In un allineamento multiplo di sequenze, cosa rappresentano le matrici di sostituzione (es. (PAM) o (BLOSUM))?
In un allineamento multiplo di sequenze, cosa rappresentano le matrici di sostituzione (es. (PAM) o (BLOSUM))?
Qual è il primo step cruciale nell'approccio ‘progressive alignment’ per allineare sequenze multiple?
Qual è il primo step cruciale nell'approccio ‘progressive alignment’ per allineare sequenze multiple?
Cosa sono, in filogenesi, i nodi terminali?
Cosa sono, in filogenesi, i nodi terminali?
Flashcards
Genoma
Genoma
Insieme degli acidi nucleici corrispondenti alla totalità del corredo aploide di un organismo.
Bioinformatica
Bioinformatica
Scienza multidisciplinare che integra informatica, chimica, matematica e biologia per elaborare dati biologici.
Database
Database
Sistema di archiviazione di dati organizzati per una facile consultazione.
DNA Sequencing
DNA Sequencing
Signup and view all the flashcards
NGS (Next Generation Sequencing)
NGS (Next Generation Sequencing)
Signup and view all the flashcards
Metodo Sanger
Metodo Sanger
Signup and view all the flashcards
Pirosequenziamento
Pirosequenziamento
Signup and view all the flashcards
Sequenziamento Illumina
Sequenziamento Illumina
Signup and view all the flashcards
PacBio
PacBio
Signup and view all the flashcards
Base calling
Base calling
Signup and view all the flashcards
Formato FASTA
Formato FASTA
Signup and view all the flashcards
Formato FASTQ
Formato FASTQ
Signup and view all the flashcards
Phred score
Phred score
Signup and view all the flashcards
Guida d'onda
Guida d'onda
Signup and view all the flashcards
Trasformata di Burrows-Wheeler
Trasformata di Burrows-Wheeler
Signup and view all the flashcards
Allineamento globale
Allineamento globale
Signup and view all the flashcards
Allineamento locale
Allineamento locale
Signup and view all the flashcards
Allineamento di sequenza
Allineamento di sequenza
Signup and view all the flashcards
Similarità
Similarità
Signup and view all the flashcards
Omologia
Omologia
Signup and view all the flashcards
Sequenze ortologhe
Sequenze ortologhe
Signup and view all the flashcards
Sequenze paraloghe
Sequenze paraloghe
Signup and view all the flashcards
La guida d'onda
La guida d'onda
Signup and view all the flashcards
Il cip di PacBio
Il cip di PacBio
Signup and view all the flashcards
Programmazione dinamica
Programmazione dinamica
Signup and view all the flashcards
Ponte amplification
Ponte amplification
Signup and view all the flashcards
HSP High scoring pair)
HSP High scoring pair)
Signup and view all the flashcards
Expect Value
Expect Value
Signup and view all the flashcards
FASTA
FASTA
Signup and view all the flashcards
Seq query
Seq query
Signup and view all the flashcards
Matrice di punteggio
Matrice di punteggio
Signup and view all the flashcards
linear gap penalty
linear gap penalty
Signup and view all the flashcards
ALGORITMO SMITH-WATERMAN
ALGORITMO SMITH-WATERMAN
Signup and view all the flashcards
Allineamento globale
Allineamento globale
Signup and view all the flashcards
programmi euristici
programmi euristici
Signup and view all the flashcards
multi sequence allignment.
multi sequence allignment.
Signup and view all the flashcards
Grafo
Grafo
Signup and view all the flashcards
gruppo parafiletico
gruppo parafiletico
Signup and view all the flashcards
cladogramma
cladogramma
Signup and view all the flashcards
foglie
foglie
Signup and view all the flashcards
bootstrap
bootstrap
Signup and view all the flashcards
genome size
genome size
Signup and view all the flashcards
Trasposoni
Trasposoni
Signup and view all the flashcards
retrotrasposoni
retrotrasposoni
Signup and view all the flashcards
microsatelliti e minisatelliti
microsatelliti e minisatelliti
Signup and view all the flashcards
Study Notes
- Gli appunti riguardano la bioinformatica, scienza multidisciplinare che integra informatica, chimica, matematica e biologia per raccogliere ed elaborare dati biologici.
- Gli appunti sono relativi al corso di laurea in Biotecnologie Vegetali e Microbiche.
- Il file è stato elaborato da Del Rio Elena nell'anno accademico 2021-2022.
Introduzione alla Bioinformatica
- Il genoma è l'insieme degli acidi nucleici di un organismo aploide, comprendente sequenze codificanti e non codificanti, elementi di controllo e regolazione.
- Gli eucarioti hanno genomi nel nucleo, mitocondri e cloroplasti, con variabilità estrema nel numero di geni e genome type.
- La genomica studia il genoma e necessita di gestire grandi quantità di informazioni biologiche grazie ai progressi nel sequenziamento del DNA.
- La bioinformatica si articola su un aspetto computazionale (analisi in silico) e una parte applicativa (soluzione di problemi biologici da parte dell'utente).
- Il biotecnologo definisce il problema, il bioinformatico formalizza il modello, ed il biotecnologo valuta il software.
- La bioinformatica si occupa della progettazione di software, creazione di database, analisi di sequenza, funzioni e strutture.
- I database biologici archiviano i dati in modo ordinato e accessibile, includendo dati grezzi.
- L'analisi di sequenza confronta vari tipi di informazioni nella sequenza.
- L'analisi della funzione caratterizza il profilo di espressione genica.
- L'analisi della struttura è fondamentale per RNA e proteine, prevedendo strutture e ruoli.
- La bioinformatica si occupa dell'analisi e interpretazione dei dati biologici, dello sviluppo di strumenti e nuovi algoritmi.
- Le unità di informazione includono DNA, RNA e proteine, con analisi di struttura, sequenza, pathway metabolico e mutazioni.
DNA Sequencing
- Un punto fondamentale per gli studi di bioinformatica è la disponibilità di un genoma di riferimento, che permette di decodificare l’informazione genetica attraverso, ad es., studi di genetica comparata.
- Lo studio consente di definire varianti frequenti e rare, potenzialmente associate a patologie.
- Mettere in ordine ed orientare correttamente le sequenze ottenute dal sequenziatore è complesso, data la lunghezza inferiore dei frammenti rispetto al genoma.
- A partire dal 2008 si è notato un calo dei costi di sequenziamento.
- I costi maggiori sono dovuti all'analisi dei dati più che al sequenziamento stesso.
- I dati sono conservati in database primari e secondari (NCBI, ENA, DDBJ), accessibili tramite sistemi come Entrez.
- Gli scienziati devono integrare informazioni da database eterogenei.
L'informatica Essenziale
- Tutti i sistemi informatici moderni sono collegati tra loro tramite un'architettura logica: l'architettura di Von Neumann.
- L'hardware include CPU, RAM, ROM, memorie secondarie e periferiche.
- Il software include programmi o applicazioni eseguite dal calcolatore.
- Un sistema operativo gestisce risorse, storage di dati, input/output e l'interfaccia utente.
- I linguaggi di programmazione formalizzano istruzioni e gli algoritmi possono essere implementati in diversi linguaggi.
- Un database è un sistema di archiviazione di dati organizzati.
- Ci sono database non relazionali (struttura semplice) e relazionali (basati su relazioni tra dati).
Piattaforme di Sequenziamento degli Acidi Nucleici
- Le NGS (Next Generation Sequencing) incrementano la capacità produttiva ed eseguono più sequenziamenti in parallelo.
- Il metodo Sanger prevede la sintesi di filamenti di DNA complementare interrotti da deossinucleotidi, con lettura tramite separazione elettroforetica su gel.
- Le NGS superano i limiti del Sanger, con tecnologie che includono o meno una fase di amplificazione.
- Le tecnologie più recenti (Oxford Nanopore, PacBio) hanno un alto tasso di errore.
- Con le NGS è aumentata l'efficienza della produzione di sequenze, però sono aumentati gli errori.
- Le tecnologie Illumina e 454 Roche generano un numero elevato di reads con elevata accuratezza ma lunghezza ridotta.
- Il metodo 454 Roche prevede estrazione degli acidi nucleici, frammentazione, aggiunta di adattatori, amplificazione clonale e determinazione della sequenza.
- Illumina produce sequenze di circa 150bp, e con il seq paired, riesce ad ottenere le prime 150bp da un lato e dall'altro.
- La tecnica di sequenziamento PacBio effettua il sequenziamento del DNA a singola molecola tramite l'uso di sofisticati strumenti ottici e guide d'onda.
- Tramite FASTA si caratterizza il riepilogo dei formati dei dati genomici e si immagazzinano sequenze in forma standardizzata.
- Con 'fastq' la prima riga è l'intestazione, e riporta il nome della seq ed altre specifiche della piattaforma di sequenziamento; la 2° riga contiene la seq ordinata delle basi ottenuto tramite il base calling; la 3° riga è uno spaziatore, generalmente identificata con "+", che segnala la presenza dei punteggi di qualità che si trovano sulla 4° riga.
Valutazione Qualità Reads
- I punteggi di qualità sono determinati tramite il Quality score su ogni base.
- Al sistema “Phred” viene associato un punteggio numerico compreso tra 0 e 40 che rappresenta in scala logaritmica la probabilità di errore P, associata alla chiamata di ciascuna base.
Letteratura Scientifica e Uso Risorse Online
- Solitamente il primo autore è quello che ha svolto la maggior parte del lavoro; mentre l'ultimo autore è colui che deve essere contattato per fornire ulteriori chiarimenti e coordinare il progetto di ricerca.
- La struttura dei lavori scientifici scientifici consistono in:
- Titolo
- Abstract
- Keywords
- Main text(IMRAD)
- Conclusion
- Acknowledgement
- References
- Supplementary Data.
- L'IF, o impact factor, si calcola come il numero medio di citazioni per articolo per anno.
Confronto di Sequenze
- Il confronto di sequenza consiste nel confrontare la sequenza isolata (già note), fare ipotesi della loro evoluzione, studiare sequenze amminoacidiche.
- La sua funzione è estesa anche a sequenze non identiche.
- Si possono fare supposizioni sulla funzione di un nuovo gene, circa la forma e la struttura della proteina. — stabilità della proteina
- Il confronto dà informazioni sulla filogenesi del gene di interesse o di un organismo.
- Questo consiste nell'allinearle orizzontalmente, incolonnando i residui.
- Il suo obiettivo è massimizzare l'allineamento.
- Questo può essere di tipo:
- globale: è una rappresentazione tot della seq, compreso anche quello che non è condiviso
- locale: presenta solo le regioni condivise, che hanno le stesse basi e lo stesso ordine
- Si vanno quindi a cercare sequenze simili tramite risorse in database pubblici. — GenBank — Swiss-prot — programmi - BLAST - FASTA.
- La similarità va a quantificare attraverso un valore %.
Differenza tra Similarità e Omologia
- Gli scienziati si riferiscono all'omologia e non può essere espressa in termini %, ma in termini di sì o no (o sono omologhe o non lo sono).
- 2 geni si dicono omologhi se derivano da un progenitore (ancestore) comune. — seq ortologhe appartengono a specie diverse — seq paraloghe il processo di diversificazione ha avuto origine in seguito ad un processo di duplicazione genica
- Il metodo confronto e crea a diagrammi ad albero consente la filogenesi.
Dot Plot
- Per la comparazione si utilizza il dot plot; metodo introdotto negli anni ‘70.
- Permette: — Permette di confrontare 2 seq diverse o una sequenza con sé stessa. — Di visualizzare regioni di similarità locale.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.