Introduzione alla Bioinformatica

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson
Download our mobile app to listen on the go
Get App

Questions and Answers

Quale dei seguenti NON è un livello di organizzazione della bioinformatica?

  • Parte applicativa
  • Aspetto computazionale
  • Analisi di mercato (correct)
  • Sviluppo di software

Quale affermazione descrive meglio il ruolo del biotecnologo nel contesto della bioinformatica?

  • Si occupa esclusivamente della parte computazionale delle analisi.
  • Gestisce e organizza le banche dati di sequenze biologiche.
  • Fornisce l'input necessario per formalizzare il problema biologico e definire nuovi studi. (correct)
  • Sviluppa algoritmi complessi per l'analisi dei dati.

Qual è la principale limitazione del metodo Sanger rispetto alle tecnologie NGS?

  • Non consente di clonare i frammenti di DNA.
  • La lettura delle sequenze si basa sulla separazione elettroforetica, limitando il grado di parallelizzazione. (correct)
  • Richiede una fase di amplificazione.
  • Ha un elevato grado di parallelizzazione.

Quale caratteristica distingue le tecnologie di sequenziamento definite ‘a single molecule’?

<p>Non richiedono una fase di amplificazione. (A)</p> Signup and view all the answers

Cosa indica il simbolo ‘>’ nel formato FASTA?

<p>Il codice identificativo e la descrizione della sequenza. (A)</p> Signup and view all the answers

Qual è la funzione principale del sistema Phred nello score di qualità delle reads?

<p>Rappresentare la probabilità di errore associata alla chiamata di ciascuna base. (A)</p> Signup and view all the answers

In un articolo scientifico, quale sezione è in genere ricca di citazioni di lavori precedenti?

<p>Introduzione (C)</p> Signup and view all the answers

Cosa indica l'Impact Factor di una rivista scientifica?

<p>Il numero medio di citazioni per articolo per anno. (D)</p> Signup and view all the answers

Qual è la differenza principale tra Scopus, Web of Science e Google Scholar nell'ambito della raccolta di citazioni?

<p>Scopus e Web of Science calcolano le citazioni elaborando i dati degli articoli pubblicati, mentre Google Scholar indicizza il web. (A)</p> Signup and view all the answers

Cosa rappresenta l'h-index di un autore?

<p>L'impatto scientifico di un autore basato sul numero di pubblicazioni e citazioni ricevute. (A)</p> Signup and view all the answers

Perché è importante confrontare le sequenze biologiche?

<p>Per fare ipotesi sull'evoluzione e sulla funzione delle sequenze. (C)</p> Signup and view all the answers

Cosa significa che due geni sono omologhi?

<p>Che derivano da un ancestore comune. (C)</p> Signup and view all the answers

Cosa distingue principalmente un allineamento globale da uno locale?

<p>L'allineamento globale cerca di allineare l'intera sequenza, mentre quello locale si concentra sulle regioni con maggiore similarità. (B)</p> Signup and view all the answers

Qual è la funzione del window filter nel metodo Dot Plot?

<p>Ridurre il rumore di fondo e facilitare l'interpretazione dei risultati. (A)</p> Signup and view all the answers

Nella programmazione dinamica per l'allineamento di sequenze, cosa rappresentano i gap?

<p>Inserzioni o delezioni nelle sequenze. (C)</p> Signup and view all the answers

Qual è lo scopo delle matrici di sostituzione come PAM e BLOSUM nell'allineamento di sequenze?

<p>Assegnare punteggi diversi alle diverse sostituzioni in base alla loro probabilità biologica. (A)</p> Signup and view all the answers

Cosa distingue l'algoritmo di Smith-Waterman da quello di Needleman-Wunsch?

<p>Smith-Waterman determina le regioni similari. (D)</p> Signup and view all the answers

Qual è lo scopo principale degli allineamenti euristici di sequenze come FASTA e BLAST?

<p>Velocizzare la ricerca di sequenze simili in grandi database. (C)</p> Signup and view all the answers

Cosa sono le High-Scoring Pair(HSP) in BLAST?

<p>Coppie di segmenti di sequenza con un punteggio di similarità elevato. (A)</p> Signup and view all the answers

Cosa rappresentano i valori di Expect (E-value) in un risultato BLAST?

<p>Il numero atteso di allineamenti casuali con un punteggio uguale o superiore a quello osservato. (D)</p> Signup and view all the answers

Qual è la funzione principale di un read mapper negli algoritmi NGS?

<p>Allineare le reads corte a un genoma di riferimento. (A)</p> Signup and view all the answers

Cosa si intende per space-seed indexing negli algoritmi di read mapping?

<p>Un metodo per dividere le reads in segmenti (seeds) e cercare match nel genoma. (A)</p> Signup and view all the answers

Quale problema cerca di risolvere la trasformata di Burrows-Wheeler (BWT) nel read mapping?

<p>Comprimere i dati e velocizzare l'allineamento. (B)</p> Signup and view all the answers

Cosa si intende per multiple mapping delle reads?

<p>Una read che si allinea a più posizioni nel genoma di riferimento. (D)</p> Signup and view all the answers

Qual è la funzione principale del formato SAM (Sequence Alignment/Map)?

<p>Descrivere in modo standardizzato gli allineamenti delle reads al riferimento. (C)</p> Signup and view all the answers

Cosa rappresenta il CIGAR in un file SAM?

<p>Una stringa di caratteri che indica quanti nucleotidi hanno mappato e se ci sono inserzioni o delezioni. (C)</p> Signup and view all the answers

Nell'analisi di multiple sequence alignment, cosa si intende con “omologia posizionale”?

<p>Tutti i residui di una colonna allineamenti. (B)</p> Signup and view all the answers

In un allineamento multiplo di sequenze, cosa rappresentano le matrici di sostituzione (es. (PAM) o (BLOSUM))?

<p>Misure numeriche per individuare la similarità tra i taxa. (A)</p> Signup and view all the answers

Qual è il primo step cruciale nell'approccio ‘progressive alignment’ per allineare sequenze multiple?

<p>Calcolo dei punteggi di allineamento. (B)</p> Signup and view all the answers

Cosa sono, in filogenesi, i nodi terminali?

<p>Specie o OTU. (A)</p> Signup and view all the answers

Flashcards

Genoma

Insieme degli acidi nucleici corrispondenti alla totalità del corredo aploide di un organismo.

Bioinformatica

Scienza multidisciplinare che integra informatica, chimica, matematica e biologia per elaborare dati biologici.

Database

Sistema di archiviazione di dati organizzati per una facile consultazione.

DNA Sequencing

Tecnica che permette di determinare l'esatta sequenza di nucleotidi nel DNA.

Signup and view all the flashcards

NGS (Next Generation Sequencing)

Piattaforme che permettono di sequenziare in parallelo, aumentando la capacità produttiva.

Signup and view all the flashcards

Metodo Sanger

Interruzione della sintesi del DNA mediante l'inserzione di deossinucleotidi.

Signup and view all the flashcards

Pirosequenziamento

Tecnica di sequenziamento tramite la sintesi del filamento complementare.

Signup and view all the flashcards

Sequenziamento Illumina

Tecnica di sequenziamento che usa terminatori fluorescenti reversibili.

Signup and view all the flashcards

PacBio

Tecnica di sequenziamento di DNA a singola molecola senza amplificazione.

Signup and view all the flashcards

Base calling

Processo di conversione del segnale del sequenziatore in un formato leggibile.

Signup and view all the flashcards

Formato FASTA

Formato di file per sequenze di DNA, caratterizzato dal simbolo '>'.

Signup and view all the flashcards

Formato FASTQ

Formato di file per sequenze con informazioni sulla qualità delle basi.

Signup and view all the flashcards

Phred score

Punteggio di qualità associato a ciascuna base, che indica la probabilità di errore.

Signup and view all the flashcards

Guida d'onda

Struttura che convoglia onde elettromagnetiche all'interno di un percorso definito.

Signup and view all the flashcards

Trasformata di Burrows-Wheeler

Tecnica per comprimere dati voluminosi e per la ricerca veloce di sottostringhe.

Signup and view all the flashcards

Allineamento globale

Allineamento totale tra le sequenze.

Signup and view all the flashcards

Allineamento locale

Allineamento che presenta solo le regioni condivise tra le sequenze.

Signup and view all the flashcards

Allineamento di sequenza

Tecnica che consiste nel confrontare 2 o più sequenze cercando somiglianze.

Signup and view all the flashcards

Similarità

Valore numerico che indica il numero di basi identiche che due sequenze condividono.

Signup and view all the flashcards

Omologia

Indica che due geni derivano da un progenitore comune.

Signup and view all the flashcards

Sequenze ortologhe

Geni che appartengono a specie diverse con divergenza data dalla speciazione.

Signup and view all the flashcards

Sequenze paraloghe

Geni il cui processo di diversificazione ha avuto origine dalla duplicazione genica.

Signup and view all the flashcards

La guida d'onda

Struttura lineare che convoglia onde elettromagnetiche.

Signup and view all the flashcards

Il cip di PacBio

Guida a wave con una parte microscopica della PacBio polimerasi.

Signup and view all the flashcards

Programmazione dinamica

La tecnica che consiste nel confrontare tutti contro tutti gli allineamenti

Signup and view all the flashcards

Ponte amplification

È una tecnica che permette la rilettura ad esempio di nucleotidi con la Roche polimerasi a DNA

Signup and view all the flashcards

HSP High scoring pair)

la tendenza le sequenze all'interno abbiano un percorso con l'interno molto simile e poi con deviazioni.

Signup and view all the flashcards

Expect Value

E il numero atteso di sequenze in una data base che per caso potrebbe essere una misurazione.

Signup and view all the flashcards

FASTA

il sistema che consente di ricercare nel database seq simili

Signup and view all the flashcards

Seq query

sequenza che viene utilizzata come chiave

Signup and view all the flashcards

Matrice di punteggio

Per valutare il grado di corrispondenza e quindi di veridicità.

Signup and view all the flashcards

linear gap penalty

per definire un allineamento tra due seq; uno si basa sui mismatch e l'altro sui punteggi dei gap

Signup and view all the flashcards

ALGORITMO SMITH-WATERMAN

l'algoritmo che permette di trovare allinementi che descrivono similarita

Signup and view all the flashcards

Allineamento globale

massimizza la lunghezza dell'allineamento.

Signup and view all the flashcards

programmi euristici

il sistema in cui I programmi ceracano e poi definiscono e restringono la seq

Signup and view all the flashcards

multi sequence allignment.

allineamento di multiple seq in simultanea che rispecchi al meglio la linea evolutiva

Signup and view all the flashcards

Grafo

l'albero filogentico

Signup and view all the flashcards

gruppo parafiletico

un cluster in cui solo alcuni sono derivati?

Signup and view all the flashcards

cladogramma

è una rappresentazione della topologia degli alberi

Signup and view all the flashcards

foglie

le estemintà dove l'albero finisce

Signup and view all the flashcards

bootstrap

valgono 0 a 100 e corrispondono ai valori delle foglie

Signup and view all the flashcards

genome size

l'esponasione, selettività di nucleotidi

Signup and view all the flashcards

Trasposoni

sequenze di DNA in grado di cambiare la loro posizione genomica

Signup and view all the flashcards

retrotrasposoni

meccanismo copia-incolla

Signup and view all the flashcards

microsatelliti e minisatelliti

sequenze ripetute in tandem

Signup and view all the flashcards

Study Notes

  • Gli appunti riguardano la bioinformatica, scienza multidisciplinare che integra informatica, chimica, matematica e biologia per raccogliere ed elaborare dati biologici.
  • Gli appunti sono relativi al corso di laurea in Biotecnologie Vegetali e Microbiche.
  • Il file è stato elaborato da Del Rio Elena nell'anno accademico 2021-2022.

Introduzione alla Bioinformatica

  • Il genoma è l'insieme degli acidi nucleici di un organismo aploide, comprendente sequenze codificanti e non codificanti, elementi di controllo e regolazione.
  • Gli eucarioti hanno genomi nel nucleo, mitocondri e cloroplasti, con variabilità estrema nel numero di geni e genome type.
  • La genomica studia il genoma e necessita di gestire grandi quantità di informazioni biologiche grazie ai progressi nel sequenziamento del DNA.
  • La bioinformatica si articola su un aspetto computazionale (analisi in silico) e una parte applicativa (soluzione di problemi biologici da parte dell'utente).
  • Il biotecnologo definisce il problema, il bioinformatico formalizza il modello, ed il biotecnologo valuta il software.
  • La bioinformatica si occupa della progettazione di software, creazione di database, analisi di sequenza, funzioni e strutture.
  • I database biologici archiviano i dati in modo ordinato e accessibile, includendo dati grezzi.
  • L'analisi di sequenza confronta vari tipi di informazioni nella sequenza.
  • L'analisi della funzione caratterizza il profilo di espressione genica.
  • L'analisi della struttura è fondamentale per RNA e proteine, prevedendo strutture e ruoli.
  • La bioinformatica si occupa dell'analisi e interpretazione dei dati biologici, dello sviluppo di strumenti e nuovi algoritmi.
  • Le unità di informazione includono DNA, RNA e proteine, con analisi di struttura, sequenza, pathway metabolico e mutazioni.

DNA Sequencing

  • Un punto fondamentale per gli studi di bioinformatica è la disponibilità di un genoma di riferimento, che permette di decodificare l’informazione genetica attraverso, ad es., studi di genetica comparata.
  • Lo studio consente di definire varianti frequenti e rare, potenzialmente associate a patologie.
  • Mettere in ordine ed orientare correttamente le sequenze ottenute dal sequenziatore è complesso, data la lunghezza inferiore dei frammenti rispetto al genoma.
  • A partire dal 2008 si è notato un calo dei costi di sequenziamento.
  • I costi maggiori sono dovuti all'analisi dei dati più che al sequenziamento stesso.
  • I dati sono conservati in database primari e secondari (NCBI, ENA, DDBJ), accessibili tramite sistemi come Entrez.
  • Gli scienziati devono integrare informazioni da database eterogenei.

L'informatica Essenziale

  • Tutti i sistemi informatici moderni sono collegati tra loro tramite un'architettura logica: l'architettura di Von Neumann.
  • L'hardware include CPU, RAM, ROM, memorie secondarie e periferiche.
  • Il software include programmi o applicazioni eseguite dal calcolatore.
  • Un sistema operativo gestisce risorse, storage di dati, input/output e l'interfaccia utente.
  • I linguaggi di programmazione formalizzano istruzioni e gli algoritmi possono essere implementati in diversi linguaggi.
  • Un database è un sistema di archiviazione di dati organizzati.
  • Ci sono database non relazionali (struttura semplice) e relazionali (basati su relazioni tra dati).

Piattaforme di Sequenziamento degli Acidi Nucleici

  • Le NGS (Next Generation Sequencing) incrementano la capacità produttiva ed eseguono più sequenziamenti in parallelo.
  • Il metodo Sanger prevede la sintesi di filamenti di DNA complementare interrotti da deossinucleotidi, con lettura tramite separazione elettroforetica su gel.
  • Le NGS superano i limiti del Sanger, con tecnologie che includono o meno una fase di amplificazione.
  • Le tecnologie più recenti (Oxford Nanopore, PacBio) hanno un alto tasso di errore.
  • Con le NGS è aumentata l'efficienza della produzione di sequenze, però sono aumentati gli errori.
  • Le tecnologie Illumina e 454 Roche generano un numero elevato di reads con elevata accuratezza ma lunghezza ridotta.
  • Il metodo 454 Roche prevede estrazione degli acidi nucleici, frammentazione, aggiunta di adattatori, amplificazione clonale e determinazione della sequenza.
  • Illumina produce sequenze di circa 150bp, e con il seq paired, riesce ad ottenere le prime 150bp da un lato e dall'altro.
  • La tecnica di sequenziamento PacBio effettua il sequenziamento del DNA a singola molecola tramite l'uso di sofisticati strumenti ottici e guide d'onda.
  • Tramite FASTA si caratterizza il riepilogo dei formati dei dati genomici e si immagazzinano sequenze in forma standardizzata.
  • Con 'fastq' la prima riga è l'intestazione, e riporta il nome della seq ed altre specifiche della piattaforma di sequenziamento; la 2° riga contiene la seq ordinata delle basi ottenuto tramite il base calling; la 3° riga è uno spaziatore, generalmente identificata con "+", che segnala la presenza dei punteggi di qualità che si trovano sulla 4° riga.

Valutazione Qualità Reads

  • I punteggi di qualità sono determinati tramite il Quality score su ogni base.
  • Al sistema “Phred” viene associato un punteggio numerico compreso tra 0 e 40 che rappresenta in scala logaritmica la probabilità di errore P, associata alla chiamata di ciascuna base.

Letteratura Scientifica e Uso Risorse Online

  • Solitamente il primo autore è quello che ha svolto la maggior parte del lavoro; mentre l'ultimo autore è colui che deve essere contattato per fornire ulteriori chiarimenti e coordinare il progetto di ricerca.
  • La struttura dei lavori scientifici scientifici consistono in:
    • Titolo
    • Abstract
    • Keywords
    • Main text(IMRAD)
    • Conclusion
    • Acknowledgement
    • References
    • Supplementary Data.
  • L'IF, o impact factor, si calcola come il numero medio di citazioni per articolo per anno.

Confronto di Sequenze

  • Il confronto di sequenza consiste nel confrontare la sequenza isolata (già note), fare ipotesi della loro evoluzione, studiare sequenze amminoacidiche.
  • La sua funzione è estesa anche a sequenze non identiche.
  • Si possono fare supposizioni sulla funzione di un nuovo gene, circa la forma e la struttura della proteina. — stabilità della proteina
  • Il confronto dà informazioni sulla filogenesi del gene di interesse o di un organismo.
  • Questo consiste nell'allinearle orizzontalmente, incolonnando i residui.
  • Il suo obiettivo è massimizzare l'allineamento.
  • Questo può essere di tipo:
  • globale: è una rappresentazione tot della seq, compreso anche quello che non è condiviso
  • locale: presenta solo le regioni condivise, che hanno le stesse basi e lo stesso ordine
  • Si vanno quindi a cercare sequenze simili tramite risorse in database pubblici. — GenBank — Swiss-prot — programmi - BLAST - FASTA.
  • La similarità va a quantificare attraverso un valore %.

Differenza tra Similarità e Omologia

  • Gli scienziati si riferiscono all'omologia e non può essere espressa in termini %, ma in termini di sì o no (o sono omologhe o non lo sono).
  • 2 geni si dicono omologhi se derivano da un progenitore (ancestore) comune. — seq ortologhe appartengono a specie diverse — seq paraloghe il processo di diversificazione ha avuto origine in seguito ad un processo di duplicazione genica
  • Il metodo confronto e crea a diagrammi ad albero consente la filogenesi.

Dot Plot

  • Per la comparazione si utilizza il dot plot; metodo introdotto negli anni ‘70.
  • Permette: — Permette di confrontare 2 seq diverse o una sequenza con sé stessa. — Di visualizzare regioni di similarità locale.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

More Like This

Genomics and Bacterial Genetics Quiz
10 questions
Bioinformatics Lecture 3 - DNA Sequence QC
41 questions
Introdução à Genómica
24 questions

Introdução à Genómica

OptimalErbium2040 avatar
OptimalErbium2040
Bioinformatica e Genomica
14 questions

Bioinformatica e Genomica

VisionaryXenon8286 avatar
VisionaryXenon8286
Use Quizgecko on...
Browser
Browser