Corso di Bioinformatica PDF

Corso di Bioinformatica ========================================== There are 10 kinds of people in the world: Those who understand binary and those who don't. ========================================== Corso di Bioinformatica Lezione martedi h. 11-13 , dal 01/10 al 17/12 2022 Esercitazioni : giovedi dalle 14:30 – 16:30 o 16:30-18 (da definire meglio) a partire dal 17 ottobre Docente: Morozzo della Rocca Blasco Email: [email protected] [email protected] Tel 06 72594368 Ricevimento: mercoledi h 15 – stanza 368 - Dente H1-Biologia Previo appuntamento obbigatorio! (altrimenti su Teams) Corso di Bioinformatica Testi consigliati (non obbligatori!!!): Bioinformatica, dalla sequenza alla struttura delle proteine. S.Pascarella, A.Paiardini Ed. Zanichelli 2013 Fondamenti di bioinformatica, Citterich, Ferrè et al Ed. Zanichelli 2018 Corso di Bioinformatica Materiali distribuiti durante il corso. Slides delle lezioni accessibili online sul canale Teams: accedete con il codice 8m6vzlp Materiali da procurarsi indipendentemente: Uno smartphone con un po’ di traffico dati...Molto impegno. Corso di Bioinformatica...Molto impegno...porta a grandi risultati! Esame: un test in itinere (dall’5 al 12 novembre) Un test finale (scritto, il 19 dicembre), Orale Facoltativo, per chi volesse guardare il compito e voler cambiare il suo voto Per il corso integrato con Biologia Molecolare il voto finale sarà mediato in maniera ponderata con il modulo di Biologia...media ponderata???? cos’è la media ponderata?  A. sum_i(xi^2)  B. sum_i(xi-xm)/N  C. [Sum_j(xj*pj)] / [sum_j(pj)  D. sum_i(xi)/N  se xi sono i voti dei moduli singoli e pi sono i pesi Corso di Bioinformatica Sommario del corso:  Cos'è la bioinformatica, contesto, applicazioni e sviluppi  Il computer: anatomia dello strumento principe  La rete internet: storia, strumenti, servizi, cenni di UNIX/Linux  Banche dati biologiche, strutture, interfacce dei sistemi di recupero informazioni  Allineamenti di coppie di sequenze  Multiallineamenti e metodi euristici  Cenni di struttura delle proteine, PDB, predizioni di struttura secondaria, predittori di struttura degli RNA  Modellazione della struttura di proteine, modelli per omologia, threading, metodi ab initio  Cenni di dinamica molecolare e docking Bioinformatica Bioinformatica: E’ una scienza che utilizzando le metodiche delle Scienze dell’Informazione si occupa del trattamento e dell’analisi dei dati di tipo biologico. Esempio: conoscenze su algoritmi per il confronto di sequenze di caratteri (string matching) possono essere utilizzate per risolvere il problema di confrontare 2 sequenze di nucleotidi per scoprire se sono simili Bioinformatica: Biologia Molecolare Computazionale “... for all practical purposes, bioinformatics can be regarded as computational molecular biology, that uses computational techniques to study the structure, func- tion, regulation, and interactive network of genes and proteins. The ultimate goal is to analyze and predict the structure, organization, function, regulation, and dynamics of the entire genome of an organism.” Bioinformatica Bioinformatica: scienza multidisciplinare, al crocevia tra biologia, chimica, matematica, fisica ed informatica, che analizza l’informazione biologica con metodi computazionali al fine di formulare ipotesi sui processi della vita. (Anna Tramontano) Bioinformatica …. formulare ipotesi sui processi della vita. Cos'è la vita? Bioinformatica The science that relates to bioinformatics has many components. It usually relates to biological molecules and therefore requires knowledge in the fields of biochemistry, molecular biology, molecular evolution, thermodynamics, biophysics, molecular engineering, and statistical mechanics, to name a few. It requires the use of computer science, mathematical, and statistical principles. Bioinformatics is in the cross roads of experimental and theoretical science. Bioinformatics is not only about modeling or data ‘mining’, it is about understanding the molecular world that fuels life from evolutionary and mechanistic perspectives. It is truly inter- disciplinary and is changing. Lo sviluppo delle Biotecnologie, che negli ultimi venti anni ha consentito di elevare la biologia moderna a “Big Science”, ha anche introdotto nei settori delle moderne scienze biologiche una nuova branca: La bioinformatica The gathering, archival, dissemination, modeling, and analysis of biological data falls within a relatively young field of scientific inquiry, currently known as ‘bioinformatics’, With the advent of computers, humans have become ‘data gatherers’, measuring every aspect of our life... In this new culture, everything can and will become data …. Everything can be measured (in pixels, Hertz, nucleotide bases, etc), turned into collections of numbers that can be stored (generally in bytes of information), archived in databases, disseminated (through cable or wireless conduits), and analyzed. Manifesto:  We are expecting giant pay-offs from our data: proactive control of our world (from earthquakes and disease to finance and social stability), and clear understanding of chemical, biological and cosmological processes. Ultimately, we expect a better life. Unfortunately, data brings clutter and noise and its interpretation cannot keep pace with its accumulation. One problem with data is its multi-dimensionality and how to uncover underlying signal (patterns) in the most parsimonious way Another problem relates to what we do with the data. Scientific discovery is driven by falsifiability and imagination and not by purely logical processes that turn observations into understanding. Data will not generate knowledge automatically. “La bioinformatica è ciò che la bioinformatica fa” Eric C. Snowdeal III Utilizzo di strumenti Sviluppo di metodi Bioinformatica Analisi di sequenze Analisi di strutture Predizione di strutture Disegno di molecole proteiche Disegno di inibitori Disegno di librerie combinatoriali Sviluppo di tools Gestione di dati Cenni storici La bioinformatica nasce agli inizi degli anni '80 in concomitanza allo sviluppo dei metodi di sequenziamento rapido degli acidi nucleici Lo sviluppo delle tecniche del DNA ricombinante e di sequenziamento hanno reso subito evidente la necessità di strumenti informatici adatti all'immagazzinamento e al processamento dei dati via via disponibili 1951 Pauling e Corey, sulla base della sola conoscenza della struttura chimica degli aminoacidi, propongono un modello per la struttura dell’alfa elica e del foglietto beta. 1953 Watson e Crick propongono il modello a doppia elica del DNA sulla base dei dati di cristallografia ottenuti da Franklin e Wilkins 1955 La prima sequenza di proteina (l’insulina) viene determinata da Fred Sanger. 1959 La prima struttura di proteina (la mioglobina) viene determinata sperimentalmente da Max Perutz 1960 Anfinsen dimostra che la sequenza di una proteina contiene tutta l’informazione necessaria a determinarne la struttura. 1967 La prima collezione (non ancora computerizzata) di sequenze di proteine viene resa disponibile da Margareth Dayhoff 1968 Margareth Dayhoff sviluppa un modello di evoluzione che permette di calcolare la probabilità che due sequenze siano omologhe 1970 Il primo metodo per allineare due sequenze aminoacidiche viene proposto da Needleman e Wunsch 1977 Sanger da una parte e Maxam e Gilbert dall’altra annunciano due metodi indipendenti per ottenere la sequenza di un frammento di DNA. Viene istituita la banca dati PDB che conserva tutte le strutture note di proteine. Chou e Fasman descrivono un metodo per predire la struttura secondaria di una proteina a partire dalla sua sequenza, con un’accuratezza intorno al 55%. 1980 Wutrich e collaboratori descrivono l’utilizzo della risonanza magnetica nucleare multi-dimensionale per determinare la struttura di proteine 1981 Greer descrive la costruzione del primo modello per omologia 1985 Viene pubblicato il primo algoritmo per ricercare proteine omologhe in una banca dati di sequenze (FASTP) 1986 Chothia e Lesk analizzano quantitativamente la relazione tra similarità di due sequenze di proteine e la loro somiglianza strutturale 1989 viene pubblicato il primo genoma completo quello del batterio Haemophilus influenza 1990 E’ reso disponibile un algoritmo piu’ approssimato ma molto più veloce per ricercare omologie in una banca dati di sequenze (BLAST) 1990 comincia il progetto Human genome project 1991 – Il centro di ricerche nucleari di Ginevra (CERN) annuncia la creazione dei protocolli che costituiscono il World Wide Web 1991 Iniziano ad apparire metodi di predizione di struttura basati sul riconoscimento di fold 1993 Rost e Sander descrivono un metodo per la predizione di struttura secondaria che ha un’accuratezza superiore al 70% 1994 Viene lanciato l’esperimento CASP 1996 Genethon pubblica la prima versione completa della mappa genetica umana 1997 - IL genoma di E.coli (4.7 Mbp) viene pubblicato. 1998 – Vengono pubblicati i genomi di Caenorhabitis elegans e di S. cerevisiae Viene creato lo Swiss Institute of Bioinformatics come fondazione non-profit. Craig Venter fonda Celera in Rockville, Maryland. 1999 - deCode genetics maps the gene linked to pre-eclampsia as a locus on chromosome 2p13. 2000 - Viene pubblicato il genoma di Pseudomonas aeruginosa (6.3 Mbp). I genomi di A. thaliana (100 Mb) e di D.melanogaster (180 Mb) vengono sequenziati. 2001 - Viene pubblicato il genoma umano (3,000 Mbp). 2013 - Viene pubblicata la 38sima versione del genoma umano (3,000 Mbp) (con meno buchi ma ne contiene ancora). The next assembly update (GRCh38.p14) will be a minor (patch) release planned for release in the second half of 2020 Negli anni ‘70 un laboratorio impiegava circa due mesi per sequenziare 150 nucleotidi Oggi ne riesce a sequenziare centinaia di milioni al giorno, con un costo per base che si è ridotto moltissimo In pratica per 1000 euro, in pochi giorni potreste sequenziare il vostro genoma intero! Che in media sarà uguale per il 99.9% a quello mio :) E simile al 98% cin uno scimpanze e al 95% con un ratto Strano ma vero In un grammo di DNA si possono immagazzinare 215 Petabyte di dati…. 215 milioni di GIGA! Il vostro DNA potrebbe coprire la distanza tra la terra ed il sole 600 volte Nel corso della vostra vita produrrete circa un anno-luce di DNA (circa 9.5 milioni di miliardi di kilometri) Circa l’8% del nostro DNA è di origine virale. L'intero genoma di una cipolla conta circa 16 miliardi di paia di basi, più di 5 volte la misura del genoma umano Struttura di un gene 1 Struttura di un gene 2 Esempio: Manuale di istruzioni Se le istruzioni fossero anche divise in 27 paragrafi diversi interrotti da lunghe pagine di informazioni irrilevanti (?), avremmo qualcosa di molto simile al gene del retinoblastoma umano (e a molti altri geni) Enorme mole di dati biologici prodotti. Quindi necessità di affrontare problematiche quali: 1)Archiviazione di enormi moli di dati: creare, gestire e mantenere banche dati 2)Recupero di informazioni in modo automatico dalle banche dati 3)Analisi automatica dei dati Complessita’ dei geni Geni codificanti per 100Kb – E.Coli 87 – S. Cerevisiae 52 – C. elegans 22 – H. sapiens 5 Numero medio Lunghezza media di introni per Kb geni(Kb) mRNA(Kb) – S. Cerevisiae 0 1.6 1.6 – C. elegans 3 4.0 3.0 – Drosophila 3 11.3 2.7 – Gallus 8 13.9 2.4 – H. sapiens 6 16.6 2.2 Teoria dell'informazione (Shannon) L’informazione e’ una misura universale dell’ordine e puo’ essere applicata a qualunque struttura o sistema. L’ordine si riferisce alla disposizione strutturale del sistema. L’informazione quantifica le istruzioni necessarie a produrre una determinata forma di organizzazione e puo’ essere raggiunta in termini di scelte binarie ed espressa in bit. 2 3= 8 2 2= 4 Quanto ordine c'è nel genoma umano?  Lunguaggi  Codifiche  Sottocodifiche  Rappresentazioni  I principi dell’evoluzione Tutte le specie viventi si sono evolute da altre specie Tutte le specie viventi sono legate le une alle altre a vari gradi attraverso progenitori comuni Tutte le forme di vita sulla terra hanno una origine comune. E’ esistita una forma di vita originale che ha dato luogo a tutte le forme successive (L.U.C.A.: Last Universal Common Ancestor) Il processo attraverso cui una specie evolve in un’altra coinvolge mutazioni casuali, le mutazioni che risultano in un vantaggio di sopravvivenza si diffondono e persistono piu’ di quelle neutre o svantaggiose. Progetto Genoma Umano Le molecole di DNA sono molecole lineari che, astraendo dalla struttura 3D, possono essere rappresentate come sequenze di caratteri dell’alfabeto (A, T, C, G) che rappresentano le 4 basi. Da un punto di vista informatico per memorizzare 1 carattere (cioè 1 base) abbiamo bisogno di 1 byte. Approssimativamente il genoma umano è lungo 3,2 * 109 caratteri (basi) per memorizzarlo occorrono 3,2 * 109 byte. Siamo nell'ordine dei giga per 1 sequenza! Quanti floppy disk (1,4MB) servirebbero per memorizzare l'intero genoma umano? Circa 2000 Quanti CD? (700MB) 5 Quanti DVD? (4,7GB) 1 Distribuzione dei database di sequenze Libri, articoli 1968 -> 1985 Nastri per Computer 1982 ->1992 Floppy disks 1984 -> 1990 CD-ROM 1989 -> ? FTP 1989 -> ? WWW 1993 -> ? DVD 2001 -> ? Analisi Analizzando e confrontando queste enormi moli di dati archiviati si aprono diversi scenari: possibilità di ricostruire le tappe evolutive delle varie specie, incluso l'uomo. possibilità di ricavare caratteristiche per le varie biomolecole utili nella progettazione di nuove molecole e farmaci in settori diversi, dall'agroalimentare a quello farmaceutico. …… Analisi Allineamenti e multiallineamenti Ricerca di similarità Evoluzione molecolare, Filogenesi Genomica comparata Predizione elementi regolatori ( promotori, enhancers) Predizione di geni Predizione di strutture di RNA Interazioni tra proteine Predizione di strutture di proteine Simulazioni di dinamica molecolare Progettazione nuovi farmaci allineamenti allineamenti Ricostruzione filogenetica Predizione della struttura secondaria e 3D di RNA Interazioni tra proteine, networks (Interattoma) Interazioni tra proteine, networks (Interattoma) Farmacogenomica Funzioni principali della Bioinformatica La realizzazione di BANCHE DATI BIOLOGICHE Messa a punto di sistemi idonei per collezionare ed interrogare l'enorme mole di dati biologici disponibili La crescita dei dati genomici http://www.ebi.ac.uk/ena/about/statistics La crescita dei dati genomici http://www.ebi.ac.uk/ena/about/statistics Recupero di informazioni in modo automatico dalle banche dati una banca dati priva di modalità di accesso efficienti è una “tomba di dati”. servono tecniche per garantire un accesso ottimale; solitamente nascoste agli utilizzatori, hanno molto a che fare con l'organizzazione logica dei dati. interfacce per permettere agli utenti di leggere e estrarre informazioni. correlazione fra informazioni contenute in banche dati separate (cross-reference) servono tecniche per ricercare un'informazione simultaneamente in diversi archivi di dati distribuiti su diversi computer. Alcuni database di interesse biologico AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb, ARR, AsDb, BBDB, BCGD, Beanref, Biolmage,BioMagResBank, BIOMDB, BLOCKS, BovGBASE,BOVMAP, BSORF, BTKbase, CANSITE, CarbBank,CARBHYD, CATH, CAZY, CCDC, CD4OLbase, CGAP,ChickGBASE, Colibri, COPE, CottonDB, CSNDB, CUTG,CyanoBase, dbCFC, dbEST, dbSTS, DDBJ, DGP, DictyDb,Picty_cDB, DIP, DOGS, DOMO, DPD, DPlnteract, ECDC,ECGC, EC02DBASE, EcoCyc, EcoGene, EMBL, EMD db,ENZYME, EPD, EpoDB, ESTHER, FlyBase, FlyView, GCRDB, GDB, GENATLAS, Genbank, GeneCards, Genline, GenLink, GENOTK, GenProtEC, GIFTS, GPCRDB, GRAP, GRBase, gRNAsdb, GRR, GSDB, HAEMB, HAMSTERS, HEART-2DPAGE, HEXAdb, HGMD,HIDB, HIDC, HlVdb, HotMolecBase, HOVERGEN, HPDB,HSC-2DPAGE, ICN, ICTVDB, IL2RGbase, IMGT, Kabat,KDNA, KEGG, Klotho, LGIC, MAD, MaizeDb, MDB,Medline, Mendel, MEROPS, MGDB, MGI, MHCPEP5Micado, MitoDat, MITOMAP, MJDB, MmtDB, Mol-R-Us,MPDB, MRR, MutBase, MycDB, NDB, NRSub, 0-lycBase,OMIA, OMIM, OPD, ORDB, OWL, PAHdb, PatBase, PDB,PDD, Pfam, PhosphoBase, PigBASE, PIR, PKR, PMD,PPDB, PRESAGE, PRINTS, ProDom, Prolysis, PROSITE,PROTOMAP, RatMAP, RDP, REBASE, RGP, SBASE,SCOP, SeqAnaiRef, SGD, SGP, SheepMap, Soybase,SPAD, SRNA db, SRPDB, STACK, StyGene,Sub2D,SubtiList, SWISS-2DPAGE, SWISS-3DIMAGE, SWISS- MODEL Repository, SWISS-PROT, TelDB, TGN, tmRDB,TOPS, TRANSFAC, TRR, UniGene, URNADB, V BASE,VDRR, VectorDB, WDCM, WIT, WormPep, YEPD, YPD, YPM, etc ……………………..!!!! istituzioni: NCBi e EBi  NCBI (National Center for Biotechnology Information) http://www.ncbi.nlm.nih.gov/ EBI (European Bioinformatics Institute) http://www.ebi.ac.uk/ NCBI accesso a TANTE risorse di vario tipo: - National Library of Medicine - National Institutes of Health - …. accesso a numerosi database attraverso il sistema Entrez: - GenBank - Swissprot - PubMed Accesso tra l’altro a diversi software bioinformatici EBI European Bioinformatics Institute (Hinxton – Cambridge, UK) DDB J Armonizzazione ed integrazione

Corso di Bioinformatica PDF

Document Details

Tags

Related

Summary

Full Transcript