Introduction to Bioinformatics PDF

Introduction to Bioinformatics ผู้ช่วยศาสตราจารย์ ดร.สาวิตรี นะงอลา คณะสหเวชศาสตร์ มหาวิทยาลัยพะเยา 3 Dec 2024 ผลการเรียนรู้ทคี่ าดหวัง 1. สามารถระบุแหล่งข้อมูลเพื่อหาลาดับยีนหรื อโปรตีนได้ 2. สามารถอธิบายศัพธ์เฉพาะ และสัญลักษณ์ที่สาคัญที่ระบุในไฟลล์ขอ้ มูล เช่น fasta file, GenBank flash file ได้ 3. สามารถเลือกโปรแกรม หรื อ website เพื่อใช้วิเคราะห์ขอ้ มูลเบื้องต้น เช่น pubmed, Bioedit, web cutter เป็ นต้น 4. สามารถวิเคราะห์ขอ้ มูลอย่างง่าย อ่านผลและแปลผลการวิเคราะห์โดยใช้ โปรแกรมต่างๆ ได้ Bioinformatics Information Space 3 การนาเทคโนโลยีด้านสารสนเทศหรือ IT (Information technology) มาใช้ในการศึกษาทางชีววิทยา GCTCACCTCCGCCTGAGCAGTGGAGAAGGCGGCACTCTGGTGGGGCTGCTCCAGGCATGCAGATCCCACA GGCGCCCTGGCCAGTCGTCTGGGCGGTGCTACAACTGGGCTGGCGGCCAGGATGGTTCTTAGACTCCCCA GACAGGCCCTGGAACCCCCCCACCTTCTCCCCAGCCCTGCTCGTGGTGACCGAAGGGGACAACGCCACCT TCACCTGCAGCTTCTCCAACACATCGGAGAGCTTCGTGCTAAACTGGTACCGCATGAGCCCCAGCAACCA GACGGACAAGCTGGCCGCCTTCCCCGAGGACCGCAGCCAGCCCGGCCAGGACTGCCGCTTCCGTGTCACA CAACTGCCCAACGGGCGTGACTTCCACATGAGCGTGGTCAGGGCCCGGCGCAATGACAGCGGCACCTACC TCTGTGGGGCCATCTCCCTGGCCCCCAAGGCGCAGATCAAAGAGAGCCTGCGGGCAGAGCTCAGGGTGAC AGAGAGAAGGGCAGAAGTGCCCACAGCCCACCCCAGCCCCTCACCCAGGCCAGCCGGCCAGTTCCAAACC CTGGTGGTTGGTGTCGTGGGCGGCCTGCTGGGCAGCCTGGTGCTGCTAGTCTGGGTCCTGGCCGTCATCT GCTCCCGGGCCGCACGAGGGACAATAGGAGCCAGGCGCACCGGCCAGCCCCTGAAGGAGGACCCCTCAGC CGTGCCTGTGTTCTCTGTGGACTATGGGGAGCTGGATTTCCAGTGGCGAGAGAAGACCCCGGAGCCCCCC GTGCCCTGTGTCCCTGAGCAGACGGAGTATGCCACCATTGTCTTTCCTAGCGGAATGGGCACCTCATCCC CCGCCCGCAGGGGCTCAGCTGACGGCCCTCGGAGTGCCCAGCCACTGAGGCCTGAGGATGGACACTGCTC TTGGCCCCTCTGACCGGCTTCCTTGGCCACCAGTGTTCTGCAGACCCTCCACCATGAGCCCGGGTCAGCG CATTTCCTCAGGAGAAGCAGGCAGGGTGCAGGCCATTGCAGGCCGTCCAGGGGCTGAGCTGCCTGGGGGC GACCGGGGCTCCAGCCTGCACCTGCACCAGGCACAGCCCCACCACAGGACTCATGTCTCAATGCCCACAG TGAGCCCAGGCAGCAGGTGTCACCGTCCCCTACAGGGAGGGCCAGATGCAGTCACTGCTTCAGGTCCTGC CAGCACAGAGCTGCCTGCGTCCAGCTCCCTGAATCTCTGCTGCTGCTGCTGCTGCTGCTGCTGCTGCCTG CGGCCCGGGGCTGAAGGCGCCGTGGCCCTGCCTGACGCCCCGGAGCCTCCTGCCTGAACTTGGGGGCTGG TTGGAGATGGCCTTGGAGCAGCCAAGGTGCCCCTGGCAGTGGCATCCCGAAACGCCCTGGACGCAGGGCC CAAGACTGGGCACAGGAGTGGGAGGTACATGGGGCTGGGGACTCCCCAGGAGTTATCTGCTCCCTGCAGG CCTAGAGAAGTTTCAGGGAAGGTCAGAAGAGCTCCTGGCTGTGGTGGGCAGGGCAGGAAACCCCTCCACC TTTACACATGCCCAGGCAGCACCTCAGGCCCTTTGTGGGGCAGGGAAGCTGAGGCAGTAAGCGGGCAGGC AGAGCTGGAGGCCTTTCAGGCCCAGCCAGCACTCTGGCCTCCTGCCGCCGCATTCCACCCCAGCCCCTCA CACCACTCGGGAGAGGGACATCCTACGGTCCCAAGGTCAGGAGGGCAGGGCTGGGGTTGACTCAGGCCCC TCCCAGCTGTGGCCACCTGGGTGTTGGGAGGGCAGAAGTGCAGGCACCTAGGGCCCCCCATGTGCCCACC CTGGGAGCTCTCCTTGGAACCCATTCCTGAAATTATTTAAAGGGGTTGGCCGGGCTCCCACCAGGGCCTG GGTGGGAAGGTACAGGCGTTCCCCCGGGGCCTAGTACCCCCGCCGTGGCCTATCCACTCCTCACATCCAC ACACTGCACCCCCACTCCTGGGGCAGGGCCACCAGCATCCAGGCGGCCAGCAGGCACCTGAGTGGCTGGG ACAAGGGATCCCCCTTCCCTGTGGTTCTATTATATTATAATTATAATTAAATATGAGAGCATGCTAA How can we start to use bioinformatics? เราจะหาข้ อมูล: ลาดับนิวคลีโอไทด์ หรื อ โปรตีน อย่ างไร เราจะต้ องเตรียมไฟล์ เพื่อนาไปวิเคราะห์ ยงั ไง เราจะวิเคราะห์ อะไรบ้ าง สามารถวิเคราะห์ โดย tools หรื อ โปรแกรมพืน้ ฐานใดบ้ าง การอ่ านผล และการวิเคราะห์ ผลเบื้องต้ น Data……. What are we looking for? Sequence: DNA, RNA, protein Structure: protein, protein complexes Published paper All information about gene expression, organelle, relationship with disease, gene transfer, …… 7 How to search data? Pubmed: www.ncbi.nlm.nih.gov/pubmed/ 12 13 รูปแบบของไฟล์ข้อมูลลาดับเบสนิวคลีโอไทด์และลาดับกรดอะมิโน (Sequence format) 1. GenBank sequence entry format 2. Fasta format 3. EMBL data library format 4. IG format 5. GCG format 6. Plain/ASCII.Staden sequence format 7. SwissProt sequence format 8. NBRF format or PIR format 9. ASN.1 format 10. GDE format 1. GenBank format: GenBank Flash File 15 https://www.ncbi.nlm.nih.gov/nuccore/M13438.1?report=genbank 1. GenBank format: GenBank Flash File LOCUS MUSNGH 1803 bp mRNA ROD 29-AUG-1997 DEFINITION Mouse neuroblastoma and rat glioma hybridoma cell line NG108-15 cell TA20 mRNA, complete cds. ACCESSION D25291 Title NID g1850791 KEYWORDS neurite extension activity; growth arrest; TA20. SOURCE Murinae gen. sp. mouse neuroblastma-rat glioma hybridoma cell_line:NG108-15 cDNA to mRNA. ORGANISM Murinae gen. sp. Eukaryotae; mitochondrial eukaryotes; Metazoa; Chordata; Vertebrata; Mammalia; Eutheria; Rodentia; Sciurognathi; Muridae; Taxonomy Murinae. REFERENCE 1 (sites) Header AUTHORS Tohda,C., Nagai,S., Tohda,M. and Nomura,Y. TITLE A novel factor, TA20, involved in neuronal differentiation: cDNA cloning and expression JOURNAL Neurosci. Res. 23 (1), 21-27 (1995) MEDLINE 96064354 Citation REFERENCE 3 (bases 1 to 1803) AUTHORS Tohda,C. TITLE Direct Submission JOURNAL Submitted (18-NOV-1993) to the DDBJ/EMBL/GenBank databases. Chihiro Tohda, Toyama Medical and Pharmaceutical University, Research Institute for Wakan-yaku, Analytical Research Center for Ethnomedicines; 2630 Sugitani, Toyama, Toyama 930-01, Japan (E-mail:[email protected], Tel:+81-764-34-2281(ex.2841), Fax:+81-764-34-5057) COMMENT On Feb 26, 1997 this sequence version replaced gi:793764. FEATURES Location/Qualifiers source 1..1803 /organism="Murinae gen. sp." /note="source origin of sequence, either mouse or rat, has not been identified" /db_xref="taxon:39108" /cell_line="NG108-15" /cell_type="mouse neuroblastma-rat glioma hybridoma" misc_signal 156..163 /note="AP-2 binding site" GC_signal 647..655 /note="Sp1 binding site" TATA_signal 694..701 Features (AA seq) gene 748..1311 /gene="TA20" CDS 748..1311 /gene="TA20" /function="neurite extensiion activity and growth arrest effect" /codon_start=1 /db_xref="PID:d1005516" /db_xref="PID:g793765" /translation="MMKLWVPSRSLPNSPNHYRSFLSHTLHIRYNNSLFISNTHLSRR KLRVTNPIYTRKRSLNIFYLLIPSCRTRLILWIIYIYRNLKHWSTSTVRSHSHSIYRL RPSMRTNIILRCHSYYKPPISHPIYWNNPSRMNLRGLLSRQSHLDPILRFPLHLTIYY RGPSNRSPPLPPRNRIKQPNRIKLRCR" polyA_site 1803 BASE COUNT 507 a 458 c 311 g 527 t ORIGIN 1 tcagtttttt tttttttttt tttttttttt tttttttttt tttttttttg ttgattcatg 61 tccgtttaca tttggtaagt tcacaggcct cagtcaacac aattggactg ctcaggaaat 121 cctccttggt gaccgcagta tacttggcct atgaacccaa gccacctatg gctaggtagg 181 agaagctcaa ctgtagggct gactttggaa gagaatgcac atggctgtat cgacatttca 241 catggtggac ctctggccag agtcagcagg ccgagggttc tcttccgggc tgctccctca 301 ctgcttgact ctgcgtcagt gcgtccatac tgtgggcgga cgttattgct atttgccttc 361 cattctgtac ggcattgcct ccatttagct ggagagggac agagcctggt tctctagggc 421 gtttccattg gggcctggtg acaatccaaa agatgagggc tccaaacacc agaatcagaa 481 ggcccagcgt atttgtaaaa acaccttctg gtgggaatga atggtacagg ggcgtttcag 541 gacaaagaac agcttttctg tcactcccat gagaaccgtc gcaatcactg ttccgaagag 601 gaggagtcca gaatacacgt gtatgggcat gacgattgcc cggagagagg cggagcccat 661 ggaagcagaa agacgaaaaa cacacccatt atttaaaatt attaaccact cattcattga 721 cctacctgcc ccatccaaca tttcatcatg atgaaacttt gggtcccttc taggagtctg 781 cctaatagtc caaatcatta caggtctttt cttagccata cactacacat cagatacaat DNA Sequence 841 aacagccttt tcatcagtaa cacacatttg tcgagacgta aattacgggt gactaatccg 901 atatatacac gcaaacggag cctcaatatt ttttatttgc ttattccttc atgtcggacg 961 aggcttatat tatggatcat atacatttat agaaacctga aacattggag tacttctact 1021 gttcgcagtc atagccacag catttatagg ctacgtcctt ccatgaggac aaatatcatt 1081 ctgaggtgcc acagttatta caaacctcct atcagccatc ccatatattg gaacaaccct 1141 agtcgaatga atttgagggg gcttctcagt agacaaagcc accttgaccc gattcttcgc 1201 tttccacttc atcttaccat ttattatcgc ggccctagca atcgttcacc tcctcttcct 1261 ccacgaaaca ggatcaaaca acccaacagg attaaactca gatgcagata aaattccatt 1321 tcacccctac tatacatcaa agatatccta ggtatcctaa tcatattctt aattctcata 1381 accctagtat tatttttccc agacatacta ggagacccag acaactacat accagctaat 1441 ccactaaaca ccccacccca tattaaaccc gaatgatatt tcctatttgc atacgccatt 1501 ctacgctcaa tccccaataa actaggaggt gtcctagcct taatcttatc tatcctaatt 1561 ttagccctaa tacctttcct tcatacctca aagcaacgaa gcctaatatt ccgcccaatc 1621 acacaaattt tgtactgaat cctagtagcc aacctactta tcttaacctg aattgggggc 1681 caaccagtag acacccattt attatcattg gccaactagc ctccatctca tacttctcaa 1741 tcatcttaat tcttatacca atctcaggaa ttatcgaaga caaaatacta aaattatatc 1801 cat 16 // https://www.ncbi.nlm.nih.gov/nuccore/M13438.1?report=genbank Lecture 2.2 17 Copy sequence  change to Fasta format 18 Fasta file (Pubmed) 19 Graphical file (Pubmed) 20 Lecture 2.2 21 3. European molecular biology laboratory (EMBL) data library format ID DQ074764 standard; linear DNA; PRI; 533 BP. XX DT 25-JUN-2005 XX DE Homo sapiens hemoglobin beta chain (HBB) gene, exons 1, 2 and DE partial cds. XX AC DQ074764; SQ Sequence 533 BP; ttgcttctga cacaactgtg ttcactagca acctcaaaca gacaccatgg tgcacctgac 60 tcctgaggag aagtctgccg ttactgccct gtggggcaag gtgaacgtgg atgaagttgg 120 tggtaaggcc ctgggcacgt tggtatcaag gttacaagac aggtttaagg agaccaatag 180 aaactgggca tgtggagaca gagaagactc ttgggtttct gataggcact gactctctct 240 gcctattggt ctattttccc acccttaggc tgctggtggt ctacccttgg acccagaggt 300 tctttgagtc ctttggggat ctgtccactc ctgatgctgt tatgggcaac cctaaggtga 360 aggctcatgg caagaaagtg ctcggtgcct ttagtgatgg cctggctcac ctggacaacc 420 tcaagggcac ctttgccaca ctgagtgagc tgcactgtga caagctgcac gtggatcctg 480 agaacttcag ggtgagtcta tgggaccctt gatgttttct ttccccttct ttt 533 // UniProt New protein sequence database that is the result of a merge from SWISS-PROT and PIR. Data in UniProt is primarily derived from coding sequence annotations in EMBL (GenBank/DDBJ) nucleic acid sequence data. UniProt is a Flat-File database just like EMBL and GenBank 24 Swiss-Prot, ExPASy SWISS-PROT incorporates: Function of the protein Post-translational modification Domains and sites. Secondary structure. Quaternary structure. Similarities to other proteins; Diseases associated with deficiencies in the protein Sequence conflicts, variants, etc. 25 Swiss-Prot 26 Swiss-Prot ID CYS3_YEAST STANDARD; PRT; 393 AA. AC P31373; DT 01-JUL-1993 (REL. 26, CREATED) DT 01-JUL-1993 (REL. 26, LAST SEQUENCE UPDATE) DT 01-NOV-1995 (REL. 32, LAST ANNOTATION UPDATE) DE CYSTATHIONINE GAMMA-LYASE (EC 4.4.1.1) (GAMMA-CYSTATHIONASE). GN CYS3 OR CYI1 OR STR1 OR YAL012W OR FUN35. OS SACCHAROMYCES CEREVISIAE (BAKER'S YEAST). OC EUKARYOTA; FUNGI; ASCOMYCOTA; HEMIASCOMYCETES; SACCHAROMYCETALES; OC SACCHAROMYCETACEAE; SACCHAROMYCES. RN RP SEQUENCE FROM N.A., AND PARTIAL SEQUENCE. ID CYS3_YEAST STANDARD; PRT; 393 AA. RX RA MEDLINE; 92250430. [NCBI, ExPASy, Israel, Japan] ONO B.-I., TANAKA K., NAITO K., HEIKE C., SHINODA S., YAMAMOTO S., AC P31373; RA RT OHMORI S., OSHIMA T., TOH-E A.; "Cloning and characterization of the CYS3 (CYI1) gene of RT Saccharomyces cerevisiae."; DT 01-JUL-1993 (REL. 26, CREATED) RL RN J. BACTERIOL. 174:3339-3347(1992). DE CYSTATHIONINE GAMMA-LYASE (EC 4.4.1.1) (GAMMA-CYSTATHIONASE). RP RC SEQUENCE FROM N.A., AND CHARACTERIZATION. STRAIN=DBY939; RX MEDLINE; 93328685. [NCBI, ExPASy, Israel, Japan] GN CYS3 OR CYI1 OR STR1 OR YAL012W OR FUN35. RA RT YAMAGATA S., D'ANDREA R.J., FUJISAKI S., ISAJI M., NAKAMURA K.; "Cloning and bacterial expression of the CYS3 gene encoding OS TAXONOMY RT RT cystathionine gamma-lyase of Saccharomyces cerevisiae and the physicochemical and enzymatic properties of the protein."; RL J. BACTERIOL. 175:4800-4808(1993). OC SACCHAROMYCETACEAE; SACCHAROMYCES. RN RP SEQUENCE FROM N.A. RC STRAIN=S288C / AB972; RX MEDLINE; 93289814. [NCBI, ExPASy, Israel, Japan] RA BARTON A.B., KABACK D.B., CLARK M.W., KENG T., OUELLETTE B.F.F., RX CITATION RA RT STORMS R.K., ZENG B., ZHONG W.W., FORTIN N., DELANEY S., BUSSEY H.; "Physical localization of yeast CYS3, a gene whose product resembles CC -!- CATALYTIC ACTIVITY: L-CYSTATHIONINE + H(2)O = L-CYSTEINE + RT RT the rat gamma-cystathionase and Escherichia coli cystathionine gamma- synthase enzymes."; RL YEAST 9:363-369(1993). CC NH(3) + 2-OXOBUTANOATE. RN RP SEQUENCE FROM N.A. CC -!- COFACTOR: PYRIDOXAL PHOSPHATE. RC RX STRAIN=S288C / AB972; MEDLINE; 93209532. [NCBI, ExPASy, Israel, Japan] RA OUELLETTE B.F.F., CLARK M.W., KENG T., STORMS R.K., ZHONG W.W., CC -!- PATHWAY: FINAL STEP IN THE TRANS-SULFURATION PATHWAY SYNTHESIZING RA RT ZENG B., FORTIN N., DELANEY S., BARTON A.B., KABACK D.B., BUSSEY H.; "Sequencing of chromosome I from Saccharomyces cerevisiae: analysis CC L-CYSTEINE FROM L-METHIONINE. RT RL of a 32 kb region between the LTE1 and SPO7 genes."; GENOME 36:32-42(1993). RN CC -!- SUBUNIT: HOMOTETRAMER. RP RX SEQUENCE OF 1-18, AND CHARACTERIZATION. MEDLINE; 93289817. [NCBI, ExPASy, Israel, Japan] CC -!- SUBCELLULAR LOCATION: CYTOPLASMIC. RA RA ONO B.-I., ISHII N., NAITO K., MIYOSHI S.-I., SHINODA S., YAMAMOTO S., OHMORI S.; RT "Cystathionine gamma-lyase of Saccharomyces cerevisiae: structural CC -!- SIMILARITY: BELONGS TO THE TRANS-SULFURATION ENZYMES FAMILY. RT RL gene and cystathionine gamma-synthase activity."; YEAST 9:389-397(1993). CC -------------------------------------------------------------------------- CC CC -!- CATALYTIC ACTIVITY: L-CYSTATHIONINE + H(2)O = L-CYSTEINE + NH(3) + 2-OXOBUTANOATE. CC -!- COFACTOR: PYRIDOXAL PHOSPHATE. CC DISCLAMOR CC CC -!- PATHWAY: FINAL STEP IN THE TRANS-SULFURATION PATHWAY SYNTHESIZING L-CYSTEINE FROM L-METHIONINE. CC -------------------------------------------------------------------------- CC CC -!- SUBUNIT: HOMOTETRAMER. -!- SUBCELLULAR LOCATION: CYTOPLASMIC. CC -!- SIMILARITY: BELONGS TO THE TRANS-SULFURATION ENZYMES FAMILY. CC -------------------------------------------------------------------------- CC This SWISS-PROT entry is copyright. It is produced through a collaboration DR DATABASE cross-reference CC CC between the Swiss Institute of Bioinformatics and the EMBL outstation - the European Bioinformatics Institute. There are no restrictions on its CC use by non-profit institutions as long as its content is in no way KW CYSTEINE BIOSYNTHESIS; LYASE; PYRIDOXAL PHOSPHATE. CC CC modified and this statement is not removed. Usage by and for commercial entities requires a license agreement (See http://www.isb-sib.ch/announce/ FT INIT_MET 0 0 CC CC or send an email to [email protected]). -------------------------------------------------------------------------- DR EMBL; L05146; AAC04945.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence] FT BINDING 203 203 PYRIDOXAL PHOSPHATE (BY SIMILARITY). DR DR EMBL; L04459; AAA85217.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence] EMBL; D14135; BAA03190.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence] SQ SEQUENCE 393 AA; 42411 MW; 55BA2771 CRC32; DR DR PIR; S31228; S31228. YEPD; 5280; -. DR SGD; L0000470; CYS3. [SGD / YPD] TLQESDKFAT KAIHAGEHVD VHGSVIEPIS LSTTFKQSSP ANPIGTYEYS RSQNPNRENL DR DR PFAM; PF01053; Cys_Met_Meta_PP; 1. PROSITE; PS00868; CYS_MET_METAB_PP; 1. ERAVAALENA QYGLAFSSGS ATTATILQSL PQGSHAVSIG DVYGGTHRYF TKVANAHGVE DR DR DOMO; P31373. PRODOM [Domain structure / List of seq. sharing at least 1 domain] DR PROTOMAP; P31373. TSFTNDLLND LPQLIKENTK LVWIETPTNP TLKVTDIQKV ADLIKKHAAG QDVILVVDNT DR DR PRESAGE; P31373. SWISS-2DPAGE; GET REGION ON 2D PAGE. FLSPYISNPL NFGADIVVHS ATKYINGHSD VVLGVLATNN KPLYERLQFL QNAIGAIPSP KW FT CYSTEINE BIOSYNTHESIS; LYASE; PYRIDOXAL PHOSPHATE. INIT_MET 0 0 FT BINDING 203 203 PYRIDOXAL PHOSPHATE (BY SIMILARITY). FDAWLTHRGL KTLHLRVRQA ALSANKIAEF LAADKENVVA VNYPGLKTHP NYDVVLKQHR SQ SEQUENCE 393 AA; 42411 MW; 55BA2771 CRC32; TLQESDKFAT KAIHAGEHVD VHGSVIEPIS LSTTFKQSSP ANPIGTYEYS RSQNPNRENL DALGGGMISF RIKGGAEAAS KFASSTRLFT LAESLGGIES LLEVPAVMTH GGIPKEAREA ERAVAALENA QYGLAFSSGS ATTATILQSL PQGSHAVSIG DVYGGTHRYF TKVANAHGVE TSFTNDLLND LPQLIKENTK LVWIETPTNP TLKVTDIQKV ADLIKKHAAG QDVILVVDNT FLSPYISNPL NFGADIVVHS ATKYINGHSD VVLGVLATNN KPLYERLQFL QNAIGAIPSP SGVFDDLVRI SVGIEDTDDL LEDIKQALKQ ATN FDAWLTHRGL KTLHLRVRQA ALSANKIAEF LAADKENVVA VNYPGLKTHP NYDVVLKQHR DALGGGMISF RIKGGAEAAS KFASSTRLFT LAESLGGIES LLEVPAVMTH GGIPKEAREA // // SGVFDDLVRI SVGIEDTDDL LEDIKQALKQ ATN 27 Protein Data Base (PDB) Protein Data Base – Protein sequence – Protein and NA 3D structures – Function 28 http://www.rcsb.org/pdb/home/home.do FASTA format in notepad -ประกอบด้วยสามส่วนหลัก ส่วนแรก หลัง > คือ ชื่อ หรือแหล่งที่มาของข้อมูล ส่วนสอง คือ ข้อมูลลาดับเบสนิวคลีโอไทด์หรือกรดอะมิโน ส่วนสาม * คือ จุดสิ้นสุดของข้อมูล (option) >DQ074764 Homo sapiens hemoglobin beta chain (HBB) gene, exons 1, 2 and;partial cds. 533 bp ttgcttctgacacaactgtgttcactagcaacctcaaacagacaccatggtgcacctgac tcctgaggagaagtctgccgttactgccctgtggggcaaggtgaacgtggatgaagttgg tggtaaggccctgggcacgttggtatcaaggttacaagacaggtttaaggagaccaatag aaactgggcatgtggagacagagaagactcttgggtttctgataggcactgactctctct gcctattggtctattttcccacccttaggctgctggtggtctacccttggacccagaggt tctttgagtcctttggggatctgtccactcctgatgctgttatgggcaaccctaaggtga aggctcatggcaagaaagtgctcggtgcctttagtgatggcctggctcacctggacaacc Tcaagggcacctttgccacactgagtgagctgcactgtgacaagctgcacgtggatcctg* การเตรียมไฟลล์ Fasta format -ประกอบด้วยสามส่วนหลัก ส่วนแรก หลัง > คือ ชื่อ หรือแหล่งที่มาของข้อมูล ส่วนสอง คือ ข้อมูลลาดับเบสนิวคลีโอไทด์หรือกรดอะมิโน Copy sequence generate Fasta format in notepad เราจะสามารถวิเคราะห์ เบื้องต้ น อย่ างไรได้ บ้าง 1. Sequence Alignment หมายถึง กระบวนการในการเปรียบเทียบลาดับเบสหรือลาดับกรดอะมิโน >2 sequences Pairwise alignment DIALIGN : http://www.genomatix.de/cgi-bin/dialign/dialign.pl Multiple alignment Clustal W : http://www.ebi.ac.uk/clustalw/ ตัวอย่างโปรแกรมทา Alignment: BioEdit http://www.mbio.ncsu.edu/bioedit/bioedit.html Hierarchy WebLogo: Online Alignment and Logo generation http://weblogo.threeplusone.com/ GCTCACCTCCGCCTGAGCAGTGGAGAAGGCGGCACTCTGGTGGGGCTGCTCCAGGCATGCAGATCCCACA GGCGCCCTGGCCAGTCGTCTGGGCGGTGCTACAACTGGGCTGGCGGCCAGGATGGTTCTTAGACTCCCCA GACAGGCCCTGGAACCCCCCCACCTTCTCCCCAGCCCTGCTCGTGGTGACCGAAGGGGACAACGCCACCT TCACCTGCAGCTTCTCCAACACATCGGAGAGCTTCGTGCTAAACTGGTACCGCATGAGCCCCAGCAACCA GACGGACAAGCTGGCCGCCTTCCCCGAGGACCGCAGCCAGCCCGGCCAGGACTGCCGCTTCCGTGTCACA CAACTGCCCAACGGGCGTGACTTCCACATGAGCGTGGTCAGGGCCCGGCGCAATGACAGCGGCACCTACC TCTGTGGGGCCATCTCCCTGGCCCCCAAGGCGCAGATCAAAGAGAGCCTGCGGGCAGAGCTCAGGGTGAC AGAGAGAAGGGCAGAAGTGCCCACAGCCCACCCCAGCCCCTCACCCAGGCCAGCCGGCCAGTTCCAAACC CTGGTGGTTGGTGTCGTGGGCGGCCTGCTGGGCAGCCTGGTGCTGCTAGTCTGGGTCCTGGCCGTCATCT GCTCCCGGGCCGCACGAGGGACAATAGGAGCCAGGCGCACCGGCCAGCCCCTGAAGGAGGACCCCTCAGC CGTGCCTGTGTTCTCTGTGGACTATGGGGAGCTGGATTTCCAGTGGCGAGAGAAGACCCCGGAGCCCCCC GTGCCCTGTGTCCCTGAGCAGACGGAGTATGCCACCATTGTCTTTCCTAGCGGAATGGGCACCTCATCCC CCGCCCGCAGGGGCTCAGCTGACGGCCCTCGGAGTGCCCAGCCACTGAGGCCTGAGGATGGACACTGCTC TTGGCCCCTCTGACCGGCTTCCTTGGCCACCAGTGTTCTGCAGACCCTCCACCATGAGCCCGGGTCAGCG CATTTCCTCAGGAGAAGCAGGCAGGGTGCAGGCCATTGCAGGCCGTCCAGGGGCTGAGCTGCCTGGGGGC GACCGGGGCTCCAGCCTGCACCTGCACCAGGCACAGCCCCACCACAGGACTCATGTCTCAATGCCCACAG TGAGCCCAGGCAGCAGGTGTCACCGTCCCCTACAGGGAGGGCCAGATGCAGTCACTGCTTCAGGTCCTGC CAGCACAGAGCTGCCTGCGTCCAGCTCCCTGAATCTCTGCTGCTGCTGCTGCTGCTGCTGCTGCTGCCTG CGGCCCGGGGCTGAAGGCGCCGTGGCCCTGCCTGACGCCCCGGAGCCTCCTGCCTGAACTTGGGGGCTGG TTGGAGATGGCCTTGGAGCAGCCAAGGTGCCCCTGGCAGTGGCATCCCGAAACGCCCTGGACGCAGGGCC CAAGACTGGGCACAGGAGTGGGAGGTACATGGGGCTGGGGACTCCCCAGGAGTTATCTGCTCCCTGCAGG CCTAGAGAAGTTTCAGGGAAGGTCAGAAGAGCTCCTGGCTGTGGTGGGCAGGGCAGGAAACCCCTCCACC TTTACACATGCCCAGGCAGCACCTCAGGCCCTTTGTGGGGCAGGGAAGCTGAGGCAGTAAGCGGGCAGGC AGAGCTGGAGGCCTTTCAGGCCCAGCCAGCACTCTGGCCTCCTGCCGCCGCATTCCACCCCAGCCCCTCA CACCACTCGGGAGAGGGACATCCTACGGTCCCAAGGTCAGGAGGGCAGGGCTGGGGTTGACTCAGGCCCC TCCCAGCTGTGGCCACCTGGGTGTTGGGAGGGCAGAAGTGCAGGCACCTAGGGCCCCCCATGTGCCCACC CTGGGAGCTCTCCTTGGAACCCATTCCTGAAATTATTTAAAGGGGTTGGCCGGGCTCCCACCAGGGCCTG GGTGGGAAGGTACAGGCGTTCCCCCGGGGCCTAGTACCCCCGCCGTGGCCTATCCACTCCTCACATCCAC ACACTGCACCCCCACTCCTGGGGCAGGGCCACCAGCATCCAGGCGGCCAGCAGGCACCTGAGTGGCTGGG ACAAGGGATCCCCCTTCCCTGTGGTTCTATTATATTATAATTATAATTAAATATGAGAGCATGCTAA ยีนอะไร??? Basic Local Alignment Search Tool (BLAST) Online alignment BLAST Access – NCBI BLAST (http://www.ncbi.nlm.nih.gov/BLAST/) – European Bioinformatics Institute BLAST (http://www.ebi.ac.uk/blastall/ ) – Canadian Bioinformatics Resource BLAST (http://cbr-rbc.nrc-cnrc.gc.ca/blast/) Lecture 3.1 39 ตัวอย่าง Web-based Alignment: Blast http://blast.ncbi.nlm.nih.gov/Blast.cgi Lecture 3.1 40 BLAST Output Lecture 3.1 43 BLAST Output Lecture 3.1 44 2. Open Reading Frame (ORF) เป็นการหาตาแหน่งของยีนที่สร้างโปรตีน โดยเริ่มต้นด้วย start codon และสิ้นสุดที่ stop codon ที่อยู่ภายในลาเบส +1 +2 +3 AATGAATTTGGGCCTAAA TTACTTAAACCCGGATTT -3-2 -1 +1: AAT GAA TTT GGG CCT ATA A -1: TTT AGG CCC AAA TTC ATT +2: A ATG AAT TTG GGC CTA TAA -2: T TTA GGC CCA AAT TCA TT +3: AA TGA ATT TGG GCC TAT AA -3: TT TAG GCC CAA ATT CAT T https://www.ncbi.nlm.nih.gov/orffinder ตัวอย่าง โปรแกรม ORF finder https://www.ncbi.nlm.nih.gov/orffinder/ ใส่ลำดับนิวคลีโอไทด์ในรูปแบบ Fasta http://www.bioinformatics.org/sms2/orf_find.html ตัวอย่างการวิเคราะห์ ORF โดยโปรแกรม: Vector NTI 3. Restriction enzyme analysis เป็นการหาตาแหน่งสาหรับเอนไซม์ตัดจาเพาะ (Restriction enzyme) เพื่อนามาใช้ประโยชน์ในการตัดต่อ DNA หรือตัดเพื่อวิเคราะห์ขนาด ของชิ้น DNA ที่ต้องการศึกษา เลือกชนิดของสายนิวคลีโอไทด์ เลือกการแสดงผล เลือกจานวนเอนไซม์ทอี่ ยู่ใน ฐานข้อมูลและจานวนครั้งทีต่ ัด เลือกชนิดของเอนไซม์ Restriction mapper: http://www.restrictionmapper.org/ http://biotools.umassmed.edu/tacg4/ Bioedit VectorNTI 6XHis Tag BamHI (146) PstI (186) 2C7 PstI (682) Not I (894) SpeI (917) pQE30-1d4 dimer 4907 bp eGFP 6XHIS tag HindIII (1634) Sequence Assembly การนาลาดับนิวคลีโอไทด์ท่อนสั้นๆ มาวิเคราะห์ต่อกันเป็น full gene Human Genome Project Bioinformatics for manipulating genome sequences: Software: - Free download: Bioedit http://www.mbio.ncsu.edu/bioedit/bioedit.html - Commercial: VNTI

Introduction to Bioinformatics PDF

Document Details

Tags

Related

Summary

Full Transcript

Upgrade to continue