Data Science : Datafinaltest PDF
Document Details
Uploaded by EvaluativeCesium
Tags
Summary
This document details aspects of data science. The content covers topics from data acquisition and preparation to exploratory data analysis, modeling, and visualization. It also discusses various data types and analytical approaches.
Full Transcript
eek 1 What is Data science W Data Scientist กระบวนการศึกษาข้อมูลมาสร้างเป็นความรู้ เพื่อมา ทำนาย คาดการณ์ วิเคราะห์แนวโน้มที่จะเกิดขึ้น เกี่ยวข้องกับ extracting การสกัดดึงข้อมูลออกมา creating และ processing pr...
eek 1 What is Data science W Data Scientist กระบวนการศึกษาข้อมูลมาสร้างเป็นความรู้ เพื่อมา ทำนาย คาดการณ์ วิเคราะห์แนวโน้มที่จะเกิดขึ้น เกี่ยวข้องกับ extracting การสกัดดึงข้อมูลออกมา creating และ processing process 1.Bussiness problemต้องการแก้ปัญหาอะไรให้ องค์กร 2.Data Acquistion การได้มาซึ่งข้อมูล -web server ดึงข้อมูล -logs -Data base -API -Online rerositirise 3.Data Preparationการเตรียมข้อมูล กษะ ทั -Cleaning ทำความสะอาดข้อมูล 1.Statistics Machine Learning Optimization -Transformation การเขียนโปรแกรมเชิง data minding ปรับแต่งให้มันดี 4.Exploratory data analysis ตลอดเวลา ขัดเกลาปรับแต่งข้อมูลเรียนรู้สิ่งที่มี กษะและ skillที่เกี่ยวข้อง ทั -Defines and refined selection of feature ประโยชน์ 1.Fundamentals กำหนดและปรับแต่ง 2.Progamming CS Fundament 2.Statistics 5.Data modeling 3.Visualizationใช้โปรแกรมในการแสดงผล 3.Programming ex KNN, Native base decission 4.Business and Domain 4.Machine Learning 5.Text Mining / NLP 6.Visualization and communication 5.Big Data Cloud Computing 6.Visualization : Tree Scatter Line Charts ex Dashboard powerBI 6.Communication Storytellingทักษะการสื่อสาร 7.BIg data : Hadoop 7.Deploy and maintain 8.Data Ingestion การนำเข้าข้อมูล 9.Data Munging การปรับแต่งข้อมูล ตัดพวกข้อมูลผิดๆ 10.Toolbox Data Analytics Levels Data Type Qulitative เชิงคุณภาพ Quantitative เชิงปริมาณ ไ ม่สามารถประเมินได้ วัดไม่ได้นับไม่ นั บได้ตัวเลข สถิติ ค่าเฉลี่ย ค่าที่ ได้ เช่น รูปภาพ ข้อความทั่วๆไป คำนวณมาแล้ว เท่าไหร่ บ่อยแค่ไหน คะแนน น้ำหนัก อายุ ส่วนสูง iscrete ไม่ต่อเนื่องไม่สามารถหา D เศษได้เอาข้อมูลเป็นจำนวนเต็ม เช่น จำนวนคน ไม่มีการเอาเศษมาคิด ไม่มี1.5 คน Continuousต่อเนื่อง เป็นทศนิยม เช่น ความยาว ตถุประสงค์ที่นำมาใช้วิเคราะห์ วั ดสอบสมมติฐาน พัฒนาการคาดการณ์ ท rend of Predictive Analytics T เข้าใจ อธิบาย และตีความปฏิสัมพันธ์ สำหรับอนาคต ตรวจสอบสาเหตุและ และรูปแบบทางสังคม ผลกระทบ -การวิเคราะห์เชิงทำนายคือการมองไปข้างหน้าโดยใช้เหตุการณ์ในอดีตเพื่อ คาดการณ์อนาคต -เทคโนโลยี Business Intelligence ที่เปิดเผย ความสัมพันธ์และรูปแบบภายในข้อมูลปริมาณมาก ซึ่งสามารถใช้คาดการณ์พฤติกรรมและเหตุการณ์ได้ ata > Train > Model > Predict > Forecast D predictการทำนาย forecastการพยากรณ์ด้วยข้อมูลและหลักการ ata Science Life Cycle D 1.Business Understand เข้าใจว่าข้อมูลแต่ละแหล่งมีที่มาอย่างไร การกำหนดวัตถุประสงค์ทางธุรกิจ 1. รวบรวมข้อมูลความเป็นมา 2. ประเมินสถานการณ์ 3. กำหนดเป้าหมาย 4. จัดทำแผนโครงการ 2.Data Acquisition and Understandingนำเข้าข้อมูลมาวิเคราะห์ -Data source อยู่ที่ไหน On premises หรือ cloud database หรือ file -Pipeline มีการส่งข้อมูลเข้ามาอย่างไรบ้าง เช่น แบบ Streaming เรียลไทม์ Batch ไม่เรี ยลไทม์ เช่น การสรุปยอดรายวัน -Data Wrangling ข้อมูลมีโครงสร้างอะไร มาปรับโครงสร้าง -Analysis Environment etadataคือ ข้อมูลที่อธิบายถึง “ข้อมูล” (Data aboutData) เหมือนเป็นลักษณะของ M ข้อมูลนั้น มีแบบมาตรฐานกับกำหนดเอง Data Sourcingการเข้าถึงแหล่งข้อมูลหลากหลายรูปแบบ ด้วยขั้นตอน ETL (Extract, Transform และ Load) ขั้นตอนที่นำข้อมูลเข้ามาเก็บ .Modelingกระบวนการที่จะเอามาช่วยเพื่อจัดระเบียบ 3 1. Extract (การดึงข้อมูล) กำหนดขอบเขต และกำหนดแนวคิด เดึงข้อมูลจากแหล่งต่าง ๆ มาเก็บไว้ที่พักข้อมูลชั่วคราว (Staging Area) เลือกโมเดลให้เหมาะสมกับข้อมูลที่มี 2. Transform (การแปลงข้อมูล) ประเภท นำข้อมูลมาทำความสะอาด เช่น คัดกรองเอาข้อมูลซ้ำออก ปรับแต่ง และแปลง 1.Logical แบบจำลองเชิงตรรกะ โครงสร้างข้อมูล เพื่อให้สามารถเก็บไว้ในที่เก็บข้อมูลปลายทาง และเหมาะสมในการนำ ดูกระบวนการ ดูข้อมูลที่ใช้มีอะไรบ้าง ช่วยให้เห็นภาพของการดำเนินงานโครงการที่ ไปวิเคราะห์ต่อ เป็นระบบ 3. Load (การจัดเก็บข้อมูลเข้าสู่ระบบ) 2.Physical แบบกายภาพ เกี่ยวข้องกับ technical และ performance จัดเก็บข้อมูลที่ผ่านการแปลงแล้วเข้าสู่ฐานจัดเก็บข้อมูลปลายทางที่เหมาะสม เช่น พวก software hadware program Database, Data Warehouse, หรือ Data Lake หล่งข้อมูลที่สามารถนำมาใช้ได้ แ I nformation Sourcing Patterns and 1.แหล่งข้อมูลภายในองค์กร Challenges เช่น ข้อมูลการปฏิบัติงาน ข้อมูลย้อนหลัง Logical Data Extraction 2.แหล่งข้อมูลภายนอกองค์กร – Full extraction เอามาทั้งหมด – Incremental extraction แบ่งเป็นส่วนๆ ata Landscaping D – Change data capture Darkมีอยู่แต่ใช้งานไม่ได้ Lightมีอยู่เอาไปใช้ได้ การรวบรวมข้อมูลการเปลี่ยนแปลง Distantอยู่ภายนอกองค์กร Physical Data Extraction Closeข้อมูลภายในองค์กรของคุณและสามารถใช้งาน มีข้อจำกัดทางด้าน Hardware ได้ทัน Automated Data Extraction Data conversionความท้าทายในการแปลงข้อมูล usiness requirement mapping B Metadata gapsข้อมูลมีค.แตกต่างกัน KPI Key Performance Indicator Mergers and acquisitions ดัชนีชี้วัดผลงานหรือความสำเร็จของงาน Manual data – mapping ข้อมูลที่เกี่ยวข้อง เก็บข้อมูลด้วยเอง อาจะเกิดค.ผิดพลาด – ระบุวิธีในการนำข้อมูลมา Real-time source data extract – จัดเตรียมไฟล์การแยกข้อมูล เก็บข้อมูลไว้ในรูป แบบไหนบ้าง ata Granularityเป็นระดับรายละเอียดของข้อมูล D ความแตกต่างระหว่างกลไก Push กับ Pull ที่มีในชุดข้อมูลหนึ่งๆ Push ข้อมูลระบบส่งมาให้ เตรียมมาให้ Pull ดึงข้อมูลเอง กำหนดเองว่าเอาข้อมูลอะไรบ้าง week2 การวิเคราะห์ข้อมูลและการจัดกลุ่มข้อมูล ความแตกต่างระหว่าง Data Analytics กับ Data Analysis Data Analytics Data Analysis ารวิเคราะห์ข้อมูลที่มีอยู่ในปัจจุบันมาหาแนว ก กระบวนการวิเคราะห์ข้อมูลในอดีต โน้มหรือทำนายเหตุการณ์หรือโอกาสที่จะเกิดขึ้น เพื่อหา insignt ในอนาคตและนำข้อมูลไปใช้ประโยชน์ต่อ รวมไป data gathering, data scrubbing, ถึงกระบวนการเก็บรวบรวม, การทำความสะอาด, analysis of data and interpret the การจัดระเบียบ, การจัดเก็บ การธรรมาภิบาล data collecting, cleaning, organizing, storing, governing Form generalไม่มีโครงสร้าง ใช้สำหรับการตัดสินใจ specialized มีโครงสร้างที่ชัดเจน ปรับ แต่งข้อมูลมาเรียบร้อยแล้ว งค์ประกอบสำคัญในการวิเคราะห์ข้อมูล อ 1.Roadmap and operating model Tool SAS, Apache Spark, Excel a specialized form of data analytics กำหนดนโนบายแผนวิเคราะห์ขึ้นอยู่กับ vision และ strategy used in businesses 2.Platform and data architecture Platform ที่เหมาะสมจะช่วยให้สามารถจัดเก็บ ประมวลผล และวิเคราะห์ข้อมูลได้อย่างมีประสิทธิภาพ 3.Data security รูปแบบการวิเคราะห์ข้อมูล 4.Data governance and standards ความโปร่งใสของข้อมูล 5.Software and toolingเลือกใช้โปรแกรมและเครื่องมือที่มีความเหมาะสม . Descriptive analyticsการวิเคราะห์ข้อมูลแบบพื้นฐาน 1 6.Legacy migrationปรับเปลี่ยนระบบงาน ด้านบุคลากรวัสดุ เทคโนโลยี เป็นการวิเคราะห์เพื่อแสดงผลว่าเกิดอะไรขึ้นบ้างจากการใช้ตัวแปรเดียว (Univariate Analysis) เช่น 7.Data acquisitionรู้ข้อมูลสำคัญที่จะนำมาใช้ รายงานการเติบโตของยอดขายรายเดือน 8.Skills and roles 9.Real-time analytics . Diagnostic Analyticsการวิเคราะห์แบบเชิงวินิจฉัย 2 10.Advanced analytics เป็นการวิเคราะห์เพื่อหาสาเหตุของสิ่งที่เกิดขึ้นและวิเคราะห์ความสัมพันธ์ระหว่างตัวแปรตั้งแต่สอง ตัวแปรขึ้นไป (Multivariate Analysis) เพื่อดูว่าตัวแปรเหล่านั้นมีความสัมพันธ์กันหรือส่งผลกระทบกัน ระโยชน์ของการวิเคราะห์ข้อมูล ป อย่างไรบ้าง เช่น ความสัมพันธ์ของยอดขายต่อช่วงเวลาต่างๆ 1.เชิงธุรกิจ นำเสนอข้อมูลสินค้า ช่วยตัดสินใจในการวางแผนธุรกิจ . Predictive Analyticsการวิเคราะห์แบบพยากรณ์ 3 2.ประโยชน์ด้านอื่นๆ เป็นการวิเคราะห์เพื่อทำนาย ดูแนวโน้ม พยากรณ์ว่าอาจเกิดอะไรขึ้น โดยใช้แบบจำลองทางสถิติ หรือ AI คาดการณ์และพยากรณ์เหตุการณ์ที่จะเกิดขึ้นในอนาคต เช่น การพยากรณ์ยอดขาย กำหนดนโนบายและยุทธศาสตร์ของหน่วยงา . Prescriptive Analyticsการวิเคราะห์แบบให้คำแนะนำ 4 เป็นการวิเคราะห์ไปถึงผลที่จะเกิดขึ้นถ้าหากเลือกปฏิบัติตาม ทั้งในแง่ของข้อดี ข้อเสีย เพื่อหาว่าควรที่จะ ปรับปรุง แก้ไขปัญหา หรือพัฒนาอะไรบ้าง นวคิดฐานข้อมูลและสถาปัตยกรรมฐานข้อมูล แ ญหาที่พบในการวิเคราะห์ข้อมูล ปั Information system 1.ข้อมูลที่นำมาวิเคราะห์ไม่มีคุณภาพ / ขาดการระบุถึงแหล่งข้อมูล/ ไม่มีนิยามการป้อนข้อมูลที่ชัดเจนทำให้ จัดเก็บ ประมวลผล นำเสนอ ดำเนินการโดยบุคคลหรือคอมพ์ จัดการข้อมูลจำนวนมากๆแทนมนุษย์ ลดค.ผิด ผู้ใช้งานมีความเข้าใจที่แตกต่างกัน/ ขาดผู้รับผิดชอบในการบริหารจัดการข้อมูล พลาดจากข้อจำกัดของมนุษย์ 2.ปัญหาด้านอื่นๆ บุคลากรไม่มีทักษะ ขาดการกำหนดวัตถุประสงค์และเป้าหมาย File System จัดเก็บข้อมูลหลายๆเรคคอร์ด ขาดความเชื่อมั่นในข้อมูล เชื่อมั่นว่า ดีที่สุด ถูกต้องที่สุด จัดเก็บข้อมูล same type / ข้อมูลที่ใช้งานบ่อยๆ frequently used / Master File ต้นฉบับไว้อ้างอิง / Backup File โดยจัดเก็บข้อมูลที่มีความเกี่ยวข้องกันในแต่ละเรื่อง ข้อเสีย บบจำลองที่ใช้ในการวิเคราะห์ข้อมูล แ 1.Data Redundancy ข้อมูลซ้ำซ้อน ทำให้เปลืองเนื้อที่ในการเก็บ ต้องตามแก้ไขข้อมูลทุกที่ แบบจัดกลุ่ม 2.Data Inconsistency ข้อมูลไม่ตรงจากการแก้ไขหลายที่ 1.Classification Modelแบบจำลองการจัดหมวดหมู่ superviseddata จัดกลุ่มข้อมูลโดยมีตัวแปร มีเกณฑ์ 3.Data Anomaly เกิดความผิดปกติของการ เพิ่ม ลบ แก้ไข เช่น ข้อมูลลูกค้าหายจากการลบข้อมูลสินค้า ต้อง ในการแบ่ง เป็นแบบจำลองที่ดีที่สุดในการวิเคราะห์ข้อมูล yes/no, A/B/C สามารถจำแนกแยะแยกได้อย่าง เก็บข้อมูล2อย่างนี้แยกกัน ชัดเจน จัดกลุ่มข้อมูลตามรูปที่ปรากฏ เพิ่มข้อมูลเพิ่มไม่ครบถ้วน ไม่สัมพันธ์กัน วิธีจำแนก ลบข้อมูลลบข้อมูลที่ไม่ควรลบไปด้วย -Decision Treeเป็นแบบ Supervised Learning แก้ไขข้อมูลแก้ไม่ครบ แก้ไม่ตรง กระทบข้อมูลในตาราง การเรียนรู้โมเดลแบบมีครูสอน โครงสร้างประกอบด้วย Database Root Node / Child / Leaf Node การจัดเก็บข้อมูลโดยยึดชุดข้อมูลตามแหล่งการเกิดข้อมูลและสร้างค.สัมพันธ์ระหว่างชุดข้อมูล ลดค.ซ้ำซ้อน -Naïve Bayes Methodหาความน่าจะเป็นของสิ่งที่ยังไม่เกิดขึ้น ด้วยกรคาดเดาจากสิ่งที่เคยเกิดขึ้นมาก่อน ใช้ฐานข้อมูลเดียวกัน มี Dynamic มีค.อิสระทางข้อมูล เชื่อมโยงกันและควบคุมได้จากส่วนกลาง -K-nearest Neighbor (K-NN) ข้อเสียโปรแกรมซับซ้อน ราคาสูง ต้องมีผู้เชี่ยวชาญความเป็นเจ้าของข้อมูลลดลง ทำงานแบบ Unsupervised learning เปรียบเทียบกับข้อมูลที่สนใจกับข้อมูลอื่นว่ามีค.คล้ายคลึง มากน้อยเพียงใด นิยมใช้ในการพยากรณ์ ข้อมูลที่เป็นแบบประเภทนามบัญญัติ .Clustering Model 2 แบบจำลองประเภท Unsupervised Model มุ่งเน้นจัดเรียงข้อมูลเป็นกลุ่ม โดยจำแนกข้อมูลต่างลักษณะที่ คล้ายกัน/ต่างกันของข้อมูลแบ่งตามคุณลักษณะที่กำหนดขึ้น ไม่มี Target เป็นตัวต้นแบบ ทำให้ไม่สามารถ วัดผลในเชิง Accuracy ได้ เช่น ไม่เคยมีการจัดประเภทมาก่อนเลย นิยมใช้ประสบการณ์ของผู้ใช้เป็นหลัก -K-means Clustering การวิเคราะห์แบบไม่เป็นขั้นตอน หรือแบ่งส่วน -Hierarchical Clustering นิยมใช้ในการจัดกลุ่ม case หรือ ตัวแปร บบจำลองพยากรณ์ แ -Forecast Model แบบจำลองพยากรณ์ เป็นแบบจำลองที่เกี่ยวข้องกับการทำนายข้อมูล เชิงปริมาณ -Outliers Model แบบจำลองค่าข้อมูลผิดปกติ นิยมใช้ในการเงิน ธนาคารเพื่อลดปัญหาการฉ้อโกง -Time Series Model แบบจำลองอนุกรมเวลา ช่วงเวลาซ้ำๆ ใช้ลำดับจุดของข้อมูล ช่วยให้ผู้วิเคราะห์เข้าใจชุดข้อมูลในช่วงเวลาใดเวลาหนึ่ง เช่น การวิเคราะห์จำนวนนักท่องเที่ยวในช่วงเทศกาล/วันหยุด omainต้องมีการกำหนดชื่อ ประเภทข้อมูล และรูปแบบ D ระเภทแบบจำลองฐานข้อมูล ป ถาปัตยกรรมฐานข้อมูล ส ที่ชัดเจน File Management System Schema Relationshipคือรูปแบบคสพ.ระหว่างEntity Hierarchical Database System 1 to many นิยามโครงสร้างข้อมูลที่กำหนด กำหนดรูปแบบการเชื่อมโยงของข้อมูลใน Entity Network Database System many to many รายละเอียดในการจัดเก็บ Key= Attribute ที่ใช้บ่งบอกค.แตกต่างของแต่ละแถว Relational Database System ระเบียนข้อมูลแต่ละรายการ Key Attribute = Attribute ที่เป็นส่วนหนึ่งของ key เกิด Object-Oriented Database Management System Instance จากการรวมกันของ Attribute เรียกว่าComposite key รายละเอียดข้อมูลภายในของระเบียนแต่ละ Super Key กลุ่ม Attributes ที่สามารถบอกค.แตกต่าง แอตทริบิวต์ ของแต่ละแถวในตารางเดียวกัน ได้อย่างชัดเจนและไม่ซ้ำ ประกอบด้วย 3 ระดับตามการ กัน เช่น Student( StudentID,Name,Email,Phone) กำหนดมาตรฐานของ ANSI StudentID / StudentID,name / Email (American National Standard Institute) Candidate Key คีย์คู่แข่งเป็น Super Key ที่น้อยที่สุด ในปี1975 ได้แก่ ไม่ซ้ำกันและระบุระเบียนได้ เช่น Student / email / ระดับภายนอก (External Level) Phone -แสดงข้อมูลที่ถูกดึงมาจากฐานข้อมูลระดับแนวคิด หน้าต่างหรือวิวที่ Primary Keyเป็น Candidate Key ที่ถูกเลือกให้เป็นตัว ผู้ใช้ภายนอกมีสิทธิเข้าไปใช้ได้ ระบุหลัก/ความแตกต่างของแต่ละแถว ต้องไม่มีค่าว่าง ระดับความคิด (Conceptual Level) หรือซ้ำกัน เช่น StudentID -วิเคราะห์ค.ต้องการ คสพ แล้วนำมาเขียนสกีมา Foreign Keyคีย์นอก ใช้เชื่อมโยงข้อมูลระหว่างตาราง/รี ระดับภายใน (Internal Level) เลชั่น สามารถเป็นค่า null ได้ -อธิบายถึงกระบวนการในการเก็บข้อมูลที่เกิดขึ้นจริง Secondary Key คีย์รองใช้ในการเข้าถึงข้อมูล มีค่าซ้ำกัน ได้ เช่น name ผนภาพความสัมพันธ์ของข้อมูล Entity Relationship แ ฐานข้อมูลเชิงสัมพันธ์ Relation Database ใช้โครงสร้างข้อมูลในเชิงตรรกะหรือแนวคิดของคสพ. ออกแบบการจัดเก็บข้อมูลในรูปแบบของตาราง relation ลักการเลือกระบจัดการฐานข้อมูล ห ราคา ขนาดข้อมูล ความน่าเชื่อถือ ฟังก์ชันพื้นฐานที่จำเป็น ntityคือ วัตถุหรือสิ่งที่ต้องการศึกษาหรือเก็บข้อมูลมักจะเป็นคำ E การักษาความปลอดภัย การควบคุมการเข้าถึง นาม Attribute (column) ชื่อคุณลักษณะ แสดงค.หมายของข้อมูลที่เก็บ เป็นค่า Atomic (แบ่งไม่ได้แล้ว) และไม่เป็น Multi valued attribute I ntegrityความเสมอต้นเสมอปลายในฐานข้อมูล Entity-Relationship Diagrams ardinality แสดงความสัมพันธ์โดยระบุจำนวนความสัมพันธ์ได้ C 1.Entity Integrityความสมบูรณ์ของเอนทิตี้ กำหนดตัวเลขใส่ในวงเล็บ (A,B) A=min B=max ทุกแถวจะต้องมีคีย์หลักที่ไม่เป็น null และ Primary key ต้องไม่ซ้ำกัน 2.Referential Integrityความสมบูรณ์ของการอ้างอิง ตรวจสอบความถูกต้องของคสพ.ระหว่าง รีเรชั่น เมื่อมีการอ้างอิง ข้อมูลผ่านคีย์นอก(ต้องไม่เป็น null) onnectivity แสดงความสัมพันธ์แบบการเชื่อมต่อ อธิบายเอนทิตีใน C E-R ว่ามีความสัมพันธ์ระดับใด One-to-one relationship (1:1) กษณะเอนทิตี ลั ntity Relationship Model :E-R Model E One-to-many relationship (1:M) 1.Strong Entityเป็นเอทิตีปกติ เป็นเครื่องมือที่ช่วยในการออกแบบโครงสร้างข้อมูล Many-to-many relationship (M:N) 2.Weak Entityเอนทิตีที่ไม่สามารถเกิดขึ้นเองได้ มีPrimary Key ที่ อธิบายในรูปแบบของเอนทิตีและคสพ.ระหว่างเอนทิตี ได้รับมาจากเอนทิตีอื่น มีองค์ประกอบคือEntity Attribute Relationship ร ะดับ Relationship 1.Entityตารางที่มี Attribute อยู่หลายๆ ทัปเพิล(แถวหรือเรียกว่า 1.Unary Relationship มีเอนทิตีมาเกี่ยวข้องเพียงเอนทิตีเดียว Entity Instance ) 2.Attributeคุณลักษณะเฉพาะแต่ละเอนทิตี ประเภท .Composite Entity(ผสม) หรือ Bridge Entity 3 1.แอตทริบิวต์อย่างง่าย (Simple Attribute)ไม่สามารถแบ่งย่อยได้ ใช้ปรับ M:N ให้เป็น 1:M โดยนำ Primary key ของ2เอนทิตีมารวม อีกมีเพียงค่าเดียว เป็น Atomic เช่น Age name 2.Binary Relationship เกี่ยวข้อง 2 เอนทิตี เป็น Attribute ของ Entity ผสม 2.แอตทริบิวต์อย่างง่าย (Simple Attribute) สามารถแบ่งย่อยได้ เช่น Address ก็แบ่ง city provide ได้อีก 3.แอตทริบิวต์ค่าเดี่ยว (Single-value Attribute) มีได้ค่าเดียวในแต่ละแถว เช่น StudentID .Ternary Relationship 3 เอนทิตีทั่วไป สามารถแยกเป็นไบนารีได้ 3 4.แอตทริบิวต์หลายค่า (Multi-value Attribute) โดยที่ข้อมูลไม่เปลี่ยนแปลง มีได้หลายค่าในหนึ่งแถว เช่น Author มีได้หลายคน 5.ดีไรฟด์แอตทริบิวต์(Derived Attribute) ได้มาด้วยวิธีอื่นที่ไม่ใช่การนำเข้าจากผู้ใช้โดยตรง เช่น ยอดรวมจองหนังสือ ราคารวมสินค้า 3.Relationship คสพ ระหว่างเอนทิตี ชื่อที่ใช้จะเป็นคำกริยา เช่น สมาชิกห้องสมุด ยืม หนังสือ .Recursive Entityเอนทิตีเรียกซ้ำ 4 tructured Query Language: Se-Quel Language (SQL) S เรียกใช้ตัวเองได้ คสพ แบบยูนารี พัฒนาโดย IBM ในชื่อ Structured English Query Language: SE-QueL โครงสร้างภาษาที่ใช้สำหรับสอบถามข้อมูลแบบมีโครงสร้าง -มีคำถามชัดเจนว่าต้องการอะไร -ลดรายละเอียดที่ไม่เกี่ยวข้อง -ลำดับการถามในแนวทางเดียวกัน แสดงอะไร อยากได้ข้อมูลอะไร>เอาข้อมูลมาจากไหน อยู่ที่ไหน> เงื่อนไขมีอะไรบ้าง (มีไม่มีก็ได้) .SuperType และ SubType Entityเอนทีตีแยกระดับ 5 จัดเอนทิตีเป็นลำดับขั้น Hierarchy Super ระดับสูงกว่า Sub ระดับต่ำกว่า พจนานุกรมข้อมูล Data Dictionary ลุ่มของภาษานิยามโครงสร้างข้อมูล ก Data Definition Language: DDL ใช้ออกแบบหรือนิยามโครงสร้าง -เป็นกลุ่มภาษาใช้นิยามโครงสร้างสกีมา (Schema) -กำหนดรายละเอียดของแอตทริบิวต์(Attribute) -กำหนดรายละเอียดของชนิดข้อมูล (Data Type) -กำหนดรายละเอียดของคีย์ในตารางข้อมูล(Key Attribute) โ ครงสร้าง Attribute ที่อยู่ข้างใน จัดเก็บอะไร ประกอบด้วยกลุ่มคำสั่ง 3 กลุ่ม ได้แก่ ▪ ชุดคำสั่งสำหรับสร้างตาราง (Create Table) ▪ ชุดคำสั่งสำหรับแก้ไขตาราง (Alter Table) ▪ ชุดคำสั่งสำหรับลบตาราง (Drop Table) ลุ่มภาษาที่ใช้กระทำกับข้อมูลภายในในตาราง ก SELECT ▪ INSERT ▪ DELETE ▪ UPDATE การเลือกข้อมูล SQL การใช้งานคำสั่ง SELECT ELECT * FROM ชื่อตาราง S SELECT COUNT(*) FROM employees WHERE job_position = IKEคำสั่ง ค้นหา ข้อความ หรือ ตัวเลข ภายใน Columnที่มีข้อมูลภายในตรง L ค้นหาข้อมูล ทั้งหมดที่อยู่ในตาราง เครื่องหมาย * คือการแสดงข้อมูล ทั้งหมดที กับที่กำหนด 'Marketing Manager'แสดงจำนวนMarketing Manager ในคอลัมน์ อยู่ในตาราง job_position รูปแบบคำสั่ง ใช้ เครื่องหมาย% เพื่อกำหนดรูปแบบในการค้นหาข้อมูล SELECT * FROMemployees จะแสดงทุกคอลัม ในตาราง emloyess %an%แสดงข้อมูลทีมีคำว่า an ประกอบอยู่ด้วย SELECT DISTINCT (job_position) FROM employees ELECT column,column,... FROM table name S จะแสดงข้อมูล เฉพาะ Column ที่เราได้เลือกไว้ D% แสดงข้อมูลทีมีคำว่า D อยู่เป็นลำดับแรก จะแสดงข้อมูลในคอลัม job_position ทั้งหมดที่มีข้อมูลไม่ซ้ำกัน SELECT id,first_name,last_name FROM employees %E แสดงข้อมูลทีมีคำว่า Eอยู่เป็นลำดับสุดท้าย จะแสดง คอลัมม์ id,first_name,last_name จากตาราง employees QLWHEREกำหนดเงื่อนไขในการ ค้นหาข้อมูล S RDER BY O INคำสั่ง ในการค้นหาข้อมูลภายใน Column ที่กำหนด SELECT * FROM employeesWHEREjob_position = 'GraphicDesigner' เรียงลำดับข้อมูล Column ที่เลือก desc มากไปน้อย SELECT * FROM employees WHERE company IN('Skinder','Fiveclub') นหาข้อมูลจากตาราง employees ที่มี job_position (คอลัมม์)เท่ากับ Graphic ค้ asc น้อยไปมาก Designer SELECT * FROM employeesORDER BY first_name ASC แสดงข้อมูล ชื่อพนักงาน (first_name) โดยเรียบลำดับจาก น้อยไปหามาก oolean AND OR < >= != == B HAVINGใช้กรองผลลัพธ์หลังการจัดกลุ่ม การ select มากกว่า 1 ตาราง ต้องหาร Primary key แต่ละ Entity มา = กัน ใช้ร่วมกับคำสั่ง WHERE เพื่อกำหนดเงื่อนไข ใช้ได้กับค่าที่ได้จากฟังก์ชันกลุ่ม ใช้ร่วมกับ GROUP BY SELECT * FROM employees WHERE job_position = 'Graphic Designer' ELECT Category, SUM(Quantity) AS TotalQuantity FROM Sales GROUP BY S ANDgender = 'Male' CategoryHAVINGSUM(Quantity) > 100; แสดงข้อมูลพนักงานที่มีตำแหน่งตรงกับ Graphic Designer และ เป็น ผู้ชาย ข้อมูลถูกจัดกลุ่มตาม Category ใช้ SUM(Quantity) เพื่อหายอดรวมของแต่ละ ประเภท เงื่อนไขHAVINGSUM(Quantity) > 100 ใช้กรองเฉพาะกลุ่มที่มียอด ETWEEN B รวมเกิน 100 คำสั่ง between คือคำสั่งสำหรับ การค้นหาข้อมูล ที่มีค่าระหว่างค่าเริ่มต้น และ สิ้นสุด SELECT * FROM `employees` WHERE salaryBETWEEN20000AND 25000 หัวข้อที่ 4 การทำเหมืองข้อมูล Data Mining Knowledge discovery in databases = KDD Data miningการค้นหาค.รู้ที่อยู่ในฐานข้อมูล ประยุกต์ข้อมูลให้เกิดประโยชน์ กระบวนการระบุรูปแบบที่มีค.ถูกต้อง ใหม่ มีประโยชน์ understandable structure เป็นกระบวนการที่ทำงานกับข้อมูลที่ซับซ้อนมากๆ เพื่อหาความสัมพันธ์หา pattern ของข้อมูล KDD อยู่ในกลุ่ม AI / Machine learning สรุปภาพรวม วิเคราะห์หาแนวโน้ม data mining เป็นเพียงขั้นตอนนึงใน KDDทำหน้าที่สร้างpattern / modelที่ใช้ในการ จุดมุ่งหมายหลัก 1.ทำนายอนาคต 2.อธิบายลักษณะร่วมกันของข้อมูล อธิบายข้อมูลมีได้มากกว่า 1 รูปแบบ Technical 1.Supervisedให้คนบอกคำตอบแล้วให้คอมพ์เรียนรู้ : Classification ทำนาย (ไม่ใช่ตัวเลข) + Prediction (ข้อมูลที่เป็นตัวเลข) 2.Unsupervised ไม่ต้องบอกคำตอบก่อนโปรแกรมจำทำการจัดกลุ่มให้ : Clustering จัดกลุ่ม 3.Association Ruleการค้นหากฏ เช่น โปรโมชั่นซื้อของคู่กัน Phase 1: data preparation เตรียมข้อมูล เลือกเฉพาะข้อมูลที่เกี่ยวข้อง Phase 2: data reduction ลดขนาด ตัดข้อมูล แปลงข้อมูลให้อยู่ในรูปแบบที่เหมาะสม Phase 3: data modeling/discovery สร้างโมเดล Phase 4: solution analysis วิเคราะห์และตรวจสอบ CRISP DM Methodology 1.Business understanding | business object / goal / project plan 2.Data understanding รวบรวมข้อมูลที่เกี่ยวข้อง สำรวจตรวจสอบข้อมูล 3.Data Preparation >> select / clean / construct /integrate /format /denoise 4.Modeling >> select technical / Design / build กลับขึ้นไป 3 ได้ 5.Evalution ประเมินผล review process สามารถวนกลับไปที่ 1 ได้ 6.Deployment เอาไปใช้งาน plan deployment + maintenance 2.แบบ ARFF fileมีรายละเอียดของแอตทริบิวต์ Attribute-Relation File Format (ARFF) WEKA = Waikato Environment for Knowledge Analysis Main GUI(graphic user interfaces) Preprocess จัดการข้อมูลเตรียมข้อมูล classify จำแนกขอมูล ทำนายข้อมูล ข้อมูลที่ใช้ input cluster จัดกลุ่มข้อมูล 1.flie Associate หาข้อมูลที่เกิดร่วมกันบ่อยๆ 2.URL internet select attributes เลือกแอตทริบิวต์ที่สำคัญ 3.DB Database Visualize แสดงผลในรูปแบบกราฟ 4.Generate data ข้อมูลจำลอง 1.แบบ CSV file Comma Separated Value ใช้ , แบ่งระหว่างแอตทริบิวต์ ไม่มีรายละเอียดของแอตทริบิวต์ เปิดใน excel ได้ ¤ Missing: จํานวนข้อมูลในแอตทริบิวต์ที่ขาดหายไป ¤ Distinct: จํานวนของข้อมูลที่เป็นไปได้ ทั้งหมด เช่น sunny, overcast, rainy ¤ Unique: จํานวนข้อมูลที่มีการปรากฏขึ้น แค่ครั้งเดียวในแอตทริบิวต์ Allเลือกทุกแอตทริบิวต์ Noneเคลียร์แอตทริบิวต์ที่เลือกอยู่ก่อนแล้ว Invertสลับสถานะของแอตทริบิวต์ ระหว่างถูกเลือกและไม่ถูกเลือก Patternใช้ในการเลือกแอตทริบิวต์ที่มีชื่อตามเงื่อนไขที่กำหนด เช่น Regular Expression Removeลบแอตทริบิวต์ที่เลือกออก Data Preprocesing Discretizationแปลงข้อมูล numberic เป็นnominal (ลักษณะประเภท) Attribute = variable, field, or feature โดยแบ่งกลุ่มของข้อมูลเป็นระดับ ตามเงื่อนไข Object = record, case, sample, or instance Graphical Methods for Identifying Outliers -ค่าผิดปกติคือค่าที่ใกล้เคียงกับขอบเขตข้อมูลสูงสุด near extreme limits of data range -ค่าผิดปกติอาจแสดงถึงข้อผิดพลาดในการป้อนข้อมูล -Certain statistical methodsvery sensitive to outliersand may produce unstable results -Neural Networks and k-Means benefit from normalized data การ Detect outlierin Weka: filters > unsupervised> attribute > InterquartileRange การแก้ปัญหาหน่วยความจำไม่พอให้โปรแกรมทำงาน Generate setting numExamples เป็น 1,000,000 เปลี่ยนค่าของ maxheap ให้มากขึ้น (แต่ไม่เกินขนาดของหน่วยความจําภายในเครื่อง) approximate_memory= number of attribute * number of instances * 8(จำนวน byte ที่ เก็บข้อมูลตัวเลข 1 ตัว ) Prepare Dataใช้เวลานานที่สุด ex ข้อมูล 10,000,000 instances และมี 10 attributes จะต้องใช้หน่วยความจําอย่างน้อย 800 MB โมเดลจะให้ผลลัพธ์ที่ถูกต้องหรือไม่ขึ้นอยู่กับคุณภาพของข้อมูลที่ใช้ แบ่งได้ 3 ขั้นตอน Build a Model ขั้นตอนการวิเคราะห์ข้อมูล 1.Data Selection เลือกเฉพาะข้อมูลที่เกี่ยวข้อง 2.Data Cleaning กลั่นกรองข้อมูล จัดการข้อมูลซ้ำซ้อน ขาดหาย ผิดพลาด 3.Data Transformation แปลงรูปแบบข้อมูล พร้อมนำไปใช้ Choosing the sample size จํานวนของอินสแตนซ์(records) >=5,000 ข้อมูลน้อยค.น่าเชื่อถือของโมเดลก็น้อยตาม ทำไมต้องมีการเตรียมข้อมูล 1.ข้อมูลดิบมัก incomplete + noisy 2.Obsolete fields 3.Missing values 4.Outliers ค่าที่ผิดปกติ Classification Idea 5.Data inform not suitablefor data mining 6.Erroneous values Replace Missing Valueswith Mode or Mean Nomimalแทนด้วยModeฐานนิยม ค่าที่ปรากฏบ่อยที่สุด Numbericแทนด้วยMeanค่าเฉลี่ย Classifier bayesอาศัยความน่าจะเป็น functionsคำนวณ สมการ lazyไม่มีการสร้างโมเดลไว้ก่อน ใช้ข้อมูลเรียนรู้จำแนกข้อมูลใหม่ metaรวมหลายเทคนิค เพื่อเพิ่มความถูกต้อง treeโมเดลต้นไม้ rules Test options Classifier output 1.Use training set ใช้ข้อมูลตัวเดิม 2.Supplied test set(Hold out method) ใช้ข้อมูลใหม่ unseen data 3.Percentage split(Hold out method) แบ่งข้อมูลออกเป็น x% เพื่อสร้างโมเดล ส่วน % ที่เหลือใช้ test 4.Cross-validation(Leave-one-out method) แบ่งข้อมูลออกเป็นส่วนเท่าๆกัน (folds)เพื่อใช้ test โดยห้ามเกินจำนวน instance Validation Techniques Result list Predictor Error Measures week 5 Data science and Security Security of Data sci 3.Data Mining Solutions model ทำงานถูกต้องปลอดภัยมั้ย Cybersecurityเป็นเทคนิค กระบวนการ แนวปฏิบัติที่ปกป้อง 1.Infrastructure Securityค.ปลอดภัยของโครงสร้างพื้นฐาน 4.Access Controls information system จากการโจมตีหรือ unauthorised acess เช่น cloud database เราจะส่งต่อใน networkยังไงให้ปลอดภัย 5. EndPoint vulnerability ความปลอดภัยของอุปกรณ์ปลายทาง (Hardware software data network people process) 2.Software Security Four Pillars of Security ความไม่สมดุลของ 3.Data Protection 1.Perimeterขอบเขต (Authenticating) การยืนยันตัวตนlog in Digital Transformation กับ Cybersecurity Professionals 4.Data Anonymisationซ่อนตัวตนของเจ้าของข้อมูล 2.Accessการเข้าถึง (Authorising) มีสิทธิ์เข้าถึงอะไรบ้าง DT ต้องการความAgility speed connectivity นำเทคใหม่มาเร่งใช้ Data Science for Security 3. Visibilityการมองเห็น (Auditing) ทำให้เกิดช่องโหว่ด้านความปลอดภัย CP เลยต้องเพิ่ม secure ซึ่ง ตัวอย่าง ตรวจสอบว่าเข้ามาทำอะไรบ้าง report & log อาจทำให้มีขั้นตอนยุ่งยากใช้งานไม่สะดวกและมีความต้องการผู้ 1.Anomaly Detectionวิเคราะห์ความผิดปกติข้องข้อมูล 4.Data(Architecting) เชี่ยวชาญด้าน Cybersecurity สูงขึ้น แต่ตลาดแรงงานมีผู้ 2.Threat Detectionตรวจจับการโจมตี วิเคราะห์การโจมตี OWASP(Open Web Application Security Project) เชี่ยวชาญไม่เพียงพอ 3.Malware Detection and Classification เครื่องมือสำหรับสแกนหาช่องโหว่พวกปัญหาเช่น ประเภท security Big Data -ไม่ตรวจสอบข้อมูลที่ผิดพลาดและทำความสะอาดข้อมูลที่ไม่สมบูรณ์ 1.Physical ทางกายภาพแบ่งออกเป็น อุปกรณ์กับบุคคล Volume ข้อมูลขนาดใหญ่ เกินพันล้าน -ไม่ตรวจการใช้งานและยืนยันตัวตน -อุปกรณ์ unauthorised ไม่มีสิทธิจับต้อง Velocity ความเร็วของข้อมูล เรียลไทม์ -เปิดเผยข้อมูลที่ละเอียดอ่อน -บุคคลต้องปลอดภัย ไม่ได้รับบาดเจ็บ Variety ข้อมูลมีความหลากหลาย -กำหนดค่าที่ไม่ปลอดภัย 2.Personalปกป้อง personal data และ identity Veracity มีความน่าเชื่อถือ Cyber Security Teams 3.Operationการดำเนินงานต้องปกป้องความลับของข้อมูล Value ข้อมูลมีคุณค่า Yellow Teamสร้างระบบ software 4.Network= assets and traffic Valence ความเชื่อมโยงของข้อมูล Red Team ทดสอบเจาะระบบหาช่องโหว่ -device อุปกรณ์ที่เกี่ยวข้องข้อง สถาปัตยกรรมของ Big Data Blue Teamแนะนำวิธีป้องกัน ตอบสนองต่อการโจมตี -ข้อมูลที่วิ่งอยู่บนเครือข่าย -ช่องทางการสื่อสาร ทั้งไร้สายและมีสาย Cloud Security 5.Informationปกป้องข้อมูลทุกรูปแบบ เมื่อก่อน ซื้อ ฮาร์ดแวร์เอง on premise ปัจจุบัน on cloud เป็น ประเภท data as a servive 1.static dataข้อมูลที่อยู่กับที่ data as rest Cloud Security Challenges เช่น Harddisk database 1.Threat Intelligence and Security Content 2.dynamic data(data in transit) การโจมตีมีการเปลี่ยนแปลงอย่างรวดเร็วข้อมูลที่มีอยู่อาจล่าหลังใช้ ข้อมูลที่กำลังเคลื่อนที่ เช่น ข้อมูล จาก server ไป user งานไม่ได้ 3.being processข้อมูลที่กำลังประมวผลอยู่ 2.Human Expertise ความเชี่ยวชาญ เช่น การประมวลผลเพื่อส่งผลลัพธ์กลับมา ปัญหาความปลอดภัยของ Big data 3.Security Tools เลือกเครื่องมือไม่เหมาะสม ม่อัปเดต ราคาสูง CIA MODEL 1.Insecure Computation ไม่มีการป้องกันที่เพียงพอ Technical Challenges Confidentiality ความลับ เช่น การใช้ API ที่ไม่มีการตรวจสอบสิทธิ์ของผู้ใช้ 1. Loss of Visibility สูญเสียการมองเห็น เช่น ใช้ cloud หลายที่ Integrity ความถูกต้อง ความสมบูรณ์ของข้อมูล 2.Input Validation and Filtering ตรวจสอบและกรอง ทำให้ติดตามยากไม่รู้ว่าเก็บข้อมูลไว้ที่ไหน Availability ความพร้อมใช้งาน เข้าถึงได้ตลอดเวลาที่ต้องการ 3.Privacy Concerns in Data Mining and Analytics 2. Compliance Violations ไม่ทำตามนโยบายที่กำหนดไว้ ความเป็นส่วนตัวระหว่างการประมวลผลของข้อมูล 3. Lack of Cloud Security Strategy and Architecture 4.Granular Access Control ควบคุมการเข้าถึงแบบละเอียด ไม่มีกลยุทธ์แผนระยะยาว Security of Data sci Data sci for security 5.Insecure Data Storage จัดเก็บข้อมูลไม่ปลอดภัย 4. Insider Threats การรักษาค.ปลอดภัยให้กับข้อมูล กระบวนการวิเคราะห์ข้อมูล เพื่อให้ ความท้าทายของ Big Data 5. Contractual Breaches ไม่ทำตามสัญญา หรือสิ่งที่เกี่ยวข้องกับ datasci secure process ทำงานมี 1.Distributed Data ข้อมููลกระจายอยู่หลายที่ไป secure ยาก 6. Insecure API ประสิทธิภาพ เช่น Antivarus pg 2.Non-Relational Databases ฐานข้อมูลซับซ้อน 7. Misconfiguration of Cloud Services กำหนดค่าไม่ถูกต้อง แนวปฏิบัติ 1.Keep it simple and thus secure (KISS) ทำให้เข้าใจง่าย 2.fully understand 3.simplicity > complexity / Use standardised tools 4.รับรองสิทธิ์การเข้าถึงที่แน่นหนา ใช้การพิสูจน์ตัวตน พาสเวิร์ด Data Science for Security week 5 Big Data แล้ว Big data คืออะไรหล่ะ พัฒนาการของ Big Data มันคือกระบวนการเก็บชุดข้อมูลที่มีขนาดใหญ่(มาก)และซับซ้อนและ ในอดีต มีการ generating ข้อมูลน้อย เช่น พวกรายการทีวี ยากเกินกว่าคอมพิวเตอร์ปกติทั่วไปจะประมวลผลได้ แต่ในปัจจุบัน ทุกคนล้วนเป็นคน generate ข้อมูล เช่น youtube มากขนาดไหนก็ Petabyte ละมั้ง tiktok Tradition Data (DB) Big data data < PB มีโครงสร้าง(เป็น >= PB ตาราง มีลักษณะของข้อมูล เป็นได้ทั้งมีโครงสร้างและ ชัดเจน) ไม่มีโครงสร้าง ( รูป เสียง ข้อมูลที่ต้องเอามาระบุค. หมายของข้อมูล) hardware Large sever computer clusters น่าเชื่อถือ / ขยายขนาดไม่ได้ ไม่น่าเชื่อถือ ขยายขนาด รันได้บนเครื่องเดียว ได้ คุณสมบัติ 1.Historian รู้เหตุการณ์ที่เคยเกิดขึ้น Software centralized data base Distributed 2.Coder schema base no schema base Oracle / mySQL Hadoop 3.Visualiser เอาข้อมูลออกมาเป็นภาพได้ บิต 1 ไบต์ 1024 B K M G T P 8 4.Modeler Big data source 5.Storyteller เล่าเรื่องได้ -จ ากคนเช่น รูป วิดีโอ ข้อความ โซเชียล ต่างกันที่ขนาดและการคำนวณ 6.Hacker -M achineเช่น logs sensor IoT Cyber Security Data Science Process -W eb data: social click stream 1.Use case 2.Data : Acquisition + clean 3.Exploratory Data Analysis : Feature extraction กำหนด ลักษณะ / Model design/ Model validation 4.Production Deployment 5.Result V of Big data 5 1.Volum= scale of data 2.Velocity= the speed of data / real time 3.Verity= Different forms 4.Value= ข้อมูลมีคุณค่า 5.Veracity= ความน่าเชื่อถือ Big data Goal Hadoopcluster computing abstraction 1.ทำให้องค์กร more smarter and efficient เป็น software หรือOp eratingSystem of Big data เช่น การวิเคราะห์ข้อมูลเพื่อป้องกันภัยคุกคาม ใช้พยากรณ์ -รองรับการใช้งานขนาดใหญ่Distributed data storage -P arallel computingคำนวณแบบขนานได้ คือ เอาทุกตัวมา 2.ใช้วิเคราะห์พฤติกรรมลูกค้า เช่น ประมวลพร้อมกัน อเมซอน ใช้ cliclstream + ประวัติการซื้อ to ทำนายการซื้อสินค้า -เป็น open source software P&G หา association ระหว่างสินค้า เช่นถ้า ซื้อ A แล้วจะ ซื้อ Bด้วย -base on linux and cmd ★ เมื่อไหร่ที่ควรใช้ Hadoop 3.ลดต้นทุน -ใช้ประมวล Big data จริงๆ เช่น ใช้ทำนายผู้ป่วยที่มีความเสี่ยงสูง ใช้ -เก็บค.หลากหลายของข้อมูล sensor ทำนายเวลสการซ่อมบำรุง -ประมวลผลแบบ Parallel ★ เมื่อไหร่ที่ไม่ควรใช้ 4.Next generation product -วิเคราะห์แบบ real time เช่น google self drivingcars -data base netflix สร้าง tv show โดย based on จากผู้ชม -ระบบไฟล์ network ทั่วไป -ทำ parallel ไม่ได้ ต้องทำเป็นขั้น/เงื่อนไข Data Product -Derives value from data ได้ค่ามาจากข้อมูล Type of Data Analytics ผลิตข้อมูลได้มากขึ้น มีมูลค่ามากขึ้น 1.Descriptive Analysis:What is happeningnow e.g., -Data + Statistical Algorithms google analytics for prediction MapReduce เป็นตัวคำนวณประมวลผล 2.Predictive Analysis: What might happen in the future เช่น mazon recommendation ซื้ออันนี้แล้วต้องซื้ออันนี้ด้วย โดยย้ายโปรแกรมไปที่ข้อมูล e.g., preventive maintenance HDFSเป็นตัวเก็บไฟล์ 3.Prescriptive Analysis: What action should be taken ความสามารถของ Hadoop YARNเป็นตัวจัดการทรัพยากร Hardware e.g., self driving cars 1.Fault Toleranceทนต่อข้อผิดพลาด 4.Diagnostic Analysis: Why did it happen e.g., social 2.Recoverability: boot กลับมา run ที่เหลือต่อได้ โครงสร้าง Hadoop media analytics 3.Consistencyข้อมูลตรงกันทุกที่ 4.Scalabilityรองรับการขยายขนาด High Performance Computing หรือ Super Computer 1.Science & Engineering: พยากรณ์อากาศ, Deep learning ตัวอย่างการใช้ Big Data 2.Commercial & Business : Filmmaker,Search Engine -เข้าใจพฤติกรรมลูกค้า The fastest computer of the world Now is -เข้าพฤติกรรมของผู้เล่นเกม เช่น candy crush El Capitan @LLNL จาก CA USA -Tesla analyze connected car in Thailand:LANTA - telecommunication company : BT