Summary

This document details aspects of data science. The content covers topics from data acquisition and preparation to exploratory data analysis, modeling, and visualization. It also discusses various data types and analytical approaches.

Full Transcript

‭ eek 1 What is Data science‬ W ‭Data Scientist‬ ‭กระบวนการศึกษาข้อมูลมาสร้างเป็นความรู้ เพื่อมา‬ ‭ทำนาย คาดการณ์ วิเคราะห์แนวโน้มที่จะเกิดขึ้น‬ ‭เกี่ยวข้องกับ extracting การสกัดดึงข้อมูลออกมา‬ ‭creating และ processing‬ ‭pr...

‭ eek 1 What is Data science‬ W ‭Data Scientist‬ ‭กระบวนการศึกษาข้อมูลมาสร้างเป็นความรู้ เพื่อมา‬ ‭ทำนาย คาดการณ์ วิเคราะห์แนวโน้มที่จะเกิดขึ้น‬ ‭เกี่ยวข้องกับ extracting การสกัดดึงข้อมูลออกมา‬ ‭creating และ processing‬ ‭process‬ ‭1.Bussiness problem‬‭ต้องการแก้ปัญหาอะไรให้‬ ‭องค์กร‬ ‭2.Data Acquistion‬ ‭การได้มาซึ่งข้อมูล‬ ‭-web server ดึงข้อมูล‬ ‭-logs‬ ‭-Data base‬ ‭-API‬ ‭-Online rerositirise‬ ‭3.Data Preparation‬‭การเตรียมข้อมูล‬ ‭ กษะ‬ ทั ‭-Cleaning ทำความสะอาดข้อมูล‬ ‭1.Statistics Machine Learning Optimization‬ ‭-Transformation‬ ‭การเขียนโปรแกรมเชิง data minding ปรับแต่งให้มันดี‬ ‭4.Exploratory data analysis‬ ‭ตลอดเวลา ขัดเกลาปรับแต่งข้อมูลเรียนรู้สิ่งที่มี‬ ‭ กษะและ skillที่เกี่ยวข้อง‬ ทั ‭-Defines and refined selection of feature‬ ‭ประโยชน์‬ ‭1.Fundamentals‬ ‭กำหนดและปรับแต่ง‬ ‭2.Progamming CS Fundament‬ ‭2.Statistics‬ ‭5.Data modeling‬ ‭3.Visualization‬‭ใช้โปรแกรมในการแสดงผล‬ ‭3.Programming‬ ‭ex KNN, Native base decission‬ ‭4.Business and Domain‬ ‭4.Machine Learning‬ ‭5.Text Mining / NLP‬ ‭6.Visualization and communication‬ ‭5.Big Data Cloud Computing‬ ‭6.Visualization : Tree Scatter Line Charts‬ ‭ex Dashboard powerBI‬ ‭6.Communication Storytelling‬‭ทักษะการสื่อสาร‬ ‭7.BIg data : Hadoop‬ ‭7.Deploy and maintain‬ ‭8.Data Ingestion การนำเข้าข้อมูล‬ ‭9.Data Munging การปรับแต่งข้อมูล ตัดพวกข้อมูลผิดๆ‬ ‭10.Toolbox‬ ‭Data Analytics Levels‬ ‭Data Type‬ ‭Qulitative เชิงคุณภาพ‬ ‭Quantitative เชิงปริมาณ‬ ไ‭ ม่สามารถประเมินได้ วัดไม่ได้‬‭นับไม่‬ นั ‭ บได้‬‭ตัวเลข สถิติ ค่าเฉลี่ย ค่าที่‬ ‭ได้ เช่น รูปภาพ ข้อความทั่วๆไป‬ ‭คำนวณมาแล้ว เท่าไหร่ บ่อยแค่ไหน‬ ‭คะแนน น้ำหนัก อายุ ส่วนสูง‬ ‭ iscrete‬ ‭ไม่ต่อเนื่อง‬‭ไม่สามารถหา‬ D ‭เศษได้‬‭เอาข้อมูลเป็นจำนวนเต็ม‬ ‭เช่น จำนวนคน ไม่มีการเอาเศษมาคิด‬ ‭ไม่มี1.5 คน‬ ‭Continuous‬‭ต่อเนื่อง เป็นทศนิยม‬ ‭เช่น ความยาว‬ ‭ ตถุประสงค์ที่นำมาใช้วิเคราะห์‬ วั ‭ ดสอบสมมติฐาน พัฒนาการคาดการณ์‬ ท ‭ rend of Predictive Analytics‬ T ‭เข้าใจ อธิบาย และตีความปฏิสัมพันธ์‬ ‭สำหรับอนาคต ตรวจสอบสาเหตุและ‬ ‭และรูปแบบทางสังคม‬ ‭ผลกระทบ‬ ‭-การวิเคราะห์เชิงทำนายคือการมองไปข้างหน้าโดยใช้เหตุการณ์ในอดีตเพื่อ‬ ‭คาดการณ์อนาคต‬ ‭-เทคโนโลยี Business Intelligence ที่เปิดเผย‬ ‭ความสัมพันธ์และรูปแบบภายในข้อมูลปริมาณมาก‬ ‭ซึ่งสามารถใช้คาดการณ์พฤติกรรมและเหตุการณ์ได้‬ ‭ ata > Train > Model > Predict > Forecast‬ D ‭predict‬‭การทำนาย‬ ‭forecast‬‭การพยากรณ์ด้วยข้อมูลและหลักการ‬ ‭ ata Science Life Cycle‬ D ‭1.Business Understand‬ ‭เข้าใจว่าข้อมูลแต่ละแหล่งมีที่มาอย่างไร‬ ‭การกำหนดวัตถุประสงค์ทางธุรกิจ‬ ‭1. รวบรวมข้อมูลความเป็นมา‬ ‭2. ประเมินสถานการณ์‬ ‭3. กำหนดเป้าหมาย‬ ‭4. จัดทำแผนโครงการ‬ ‭2.Data Acquisition and Understanding‬‭นำเข้าข้อมูลมา‬‭วิเคราะห์‬ ‭-Data source อยู่ที่ไหน On premises หรือ cloud database หรือ file‬ ‭-Pipeline มีการส่งข้อมูลเข้ามาอย่างไรบ้าง เช่น แบบ Streaming เรียลไทม์ Batch ไม่เรี‬ ‭ยลไทม์ เช่น การสรุปยอดรายวัน‬ ‭-Data Wrangling ข้อมูลมีโครงสร้างอะไร มาปรับโครงสร้าง‬ ‭-Analysis Environment‬ ‭ etadata‬‭คือ ข้อมูลที่อธิบายถึง “ข้อมูล” (Data about‬‭Data) เหมือนเป็นลักษณะของ‬ M ‭ข้อมูลนั้น มีแบบมาตรฐานกับกำหนดเอง‬ ‭Data Sourcing‬‭การเข้าถึงแหล่งข้อมูลหลากหลายรูปแบบ‬ ‭ด้วยขั้นตอน ETL (Extract, Transform และ Load) ขั้นตอนที่นำข้อมูลเข้ามาเก็บ‬ ‭.Modeling‬‭กระบวนการที่จะเอามาช่วยเพื่อจัดระเบียบ‬ 3 ‭1. Extract (การดึงข้อมูล)‬ ‭กำหนดขอบเขต และกำหนดแนวคิด‬ ‭เดึงข้อมูลจากแหล่งต่าง ๆ มาเก็บไว้ที่พักข้อมูลชั่วคราว (Staging Area)‬ ‭เลือกโมเดลให้เหมาะสมกับข้อมูลที่มี‬ ‭2. Transform (การแปลงข้อมูล)‬ ‭ประเภท‬ ‭นำข้อมูลมาทำความสะอาด เช่น คัดกรองเอาข้อมูลซ้ำออก ปรับแต่ง และแปลง‬ ‭1.Logical แบบจำลองเชิงตรรกะ‬ ‭โครงสร้างข้อมูล เพื่อให้สามารถเก็บไว้ในที่เก็บข้อมูลปลายทาง และเหมาะสมในการนำ‬ ‭ดูกระบวนการ ดูข้อมูลที่ใช้มีอะไรบ้าง ช่วยให้เห็นภาพของการดำเนินงานโครงการที่‬ ‭ไปวิเคราะห์ต่อ‬ ‭เป็นระบบ‬ ‭3. Load (การจัดเก็บข้อมูลเข้าสู่ระบบ)‬ ‭2.Physical แบบกายภาพ เกี่ยวข้องกับ technical และ performance‬ ‭จัดเก็บข้อมูลที่ผ่านการแปลงแล้วเข้าสู่ฐานจัดเก็บข้อมูลปลายทางที่เหมาะสม เช่น‬ ‭พวก software hadware program‬ ‭Database, Data Warehouse, หรือ Data Lake‬ ‭ หล่งข้อมูลที่สามารถนำมาใช้ได้‬ แ I‭ nformation Sourcing Patterns and‬ ‭1.แหล่งข้อมูลภายในองค์กร‬ ‭Challenges‬ ‭เช่น ข้อมูลการปฏิบัติงาน ข้อมูลย้อนหลัง‬ ‭Logical Data Extraction‬ ‭2.แหล่งข้อมูลภายนอกองค์กร‬ ‭– Full extraction เอามาทั้งหมด‬ ‭– Incremental extraction แบ่งเป็นส่วนๆ‬ ‭ ata Landscaping‬ D ‭– Change data capture‬ ‭Dark‬‭มีอยู่แต่ใช้งานไม่ได้‬ ‭Light‬‭มีอยู่เอาไปใช้ได้‬ ‭การรวบรวมข้อมูลการเปลี่ยนแปลง‬ ‭Distant‬‭อยู่ภายนอกองค์กร‬ ‭Physical Data Extraction‬ ‭Close‬‭ข้อมูลภายในองค์กรของคุณและสามารถใช้งาน‬ ‭มีข้อจำกัดทางด้าน Hardware‬ ‭ได้ทัน‬ ‭Automated Data Extraction‬ ‭Data conversion‬‭ความท้าทายในการแปลงข้อมูล‬ ‭ usiness requirement mapping‬ B ‭Metadata gaps‬‭ข้อมูลมีค.แตกต่างกัน‬ ‭KPI Key Performance Indicator‬ ‭Mergers and acquisitions‬ ‭ดัชนีชี้วัดผลงานหรือความสำเร็จของงาน‬ ‭Manual data‬ ‭– mapping ข้อมูลที่เกี่ยวข้อง‬ ‭เก็บข้อมูลด้วยเอง อาจะเกิดค.ผิดพลาด‬ ‭– ระบุวิธีในการนำข้อมูลมา‬ ‭Real-time source data extract‬ ‭– จัดเตรียมไฟล์การแยกข้อมูล เก็บข้อมูลไว้ในรูป‬ ‭แบบไหนบ้าง‬ ‭ ata Granularity‬‭เป็นระดับรายละเอียดของข้อมูล‬ D ‭ความแตกต่างระหว่างกลไก Push กับ Pull‬ ‭ที่มีในชุดข้อมูลหนึ่งๆ‬ ‭Push ข้อมูลระบบส่งมาให้ เตรียมมาให้‬ ‭Pull ดึงข้อมูลเอง กำหนดเองว่าเอาข้อมูลอะไรบ้าง‬ ‭week2 การวิเคราะห์ข้อมูลและการจัดกลุ่มข้อมูล‬ ‭ความแตกต่างระหว่าง Data Analytics กับ Data Analysis‬ ‭Data Analytics‬ ‭Data Analysis‬ ‭ ารวิเคราะห์ข้อมูลที่มีอยู่ใน‬‭ปัจจุบัน‬‭มาหาแนว‬ ก ‭กระบวนการวิเคราะห์ข้อมูลในอดีต‬ ‭โน้มหรือทำนายเหตุการณ์หรือโอกาสที่จะเกิดขึ้น‬ ‭เพื่อหา insignt‬ ‭ในอนาคตและนำข้อมูลไปใช้ประโยชน์ต่อ รวมไป‬ ‭data gathering, data scrubbing,‬ ‭ถึงกระบวนการเก็บรวบรวม, การทำความสะอาด,‬ ‭analysis of data and interpret the‬ ‭การจัดระเบียบ, การจัดเก็บ การธรรมาภิบาล‬ ‭data‬ ‭collecting, cleaning, organizing, storing,‬ ‭governing‬ ‭Form‬ ‭general‬‭ไม่มีโครงสร้าง ใช้สำหรับการตัดสินใจ‬ ‭specialized มีโครงสร้างที่ชัดเจน ปรับ‬ ‭แต่งข้อมูลมาเรียบร้อยแล้ว‬ ‭ งค์ประกอบสำคัญในการวิเคราะห์ข้อมูล‬ อ ‭1.Roadmap and operating model‬ ‭Tool‬ ‭SAS, Apache Spark, Excel‬ ‭a specialized form of data analytics‬ ‭กำหนดนโนบายแผนวิเคราะห์ขึ้นอยู่กับ vision และ strategy‬ ‭used in businesses‬ ‭2.Platform and data architecture‬ ‭Platform ที่เหมาะสมจะช่วยให้สามารถจัดเก็บ ประมวลผล และวิเคราะห์ข้อมูลได้อย่างมีประสิทธิภาพ‬ ‭3.Data security‬ ‭รูปแบบการวิเคราะห์ข้อมูล‬ ‭4.Data governance and standards‬ ‭ความโปร่งใสของข้อมูล‬ ‭5.Software and tooling‬‭เลือกใช้โปรแกรมและเครื่องมือ‬‭ที่มีความเหมาะสม‬ ‭. Descriptive analytics‬‭การวิเคราะห์ข้อมูลแบบพื้น‬‭ฐาน‬ 1 ‭6.Legacy migration‬‭ปรับเปลี่ยนระบบงาน ด้านบุคลากร‬‭วัสดุ เทคโนโลยี‬ ‭เป็นการวิเคราะห์เพื่อแสดงผลว่า‬‭เกิดอะไรขึ้นบ้าง‬‭จาก‬‭การใช้ตัวแปรเดียว (Univariate Analysis) เช่น‬ ‭7.Data acquisition‬‭รู้ข้อมูลสำคัญที่จะนำมาใช้‬ ‭รายงานการเติบโตของยอดขายรายเดือน‬ ‭8.Skills and roles‬ ‭9.Real-time analytics‬ ‭. Diagnostic Analytics‬‭การวิเคราะห์แบบเชิงวินิจฉัย‬ 2 ‭10.Advanced analytics‬ ‭เป็นการวิเคราะห์เพื่อ‬‭หาสาเหตุของสิ่งที่เกิดขึ้น‬‭และ‬‭วิเคราะห์ความสัมพันธ์ระหว่างตัวแปรตั้งแต่สอง‬ ‭ตัวแปรขึ้นไป (Multivariate Analysis) เพื่อดูว่าตัวแปรเหล่านั้นมีความสัมพันธ์กันหรือส่งผลกระทบกัน‬ ‭ ระโยชน์ของการวิเคราะห์ข้อมูล‬ ป ‭อย่างไรบ้าง เช่น ความสัมพันธ์ของยอดขายต่อช่วงเวลาต่างๆ‬ ‭1.เชิงธุรกิจ‬ ‭นำเสนอข้อมูลสินค้า ช่วยตัดสินใจในการวางแผนธุรกิจ‬ ‭. Predictive Analytics‬‭การวิเคราะห์แบบพยากรณ์‬ 3 ‭2.ประโยชน์ด้านอื่นๆ‬ ‭เป็นการวิเคราะห์เพื่อทำนาย ดูแนวโน้ม พยากรณ์ว่าอาจเกิดอะไรขึ้น โดยใช้แบบจำลองทางสถิติ หรือ AI‬ ‭คาดการณ์และพยากรณ์เหตุการณ์ที่จะเกิดขึ้นในอนาคต‬ ‭เช่น การพยากรณ์ยอดขาย‬ ‭กำหนดนโนบายและยุทธศาสตร์ของหน่วยงา‬ ‭. Prescriptive Analytics‬‭การวิเคราะห์แบบให้คำแนะนำ‬ 4 ‭เป็นการวิเคราะห์ไปถึงผลที่จะเกิดขึ้นถ้าหากเลือกปฏิบัติตาม ทั้งในแง่ของข้อดี ข้อเสีย เพื่อหาว่าควรที่จะ‬ ‭ปรับปรุง แก้ไขปัญหา หรือพัฒนาอะไรบ้าง‬ ‭ นวคิดฐานข้อมูลและสถาปัตยกรรมฐานข้อมูล‬ แ ‭ ญหาที่พบในการวิเคราะห์ข้อมูล‬ ปั ‭Information system‬ ‭1.ข้อมูลที่นำมาวิเคราะห์ไม่มีคุณภาพ / ขาดการระบุถึงแหล่งข้อมูล/ ไม่มีนิยามการป้อนข้อมูลที่ชัดเจนทำให้‬ ‭จัดเก็บ ประมวลผล นำเสนอ ดำเนินการโดยบุคคลหรือคอมพ์ จัดการข้อมูลจำนวนมากๆแทนมนุษย์ ลดค.ผิด‬ ‭ผู้ใช้งานมีความเข้าใจที่แตกต่างกัน/ ขาดผู้รับผิดชอบในการบริหารจัดการข้อมูล‬ ‭พลาดจากข้อจำกัดของมนุษย์‬ ‭2.ปัญหาด้านอื่นๆ บุคลากรไม่มีทักษะ ขาดการกำหนดวัตถุประสงค์และเป้าหมาย‬ ‭File System‬ ‭จัดเก็บข้อมูลหลายๆเรคคอร์ด‬ ‭ขาดความเชื่อมั่นในข้อมูล เชื่อมั่นว่า ดีที่สุด ถูกต้องที่สุด‬ ‭จัดเก็บข้อมูล same type / ข้อมูลที่ใช้งานบ่อยๆ frequently used / Master File ต้นฉบับไว้อ้างอิง /‬ ‭Backup File โดยจัดเก็บข้อมูลที่มีความเกี่ยวข้องกันในแต่ละเรื่อง‬ ‭ข้อเสีย‬ ‭ บบจำลองที่ใช้ในการวิเคราะห์ข้อมูล‬ แ ‭1.Data Redundancy ข้อมูลซ้ำซ้อน ทำให้เปลืองเนื้อที่ในการเก็บ ต้องตามแก้ไขข้อมูลทุกที่‬ ‭แบบจัดกลุ่ม‬ ‭2.Data Inconsistency ข้อมูลไม่ตรงจากการแก้ไขหลายที่‬ ‭1.Classification Model‬‭แบบจำลองการจัดหมวดหมู่ supervised‬‭data จัดกลุ่มข้อมูลโดยมีตัวแปร มีเกณฑ์‬ ‭3.Data Anomaly เกิดความผิดปกติของการ เพิ่ม ลบ แก้ไข เช่น ข้อมูลลูกค้าหายจากการลบข้อมูลสินค้า ต้อง‬ ‭ในการแบ่ง เป็นแบบจำลองที่ดีที่สุดในการวิเคราะห์ข้อมูล yes/no, A/B/C สามารถจำแนกแยะแยกได้อย่าง‬ ‭เก็บข้อมูล2อย่างนี้แยกกัน‬ ‭ชัดเจน จัดกลุ่มข้อมูลตามรูปที่ปรากฏ‬ ‭เพิ่มข้อมูล‬‭เพิ่มไม่ครบถ้วน ไม่สัมพันธ์กัน‬ ‭วิธีจำแนก‬ ‭ลบข้อมูล‬‭ลบข้อมูลที่ไม่ควรลบไปด้วย‬ ‭-Decision Tree‬‭เป็นแบบ Supervised Learning‬ ‭แก้ไขข้อมูล‬‭แก้ไม่ครบ แก้ไม่ตรง กระทบข้อมูลในตาราง‬ ‭การเรียนรู้โมเดลแบบมีครูสอน โครงสร้างประกอบด้วย‬ ‭Database‬ ‭Root Node / Child / Leaf Node‬ ‭การจัดเก็บข้อมูลโดยยึดชุดข้อมูลตามแหล่งการเกิดข้อมูลและสร้างค.สัมพันธ์ระหว่างชุดข้อมูล ลดค.ซ้ำซ้อน‬ ‭-Naïve Bayes Method‬‭หาความน่าจะเป็นของสิ่งที่ยังไม่‬‭เกิดขึ้น ด้วยกรคาดเดาจากสิ่งที่เคยเกิดขึ้นมาก่อน‬ ‭ใช้ฐานข้อมูลเดียวกัน มี Dynamic มีค.อิสระทางข้อมูล เชื่อมโยงกันและควบคุมได้จากส่วนกลาง‬ ‭-K-nearest Neighbor (K-NN)‬ ‭ข้อเสีย‬‭โปรแกรมซับซ้อน ราคาสูง ต้องมีผู้เชี่ยวชาญ‬‭ความเป็นเจ้าของข้อมูลลดลง‬ ‭ทำงานแบบ Unsupervised learning‬ ‭เปรียบเทียบกับข้อมูลที่สนใจกับข้อมูลอื่นว่ามีค.คล้ายคลึง‬ ‭มากน้อยเพียงใด นิยมใช้ในการพยากรณ์‬ ‭ข้อมูลที่เป็นแบบประเภทนามบัญญัติ‬ ‭.Clustering Model‬ 2 ‭แบบจำลองประเภท Unsupervised Model มุ่งเน้นจัดเรียงข้อมูลเป็นกลุ่ม โดยจำแนกข้อมูลต่างลักษณะที่‬ ‭คล้ายกัน/ต่างกันของข้อมูล‬‭แบ่งตามคุณลักษณะที่กำหนด‬‭ขึ้น ไม่มี Target เป็นตัวต้นแบบ ทำให้ไม่สามารถ‬ ‭วัดผลในเชิง Accuracy ได้ เช่น ไม่เคยมีการจัดประเภทมาก่อนเลย นิยมใช้ประสบการณ์ของผู้ใช้เป็นหลัก‬ ‭-K-means Clustering การวิเคราะห์แบบไม่เป็นขั้นตอน หรือแบ่งส่วน‬ ‭-Hierarchical Clustering นิยมใช้ในการจัดกลุ่ม case หรือ ตัวแปร‬ ‭ บบจำลองพยากรณ์‬ แ ‭-Forecast Model แบบจำลองพยากรณ์ เป็นแบบจำลองที่เกี่ยวข้องกับการทำนายข้อมูล เชิงปริมาณ‬ ‭-Outliers Model แบบจำลองค่าข้อมูลผิดปกติ นิยมใช้ในการเงิน ธนาคารเพื่อลดปัญหาการฉ้อโกง‬ ‭-Time Series Model แบบจำลองอนุกรมเวลา ช่วงเวลาซ้ำๆ ใช้ลำดับจุดของข้อมูล‬ ‭ช่วยให้ผู้วิเคราะห์เข้าใจชุดข้อมูลในช่วงเวลาใดเวลาหนึ่ง‬ ‭เช่น การวิเคราะห์จำนวนนักท่องเที่ยวในช่วงเทศกาล/วันหยุด‬ ‭ omain‬‭ต้องมีการกำหนดชื่อ ประเภทข้อมูล และรูปแบบ‬ D ‭ ระเภทแบบจำลองฐานข้อมูล‬ ป ‭ ถาปัตยกรรมฐานข้อมูล‬ ส ‭ที่ชัดเจน‬ ‭File Management System‬ ‭Schema‬ ‭Relationship‬‭คือรูปแบบคสพ.ระหว่าง‬‭Entity‬ ‭Hierarchical Database System 1 to many‬ ‭นิยามโครงสร้างข้อมูลที่กำหนด‬ ‭กำหนดรูปแบบการเชื่อมโยงของข้อมูลใน Entity‬ ‭Network Database System‬ ‭many to many‬ ‭รายละเอียดในการจัดเก็บ‬ ‭Key‬‭= Attribute ที่ใช้บ่งบอกค.แตกต่างของแต่ละแถว‬ ‭Relational Database System‬ ‭ระเบียนข้อมูลแต่ละรายการ‬ ‭Key Attribute = Attribute ที่เป็นส่วนหนึ่งของ key เกิด‬ ‭Object-Oriented Database Management System‬ ‭Instance‬ ‭จากการรวมกันของ Attribute เรียกว่า‬‭Composite key‬ ‭รายละเอียดข้อมูลภายในของระเบียนแต่ละ‬ ‭Super Key‬ ‭กลุ่ม Attributes ที่สามารถบอกค.แตกต่าง‬ ‭แอตทริบิวต์‬ ‭ของแต่ละแถวในตารางเดียวกัน ได้อย่างชัดเจนและไม่ซ้ำ‬ ‭ประกอบด้วย 3 ระดับตามการ‬ ‭กัน เช่น Student( StudentID,Name,Email,Phone)‬ ‭กำหนดมาตรฐานของ ANSI‬ ‭StudentID / StudentID,name / Email‬ ‭(American National Standard Institute)‬ ‭Candidate Key คีย์คู่แข่ง‬‭เป็น Super Key ที่น้อยที่สุด‬ ‭ในปี1975 ได้แก่‬ ‭ไม่ซ้ำกันและระบุระเบียนได้ เช่น Student / email /‬ ‭ระดับภายนอก (External Level)‬ ‭Phone‬ ‭-แสดงข้อมูลที่ถูกดึงมาจากฐานข้อมูลระดับแนวคิด หน้าต่างหรือวิวที่‬ ‭Primary Key‬‭เป็น Candidate Key ที่ถูกเลือกให้เป็นตัว‬ ‭ผู้ใช้ภายนอกมีสิทธิเข้าไปใช้ได้‬ ‭ระบุหลัก/ความแตกต่างของแต่ละแถว ต้องไม่มีค่าว่าง‬ ‭ระดับความคิด (Conceptual Level)‬ ‭หรือซ้ำกัน เช่น StudentID‬ ‭-วิเคราะห์ค.ต้องการ คสพ แล้วนำมาเขียนสกีมา‬ ‭Foreign Key‬‭คีย์นอก ใช้เชื่อมโยงข้อมูลระหว่างตาราง‬‭/รี‬ ‭ระดับภายใน (Internal Level)‬ ‭เลชั่น สามารถเป็นค่า null ได้‬ ‭-อธิบายถึงกระบวนการในการเก็บข้อมูลที่เกิดขึ้นจริง‬ ‭Secondary Key คีย์รอง‬‭ใช้ในการเข้าถึงข้อมูล มีค่าซ้ำ‬‭กัน‬ ‭ได้ เช่น name‬ ‭ ผนภาพความสัมพันธ์ของข้อมูล Entity Relationship‬ แ ‭ฐานข้อมูลเชิงสัมพันธ์ Relation Database‬ ‭ใช้โครงสร้างข้อมูลในเชิงตรรกะหรือแนวคิดของคสพ.‬ ‭ออกแบบการจัดเก็บข้อมูลในรูปแบบของตาราง relation‬ ‭ ลักการเลือกระบจัดการฐานข้อมูล‬ ห ‭ราคา ขนาดข้อมูล ความน่าเชื่อถือ ฟังก์ชันพื้นฐานที่จำเป็น‬ ‭ ntity‬‭คือ วัตถุหรือสิ่งที่ต้องการศึกษาหรือเก็บข้อมูล‬‭มักจะเป็นคำ‬ E ‭การักษาความปลอดภัย การควบคุมการเข้าถึง‬ ‭นาม‬ ‭Attribute (column) ชื่อคุณลักษณะ‬ ‭แสดงค.หมายของข้อมูลที่เก็บ‬ ‭เป็นค่า Atomic (แบ่งไม่ได้แล้ว) และไม่เป็น Multi valued attribute‬ I‭ ntegrity‬‭ความเสมอต้นเสมอปลายในฐานข้อมูล‬ ‭Entity-Relationship Diagrams‬ ‭ ardinality แสดงความสัมพันธ์โดยระบุจำนวนความสัมพันธ์ได้‬ C ‭1.Entity Integrity‬‭ความสมบูรณ์ของเอนทิตี้‬ ‭กำหนดตัวเลขใส่ในวงเล็บ (A,B) A=min B=max‬ ‭ทุกแถวจะต้องมีคีย์หลักที่ไม่เป็น null‬ ‭และ Primary key ต้องไม่ซ้ำกัน‬ ‭2.Referential Integrity‬‭ความสมบูรณ์ของการอ้างอิง‬ ‭ตรวจสอบความถูกต้องของคสพ.ระหว่าง รีเรชั่น เมื่อมีการอ้างอิง‬ ‭ข้อมูลผ่านคีย์นอก(ต้องไม่เป็น null)‬ ‭ onnectivity แสดงความสัมพันธ์แบบการเชื่อมต่อ อธิบายเอนทิตีใน‬ C ‭E-R ว่ามีความสัมพันธ์ระดับใด‬ ‭One-to-one relationship (1:1)‬ ‭ กษณะเอนทิตี‬ ลั ‭ ntity Relationship Model :‬‭E-R Model‬ E ‭One-to-many relationship (1:M)‬ ‭1.Strong Entity‬‭เป็นเอทิตีปกติ‬ ‭เป็นเครื่องมือที่ช่วยในการออกแบบโครงสร้างข้อมูล‬ ‭Many-to-many relationship (M:N)‬ ‭2.Weak Entity‬‭เอนทิตีที่ไม่สามารถเกิดขึ้นเองได้ มี‬‭Primary Key ที่‬ ‭อธิบายในรูปแบบของเอนทิตีและคสพ.ระหว่างเอนทิตี‬ ‭ได้รับมาจากเอนทิตีอื่น‬ ‭มีองค์ประกอบคือ‬‭Entity Attribute Relationship‬ ร‭ ะดับ Relationship‬ ‭1.Entity‬‭ตารางที่มี Attribute อยู่หลายๆ ทัปเพิล(แถว‬‭หรือเรียกว่า‬ ‭1.Unary Relationship มีเอนทิตีมาเกี่ยวข้องเพียงเอนทิตีเดียว‬ ‭Entity Instance )‬ ‭2.Attribute‬‭คุณลักษณะเฉพาะแต่ละเอนทิตี‬ ‭ประเภท‬ ‭.Composite Entity‬‭(ผสม) หรือ Bridge Entity‬ 3 ‭1.แอตทริบิวต์อย่างง่าย (Simple Attribute)‬‭ไม่สามารถ‬‭แบ่งย่อยได้‬ ‭ใช้ปรับ M:N ให้เป็น 1:M โดยนำ Primary key ของ2เอนทิตีมารวม‬ ‭อีกมีเพียงค่าเดียว เป็น Atomic เช่น Age name‬ ‭2.Binary Relationship เกี่ยวข้อง 2 เอนทิตี‬ ‭เป็น Attribute ของ Entity ผสม‬ ‭2.แอตทริบิวต์อย่างง่าย (Simple Attribute)‬ ‭สามารถแบ่งย่อยได้ เช่น Address ก็แบ่ง city provide ได้อีก‬ ‭3.แอตทริบิวต์ค่าเดี่ยว (Single-value Attribute)‬ ‭มีได้ค่าเดียวในแต่ละแถว เช่น StudentID‬ ‭.Ternary Relationship 3 เอนทิตีทั่วไป สามารถแยกเป็นไบนารีได้‬ 3 ‭4.แอตทริบิวต์หลายค่า (Multi-value Attribute)‬ ‭โดยที่ข้อมูลไม่เปลี่ยนแปลง‬ ‭มีได้หลายค่าในหนึ่งแถว เช่น Author มีได้หลายคน‬ ‭5.ดีไรฟด์แอตทริบิวต์(Derived Attribute)‬ ‭ได้มาด้วยวิธีอื่นที่ไม่ใช่การนำเข้าจากผู้ใช้โดยตรง‬ ‭เช่น ยอดรวมจองหนังสือ ราคารวมสินค้า‬ ‭3.Relationship‬ ‭คสพ ระหว่างเอนทิตี ชื่อที่ใช้จะเป็นคำกริยา‬ ‭เช่น สมาชิกห้องสมุด ยืม หนังสือ‬ ‭.Recursive Entity‬‭เอนทิตีเรียกซ้ำ‬ 4 ‭ tructured Query Language: Se-Quel Language (SQL)‬ S ‭เรียกใช้ตัวเองได้ คสพ แบบยูนารี‬ ‭พัฒนาโดย IBM ในชื่อ Structured English Query Language:‬ ‭SE-QueL‬ ‭โครงสร้างภาษาที่ใช้สำหรับสอบถามข้อมูลแบบมีโครงสร้าง‬ ‭-มีคำถามชัดเจนว่าต้องการอะไร‬ ‭-ลดรายละเอียดที่ไม่เกี่ยวข้อง -ลำดับการถามในแนวทางเดียวกัน‬ ‭แสดงอะไร อยากได้ข้อมูลอะไร‬‭>‬‭เอาข้อมูลมาจากไหน อยู่‬‭ที่ไหน‬‭>‬ ‭เงื่อนไขมีอะไรบ้าง (มีไม่มีก็ได้)‬ ‭.SuperType และ SubType Entity‬‭เอนทีตีแยกระดับ‬ 5 ‭จัดเอนทิตีเป็นลำดับขั้น Hierarchy‬ ‭Super ระดับสูงกว่า‬ ‭Sub ระดับต่ำกว่า‬ ‭พจนานุกรมข้อมูล Data Dictionary‬ ‭ ลุ่มของภาษานิยามโครงสร้างข้อมูล‬ ก ‭Data Definition Language: DDL‬ ‭ใช้ออกแบบหรือนิยามโครงสร้าง‬ ‭-เป็นกลุ่มภาษาใช้นิยามโครงสร้างสกีมา (Schema)‬ ‭-กำหนดรายละเอียดของแอตทริบิวต์(Attribute)‬ ‭-กำหนดรายละเอียดของชนิดข้อมูล (Data Type)‬ ‭-กำหนดรายละเอียดของคีย์ในตารางข้อมูล(Key Attribute)‬ โ‭ ครงสร้าง Attribute ที่อยู่ข้างใน จัดเก็บอะไร‬ ‭ประกอบด้วยกลุ่มคำสั่ง 3 กลุ่ม ได้แก่‬ ‭▪ ชุดคำสั่งสำหรับสร้างตาราง (Create Table)‬ ‭▪ ชุดคำสั่งสำหรับแก้ไขตาราง (Alter Table)‬ ‭▪ ชุดคำสั่งสำหรับลบตาราง (Drop Table)‬ ‭ ลุ่มภาษาที่ใช้กระทำกับข้อมูลภายในในตาราง‬ ก ‭SELECT ▪ INSERT ▪ DELETE ▪ UPDATE‬ ‭การเลือกข้อมูล‬ ‭SQL การใช้งานคำสั่ง SELECT‬ ‭ ELECT * FROM ชื่อตาราง‬ S ‭SELECT‬ ‭COUNT(*)‬ ‭FROM employees WHERE job_position‬ ‭=‬ ‭ IKE‬‭คำสั่ง ค้นหา ข้อความ หรือ ตัวเลข ภายใน Column‬‭ที่มีข้อมูลภายในตรง‬ L ‭ค้นหาข้อมูล ทั้งหมดที่อยู่ในตาราง เครื่องหมาย * คือการแสดงข้อมูล ทั้งหมดที‬ ‭กับที่กำหนด‬ ‭'Marketing Manager'‬‭แสดง‬‭จำนวน‬‭Marketing Manager ใน‬‭คอลัมน์‬ ‭อยู่ในตาราง‬ ‭job_position‬ ‭รูปแบบคำสั่ง ใช้ เครื่องหมาย‬‭%‬ ‭เพื่อกำหนดรูปแบบใน‬‭การค้นหาข้อมูล‬ ‭SELECT * FROM‬‭employees จะแสดงทุกคอลัม ในตาราง emloyess‬ ‭%an%‬‭แสดงข้อมูลทีมีคำว่า an ประกอบอยู่ด้วย‬ ‭SELECT DISTINCT (job_position) FROM employees‬ ‭ ELECT column,column,... FROM table name‬ S ‭จะแสดงข้อมูล เฉพาะ Column ที่เราได้เลือกไว้‬ ‭D%‬ ‭แสดงข้อมูลทีมีคำว่า D อยู่เป็นลำดับแรก‬ ‭จะแสดงข้อมูลในคอลัม job_position ทั้งหมดที่มีข้อมูลไม่ซ้ำกัน‬ ‭SELECT id,first_name,last_name FROM employees‬ ‭%E‬ ‭แสดงข้อมูลทีมีคำว่า Eอยู่เป็นลำดับสุดท้าย‬ ‭จะแสดง คอลัมม์ id,first_name,last_name จากตาราง employees‬ ‭ QL‬‭WHERE‬‭กำหนดเงื่อนไขในการ ค้นหาข้อมูล‬ S ‭ RDER BY‬ O ‭IN‬‭คำสั่ง ในการค้นหาข้อมูลภายใน Column ที่กำหนด‬ ‭SELECT * FROM employees‬‭WHERE‬‭job_position = 'Graphic‬‭Designer'‬ ‭เรียงลำดับข้อมูล Column ที่เลือก‬ ‭desc มากไปน้อย‬ ‭SELECT * FROM employees WHERE company IN('Skinder','Fiveclub')‬ ‭ นหาข้อมูลจากตาราง employees ที่มี job_position (คอลัมม์)เท่ากับ Graphic‬ ค้ ‭asc น้อยไปมาก‬ ‭Designer‬ ‭SELECT * FROM employees‬‭ORDER BY‬ ‭first_name ASC‬ ‭แสดงข้อมูล ชื่อพนักงาน (first_name) โดยเรียบลำดับจาก น้อยไปหามาก‬ ‭ oolean AND OR < >= != ==‬ B ‭HAVING‬‭ใช้กรองผลลัพธ์หลังการจัดกลุ่ม‬ ‭การ select มากกว่า 1 ตาราง ต้องหาร Primary key แต่ละ Entity มา = กัน‬ ‭ใช้ร่วมกับคำสั่ง WHERE เพื่อกำหนดเงื่อนไข‬ ‭ใช้ได้กับค่าที่ได้จากฟังก์ชันกลุ่ม ใช้ร่วมกับ GROUP BY‬ ‭SELECT * FROM employees WHERE job_position = 'Graphic Designer'‬ ‭ ELECT Category, SUM(Quantity) AS TotalQuantity FROM Sales GROUP BY‬ S ‭AND‬‭gender = 'Male'‬ ‭Category‬‭HAVING‬‭SUM(Quantity) > 100;‬ ‭แสดงข้อมูลพนักงานที่มีตำแหน่งตรงกับ Graphic Designer และ เป็น ผู้ชาย‬ ‭ข้อมูลถูกจัดกลุ่มตาม Category ใช้ SUM(Quantity) เพื่อหายอดรวมของแต่ละ‬ ‭ประเภท เงื่อนไข‬‭HAVING‬‭SUM(Quantity) > 100 ใช้กรอง‬‭เฉพาะกลุ่มที่มียอด‬ ‭ ETWEEN‬ B ‭รวมเกิน 100‬ ‭คำสั่ง between คือคำสั่งสำหรับ การค้นหาข้อมูล ที่มีค่าระหว่างค่าเริ่มต้น และ‬ ‭สิ้นสุด‬ ‭SELECT * FROM `employees` WHERE salary‬‭BETWEEN‬‭20000‬‭AND‬ ‭25000‬ ‭หัวข้อที่ 4 การทำเหมืองข้อมูล Data Mining‬ ‭Knowledge discovery in databases = KDD‬ ‭Data mining‬‭การค้นหาค.รู้ที่อยู่ในฐานข้อมูล ประยุกต์‬‭ข้อมูลให้เกิดประโยชน์‬ ‭กระบวนการระบุรูปแบบที่มีค.ถูกต้อง ใหม่ มีประโยชน์ understandable structure‬ ‭เป็นกระบวนการที่ทำงานกับข้อมูลที่ซับซ้อนมากๆ เพื่อหาความสัมพันธ์หา pattern ของข้อมูล‬ ‭KDD อยู่ในกลุ่ม AI / Machine learning‬ ‭สรุปภาพรวม วิเคราะห์หาแนวโน้ม‬ ‭data mining เป็นเพียงขั้นตอนนึงใน KDD‬‭ทำหน้าที่สร้าง‬‭pattern / model‬‭ที่ใช้ในการ‬ ‭จุดมุ่งหมายหลัก 1.ทำนายอนาคต 2.อธิบายลักษณะร่วมกันของข้อมูล‬ ‭อธิบายข้อมูลมีได้มากกว่า 1 รูปแบบ‬ ‭Technical‬ ‭1.Supervised‬‭ให้คนบอกคำตอบแล้วให้คอมพ์เรียนรู้‬ ‭: Classification ทำนาย (ไม่ใช่ตัวเลข) + Prediction (ข้อมูลที่เป็นตัวเลข)‬ ‭2.Unsupervised‬ ‭ไม่ต้องบอกคำตอบก่อนโปรแกรมจำทำการจัด‬‭กลุ่มให้‬ ‭: Clustering จัดกลุ่ม‬ ‭3.Association Rule‬‭การค้นหากฏ เช่น โปรโมชั่นซื้อของ‬‭คู่กัน‬ ‭Phase 1: data preparation เตรียมข้อมูล เลือกเฉพาะข้อมูลที่เกี่ยวข้อง‬ ‭Phase 2: data reduction ลดขนาด ตัดข้อมูล แปลงข้อมูลให้อยู่ในรูปแบบที่เหมาะสม‬ ‭Phase 3: data modeling/discovery สร้างโมเดล‬ ‭Phase 4: solution analysis วิเคราะห์และตรวจสอบ‬ ‭CRISP DM Methodology‬ ‭1.Business understanding | business object / goal / project plan‬ ‭2.Data understanding รวบรวมข้อมูลที่เกี่ยวข้อง สำรวจตรวจสอบข้อมูล‬ ‭3.Data Preparation >> select / clean / construct /integrate /format /denoise‬ ‭4.Modeling >> select technical / Design / build กลับขึ้นไป 3 ได้‬ ‭5.Evalution ประเมินผล review process สามารถวนกลับไปที่ 1 ได้‬ ‭6.Deployment เอาไปใช้งาน plan deployment + maintenance‬ ‭2.แบบ ARFF file‬‭มีรายละเอียดของแอตทริบิวต์‬ ‭Attribute-Relation File Format (ARFF)‬ ‭WEKA = Waikato Environment for Knowledge Analysis‬ ‭Main GUI‬‭(graphic user interfaces)‬ ‭Preprocess จัดการข้อมูลเตรียมข้อมูล‬ ‭classify จำแนกขอมูล ทำนายข้อมูล‬ ‭ข้อมูลที่ใช้ input‬ ‭cluster จัดกลุ่มข้อมูล‬ ‭1.flie‬ ‭Associate หาข้อมูลที่เกิดร่วมกันบ่อยๆ‬ ‭2.URL internet‬ ‭select attributes เลือกแอตทริบิวต์ที่สำคัญ‬ ‭3.DB Database‬ ‭Visualize แสดงผลในรูปแบบกราฟ‬ ‭4.Generate data ข้อมูลจำลอง‬ ‭1.แบบ CSV file‬ ‭Comma Separated Value‬ ‭ใช้ , แบ่งระหว่างแอตทริบิวต์‬ ‭ไม่มีรายละเอียดของแอตทริบิวต์‬ ‭เปิดใน excel ได้‬ ‭¤ Missing: จํานวนข้อมูลในแอตทริบิวต์ที่ขาดหายไป‬ ‭¤ Distinct: จํานวนของข้อมูลที่เป็นไปได้ ทั้งหมด เช่น sunny, overcast, rainy‬ ‭¤ Unique: จํานวนข้อมูลที่มีการปรากฏขึ้น แค่ครั้งเดียวในแอตทริบิวต์‬ ‭All‬‭เลือกทุกแอตทริบิวต์‬ ‭None‬‭เคลียร์แอตทริบิวต์ที่เลือกอยู่ก่อนแล้ว‬ ‭Invert‬‭สลับสถานะของแอตทริบิวต์ ระหว่างถูกเลือกและไม่‬‭ถูกเลือก‬ ‭Pattern‬‭ใช้ในการเลือกแอตทริบิวต์ที่มีชื่อตามเงื่อนไข‬‭ที่กำหนด‬ ‭เช่น Regular Expression‬ ‭Remove‬‭ลบแอตทริบิวต์ที่เลือกออก‬ ‭Data Preprocesing‬ ‭Discretization‬‭แปลงข้อมูล numberic เป็น‬‭nominal (ลักษณะประเภท)‬ ‭Attribute = variable, field, or feature‬ ‭โดยแบ่งกลุ่มของข้อมูลเป็นระดับ ตามเงื่อนไข‬ ‭Object = record, case, sample, or instance‬ ‭Graphical Methods for Identifying Outliers‬ ‭-ค่าผิดปกติคือค่าที่ใกล้เคียงกับขอบเขตข้อมูลสูงสุด near extreme limits of data range‬ ‭-ค่าผิดปกติอาจแสดงถึงข้อผิดพลาดในการป้อนข้อมูล‬ ‭-Certain statistical methods‬‭very sensitive to outliers‬‭and may produce unstable results‬ ‭-Neural Networks and k-Means benefit from normalized data‬ ‭การ Detect outlier‬‭in Weka: filters > unsupervised‬‭> attribute > InterquartileRange‬ ‭การแก้ปัญหาหน่วยความจำไม่พอให้โปรแกรมทำงาน‬ ‭Generate setting numExamples เป็น 1,000,000‬ ‭เปลี่ยนค่าของ maxheap ให้มากขึ้น (แต่ไม่เกินขนาดของหน่วยความจําภายในเครื่อง)‬ ‭approximate_memory= number of attribute * number of instances * 8‬‭(จำนวน byte ที่‬ ‭เก็บข้อมูลตัวเลข 1 ตัว )‬ ‭Prepare Data‬‭ใช้เวลานานที่สุด‬ ‭ex ข้อมูล 10,000,000 instances และมี 10 attributes จะต้องใช้หน่วยความจําอย่างน้อย 800 MB‬ ‭โมเดลจะให้ผลลัพธ์ที่ถูกต้องหรือไม่ขึ้นอยู่กับคุณภาพของ‬‭ข้อมูลที่ใช้‬ ‭แบ่งได้ 3 ขั้นตอน‬ ‭Build a Model‬ ‭ขั้นตอนการวิเคราะห์ข้อมูล‬ ‭1.Data Selection เลือกเฉพาะข้อมูลที่เกี่ยวข้อง‬ ‭2.Data Cleaning กลั่นกรองข้อมูล จัดการข้อมูลซ้ำซ้อน ขาดหาย ผิดพลาด‬ ‭3.Data Transformation แปลงรูปแบบข้อมูล พร้อมนำไปใช้‬ ‭Choosing the sample size‬ ‭จํานวนของอินสแตนซ์(records) >=5,000 ข้อมูลน้อยค.น่าเชื่อถือของโมเดลก็น้อยตาม‬ ‭ทำไมต้องมีการเตรียมข้อมูล‬ ‭1.ข้อมูลดิบมัก incomplete + noisy‬ ‭2.Obsolete fields‬ ‭3.Missing values‬ ‭4.Outliers ค่าที่ผิดปกติ‬ ‭Classification Idea‬ ‭5.Data in‬‭form not suitable‬‭for data mining‬ ‭6.Erroneous values‬ ‭Replace Missing Values‬‭with Mode or Mean‬ ‭Nomimal‬‭แทนด้วย‬‭Mode‬‭ฐานนิยม ค่าที่ปรากฏบ่อยที่สุด‬ ‭Numberic‬‭แทนด้วย‬‭Mean‬‭ค่าเฉลี่ย‬ ‭Classifier‬ ‭bayes‬‭อาศัยความน่าจะเป็น‬ ‭functions‬‭คำนวณ สมการ‬ ‭lazy‬‭ไม่มีการสร้างโมเดลไว้ก่อน ใช้ข้อมูลเรียนรู้‬‭จำแนกข้อมูลใหม่‬ ‭meta‬‭รวมหลายเทคนิค เพื่อเพิ่มความถูกต้อง‬ ‭tree‬‭โมเดลต้นไม้‬ ‭rules‬ ‭Test options‬ ‭Classifier output‬ ‭1.Use training set‬ ‭ใช้ข้อมูลตัวเดิม‬ ‭2.Supplied test set‬‭(Hold out method)‬ ‭ใช้ข้อมูลใหม่ unseen data‬ ‭3.Percentage split‬‭(Hold out method)‬ ‭แบ่งข้อมูลออกเป็น x% เพื่อสร้างโมเดล ส่วน % ที่เหลือใช้ test‬ ‭4.Cross-validation‬‭(Leave-one-out method)‬ ‭แบ่งข้อมูลออกเป็นส่วนเท่าๆกัน (folds)เพื่อใช้ test โดยห้ามเกินจำนวน instance‬ ‭Validation Techniques‬ ‭Result list‬ ‭Predictor Error Measures‬ ‭week 5 Data science and Security‬ ‭Security of Data sci‬ ‭3.Data Mining Solutions model ทำงานถูกต้องปลอดภัยมั้ย‬ ‭Cybersecurity‬‭เป็นเทคนิค กระบวนการ แนวปฏิบัติที่ปกป้อง‬ ‭1.Infrastructure Security‬‭ค.ปลอดภัยของโครงสร้างพื้น‬‭ฐาน‬ ‭4.Access Controls‬ ‭information system จากการโจมตีหรือ unauthorised acess‬ ‭เช่น cloud database เราจะส่งต่อใน networkยังไงให้ปลอดภัย‬ ‭5. EndPoint vulnerability ความปลอดภัยของอุปกรณ์ปลายทาง‬ ‭(Hardware software data network people process)‬ ‭2.Software Security‬ ‭Four Pillars of Security‬ ‭ความไม่สมดุลของ‬ ‭3.Data Protection‬ ‭1.Perimeter‬‭ขอบเขต (Authenticating) การยืนยันตัวตน‬‭log in‬ ‭Digital Transformation กับ Cybersecurity Professionals‬ ‭4.Data Anonymisation‬‭ซ่อนตัวตนของเจ้าของข้อมูล‬ ‭2.Accessการ‬‭เข้าถึง (Authorising) มีสิทธิ์เข้าถึงอะไร‬‭บ้าง‬ ‭DT ต้องการความAgility speed connectivity นำเทคใหม่มาเร่งใช้‬ ‭Data Science for Security‬ ‭3. Visibility‬‭การมองเห็น (Auditing)‬ ‭ทำให้เกิดช่องโหว่ด้านความปลอดภัย CP เลยต้องเพิ่ม secure ซึ่ง‬ ‭ตัวอย่าง‬ ‭ตรวจสอบว่าเข้ามาทำอะไรบ้าง report & log‬ ‭อาจทำให้มีขั้นตอนยุ่งยากใช้งานไม่สะดวกและมีความต้องการผู้‬ ‭1.Anomaly Detection‬‭วิเคราะห์ความผิดปกติข้องข้อมูล‬ ‭4.Data‬‭(Architecting)‬ ‭เชี่ยวชาญด้าน Cybersecurity สูงขึ้น แต่ตลาดแรงงานมีผู้‬ ‭2.Threat Detection‬‭ตรวจจับการโจมตี วิเคราะห์การโจมตี‬ ‭OWASP‬‭(Open Web Application Security Project)‬ ‭เชี่ยวชาญไม่เพียงพอ‬ ‭3.Malware Detection and Classification‬ ‭เครื่องมือสำหรับสแกนหาช่องโหว่พวกปัญหาเช่น‬ ‭ประเภท security‬ ‭Big Data‬ ‭-ไม่ตรวจสอบข้อมูลที่ผิดพลาดและทำความสะอาดข้อมูลที่ไม่สมบูรณ์‬ ‭1.Physical ทางกายภาพ‬‭แบ่งออกเป็น อุปกรณ์กับบุคคล‬ ‭Volume ข้อมูลขนาดใหญ่ เกินพันล้าน‬ ‭-ไม่ตรวจการใช้งานและยืนยันตัวตน‬ ‭-อุปกรณ์ unauthorised ไม่มีสิทธิจับต้อง‬ ‭Velocity ความเร็วของข้อมูล เรียลไทม์‬ ‭-เปิดเผยข้อมูลที่ละเอียดอ่อน‬ ‭-บุคคลต้องปลอดภัย ไม่ได้รับบาดเจ็บ‬ ‭Variety ข้อมูลมีความหลากหลาย‬ ‭-กำหนดค่าที่ไม่ปลอดภัย‬ ‭2.Personal‬‭ปกป้อง personal data และ identity‬ ‭Veracity มีความน่าเชื่อถือ‬ ‭Cyber Security Teams‬ ‭3.Operation‬‭การดำเนินงานต้องปกป้องความลับของข้อมูล‬ ‭Value ข้อมูลมีคุณค่า‬ ‭Yellow Team‬‭สร้างระบบ software‬ ‭4.Network‬‭= assets and traffic‬ ‭Valence ความเชื่อมโยงของข้อมูล‬ ‭Red Team‬ ‭ทดสอบเจาะระบบหาช่องโหว่‬ ‭-device อุปกรณ์ที่เกี่ยวข้องข้อง‬ ‭สถาปัตยกรรมของ Big Data‬ ‭Blue Team‬‭แนะนำวิธีป้องกัน ตอบสนองต่อการโจมตี‬ ‭-ข้อมูลที่วิ่งอยู่บนเครือข่าย‬ ‭-ช่องทางการสื่อสาร ทั้งไร้สายและมีสาย‬ ‭Cloud Security‬ ‭5.Information‬‭ปกป้องข้อมูลทุกรูปแบบ‬ ‭เมื่อก่อน ซื้อ ฮาร์ดแวร์เอง on premise ปัจจุบัน on cloud เป็น‬ ‭ประเภท data‬ ‭as a servive‬ ‭1.static data‬‭ข้อมูลที่อยู่กับที่ data as rest‬ ‭Cloud Security Challenges‬ ‭เช่น Harddisk database‬ ‭1.Threat Intelligence and Security Content‬ ‭2.dynamic data‬‭(data in transit)‬ ‭การโจมตีมีการเปลี่ยนแปลงอย่างรวดเร็วข้อมูลที่มีอยู่อาจล่าหลังใช้‬ ‭ข้อมูลที่กำลังเคลื่อนที่ เช่น ข้อมูล จาก server ไป user‬ ‭งานไม่ได้‬ ‭3.being process‬‭ข้อมูลที่กำลังประมวผลอยู่‬ ‭2.Human Expertise ความเชี่ยวชาญ‬ ‭เช่น การประมวลผลเพื่อส่งผลลัพธ์กลับมา‬ ‭ปัญหาความปลอดภัยของ Big data‬ ‭3.Security Tools เลือกเครื่องมือไม่เหมาะสม ม่อัปเดต ราคาสูง‬ ‭CIA MODEL‬ ‭1.Insecure Computation ไม่มีการป้องกันที่เพียงพอ‬ ‭Technical Challenges‬ ‭Confidentiality ความลับ‬ ‭เช่น การใช้ API ที่ไม่มีการตรวจสอบสิทธิ์ของผู้ใช้‬ ‭1. Loss of Visibility สูญเสียการมองเห็น เช่น ใช้ cloud หลายที่‬ ‭Integrity ความถูกต้อง ความสมบูรณ์ของข้อมูล‬ ‭2.Input Validation and Filtering ตรวจสอบและกรอง‬ ‭ทำให้ติดตามยากไม่รู้ว่าเก็บข้อมูลไว้ที่ไหน‬ ‭Availability ความพร้อมใช้งาน เข้าถึงได้ตลอดเวลาที่ต้องการ‬ ‭3.Privacy Concerns in Data Mining and Analytics‬ ‭2. Compliance Violations ไม่ทำตามนโยบายที่กำหนดไว้‬ ‭ความเป็นส่วนตัวระหว่างการประมวลผลของข้อมูล‬ ‭3. Lack of Cloud Security Strategy and Architecture‬ ‭4.Granular Access Control ควบคุมการเข้าถึงแบบละเอียด‬ ‭ไม่มีกลยุทธ์แผนระยะยาว‬ ‭Security of Data sci‬ ‭Data sci for security‬ ‭5.Insecure Data Storage จัดเก็บข้อมูลไม่ปลอดภัย‬ ‭4. Insider Threats‬ ‭การรักษาค.ปลอดภัยให้กับข้อมูล‬ ‭กระบวนการวิเคราะห์ข้อมูล เพื่อให้‬ ‭ความท้าทายของ Big Data‬ ‭5. Contractual Breaches ไม่ทำตามสัญญา‬ ‭หรือสิ่งที่เกี่ยวข้องกับ datasci‬ ‭secure process ทำงานมี‬ ‭1.Distributed Data ข้อมููลกระจายอยู่หลายที่ไป secure ยาก‬ ‭6. Insecure API‬ ‭ประสิทธิภาพ เช่น Antivarus pg‬ ‭2.Non-Relational Databases ฐานข้อมูลซับซ้อน‬ ‭7. Misconfiguration of Cloud Services กำหนดค่าไม่ถูกต้อง‬ ‭แนวปฏิบัติ‬ ‭1.Keep it simple and thus secure (KISS) ทำให้เข้าใจง่าย‬ ‭2.fully understand‬ ‭3.simplicity > complexity / Use standardised tools‬ ‭4.รับรองสิทธิ์การเข้าถึงที่แน่นหนา ใช้การพิสูจน์ตัวตน พาสเวิร์ด‬ ‭Data Science for Security‬ ‭week 5 Big Data‬ ‭แล้ว Big data คืออะไรหล่ะ‬ ‭พัฒนาการของ Big Data‬ ‭มันคือกระบวนการเก็บชุดข้อมูลที่มีขนาดใหญ่(มาก)และซับซ้อนและ‬ ‭ในอดีต มีการ generating ข้อมูลน้อย เช่น พวกรายการทีวี‬ ‭ยากเกินกว่าคอมพิวเตอร์ปกติทั่วไปจะประมวลผลได้‬ ‭แต่ในปัจจุบัน ทุกคนล้วนเป็นคน generate ข้อมูล เช่น youtube‬ ‭มากขนาดไหนก็ Petabyte ละมั้ง‬ ‭tiktok‬ ‭Tradition Data (DB)‬ ‭Big data‬ ‭data‬ ‭< PB มีโครงสร้าง(เป็น‬ ‭>= PB‬ ‭ตาราง มีลักษณะของข้อมูล‬ ‭เป็นได้ทั้งมีโครงสร้างและ‬ ‭ชัดเจน)‬ ‭ไม่มีโครงสร้าง ( รูป เสียง‬ ‭ข้อมูลที่ต้องเอามาระบุค.‬ ‭หมายของข้อมูล)‬ ‭hardware‬ ‭Large sever‬ ‭computer clusters‬ ‭น่าเชื่อถือ / ขยายขนาดไม่ได้‬ ‭ไม่น่าเชื่อถือ ขยายขนาด‬ ‭รันได้บนเครื่องเดียว‬ ‭ได้‬ ‭คุณสมบัติ‬ ‭1.Historian รู้เหตุการณ์ที่เคยเกิดขึ้น‬ ‭Software‬ ‭centralized data base‬ ‭Distributed‬ ‭2.Coder‬ ‭schema base‬ ‭no schema base‬ ‭Oracle / mySQL‬ ‭Hadoop‬ ‭3.Visualiser เอาข้อมูลออกมาเป็นภาพได้‬ ‭ บิต 1 ไบต์ 1024 B K M G T P‬ 8 ‭4.Modeler‬ ‭Big data source‬ ‭5.Storyteller เล่าเรื่องได้‬ ‭-‭จ ‬ ากคน‬‭เช่น รูป วิดีโอ ข้อความ โซเชียล‬ ‭ต่างกันที่ขนาดและการคำนวณ‬ ‭6.Hacker‬ ‭-‭M ‬ achine‬‭เช่น logs sensor IoT‬ ‭Cyber Security Data Science Process‬ ‭-‭W ‬ eb data‬‭: social click stream‬ ‭1.Use case‬ ‭2.Data : Acquisition + clean‬ ‭3.Exploratory Data Analysis : Feature extraction กำหนด‬ ‭ลักษณะ / Model design/ Model validation‬ ‭4.Production Deployment‬ ‭5.Result‬ ‭ V of Big data‬ 5 ‭1.Volum‬‭= scale of data‬ ‭2.Velocity‬‭= the speed of data / real time‬ ‭3.Verity‬‭= Different forms‬ ‭4.Value‬‭= ข้อมูลมีคุณค่า‬ ‭5.Veracity‬‭= ความน่าเชื่อถือ‬ ‭Big data Goal‬ ‭Hadoop‬‭cluster computing abstraction‬ ‭1.ทำให้องค์กร more smarter and efficient‬ ‭เป็น software หรือ‬‭O‭p ‬ erating‬‭S‬‭ystem of Big data‬ ‭เช่น การวิเคราะห์ข้อมูลเพื่อป้องกันภัยคุกคาม ใช้พยากรณ์‬ ‭-รองรับการใช้งานขนาดใหญ่‬‭Distributed data storage‬ ‭-‭P ‬ arallel computing‬‭คำนวณแบบขนานได้ คือ เอาทุกตัวมา‬ ‭2.ใช้วิเคราะห์พฤติกรรมลูกค้า เช่น‬ ‭ประมวลพร้อมกัน‬ ‭อเมซอน ใช้ cliclstream + ประวัติการซื้อ to ทำนายการซื้อสินค้า‬ ‭-เป็น open source software‬ ‭P&G หา association ระหว่างสินค้า เช่นถ้า ซื้อ A แล้วจะ ซื้อ Bด้วย‬ ‭-base on linux and cmd‬ ‭★‬ ‭เมื่อไหร่ที่ควรใช้ Hadoop‬ ‭3.ลดต้นทุน‬ ‭-ใช้ประมวล Big data จริงๆ‬ ‭เช่น ใช้ทำนายผู้ป่วยที่มีความเสี่ยงสูง ใช้‬ ‭-เก็บค.หลากหลายของข้อมูล‬ ‭sensor ทำนายเวลสการซ่อมบำรุง‬ ‭-ประมวลผลแบบ Parallel‬ ‭★‬ ‭เมื่อไหร่ที่ไม่ควรใช้‬ ‭4.Next generation product‬ ‭-วิเคราะห์แบบ real time‬ ‭เช่น google self drivingcars‬ ‭-data base‬ ‭netflix สร้าง tv show โดย based on จากผู้ชม‬ ‭-ระบบไฟล์ network ทั่วไป‬ ‭-ทำ parallel ไม่ได้ ต้องทำเป็นขั้น/เงื่อนไข‬ ‭Data Product‬ ‭-Derives value from data ได้ค่ามาจากข้อมูล‬ ‭Type of Data Analytics‬ ‭ผลิตข้อมูลได้มากขึ้น มีมูลค่ามากขึ้น‬ ‭1.Descriptive Analysis‬‭:‬‭What is happening‬‭now e.g.,‬ ‭-Data + Statistical Algorithms‬ ‭google analytics‬ ‭for prediction‬ ‭MapReduce‬ ‭เป็นตัวคำนวณประมวลผล‬ ‭2.Predictive Analysis‬‭: What might happen in the future‬ ‭เช่น mazon recommendation ซื้ออันนี้แล้วต้องซื้ออันนี้ด้วย‬ ‭โดยย้ายโปรแกรมไปที่ข้อมูล‬ ‭e.g., preventive maintenance‬ ‭HDFS‬‭เป็นตัวเก็บไฟล์‬ ‭3.Prescriptive Analysis‬‭: What action should be taken‬ ‭ความสามารถของ Hadoop‬ ‭YARN‬‭เป็นตัวจัดการทรัพยากร Hardware‬ ‭e.g., self driving cars‬ ‭1.Fault Tolerance‬‭ทนต่อข้อผิดพลาด‬ ‭4.Diagnostic Analysis‬‭: Why did it happen e.g., social‬ ‭2.Recoverability‬‭: boot กลับมา run ที่เหลือต่อได้‬ ‭โครงสร้าง Hadoop‬ ‭media analytics‬ ‭3.Consistency‬‭ข้อมูลตรงกันทุกที่‬ ‭4.Scalability‬‭รองรับการขยายขนาด‬ ‭High Performance Computing หรือ Super Computer‬ ‭1.Science & Engineering: พยากรณ์อากาศ, Deep learning‬ ‭ตัวอย่างการใช้ Big Data‬ ‭2.Commercial & Business : Filmmaker,Search Engine‬ ‭-เข้าใจพฤติกรรมลูกค้า‬ ‭The fastest computer of the world Now is‬ ‭-เข้าพฤติกรรมของผู้เล่นเกม เช่น candy crush‬ ‭El Capitan @LLNL จาก CA USA‬ ‭-Tesla analyze connected car‬ ‭in Thailand‬‭:‬‭LANTA‬ ‭- telecommunication company : BT‬

Use Quizgecko on...
Browser
Browser