Data Science : Datafinaltest PDF

‭ eek 1 What is Data science‬ W ‭Data Scientist‬ ‭กระบวนการศึกษาข้อมูลมาสร้างเป็นความรู้ เพื่อมา‬ ‭ทำนาย คาดการณ์ วิเคราะห์แนวโน้มที่จะเกิดขึ้น‬ ‭เกี่ยวข้องกับ extracting การสกัดดึงข้อมูลออกมา‬ ‭creating และ processing‬ ‭process‬ ‭1.Bussiness problem‬‭ต้องการแก้ปัญหาอะไรให้‬ ‭องค์กร‬ ‭2.Data Acquistion‬ ‭การได้มาซึ่งข้อมูล‬ ‭-web server ดึงข้อมูล‬ ‭-logs‬ ‭-Data base‬ ‭-API‬ ‭-Online rerositirise‬ ‭3.Data Preparation‬‭การเตรียมข้อมูล‬ ‭ กษะ‬ ทั ‭-Cleaning ทำความสะอาดข้อมูล‬ ‭1.Statistics Machine Learning Optimization‬ ‭-Transformation‬ ‭การเขียนโปรแกรมเชิง data minding ปรับแต่งให้มันดี‬ ‭4.Exploratory data analysis‬ ‭ตลอดเวลา ขัดเกลาปรับแต่งข้อมูลเรียนรู้สิ่งที่มี‬ ‭ กษะและ skillที่เกี่ยวข้อง‬ ทั ‭-Defines and refined selection of feature‬ ‭ประโยชน์‬ ‭1.Fundamentals‬ ‭กำหนดและปรับแต่ง‬ ‭2.Progamming CS Fundament‬ ‭2.Statistics‬ ‭5.Data modeling‬ ‭3.Visualization‬‭ใช้โปรแกรมในการแสดงผล‬ ‭3.Programming‬ ‭ex KNN, Native base decission‬ ‭4.Business and Domain‬ ‭4.Machine Learning‬ ‭5.Text Mining / NLP‬ ‭6.Visualization and communication‬ ‭5.Big Data Cloud Computing‬ ‭6.Visualization : Tree Scatter Line Charts‬ ‭ex Dashboard powerBI‬ ‭6.Communication Storytelling‬‭ทักษะการสื่อสาร‬ ‭7.BIg data : Hadoop‬ ‭7.Deploy and maintain‬ ‭8.Data Ingestion การนำเข้าข้อมูล‬ ‭9.Data Munging การปรับแต่งข้อมูล ตัดพวกข้อมูลผิดๆ‬ ‭10.Toolbox‬ ‭Data Analytics Levels‬ ‭Data Type‬ ‭Qulitative เชิงคุณภาพ‬ ‭Quantitative เชิงปริมาณ‬ ไ‭ ม่สามารถประเมินได้ วัดไม่ได้‬‭นับไม่‬ นั ‭ บได้‬‭ตัวเลข สถิติ ค่าเฉลี่ย ค่าที่‬ ‭ได้ เช่น รูปภาพ ข้อความทั่วๆไป‬ ‭คำนวณมาแล้ว เท่าไหร่ บ่อยแค่ไหน‬ ‭คะแนน น้ำหนัก อายุ ส่วนสูง‬ ‭ iscrete‬ ‭ไม่ต่อเนื่อง‬‭ไม่สามารถหา‬ D ‭เศษได้‬‭เอาข้อมูลเป็นจำนวนเต็ม‬ ‭เช่น จำนวนคน ไม่มีการเอาเศษมาคิด‬ ‭ไม่มี1.5 คน‬ ‭Continuous‬‭ต่อเนื่อง เป็นทศนิยม‬ ‭เช่น ความยาว‬ ‭ ตถุประสงค์ที่นำมาใช้วิเคราะห์‬ วั ‭ ดสอบสมมติฐาน พัฒนาการคาดการณ์‬ ท ‭ rend of Predictive Analytics‬ T ‭เข้าใจ อธิบาย และตีความปฏิสัมพันธ์‬ ‭สำหรับอนาคต ตรวจสอบสาเหตุและ‬ ‭และรูปแบบทางสังคม‬ ‭ผลกระทบ‬ ‭-การวิเคราะห์เชิงทำนายคือการมองไปข้างหน้าโดยใช้เหตุการณ์ในอดีตเพื่อ‬ ‭คาดการณ์อนาคต‬ ‭-เทคโนโลยี Business Intelligence ที่เปิดเผย‬ ‭ความสัมพันธ์และรูปแบบภายในข้อมูลปริมาณมาก‬ ‭ซึ่งสามารถใช้คาดการณ์พฤติกรรมและเหตุการณ์ได้‬ ‭ ata > Train > Model > Predict > Forecast‬ D ‭predict‬‭การทำนาย‬ ‭forecast‬‭การพยากรณ์ด้วยข้อมูลและหลักการ‬ ‭ ata Science Life Cycle‬ D ‭1.Business Understand‬ ‭เข้าใจว่าข้อมูลแต่ละแหล่งมีที่มาอย่างไร‬ ‭การกำหนดวัตถุประสงค์ทางธุรกิจ‬ ‭1. รวบรวมข้อมูลความเป็นมา‬ ‭2. ประเมินสถานการณ์‬ ‭3. กำหนดเป้าหมาย‬ ‭4. จัดทำแผนโครงการ‬ ‭2.Data Acquisition and Understanding‬‭นำเข้าข้อมูลมา‬‭วิเคราะห์‬ ‭-Data source อยู่ที่ไหน On premises หรือ cloud database หรือ file‬ ‭-Pipeline มีการส่งข้อมูลเข้ามาอย่างไรบ้าง เช่น แบบ Streaming เรียลไทม์ Batch ไม่เรี‬ ‭ยลไทม์ เช่น การสรุปยอดรายวัน‬ ‭-Data Wrangling ข้อมูลมีโครงสร้างอะไร มาปรับโครงสร้าง‬ ‭-Analysis Environment‬ ‭ etadata‬‭คือ ข้อมูลที่อธิบายถึง “ข้อมูล” (Data about‬‭Data) เหมือนเป็นลักษณะของ‬ M ‭ข้อมูลนั้น มีแบบมาตรฐานกับกำหนดเอง‬ ‭Data Sourcing‬‭การเข้าถึงแหล่งข้อมูลหลากหลายรูปแบบ‬ ‭ด้วยขั้นตอน ETL (Extract, Transform และ Load) ขั้นตอนที่นำข้อมูลเข้ามาเก็บ‬ ‭.Modeling‬‭กระบวนการที่จะเอามาช่วยเพื่อจัดระเบียบ‬ 3 ‭1. Extract (การดึงข้อมูล)‬ ‭กำหนดขอบเขต และกำหนดแนวคิด‬ ‭เดึงข้อมูลจากแหล่งต่าง ๆ มาเก็บไว้ที่พักข้อมูลชั่วคราว (Staging Area)‬ ‭เลือกโมเดลให้เหมาะสมกับข้อมูลที่มี‬ ‭2. Transform (การแปลงข้อมูล)‬ ‭ประเภท‬ ‭นำข้อมูลมาทำความสะอาด เช่น คัดกรองเอาข้อมูลซ้ำออก ปรับแต่ง และแปลง‬ ‭1.Logical แบบจำลองเชิงตรรกะ‬ ‭โครงสร้างข้อมูล เพื่อให้สามารถเก็บไว้ในที่เก็บข้อมูลปลายทาง และเหมาะสมในการนำ‬ ‭ดูกระบวนการ ดูข้อมูลที่ใช้มีอะไรบ้าง ช่วยให้เห็นภาพของการดำเนินงานโครงการที่‬ ‭ไปวิเคราะห์ต่อ‬ ‭เป็นระบบ‬ ‭3. Load (การจัดเก็บข้อมูลเข้าสู่ระบบ)‬ ‭2.Physical แบบกายภาพ เกี่ยวข้องกับ technical และ performance‬ ‭จัดเก็บข้อมูลที่ผ่านการแปลงแล้วเข้าสู่ฐานจัดเก็บข้อมูลปลายทางที่เหมาะสม เช่น‬ ‭พวก software hadware program‬ ‭Database, Data Warehouse, หรือ Data Lake‬ ‭ หล่งข้อมูลที่สามารถนำมาใช้ได้‬ แ I‭ nformation Sourcing Patterns and‬ ‭1.แหล่งข้อมูลภายในองค์กร‬ ‭Challenges‬ ‭เช่น ข้อมูลการปฏิบัติงาน ข้อมูลย้อนหลัง‬ ‭Logical Data Extraction‬ ‭2.แหล่งข้อมูลภายนอกองค์กร‬ ‭– Full extraction เอามาทั้งหมด‬ ‭– Incremental extraction แบ่งเป็นส่วนๆ‬ ‭ ata Landscaping‬ D ‭– Change data capture‬ ‭Dark‬‭มีอยู่แต่ใช้งานไม่ได้‬ ‭Light‬‭มีอยู่เอาไปใช้ได้‬ ‭การรวบรวมข้อมูลการเปลี่ยนแปลง‬ ‭Distant‬‭อยู่ภายนอกองค์กร‬ ‭Physical Data Extraction‬ ‭Close‬‭ข้อมูลภายในองค์กรของคุณและสามารถใช้งาน‬ ‭มีข้อจำกัดทางด้าน Hardware‬ ‭ได้ทัน‬ ‭Automated Data Extraction‬ ‭Data conversion‬‭ความท้าทายในการแปลงข้อมูล‬ ‭ usiness requirement mapping‬ B ‭Metadata gaps‬‭ข้อมูลมีค.แตกต่างกัน‬ ‭KPI Key Performance Indicator‬ ‭Mergers and acquisitions‬ ‭ดัชนีชี้วัดผลงานหรือความสำเร็จของงาน‬ ‭Manual data‬ ‭– mapping ข้อมูลที่เกี่ยวข้อง‬ ‭เก็บข้อมูลด้วยเอง อาจะเกิดค.ผิดพลาด‬ ‭– ระบุวิธีในการนำข้อมูลมา‬ ‭Real-time source data extract‬ ‭– จัดเตรียมไฟล์การแยกข้อมูล เก็บข้อมูลไว้ในรูป‬ ‭แบบไหนบ้าง‬ ‭ ata Granularity‬‭เป็นระดับรายละเอียดของข้อมูล‬ D ‭ความแตกต่างระหว่างกลไก Push กับ Pull‬ ‭ที่มีในชุดข้อมูลหนึ่งๆ‬ ‭Push ข้อมูลระบบส่งมาให้ เตรียมมาให้‬ ‭Pull ดึงข้อมูลเอง กำหนดเองว่าเอาข้อมูลอะไรบ้าง‬ ‭week2 การวิเคราะห์ข้อมูลและการจัดกลุ่มข้อมูล‬ ‭ความแตกต่างระหว่าง Data Analytics กับ Data Analysis‬ ‭Data Analytics‬ ‭Data Analysis‬ ‭ ารวิเคราะห์ข้อมูลที่มีอยู่ใน‬‭ปัจจุบัน‬‭มาหาแนว‬ ก ‭กระบวนการวิเคราะห์ข้อมูลในอดีต‬ ‭โน้มหรือทำนายเหตุการณ์หรือโอกาสที่จะเกิดขึ้น‬ ‭เพื่อหา insignt‬ ‭ในอนาคตและนำข้อมูลไปใช้ประโยชน์ต่อ รวมไป‬ ‭data gathering, data scrubbing,‬ ‭ถึงกระบวนการเก็บรวบรวม, การทำความสะอาด,‬ ‭analysis of data and interpret the‬ ‭การจัดระเบียบ, การจัดเก็บ การธรรมาภิบาล‬ ‭data‬ ‭collecting, cleaning, organizing, storing,‬ ‭governing‬ ‭Form‬ ‭general‬‭ไม่มีโครงสร้าง ใช้สำหรับการตัดสินใจ‬ ‭specialized มีโครงสร้างที่ชัดเจน ปรับ‬ ‭แต่งข้อมูลมาเรียบร้อยแล้ว‬ ‭ งค์ประกอบสำคัญในการวิเคราะห์ข้อมูล‬ อ ‭1.Roadmap and operating model‬ ‭Tool‬ ‭SAS, Apache Spark, Excel‬ ‭a specialized form of data analytics‬ ‭กำหนดนโนบายแผนวิเคราะห์ขึ้นอยู่กับ vision และ strategy‬ ‭used in businesses‬ ‭2.Platform and data architecture‬ ‭Platform ที่เหมาะสมจะช่วยให้สามารถจัดเก็บ ประมวลผล และวิเคราะห์ข้อมูลได้อย่างมีประสิทธิภาพ‬ ‭3.Data security‬ ‭รูปแบบการวิเคราะห์ข้อมูล‬ ‭4.Data governance and standards‬ ‭ความโปร่งใสของข้อมูล‬ ‭5.Software and tooling‬‭เลือกใช้โปรแกรมและเครื่องมือ‬‭ที่มีความเหมาะสม‬ ‭. Descriptive analytics‬‭การวิเคราะห์ข้อมูลแบบพื้น‬‭ฐาน‬ 1 ‭6.Legacy migration‬‭ปรับเปลี่ยนระบบงาน ด้านบุคลากร‬‭วัสดุ เทคโนโลยี‬ ‭เป็นการวิเคราะห์เพื่อแสดงผลว่า‬‭เกิดอะไรขึ้นบ้าง‬‭จาก‬‭การใช้ตัวแปรเดียว (Univariate Analysis) เช่น‬ ‭7.Data acquisition‬‭รู้ข้อมูลสำคัญที่จะนำมาใช้‬ ‭รายงานการเติบโตของยอดขายรายเดือน‬ ‭8.Skills and roles‬ ‭9.Real-time analytics‬ ‭. Diagnostic Analytics‬‭การวิเคราะห์แบบเชิงวินิจฉัย‬ 2 ‭10.Advanced analytics‬ ‭เป็นการวิเคราะห์เพื่อ‬‭หาสาเหตุของสิ่งที่เกิดขึ้น‬‭และ‬‭วิเคราะห์ความสัมพันธ์ระหว่างตัวแปรตั้งแต่สอง‬ ‭ตัวแปรขึ้นไป (Multivariate Analysis) เพื่อดูว่าตัวแปรเหล่านั้นมีความสัมพันธ์กันหรือส่งผลกระทบกัน‬ ‭ ระโยชน์ของการวิเคราะห์ข้อมูล‬ ป ‭อย่างไรบ้าง เช่น ความสัมพันธ์ของยอดขายต่อช่วงเวลาต่างๆ‬ ‭1.เชิงธุรกิจ‬ ‭นำเสนอข้อมูลสินค้า ช่วยตัดสินใจในการวางแผนธุรกิจ‬ ‭. Predictive Analytics‬‭การวิเคราะห์แบบพยากรณ์‬ 3 ‭2.ประโยชน์ด้านอื่นๆ‬ ‭เป็นการวิเคราะห์เพื่อทำนาย ดูแนวโน้ม พยากรณ์ว่าอาจเกิดอะไรขึ้น โดยใช้แบบจำลองทางสถิติ หรือ AI‬ ‭คาดการณ์และพยากรณ์เหตุการณ์ที่จะเกิดขึ้นในอนาคต‬ ‭เช่น การพยากรณ์ยอดขาย‬ ‭กำหนดนโนบายและยุทธศาสตร์ของหน่วยงา‬ ‭. Prescriptive Analytics‬‭การวิเคราะห์แบบให้คำแนะนำ‬ 4 ‭เป็นการวิเคราะห์ไปถึงผลที่จะเกิดขึ้นถ้าหากเลือกปฏิบัติตาม ทั้งในแง่ของข้อดี ข้อเสีย เพื่อหาว่าควรที่จะ‬ ‭ปรับปรุง แก้ไขปัญหา หรือพัฒนาอะไรบ้าง‬ ‭ นวคิดฐานข้อมูลและสถาปัตยกรรมฐานข้อมูล‬ แ ‭ ญหาที่พบในการวิเคราะห์ข้อมูล‬ ปั ‭Information system‬ ‭1.ข้อมูลที่นำมาวิเคราะห์ไม่มีคุณภาพ / ขาดการระบุถึงแหล่งข้อมูล/ ไม่มีนิยามการป้อนข้อมูลที่ชัดเจนทำให้‬ ‭จัดเก็บ ประมวลผล นำเสนอ ดำเนินการโดยบุคคลหรือคอมพ์ จัดการข้อมูลจำนวนมากๆแทนมนุษย์ ลดค.ผิด‬ ‭ผู้ใช้งานมีความเข้าใจที่แตกต่างกัน/ ขาดผู้รับผิดชอบในการบริหารจัดการข้อมูล‬ ‭พลาดจากข้อจำกัดของมนุษย์‬ ‭2.ปัญหาด้านอื่นๆ บุคลากรไม่มีทักษะ ขาดการกำหนดวัตถุประสงค์และเป้าหมาย‬ ‭File System‬ ‭จัดเก็บข้อมูลหลายๆเรคคอร์ด‬ ‭ขาดความเชื่อมั่นในข้อมูล เชื่อมั่นว่า ดีที่สุด ถูกต้องที่สุด‬ ‭จัดเก็บข้อมูล same type / ข้อมูลที่ใช้งานบ่อยๆ frequently used / Master File ต้นฉบับไว้อ้างอิง /‬ ‭Backup File โดยจัดเก็บข้อมูลที่มีความเกี่ยวข้องกันในแต่ละเรื่อง‬ ‭ข้อเสีย‬ ‭ บบจำลองที่ใช้ในการวิเคราะห์ข้อมูล‬ แ ‭1.Data Redundancy ข้อมูลซ้ำซ้อน ทำให้เปลืองเนื้อที่ในการเก็บ ต้องตามแก้ไขข้อมูลทุกที่‬ ‭แบบจัดกลุ่ม‬ ‭2.Data Inconsistency ข้อมูลไม่ตรงจากการแก้ไขหลายที่‬ ‭1.Classification Model‬‭แบบจำลองการจัดหมวดหมู่ supervised‬‭data จัดกลุ่มข้อมูลโดยมีตัวแปร มีเกณฑ์‬ ‭3.Data Anomaly เกิดความผิดปกติของการ เพิ่ม ลบ แก้ไข เช่น ข้อมูลลูกค้าหายจากการลบข้อมูลสินค้า ต้อง‬ ‭ในการแบ่ง เป็นแบบจำลองที่ดีที่สุดในการวิเคราะห์ข้อมูล yes/no, A/B/C สามารถจำแนกแยะแยกได้อย่าง‬ ‭เก็บข้อมูล2อย่างนี้แยกกัน‬ ‭ชัดเจน จัดกลุ่มข้อมูลตามรูปที่ปรากฏ‬ ‭เพิ่มข้อมูล‬‭เพิ่มไม่ครบถ้วน ไม่สัมพันธ์กัน‬ ‭วิธีจำแนก‬ ‭ลบข้อมูล‬‭ลบข้อมูลที่ไม่ควรลบไปด้วย‬ ‭-Decision Tree‬‭เป็นแบบ Supervised Learning‬ ‭แก้ไขข้อมูล‬‭แก้ไม่ครบ แก้ไม่ตรง กระทบข้อมูลในตาราง‬ ‭การเรียนรู้โมเดลแบบมีครูสอน โครงสร้างประกอบด้วย‬ ‭Database‬ ‭Root Node / Child / Leaf Node‬ ‭การจัดเก็บข้อมูลโดยยึดชุดข้อมูลตามแหล่งการเกิดข้อมูลและสร้างค.สัมพันธ์ระหว่างชุดข้อมูล ลดค.ซ้ำซ้อน‬ ‭-Naïve Bayes Method‬‭หาความน่าจะเป็นของสิ่งที่ยังไม่‬‭เกิดขึ้น ด้วยกรคาดเดาจากสิ่งที่เคยเกิดขึ้นมาก่อน‬ ‭ใช้ฐานข้อมูลเดียวกัน มี Dynamic มีค.อิสระทางข้อมูล เชื่อมโยงกันและควบคุมได้จากส่วนกลาง‬ ‭-K-nearest Neighbor (K-NN)‬ ‭ข้อเสีย‬‭โปรแกรมซับซ้อน ราคาสูง ต้องมีผู้เชี่ยวชาญ‬‭ความเป็นเจ้าของข้อมูลลดลง‬ ‭ทำงานแบบ Unsupervised learning‬ ‭เปรียบเทียบกับข้อมูลที่สนใจกับข้อมูลอื่นว่ามีค.คล้ายคลึง‬ ‭มากน้อยเพียงใด นิยมใช้ในการพยากรณ์‬ ‭ข้อมูลที่เป็นแบบประเภทนามบัญญัติ‬ ‭.Clustering Model‬ 2 ‭แบบจำลองประเภท Unsupervised Model มุ่งเน้นจัดเรียงข้อมูลเป็นกลุ่ม โดยจำแนกข้อมูลต่างลักษณะที่‬ ‭คล้ายกัน/ต่างกันของข้อมูล‬‭แบ่งตามคุณลักษณะที่กำหนด‬‭ขึ้น ไม่มี Target เป็นตัวต้นแบบ ทำให้ไม่สามารถ‬ ‭วัดผลในเชิง Accuracy ได้ เช่น ไม่เคยมีการจัดประเภทมาก่อนเลย นิยมใช้ประสบการณ์ของผู้ใช้เป็นหลัก‬ ‭-K-means Clustering การวิเคราะห์แบบไม่เป็นขั้นตอน หรือแบ่งส่วน‬ ‭-Hierarchical Clustering นิยมใช้ในการจัดกลุ่ม case หรือ ตัวแปร‬ ‭ บบจำลองพยากรณ์‬ แ ‭-Forecast Model แบบจำลองพยากรณ์ เป็นแบบจำลองที่เกี่ยวข้องกับการทำนายข้อมูล เชิงปริมาณ‬ ‭-Outliers Model แบบจำลองค่าข้อมูลผิดปกติ นิยมใช้ในการเงิน ธนาคารเพื่อลดปัญหาการฉ้อโกง‬ ‭-Time Series Model แบบจำลองอนุกรมเวลา ช่วงเวลาซ้ำๆ ใช้ลำดับจุดของข้อมูล‬ ‭ช่วยให้ผู้วิเคราะห์เข้าใจชุดข้อมูลในช่วงเวลาใดเวลาหนึ่ง‬ ‭เช่น การวิเคราะห์จำนวนนักท่องเที่ยวในช่วงเทศกาล/วันหยุด‬ ‭ omain‬‭ต้องมีการกำหนดชื่อ ประเภทข้อมูล และรูปแบบ‬ D ‭ ระเภทแบบจำลองฐานข้อมูล‬ ป ‭ ถาปัตยกรรมฐานข้อมูล‬ ส ‭ที่ชัดเจน‬ ‭File Management System‬ ‭Schema‬ ‭Relationship‬‭คือรูปแบบคสพ.ระหว่าง‬‭Entity‬ ‭Hierarchical Database System 1 to many‬ ‭นิยามโครงสร้างข้อมูลที่กำหนด‬ ‭กำหนดรูปแบบการเชื่อมโยงของข้อมูลใน Entity‬ ‭Network Database System‬ ‭many to many‬ ‭รายละเอียดในการจัดเก็บ‬ ‭Key‬‭= Attribute ที่ใช้บ่งบอกค.แตกต่างของแต่ละแถว‬ ‭Relational Database System‬ ‭ระเบียนข้อมูลแต่ละรายการ‬ ‭Key Attribute = Attribute ที่เป็นส่วนหนึ่งของ key เกิด‬ ‭Object-Oriented Database Management System‬ ‭Instance‬ ‭จากการรวมกันของ Attribute เรียกว่า‬‭Composite key‬ ‭รายละเอียดข้อมูลภายในของระเบียนแต่ละ‬ ‭Super Key‬ ‭กลุ่ม Attributes ที่สามารถบอกค.แตกต่าง‬ ‭แอตทริบิวต์‬ ‭ของแต่ละแถวในตารางเดียวกัน ได้อย่างชัดเจนและไม่ซ้ำ‬ ‭ประกอบด้วย 3 ระดับตามการ‬ ‭กัน เช่น Student( StudentID,Name,Email,Phone)‬ ‭กำหนดมาตรฐานของ ANSI‬ ‭StudentID / StudentID,name / Email‬ ‭(American National Standard Institute)‬ ‭Candidate Key คีย์คู่แข่ง‬‭เป็น Super Key ที่น้อยที่สุด‬ ‭ในปี1975 ได้แก่‬ ‭ไม่ซ้ำกันและระบุระเบียนได้ เช่น Student / email /‬ ‭ระดับภายนอก (External Level)‬ ‭Phone‬ ‭-แสดงข้อมูลที่ถูกดึงมาจากฐานข้อมูลระดับแนวคิด หน้าต่างหรือวิวที่‬ ‭Primary Key‬‭เป็น Candidate Key ที่ถูกเลือกให้เป็นตัว‬ ‭ผู้ใช้ภายนอกมีสิทธิเข้าไปใช้ได้‬ ‭ระบุหลัก/ความแตกต่างของแต่ละแถว ต้องไม่มีค่าว่าง‬ ‭ระดับความคิด (Conceptual Level)‬ ‭หรือซ้ำกัน เช่น StudentID‬ ‭-วิเคราะห์ค.ต้องการ คสพ แล้วนำมาเขียนสกีมา‬ ‭Foreign Key‬‭คีย์นอก ใช้เชื่อมโยงข้อมูลระหว่างตาราง‬‭/รี‬ ‭ระดับภายใน (Internal Level)‬ ‭เลชั่น สามารถเป็นค่า null ได้‬ ‭-อธิบายถึงกระบวนการในการเก็บข้อมูลที่เกิดขึ้นจริง‬ ‭Secondary Key คีย์รอง‬‭ใช้ในการเข้าถึงข้อมูล มีค่าซ้ำ‬‭กัน‬ ‭ได้ เช่น name‬ ‭ ผนภาพความสัมพันธ์ของข้อมูล Entity Relationship‬ แ ‭ฐานข้อมูลเชิงสัมพันธ์ Relation Database‬ ‭ใช้โครงสร้างข้อมูลในเชิงตรรกะหรือแนวคิดของคสพ.‬ ‭ออกแบบการจัดเก็บข้อมูลในรูปแบบของตาราง relation‬ ‭ ลักการเลือกระบจัดการฐานข้อมูล‬ ห ‭ราคา ขนาดข้อมูล ความน่าเชื่อถือ ฟังก์ชันพื้นฐานที่จำเป็น‬ ‭ ntity‬‭คือ วัตถุหรือสิ่งที่ต้องการศึกษาหรือเก็บข้อมูล‬‭มักจะเป็นคำ‬ E ‭การักษาความปลอดภัย การควบคุมการเข้าถึง‬ ‭นาม‬ ‭Attribute (column) ชื่อคุณลักษณะ‬ ‭แสดงค.หมายของข้อมูลที่เก็บ‬ ‭เป็นค่า Atomic (แบ่งไม่ได้แล้ว) และไม่เป็น Multi valued attribute‬ I‭ ntegrity‬‭ความเสมอต้นเสมอปลายในฐานข้อมูล‬ ‭Entity-Relationship Diagrams‬ ‭ ardinality แสดงความสัมพันธ์โดยระบุจำนวนความสัมพันธ์ได้‬ C ‭1.Entity Integrity‬‭ความสมบูรณ์ของเอนทิตี้‬ ‭กำหนดตัวเลขใส่ในวงเล็บ (A,B) A=min B=max‬ ‭ทุกแถวจะต้องมีคีย์หลักที่ไม่เป็น null‬ ‭และ Primary key ต้องไม่ซ้ำกัน‬ ‭2.Referential Integrity‬‭ความสมบูรณ์ของการอ้างอิง‬ ‭ตรวจสอบความถูกต้องของคสพ.ระหว่าง รีเรชั่น เมื่อมีการอ้างอิง‬ ‭ข้อมูลผ่านคีย์นอก(ต้องไม่เป็น null)‬ ‭ onnectivity แสดงความสัมพันธ์แบบการเชื่อมต่อ อธิบายเอนทิตีใน‬ C ‭E-R ว่ามีความสัมพันธ์ระดับใด‬ ‭One-to-one relationship (1:1)‬ ‭ กษณะเอนทิตี‬ ลั ‭ ntity Relationship Model :‬‭E-R Model‬ E ‭One-to-many relationship (1:M)‬ ‭1.Strong Entity‬‭เป็นเอทิตีปกติ‬ ‭เป็นเครื่องมือที่ช่วยในการออกแบบโครงสร้างข้อมูล‬ ‭Many-to-many relationship (M:N)‬ ‭2.Weak Entity‬‭เอนทิตีที่ไม่สามารถเกิดขึ้นเองได้ มี‬‭Primary Key ที่‬ ‭อธิบายในรูปแบบของเอนทิตีและคสพ.ระหว่างเอนทิตี‬ ‭ได้รับมาจากเอนทิตีอื่น‬ ‭มีองค์ประกอบคือ‬‭Entity Attribute Relationship‬ ร‭ ะดับ Relationship‬ ‭1.Entity‬‭ตารางที่มี Attribute อยู่หลายๆ ทัปเพิล(แถว‬‭หรือเรียกว่า‬ ‭1.Unary Relationship มีเอนทิตีมาเกี่ยวข้องเพียงเอนทิตีเดียว‬ ‭Entity Instance )‬ ‭2.Attribute‬‭คุณลักษณะเฉพาะแต่ละเอนทิตี‬ ‭ประเภท‬ ‭.Composite Entity‬‭(ผสม) หรือ Bridge Entity‬ 3 ‭1.แอตทริบิวต์อย่างง่าย (Simple Attribute)‬‭ไม่สามารถ‬‭แบ่งย่อยได้‬ ‭ใช้ปรับ M:N ให้เป็น 1:M โดยนำ Primary key ของ2เอนทิตีมารวม‬ ‭อีกมีเพียงค่าเดียว เป็น Atomic เช่น Age name‬ ‭2.Binary Relationship เกี่ยวข้อง 2 เอนทิตี‬ ‭เป็น Attribute ของ Entity ผสม‬ ‭2.แอตทริบิวต์อย่างง่าย (Simple Attribute)‬ ‭สามารถแบ่งย่อยได้ เช่น Address ก็แบ่ง city provide ได้อีก‬ ‭3.แอตทริบิวต์ค่าเดี่ยว (Single-value Attribute)‬ ‭มีได้ค่าเดียวในแต่ละแถว เช่น StudentID‬ ‭.Ternary Relationship 3 เอนทิตีทั่วไป สามารถแยกเป็นไบนารีได้‬ 3 ‭4.แอตทริบิวต์หลายค่า (Multi-value Attribute)‬ ‭โดยที่ข้อมูลไม่เปลี่ยนแปลง‬ ‭มีได้หลายค่าในหนึ่งแถว เช่น Author มีได้หลายคน‬ ‭5.ดีไรฟด์แอตทริบิวต์(Derived Attribute)‬ ‭ได้มาด้วยวิธีอื่นที่ไม่ใช่การนำเข้าจากผู้ใช้โดยตรง‬ ‭เช่น ยอดรวมจองหนังสือ ราคารวมสินค้า‬ ‭3.Relationship‬ ‭คสพ ระหว่างเอนทิตี ชื่อที่ใช้จะเป็นคำกริยา‬ ‭เช่น สมาชิกห้องสมุด ยืม หนังสือ‬ ‭.Recursive Entity‬‭เอนทิตีเรียกซ้ำ‬ 4 ‭ tructured Query Language: Se-Quel Language (SQL)‬ S ‭เรียกใช้ตัวเองได้ คสพ แบบยูนารี‬ ‭พัฒนาโดย IBM ในชื่อ Structured English Query Language:‬ ‭SE-QueL‬ ‭โครงสร้างภาษาที่ใช้สำหรับสอบถามข้อมูลแบบมีโครงสร้าง‬ ‭-มีคำถามชัดเจนว่าต้องการอะไร‬ ‭-ลดรายละเอียดที่ไม่เกี่ยวข้อง -ลำดับการถามในแนวทางเดียวกัน‬ ‭แสดงอะไร อยากได้ข้อมูลอะไร‬‭>‬‭เอาข้อมูลมาจากไหน อยู่‬‭ที่ไหน‬‭>‬ ‭เงื่อนไขมีอะไรบ้าง (มีไม่มีก็ได้)‬ ‭.SuperType และ SubType Entity‬‭เอนทีตีแยกระดับ‬ 5 ‭จัดเอนทิตีเป็นลำดับขั้น Hierarchy‬ ‭Super ระดับสูงกว่า‬ ‭Sub ระดับต่ำกว่า‬ ‭พจนานุกรมข้อมูล Data Dictionary‬ ‭ ลุ่มของภาษานิยามโครงสร้างข้อมูล‬ ก ‭Data Definition Language: DDL‬ ‭ใช้ออกแบบหรือนิยามโครงสร้าง‬ ‭-เป็นกลุ่มภาษาใช้นิยามโครงสร้างสกีมา (Schema)‬ ‭-กำหนดรายละเอียดของแอตทริบิวต์(Attribute)‬ ‭-กำหนดรายละเอียดของชนิดข้อมูล (Data Type)‬ ‭-กำหนดรายละเอียดของคีย์ในตารางข้อมูล(Key Attribute)‬ โ‭ ครงสร้าง Attribute ที่อยู่ข้างใน จัดเก็บอะไร‬ ‭ประกอบด้วยกลุ่มคำสั่ง 3 กลุ่ม ได้แก่‬ ‭▪ ชุดคำสั่งสำหรับสร้างตาราง (Create Table)‬ ‭▪ ชุดคำสั่งสำหรับแก้ไขตาราง (Alter Table)‬ ‭▪ ชุดคำสั่งสำหรับลบตาราง (Drop Table)‬ ‭ ลุ่มภาษาที่ใช้กระทำกับข้อมูลภายในในตาราง‬ ก ‭SELECT ▪ INSERT ▪ DELETE ▪ UPDATE‬ ‭การเลือกข้อมูล‬ ‭SQL การใช้งานคำสั่ง SELECT‬ ‭ ELECT * FROM ชื่อตาราง‬ S ‭SELECT‬ ‭COUNT(*)‬ ‭FROM employees WHERE job_position‬ ‭=‬ ‭ IKE‬‭คำสั่ง ค้นหา ข้อความ หรือ ตัวเลข ภายใน Column‬‭ที่มีข้อมูลภายในตรง‬ L ‭ค้นหาข้อมูล ทั้งหมดที่อยู่ในตาราง เครื่องหมาย * คือการแสดงข้อมูล ทั้งหมดที‬ ‭กับที่กำหนด‬ ‭'Marketing Manager'‬‭แสดง‬‭จำนวน‬‭Marketing Manager ใน‬‭คอลัมน์‬ ‭อยู่ในตาราง‬ ‭job_position‬ ‭รูปแบบคำสั่ง ใช้ เครื่องหมาย‬‭%‬ ‭เพื่อกำหนดรูปแบบใน‬‭การค้นหาข้อมูล‬ ‭SELECT * FROM‬‭employees จะแสดงทุกคอลัม ในตาราง emloyess‬ ‭%an%‬‭แสดงข้อมูลทีมีคำว่า an ประกอบอยู่ด้วย‬ ‭SELECT DISTINCT (job_position) FROM employees‬ ‭ ELECT column,column,... FROM table name‬ S ‭จะแสดงข้อมูล เฉพาะ Column ที่เราได้เลือกไว้‬ ‭D%‬ ‭แสดงข้อมูลทีมีคำว่า D อยู่เป็นลำดับแรก‬ ‭จะแสดงข้อมูลในคอลัม job_position ทั้งหมดที่มีข้อมูลไม่ซ้ำกัน‬ ‭SELECT id,first_name,last_name FROM employees‬ ‭%E‬ ‭แสดงข้อมูลทีมีคำว่า Eอยู่เป็นลำดับสุดท้าย‬ ‭จะแสดง คอลัมม์ id,first_name,last_name จากตาราง employees‬ ‭ QL‬‭WHERE‬‭กำหนดเงื่อนไขในการ ค้นหาข้อมูล‬ S ‭ RDER BY‬ O ‭IN‬‭คำสั่ง ในการค้นหาข้อมูลภายใน Column ที่กำหนด‬ ‭SELECT * FROM employees‬‭WHERE‬‭job_position = 'Graphic‬‭Designer'‬ ‭เรียงลำดับข้อมูล Column ที่เลือก‬ ‭desc มากไปน้อย‬ ‭SELECT * FROM employees WHERE company IN('Skinder','Fiveclub')‬ ‭ นหาข้อมูลจากตาราง employees ที่มี job_position (คอลัมม์)เท่ากับ Graphic‬ ค้ ‭asc น้อยไปมาก‬ ‭Designer‬ ‭SELECT * FROM employees‬‭ORDER BY‬ ‭first_name ASC‬ ‭แสดงข้อมูล ชื่อพนักงาน (first_name) โดยเรียบลำดับจาก น้อยไปหามาก‬ ‭ oolean AND OR < >= != ==‬ B ‭HAVING‬‭ใช้กรองผลลัพธ์หลังการจัดกลุ่ม‬ ‭การ select มากกว่า 1 ตาราง ต้องหาร Primary key แต่ละ Entity มา = กัน‬ ‭ใช้ร่วมกับคำสั่ง WHERE เพื่อกำหนดเงื่อนไข‬ ‭ใช้ได้กับค่าที่ได้จากฟังก์ชันกลุ่ม ใช้ร่วมกับ GROUP BY‬ ‭SELECT * FROM employees WHERE job_position = 'Graphic Designer'‬ ‭ ELECT Category, SUM(Quantity) AS TotalQuantity FROM Sales GROUP BY‬ S ‭AND‬‭gender = 'Male'‬ ‭Category‬‭HAVING‬‭SUM(Quantity) > 100;‬ ‭แสดงข้อมูลพนักงานที่มีตำแหน่งตรงกับ Graphic Designer และ เป็น ผู้ชาย‬ ‭ข้อมูลถูกจัดกลุ่มตาม Category ใช้ SUM(Quantity) เพื่อหายอดรวมของแต่ละ‬ ‭ประเภท เงื่อนไข‬‭HAVING‬‭SUM(Quantity) > 100 ใช้กรอง‬‭เฉพาะกลุ่มที่มียอด‬ ‭ ETWEEN‬ B ‭รวมเกิน 100‬ ‭คำสั่ง between คือคำสั่งสำหรับ การค้นหาข้อมูล ที่มีค่าระหว่างค่าเริ่มต้น และ‬ ‭สิ้นสุด‬ ‭SELECT * FROM `employees` WHERE salary‬‭BETWEEN‬‭20000‬‭AND‬ ‭25000‬ ‭หัวข้อที่ 4 การทำเหมืองข้อมูล Data Mining‬ ‭Knowledge discovery in databases = KDD‬ ‭Data mining‬‭การค้นหาค.รู้ที่อยู่ในฐานข้อมูล ประยุกต์‬‭ข้อมูลให้เกิดประโยชน์‬ ‭กระบวนการระบุรูปแบบที่มีค.ถูกต้อง ใหม่ มีประโยชน์ understandable structure‬ ‭เป็นกระบวนการที่ทำงานกับข้อมูลที่ซับซ้อนมากๆ เพื่อหาความสัมพันธ์หา pattern ของข้อมูล‬ ‭KDD อยู่ในกลุ่ม AI / Machine learning‬ ‭สรุปภาพรวม วิเคราะห์หาแนวโน้ม‬ ‭data mining เป็นเพียงขั้นตอนนึงใน KDD‬‭ทำหน้าที่สร้าง‬‭pattern / model‬‭ที่ใช้ในการ‬ ‭จุดมุ่งหมายหลัก 1.ทำนายอนาคต 2.อธิบายลักษณะร่วมกันของข้อมูล‬ ‭อธิบายข้อมูลมีได้มากกว่า 1 รูปแบบ‬ ‭Technical‬ ‭1.Supervised‬‭ให้คนบอกคำตอบแล้วให้คอมพ์เรียนรู้‬ ‭: Classification ทำนาย (ไม่ใช่ตัวเลข) + Prediction (ข้อมูลที่เป็นตัวเลข)‬ ‭2.Unsupervised‬ ‭ไม่ต้องบอกคำตอบก่อนโปรแกรมจำทำการจัด‬‭กลุ่มให้‬ ‭: Clustering จัดกลุ่ม‬ ‭3.Association Rule‬‭การค้นหากฏ เช่น โปรโมชั่นซื้อของ‬‭คู่กัน‬ ‭Phase 1: data preparation เตรียมข้อมูล เลือกเฉพาะข้อมูลที่เกี่ยวข้อง‬ ‭Phase 2: data reduction ลดขนาด ตัดข้อมูล แปลงข้อมูลให้อยู่ในรูปแบบที่เหมาะสม‬ ‭Phase 3: data modeling/discovery สร้างโมเดล‬ ‭Phase 4: solution analysis วิเคราะห์และตรวจสอบ‬ ‭CRISP DM Methodology‬ ‭1.Business understanding | business object / goal / project plan‬ ‭2.Data understanding รวบรวมข้อมูลที่เกี่ยวข้อง สำรวจตรวจสอบข้อมูล‬ ‭3.Data Preparation >> select / clean / construct /integrate /format /denoise‬ ‭4.Modeling >> select technical / Design / build กลับขึ้นไป 3 ได้‬ ‭5.Evalution ประเมินผล review process สามารถวนกลับไปที่ 1 ได้‬ ‭6.Deployment เอาไปใช้งาน plan deployment + maintenance‬ ‭2.แบบ ARFF file‬‭มีรายละเอียดของแอตทริบิวต์‬ ‭Attribute-Relation File Format (ARFF)‬ ‭WEKA = Waikato Environment for Knowledge Analysis‬ ‭Main GUI‬‭(graphic user interfaces)‬ ‭Preprocess จัดการข้อมูลเตรียมข้อมูล‬ ‭classify จำแนกขอมูล ทำนายข้อมูล‬ ‭ข้อมูลที่ใช้ input‬ ‭cluster จัดกลุ่มข้อมูล‬ ‭1.flie‬ ‭Associate หาข้อมูลที่เกิดร่วมกันบ่อยๆ‬ ‭2.URL internet‬ ‭select attributes เลือกแอตทริบิวต์ที่สำคัญ‬ ‭3.DB Database‬ ‭Visualize แสดงผลในรูปแบบกราฟ‬ ‭4.Generate data ข้อมูลจำลอง‬ ‭1.แบบ CSV file‬ ‭Comma Separated Value‬ ‭ใช้ , แบ่งระหว่างแอตทริบิวต์‬ ‭ไม่มีรายละเอียดของแอตทริบิวต์‬ ‭เปิดใน excel ได้‬ ‭¤ Missing: จํานวนข้อมูลในแอตทริบิวต์ที่ขาดหายไป‬ ‭¤ Distinct: จํานวนของข้อมูลที่เป็นไปได้ ทั้งหมด เช่น sunny, overcast, rainy‬ ‭¤ Unique: จํานวนข้อมูลที่มีการปรากฏขึ้น แค่ครั้งเดียวในแอตทริบิวต์‬ ‭All‬‭เลือกทุกแอตทริบิวต์‬ ‭None‬‭เคลียร์แอตทริบิวต์ที่เลือกอยู่ก่อนแล้ว‬ ‭Invert‬‭สลับสถานะของแอตทริบิวต์ ระหว่างถูกเลือกและไม่‬‭ถูกเลือก‬ ‭Pattern‬‭ใช้ในการเลือกแอตทริบิวต์ที่มีชื่อตามเงื่อนไข‬‭ที่กำหนด‬ ‭เช่น Regular Expression‬ ‭Remove‬‭ลบแอตทริบิวต์ที่เลือกออก‬ ‭Data Preprocesing‬ ‭Discretization‬‭แปลงข้อมูล numberic เป็น‬‭nominal (ลักษณะประเภท)‬ ‭Attribute = variable, field, or feature‬ ‭โดยแบ่งกลุ่มของข้อมูลเป็นระดับ ตามเงื่อนไข‬ ‭Object = record, case, sample, or instance‬ ‭Graphical Methods for Identifying Outliers‬ ‭-ค่าผิดปกติคือค่าที่ใกล้เคียงกับขอบเขตข้อมูลสูงสุด near extreme limits of data range‬ ‭-ค่าผิดปกติอาจแสดงถึงข้อผิดพลาดในการป้อนข้อมูล‬ ‭-Certain statistical methods‬‭very sensitive to outliers‬‭and may produce unstable results‬ ‭-Neural Networks and k-Means benefit from normalized data‬ ‭การ Detect outlier‬‭in Weka: filters > unsupervised‬‭> attribute > InterquartileRange‬ ‭การแก้ปัญหาหน่วยความจำไม่พอให้โปรแกรมทำงาน‬ ‭Generate setting numExamples เป็น 1,000,000‬ ‭เปลี่ยนค่าของ maxheap ให้มากขึ้น (แต่ไม่เกินขนาดของหน่วยความจําภายในเครื่อง)‬ ‭approximate_memory= number of attribute * number of instances * 8‬‭(จำนวน byte ที่‬ ‭เก็บข้อมูลตัวเลข 1 ตัว )‬ ‭Prepare Data‬‭ใช้เวลานานที่สุด‬ ‭ex ข้อมูล 10,000,000 instances และมี 10 attributes จะต้องใช้หน่วยความจําอย่างน้อย 800 MB‬ ‭โมเดลจะให้ผลลัพธ์ที่ถูกต้องหรือไม่ขึ้นอยู่กับคุณภาพของ‬‭ข้อมูลที่ใช้‬ ‭แบ่งได้ 3 ขั้นตอน‬ ‭Build a Model‬ ‭ขั้นตอนการวิเคราะห์ข้อมูล‬ ‭1.Data Selection เลือกเฉพาะข้อมูลที่เกี่ยวข้อง‬ ‭2.Data Cleaning กลั่นกรองข้อมูล จัดการข้อมูลซ้ำซ้อน ขาดหาย ผิดพลาด‬ ‭3.Data Transformation แปลงรูปแบบข้อมูล พร้อมนำไปใช้‬ ‭Choosing the sample size‬ ‭จํานวนของอินสแตนซ์(records) >=5,000 ข้อมูลน้อยค.น่าเชื่อถือของโมเดลก็น้อยตาม‬ ‭ทำไมต้องมีการเตรียมข้อมูล‬ ‭1.ข้อมูลดิบมัก incomplete + noisy‬ ‭2.Obsolete fields‬ ‭3.Missing values‬ ‭4.Outliers ค่าที่ผิดปกติ‬ ‭Classification Idea‬ ‭5.Data in‬‭form not suitable‬‭for data mining‬ ‭6.Erroneous values‬ ‭Replace Missing Values‬‭with Mode or Mean‬ ‭Nomimal‬‭แทนด้วย‬‭Mode‬‭ฐานนิยม ค่าที่ปรากฏบ่อยที่สุด‬ ‭Numberic‬‭แทนด้วย‬‭Mean‬‭ค่าเฉลี่ย‬ ‭Classifier‬ ‭bayes‬‭อาศัยความน่าจะเป็น‬ ‭functions‬‭คำนวณ สมการ‬ ‭lazy‬‭ไม่มีการสร้างโมเดลไว้ก่อน ใช้ข้อมูลเรียนรู้‬‭จำแนกข้อมูลใหม่‬ ‭meta‬‭รวมหลายเทคนิค เพื่อเพิ่มความถูกต้อง‬ ‭tree‬‭โมเดลต้นไม้‬ ‭rules‬ ‭Test options‬ ‭Classifier output‬ ‭1.Use training set‬ ‭ใช้ข้อมูลตัวเดิม‬ ‭2.Supplied test set‬‭(Hold out method)‬ ‭ใช้ข้อมูลใหม่ unseen data‬ ‭3.Percentage split‬‭(Hold out method)‬ ‭แบ่งข้อมูลออกเป็น x% เพื่อสร้างโมเดล ส่วน % ที่เหลือใช้ test‬ ‭4.Cross-validation‬‭(Leave-one-out method)‬ ‭แบ่งข้อมูลออกเป็นส่วนเท่าๆกัน (folds)เพื่อใช้ test โดยห้ามเกินจำนวน instance‬ ‭Validation Techniques‬ ‭Result list‬ ‭Predictor Error Measures‬ ‭week 5 Data science and Security‬ ‭Security of Data sci‬ ‭3.Data Mining Solutions model ทำงานถูกต้องปลอดภัยมั้ย‬ ‭Cybersecurity‬‭เป็นเทคนิค กระบวนการ แนวปฏิบัติที่ปกป้อง‬ ‭1.Infrastructure Security‬‭ค.ปลอดภัยของโครงสร้างพื้น‬‭ฐาน‬ ‭4.Access Controls‬ ‭information system จากการโจมตีหรือ unauthorised acess‬ ‭เช่น cloud database เราจะส่งต่อใน networkยังไงให้ปลอดภัย‬ ‭5. EndPoint vulnerability ความปลอดภัยของอุปกรณ์ปลายทาง‬ ‭(Hardware software data network people process)‬ ‭2.Software Security‬ ‭Four Pillars of Security‬ ‭ความไม่สมดุลของ‬ ‭3.Data Protection‬ ‭1.Perimeter‬‭ขอบเขต (Authenticating) การยืนยันตัวตน‬‭log in‬ ‭Digital Transformation กับ Cybersecurity Professionals‬ ‭4.Data Anonymisation‬‭ซ่อนตัวตนของเจ้าของข้อมูล‬ ‭2.Accessการ‬‭เข้าถึง (Authorising) มีสิทธิ์เข้าถึงอะไร‬‭บ้าง‬ ‭DT ต้องการความAgility speed connectivity นำเทคใหม่มาเร่งใช้‬ ‭Data Science for Security‬ ‭3. Visibility‬‭การมองเห็น (Auditing)‬ ‭ทำให้เกิดช่องโหว่ด้านความปลอดภัย CP เลยต้องเพิ่ม secure ซึ่ง‬ ‭ตัวอย่าง‬ ‭ตรวจสอบว่าเข้ามาทำอะไรบ้าง report & log‬ ‭อาจทำให้มีขั้นตอนยุ่งยากใช้งานไม่สะดวกและมีความต้องการผู้‬ ‭1.Anomaly Detection‬‭วิเคราะห์ความผิดปกติข้องข้อมูล‬ ‭4.Data‬‭(Architecting)‬ ‭เชี่ยวชาญด้าน Cybersecurity สูงขึ้น แต่ตลาดแรงงานมีผู้‬ ‭2.Threat Detection‬‭ตรวจจับการโจมตี วิเคราะห์การโจมตี‬ ‭OWASP‬‭(Open Web Application Security Project)‬ ‭เชี่ยวชาญไม่เพียงพอ‬ ‭3.Malware Detection and Classification‬ ‭เครื่องมือสำหรับสแกนหาช่องโหว่พวกปัญหาเช่น‬ ‭ประเภท security‬ ‭Big Data‬ ‭-ไม่ตรวจสอบข้อมูลที่ผิดพลาดและทำความสะอาดข้อมูลที่ไม่สมบูรณ์‬ ‭1.Physical ทางกายภาพ‬‭แบ่งออกเป็น อุปกรณ์กับบุคคล‬ ‭Volume ข้อมูลขนาดใหญ่ เกินพันล้าน‬ ‭-ไม่ตรวจการใช้งานและยืนยันตัวตน‬ ‭-อุปกรณ์ unauthorised ไม่มีสิทธิจับต้อง‬ ‭Velocity ความเร็วของข้อมูล เรียลไทม์‬ ‭-เปิดเผยข้อมูลที่ละเอียดอ่อน‬ ‭-บุคคลต้องปลอดภัย ไม่ได้รับบาดเจ็บ‬ ‭Variety ข้อมูลมีความหลากหลาย‬ ‭-กำหนดค่าที่ไม่ปลอดภัย‬ ‭2.Personal‬‭ปกป้อง personal data และ identity‬ ‭Veracity มีความน่าเชื่อถือ‬ ‭Cyber Security Teams‬ ‭3.Operation‬‭การดำเนินงานต้องปกป้องความลับของข้อมูล‬ ‭Value ข้อมูลมีคุณค่า‬ ‭Yellow Team‬‭สร้างระบบ software‬ ‭4.Network‬‭= assets and traffic‬ ‭Valence ความเชื่อมโยงของข้อมูล‬ ‭Red Team‬ ‭ทดสอบเจาะระบบหาช่องโหว่‬ ‭-device อุปกรณ์ที่เกี่ยวข้องข้อง‬ ‭สถาปัตยกรรมของ Big Data‬ ‭Blue Team‬‭แนะนำวิธีป้องกัน ตอบสนองต่อการโจมตี‬ ‭-ข้อมูลที่วิ่งอยู่บนเครือข่าย‬ ‭-ช่องทางการสื่อสาร ทั้งไร้สายและมีสาย‬ ‭Cloud Security‬ ‭5.Information‬‭ปกป้องข้อมูลทุกรูปแบบ‬ ‭เมื่อก่อน ซื้อ ฮาร์ดแวร์เอง on premise ปัจจุบัน on cloud เป็น‬ ‭ประเภท data‬ ‭as a servive‬ ‭1.static data‬‭ข้อมูลที่อยู่กับที่ data as rest‬ ‭Cloud Security Challenges‬ ‭เช่น Harddisk database‬ ‭1.Threat Intelligence and Security Content‬ ‭2.dynamic data‬‭(data in transit)‬ ‭การโจมตีมีการเปลี่ยนแปลงอย่างรวดเร็วข้อมูลที่มีอยู่อาจล่าหลังใช้‬ ‭ข้อมูลที่กำลังเคลื่อนที่ เช่น ข้อมูล จาก server ไป user‬ ‭งานไม่ได้‬ ‭3.being process‬‭ข้อมูลที่กำลังประมวผลอยู่‬ ‭2.Human Expertise ความเชี่ยวชาญ‬ ‭เช่น การประมวลผลเพื่อส่งผลลัพธ์กลับมา‬ ‭ปัญหาความปลอดภัยของ Big data‬ ‭3.Security Tools เลือกเครื่องมือไม่เหมาะสม ม่อัปเดต ราคาสูง‬ ‭CIA MODEL‬ ‭1.Insecure Computation ไม่มีการป้องกันที่เพียงพอ‬ ‭Technical Challenges‬ ‭Confidentiality ความลับ‬ ‭เช่น การใช้ API ที่ไม่มีการตรวจสอบสิทธิ์ของผู้ใช้‬ ‭1. Loss of Visibility สูญเสียการมองเห็น เช่น ใช้ cloud หลายที่‬ ‭Integrity ความถูกต้อง ความสมบูรณ์ของข้อมูล‬ ‭2.Input Validation and Filtering ตรวจสอบและกรอง‬ ‭ทำให้ติดตามยากไม่รู้ว่าเก็บข้อมูลไว้ที่ไหน‬ ‭Availability ความพร้อมใช้งาน เข้าถึงได้ตลอดเวลาที่ต้องการ‬ ‭3.Privacy Concerns in Data Mining and Analytics‬ ‭2. Compliance Violations ไม่ทำตามนโยบายที่กำหนดไว้‬ ‭ความเป็นส่วนตัวระหว่างการประมวลผลของข้อมูล‬ ‭3. Lack of Cloud Security Strategy and Architecture‬ ‭4.Granular Access Control ควบคุมการเข้าถึงแบบละเอียด‬ ‭ไม่มีกลยุทธ์แผนระยะยาว‬ ‭Security of Data sci‬ ‭Data sci for security‬ ‭5.Insecure Data Storage จัดเก็บข้อมูลไม่ปลอดภัย‬ ‭4. Insider Threats‬ ‭การรักษาค.ปลอดภัยให้กับข้อมูล‬ ‭กระบวนการวิเคราะห์ข้อมูล เพื่อให้‬ ‭ความท้าทายของ Big Data‬ ‭5. Contractual Breaches ไม่ทำตามสัญญา‬ ‭หรือสิ่งที่เกี่ยวข้องกับ datasci‬ ‭secure process ทำงานมี‬ ‭1.Distributed Data ข้อมููลกระจายอยู่หลายที่ไป secure ยาก‬ ‭6. Insecure API‬ ‭ประสิทธิภาพ เช่น Antivarus pg‬ ‭2.Non-Relational Databases ฐานข้อมูลซับซ้อน‬ ‭7. Misconfiguration of Cloud Services กำหนดค่าไม่ถูกต้อง‬ ‭แนวปฏิบัติ‬ ‭1.Keep it simple and thus secure (KISS) ทำให้เข้าใจง่าย‬ ‭2.fully understand‬ ‭3.simplicity > complexity / Use standardised tools‬ ‭4.รับรองสิทธิ์การเข้าถึงที่แน่นหนา ใช้การพิสูจน์ตัวตน พาสเวิร์ด‬ ‭Data Science for Security‬ ‭week 5 Big Data‬ ‭แล้ว Big data คืออะไรหล่ะ‬ ‭พัฒนาการของ Big Data‬ ‭มันคือกระบวนการเก็บชุดข้อมูลที่มีขนาดใหญ่(มาก)และซับซ้อนและ‬ ‭ในอดีต มีการ generating ข้อมูลน้อย เช่น พวกรายการทีวี‬ ‭ยากเกินกว่าคอมพิวเตอร์ปกติทั่วไปจะประมวลผลได้‬ ‭แต่ในปัจจุบัน ทุกคนล้วนเป็นคน generate ข้อมูล เช่น youtube‬ ‭มากขนาดไหนก็ Petabyte ละมั้ง‬ ‭tiktok‬ ‭Tradition Data (DB)‬ ‭Big data‬ ‭data‬ ‭< PB มีโครงสร้าง(เป็น‬ ‭>= PB‬ ‭ตาราง มีลักษณะของข้อมูล‬ ‭เป็นได้ทั้งมีโครงสร้างและ‬ ‭ชัดเจน)‬ ‭ไม่มีโครงสร้าง ( รูป เสียง‬ ‭ข้อมูลที่ต้องเอามาระบุค.‬ ‭หมายของข้อมูล)‬ ‭hardware‬ ‭Large sever‬ ‭computer clusters‬ ‭น่าเชื่อถือ / ขยายขนาดไม่ได้‬ ‭ไม่น่าเชื่อถือ ขยายขนาด‬ ‭รันได้บนเครื่องเดียว‬ ‭ได้‬ ‭คุณสมบัติ‬ ‭1.Historian รู้เหตุการณ์ที่เคยเกิดขึ้น‬ ‭Software‬ ‭centralized data base‬ ‭Distributed‬ ‭2.Coder‬ ‭schema base‬ ‭no schema base‬ ‭Oracle / mySQL‬ ‭Hadoop‬ ‭3.Visualiser เอาข้อมูลออกมาเป็นภาพได้‬ ‭ บิต 1 ไบต์ 1024 B K M G T P‬ 8 ‭4.Modeler‬ ‭Big data source‬ ‭5.Storyteller เล่าเรื่องได้‬ ‭-‭จ ‬ ากคน‬‭เช่น รูป วิดีโอ ข้อความ โซเชียล‬ ‭ต่างกันที่ขนาดและการคำนวณ‬ ‭6.Hacker‬ ‭-‭M ‬ achine‬‭เช่น logs sensor IoT‬ ‭Cyber Security Data Science Process‬ ‭-‭W ‬ eb data‬‭: social click stream‬ ‭1.Use case‬ ‭2.Data : Acquisition + clean‬ ‭3.Exploratory Data Analysis : Feature extraction กำหนด‬ ‭ลักษณะ / Model design/ Model validation‬ ‭4.Production Deployment‬ ‭5.Result‬ ‭ V of Big data‬ 5 ‭1.Volum‬‭= scale of data‬ ‭2.Velocity‬‭= the speed of data / real time‬ ‭3.Verity‬‭= Different forms‬ ‭4.Value‬‭= ข้อมูลมีคุณค่า‬ ‭5.Veracity‬‭= ความน่าเชื่อถือ‬ ‭Big data Goal‬ ‭Hadoop‬‭cluster computing abstraction‬ ‭1.ทำให้องค์กร more smarter and efficient‬ ‭เป็น software หรือ‬‭O‭p ‬ erating‬‭S‬‭ystem of Big data‬ ‭เช่น การวิเคราะห์ข้อมูลเพื่อป้องกันภัยคุกคาม ใช้พยากรณ์‬ ‭-รองรับการใช้งานขนาดใหญ่‬‭Distributed data storage‬ ‭-‭P ‬ arallel computing‬‭คำนวณแบบขนานได้ คือ เอาทุกตัวมา‬ ‭2.ใช้วิเคราะห์พฤติกรรมลูกค้า เช่น‬ ‭ประมวลพร้อมกัน‬ ‭อเมซอน ใช้ cliclstream + ประวัติการซื้อ to ทำนายการซื้อสินค้า‬ ‭-เป็น open source software‬ ‭P&G หา association ระหว่างสินค้า เช่นถ้า ซื้อ A แล้วจะ ซื้อ Bด้วย‬ ‭-base on linux and cmd‬ ‭★‬ ‭เมื่อไหร่ที่ควรใช้ Hadoop‬ ‭3.ลดต้นทุน‬ ‭-ใช้ประมวล Big data จริงๆ‬ ‭เช่น ใช้ทำนายผู้ป่วยที่มีความเสี่ยงสูง ใช้‬ ‭-เก็บค.หลากหลายของข้อมูล‬ ‭sensor ทำนายเวลสการซ่อมบำรุง‬ ‭-ประมวลผลแบบ Parallel‬ ‭★‬ ‭เมื่อไหร่ที่ไม่ควรใช้‬ ‭4.Next generation product‬ ‭-วิเคราะห์แบบ real time‬ ‭เช่น google self drivingcars‬ ‭-data base‬ ‭netflix สร้าง tv show โดย based on จากผู้ชม‬ ‭-ระบบไฟล์ network ทั่วไป‬ ‭-ทำ parallel ไม่ได้ ต้องทำเป็นขั้น/เงื่อนไข‬ ‭Data Product‬ ‭-Derives value from data ได้ค่ามาจากข้อมูล‬ ‭Type of Data Analytics‬ ‭ผลิตข้อมูลได้มากขึ้น มีมูลค่ามากขึ้น‬ ‭1.Descriptive Analysis‬‭:‬‭What is happening‬‭now e.g.,‬ ‭-Data + Statistical Algorithms‬ ‭google analytics‬ ‭for prediction‬ ‭MapReduce‬ ‭เป็นตัวคำนวณประมวลผล‬ ‭2.Predictive Analysis‬‭: What might happen in the future‬ ‭เช่น mazon recommendation ซื้ออันนี้แล้วต้องซื้ออันนี้ด้วย‬ ‭โดยย้ายโปรแกรมไปที่ข้อมูล‬ ‭e.g., preventive maintenance‬ ‭HDFS‬‭เป็นตัวเก็บไฟล์‬ ‭3.Prescriptive Analysis‬‭: What action should be taken‬ ‭ความสามารถของ Hadoop‬ ‭YARN‬‭เป็นตัวจัดการทรัพยากร Hardware‬ ‭e.g., self driving cars‬ ‭1.Fault Tolerance‬‭ทนต่อข้อผิดพลาด‬ ‭4.Diagnostic Analysis‬‭: Why did it happen e.g., social‬ ‭2.Recoverability‬‭: boot กลับมา run ที่เหลือต่อได้‬ ‭โครงสร้าง Hadoop‬ ‭media analytics‬ ‭3.Consistency‬‭ข้อมูลตรงกันทุกที่‬ ‭4.Scalability‬‭รองรับการขยายขนาด‬ ‭High Performance Computing หรือ Super Computer‬ ‭1.Science & Engineering: พยากรณ์อากาศ, Deep learning‬ ‭ตัวอย่างการใช้ Big Data‬ ‭2.Commercial & Business : Filmmaker,Search Engine‬ ‭-เข้าใจพฤติกรรมลูกค้า‬ ‭The fastest computer of the world Now is‬ ‭-เข้าพฤติกรรมของผู้เล่นเกม เช่น candy crush‬ ‭El Capitan @LLNL จาก CA USA‬ ‭-Tesla analyze connected car‬ ‭in Thailand‬‭:‬‭LANTA‬ ‭- telecommunication company : BT‬

Data Science : Datafinaltest PDF

Document Details

Tags

Related

Summary

Full Transcript