DSI312 Midterm Week2 PDF
Document Details
Uploaded by Deleted User
Tags
Summary
This document covers concepts of data quality, including accuracy, completeness, timeliness, uniqueness, consistency, and granularity. It also details data analytics techniques, including data collection, exploration, transformation, and different analytical approaches such as descriptive, diagnostic, predictive, and prescriptive analytics. Finally, it touches on visual analytics, big data analytics, and text sentiment analysis in the context of online shopping trends.
Full Transcript
DSI312 midterm week2 Data Quality ความถูกต้อง เชื่อมโยงของข้อมูล เพื่อใช้สำหรับวัตถุประสงค์ต่าง ๆ ขององค์กร และใช้ ประกอบการตัดสินใจทางธุรกิจหรือวางกลยุทธ์ ประกอบด้วย 6 ลักษณะ 1. Accuracy ความถูกต้อง...
DSI312 midterm week2 Data Quality ความถูกต้อง เชื่อมโยงของข้อมูล เพื่อใช้สำหรับวัตถุประสงค์ต่าง ๆ ขององค์กร และใช้ ประกอบการตัดสินใจทางธุรกิจหรือวางกลยุทธ์ ประกอบด้วย 6 ลักษณะ 1. Accuracy ความถูกต้อง 2. Completeness ความสมบูรณ์ 3. Timeliness and currency ความทันเวลาและเป็นปัจจุบัน 4. uniqueness ความเป็นเอกลักษณ์ 5. consistency ความสอดคล้องของข้อมูล 6. data granularity and relevance ความละเอียดและความเชื่อมโยงของข้อมูล Data Analytics the process of transforming data to extract insight , discover patterns and support dicision-making key components of data analytics include 1. Data Collection and Preparation รวบรวมข้อมูลจากหลายแหล่งและต้อง clean organized และ format ที่กำหนดไว้ เพื่อนำไปวิเคราะห์ 2. Data Exploration use data visualization and statistical techniques to describe dataset 3. Data transformation create new variable that aid in analysis this include normalization data imputation and feature engineering 4. Descriptive Analytics summarizing and describing the data to provide an overview (such as mean median mode variance and distribution) 5. Diagnostic Analytics identifying of patterns or event by analyzing historical data understanding why outcome occurred 6. Predictive Analytics using stat and ML to make predictions about future outcome (building model) 7. Prescriptive Analytics involves the use of technology to help businesses make better decisions through the analysis of raw data a type of data analytics that attempts to answer the question “What do we need to do to achieve this? 8. Data Visualization create visual representation of data 9. ML algorithms and model to learn of data and make predictions or decision 10. Big Data Analytics 11. Text and Sentiment Analytics 12. Spatial and Geospatial Analytics Visual Analytics Interaction visualization to integrate human color rule 70(background):25(main):5(insight) DSI312 1 color selection monochrome Analogous Complimentary Triad research ในช่วงไม่กี่ปีที่ผ่านมา การช้อปปิ้ งออนไลน์ได้กลายเป็นส่วนหนึ่งของชีวิตประจำวัน เนื่องจากความสะดวกและไม่ต้องใช้ ความพยายามมากในการเลือกซื้อสินค้า จากการแข่งขันที่สูงในธุรกิจอีคอมเมิร์ซ ระบบแนะนำสินค้าจึงมีบทบาทสำคัญ ในการช่วยให้ธุรกิจโดดเด่นยิ่งขึ้น งานวิจัยนี้นำเสนอแนวทางที่ครอบคลุมในการปรับปรุงประสบการณ์และการมีส่วน ร่วมของผู้ใช้บนแพลตฟอร์มอีคอมเมิร์ซ ด้วยการพัฒนาโมเดลแนะนำสินค้าที่ปรับให้เหมาะกับความต้องการส่วนบุคคล โดยอาศัยกลยุทธ์การค้นคืนข้อมูล การศึกษานี้ร่วมมือกับ H&M Group และใช้การผสมผสานของอัลกอริทึมแนะนำต่าง ๆ เช่น การกรองร่วม (collaborative filtering), ความนิยม (popularity), และการจัดอันดับแบบ Bayesian (Bayesian personalized ranking) เพื่อพัฒนาโมเดลที่มีประสิทธิภาพสูง ระบบนี้อาศัยการรวมกลยุทธ์การค้นคืนที่รวมเทคนิ คอัลกอริทึมหลายชนิด และประเมินรายการที่แนะนำโดยใช้โมเดลการเรียนรู้ของเครื่อง ได้แก่ LightGBM และ Deep Neural Network ผลการวิจัยแสดงให้เห็นว่า โมเดล LightGBM มีประสิทธิภาพโดดเด่นกว่า Deep Neural Network ซึ่งค่า MAP@K อยู่ที่ 0.06 และ 0.02 ตามลำดับ และค่า MAR@K อยู่ที่ 0.03 และ 0.01 สำหรับการ แนะนำ 50 รายการ จากผลการทดลอง สรุปได้ว่า LightGBM มีประสิทธิภาพดีกว่า DNN อย่างมีนัยสำคัญ ในการทำนายความน่าจะเป็น ที่ผู้ใช้จะซื้อสินค้า. และ Retrieval Strategies ทั้งแบบ Simple และ Advanced ให้ผลลัพธ์ที่ใกล้เคียงกัน เมื่อใช้กับ LightGBM. ซึ่งแสดงให้เห็นว่า Simple Strategy สามารถดึงข้อมูลที่สำคัญ ได้เพียงพอ สำหรับการใช้งานกับ LightGBM และไม่จำเป็นต้องใช้ Advanced Strategy ที่ซับซ้อนกว่า. โดยรวม งานวิจัยนี้นำเสนอกระบวนการใหม่ที่ช่วยแก้ไขปัญหาการวิเคราะห์ข้อมูลขนาดใหญ่ ปัญหาการขาดข้อมูลใหม่ และปัญหาการปรับให้เหมาะสมตามความต้องการเฉพาะบุคคล ซึ่งจะช่วยเพิ่มประสบการณ์ผู้ใช้และกระตุ้นยอดขายใน แพลตฟอร์มอีคอมเมิร์ซ หลังจากการระบาดของโรคโควิด-19 เศรษฐกิจในหลายประเทศทั่วโลกเผชิญกับปัญหาใหญ่ในการรักษาฐานลูกค้า ซึ่ง ทำให้ธุรกิจต่าง ๆ โดยเฉพาะธุรกิจขนาดกลางและขนาดเล็ก (SMEs) จำเป็นต้องพัฒนากลยุทธ์ใหม่ ๆ เพื่อดึงดูด ลูกค้า ดังนั้น ความรู้เกี่ยวกับการพัฒนาและการใช้กลยุทธ์ใหม่ ๆ จึงเป็นสิ่งสำคัญอย่างยิ่งต่อการปรับตัวของธุรกิจ และการลดการสูญเสียทางธุรกิจ DSI312 2 การศึกษาล่าสุดแสดงให้เห็นว่าระบบแนะนำสินค้าเฉพาะบุคคลมีบทบาทสำคัญในการกระตุ้นยอดขายและรายได้สำหรับ ธุรกิจอีคอมเมิร์ซ โดยการแนะนำสินค้าส่งผลต่อดัชนีสำคัญ เช่น มูลค่าเฉลี่ยของการสั่งซื้อ (Average Order Value - AOV) และอัตราการแปลง (Conversion Rate) การที่ลูกค้ามีส่วนร่วมกับการแนะนำสินค้าเฉพาะบุคคลนำไปสู่การ สั่งซื้อในปริมาณที่สูงขึ้นและมีแนวโน้มที่จะดำเนินการซื้อให้สำเร็จมากขึ้น ทำให้การแนะนำสินค้ากลายเป็นเครื่องมือ สำคัญในการเพิ่มความสำเร็จของธุรกิจ ผลกระทบของการแนะนำสินค้าที่เฉพาะเจาะจงต่อพฤติกรรมการซื้อนั้นสามารถเห็นได้จากข้อมูลที่แสดงในรูปที่ 1 ซึ่ง แสดงให้เห็นว่าลูกค้าที่โต้ตอบกับการแนะนำสินค้าเฉพาะบุคคลเพียงครั้งเดียว มีการเพิ่มขึ้นของ AOV ถึง 369% และ แนวโน้มนี้ยังคงเพิ่มขึ้นถึงห้าคลิก ซึ่งแสดงถึงบทบาทสำคัญของการแนะนำสินค้าในการส่งเสริมการสั่งซื้อที่มีมูลค่า สูงขึ้น ในความเป็นจริง การแนะนำสินค้ามีส่วนช่วยสร้างรายได้ให้กับธุรกิจอีคอมเมิร์ซได้ถึง 31% โดยเฉลี่ย 12% ของยอดขายทั้งหมดมาจากการแนะนำสินค้านี้ นอกจากนี้ ลูกค้าที่คลิกการแนะนำสินค้ามีแนวโน้มที่จะเพิ่มสินค้าใน ตะกร้าและทำการซื้อสำเร็จสูงขึ้นถึง 4.5 เท่า ข้อมูลเหล่านี้สอดคล้องกับการศึกษาที่คล้ายกันโดย SalesForce ตามการศึกษาของ PWC ในปี 2018 พบว่า 73% ของผู้บริโภคให้ความสำคัญกับประสบการณ์ของลูกค้าเป็นปัจจัย หลักในการตัดสินใจเลือกซื้อสินค้า จากรูปที่ 2 แสดงให้เห็นว่าลูกค้ามักจะเลิกใช้บริการหากพวกเขาพบกับการบริการที่ ไม่ดีซ้ำ ๆ กัน ความสำคัญของระบบแนะนำสินค้าสำหรับอีคอมเมิร์ซจึงอยู่ที่การใช้เทคนิคการเรียนรู้ของเครื่อง (Machine Learning) อย่างท้าทาย โดยระบบแนะนำสินค้าที่มีประสิทธิภาพจะต้องสามารถรับมือกับปัญหา เช่น ความพร้อมใช้งานและคุณภาพของข้อมูล แม้ว่าจะมีข้อมูลขนาดใหญ่และวิธีการทั่วไปในการวิเคราะห์ความสัมพันธ์ ระหว่างผู้ใช้และสินค้า แต่ก็ยังอาจขาดความซับซ้อนในการพิจารณาปัจจัยหลายด้านที่ส่งผลต่อธุรกิจอีคอมเมิร์ซ เช่น พฤติกรรมการซื้อของตามฤดูกาล และสต็อกสินค้า อีกปัญหาหนึ่งที่ต้องเผชิญคือปัญหาการเริ่มต้นใหม่ (cold-start problem) ซึ่งเกิดขึ้นเมื่อลูกค้าหรือสินค้าที่เข้ามา ใหม่ไม่มีข้อมูลเพียงพอสำหรับอัลกอริทึมการแนะนำ ซึ่งอาจทำให้คำแนะนำที่ได้นั้นมีคุณภาพต่ำและลดความน่าสนใจใน การใช้งานแพลตฟอร์ม ดังนั้น ระบบแนะนำสินค้าควรมีความสามารถในการแนะนำสินค้าให้กับผู้ใช้ใหม่โดยใช้ข้อมูล ประชากรเพื่อจับคู่กับกลุ่มลูกค้าที่มีลักษณะคล้ายกัน ดังนั้น การเตรียมข้อมูลที่มีโครงสร้างดีสำหรับโมเดลจึงเป็นสิ่ง สำคัญและจำเป็นอย่างยิ่ง งานวิจัยนี้จึงนำเสนอวิธีการในการประมวลผลข้อมูลดิบให้เป็นข้อมูลที่มีประโยชน์ผ่านหลาย ชั้นของการประมวลผล งานวิจัยนี้มีเป้าหมายหลักในการศึกษาและพัฒนาโมเดลแนะนำสินค้าที่ทันสมัยซึ่งสามารถแก้ปัญหาได้เกือบทุกประเด็น ที่กล่าวมา งานวิจัยนี้เริ่มต้นด้วยการใช้กลยุทธ์การค้นคืนที่สามารถดึงข้อมูลที่ซ่อนอยู่ระหว่างผู้ใช้และสินค้า ซึ่งช่วยให้ สามารถเลือกวิธีการค้นคืนที่เหมาะสมที่สุดสำหรับผู้ใช้แต่ละคน โดยคำนึงถึงลักษณะเฉพาะและความชอบส่วนบุคคล ของพวกเขา 2. การทบทวนวรรณกรรม 2.1 ภาพรวมของกลยุทธ์การค้นคืนข้อมูล กลยุทธ์การค้นคืนข้อมูลหมายถึงวิธีการหรือแนวทางที่ใช้ในการดึงข้อมูลจากระบบจัดเก็บข้อมูลหรือฐานข้อมูล ใน บริบทของการค้นคืนข้อมูล (Information Retrieval) กลยุทธ์การค้นคืนเป็นชุดของกฎหรืออัลกอริทึมที่ออกแบบมา เพื่อค้นหาและดึงข้อมูลที่เกี่ยวข้องจากกลุ่มข้อมูลขนาดใหญ่ (Vakkari, 2008) โดยทั่วไปมีหลายประเภทของกลยุทธ์ การค้นคืนที่ใช้โมเดลการเรียนรู้ของเครื่อง ได้แก่: การค้นคืนตามการจัดอันดับ (Ranking-based retrieval) ใช้โมเดลการเรียนรู้ของเครื่อง เช่น โครงข่าย ประสาทเทียม เพื่อทำนายความสัมพันธ์ของสินค้าโดยพิจารณาคุณสมบัติของผู้ใช้และการซื้อที่ผ่านมาของผู้ใช้ จากนั้นสินค้าจะถูกจัดอันดับตามความสัมพันธ์ที่ทำนายได้ การค้นคืนตามการจัดกลุ่ม (Clustering-based retrieval) คือการจัดกลุ่มสินค้าที่มีความคล้ายคลึงกัน โมเดลการเรียนรู้ของเครื่อง เช่น การจัดกลุ่มด้วย k-means หรือการจัดกลุ่มแบบลำดับชั้นจะถูกใช้ในการจัด กลุ่มสินค้าตามคุณสมบัติของสินค้า แล้วจึงแนะนำสินค้าที่อยู่ในกลุ่มที่มีความเกี่ยวข้องกับพฤติกรรมของผู้ใช้ มากที่สุด DSI312 3 การกรองร่วม (Collaborative filtering) แนะนำสินค้าตามความชอบของผู้ใช้ที่คล้ายคลึงกัน โดยโมเดลการ เรียนรู้ของเครื่อง เช่น การแยกเมทริกซ์ (Matrix Factorization) หรืออัลกอริทึมใกล้เคียงกันจะถูกใช้ในการ ระบุผู้ใช้ที่มีความชอบคล้ายกันและแนะนำสินค้าที่เป็นที่นิยมในกลุ่มผู้ใช้นั้น 2.2 อธิบายเทคโนโลยีปัญญาประดิษฐ์และระบบแนะนำสินค้า ระบบแนะนำสินค้า (Recommendation Systems) มีความสำคัญในหลายแพลตฟอร์มออนไลน์ เนื่องจากช่วยให้ผู้ บริโภคสามารถค้นหาสินค้าหรือข้อมูลที่ตรงกับความสนใจและการใช้งานในอดีตของพวกเขาได้ เมื่อเร็ว ๆ นี้ แนวทาง การเรียนรู้ของเครื่อง (Machine Learning - ML) และการเรียนรู้เชิงลึก (Deep Learning - DL) ได้เข้ามา เปลี่ยนแปลงระบบแนะนำสินค้า ทำให้การแนะนำสินค้าเป็นไปอย่างแม่นยำและเหมาะสมกับผู้ใช้มากขึ้น ระบบแนะนำสินค้าที่ใช้ทั่วไปในอดีต เช่น การกรองร่วมและการกรองตามเนื้อหา (Content-Based Filtering) ได้ถูก นำมาใช้เพื่อสร้างคำแนะนำ โดยการกรองร่วมจะวิเคราะห์ปฏิสัมพันธ์ระหว่างผู้ใช้และสินค้าเพื่อค้นหาผู้ใช้หรือสินค้าที่ คล้ายคลึงกัน และสร้างการคาดการณ์ตามความชอบของกลุ่มผู้ใช้เหล่านั้น ในขณะที่การกรองตามเนื้อหาจะใช้ คุณลักษณะของสินค้าและโปรไฟล์ผู้ใช้เพื่อแนะนำสินค้าที่เกี่ยวข้องกับความสนใจของผู้ใช้ อย่างไรก็ตาม วิธีการเหล่านี้ ประสบปัญหาบางประการ เช่น ปัญหา cold-start และการขาดแคลนข้อมูล เทคนิคการเรียนรู้ของเครื่องเป็นที่นิยมใช้ในการแก้ไขข้อจำกัดของระบบแนะนำสินค้าแบบดั้งเดิม เช่น เทคนิคการ แยกเมทริกซ์ (Matrix Factorization) เช่น การแยกด้วยค่าซิกม่า (Singular Value Decomposition - SVD) และการแยกด้วยค่าความน้อยที่สุดที่สลับกัน (Alternating Least Squares - ALS) เป็นเทคนิคที่ใช้เรียนรู้คุณ สมบัติที่ซ่อนอยู่จากปฏิสัมพันธ์ระหว่างผู้ใช้และสินค้าเพื่อการคาดการณ์ นอกจากนี้ เทคนิคการประมวลผลแบบผสม และแบบความน่าจะเป็นถูกพัฒนาขึ้นเพื่อเพิ่มความแม่นยำและความทนทานของการแนะนำ โมเดลการเรียนรู้เชิงลึกได้รับการพิสูจน์แล้วว่ามีประสิทธิภาพดีในหลายงาน รวมถึงระบบแนะนำสินค้า โดยโครงข่าย ประสาทเทียม เช่น โครงข่ายประสาทเทียมแบบหลายชั้น (Multi-Layer Perceptrons - MLPs), โครงข่ายประสาท เทียมแบบวนซ้ำ (Recurrent Neural Networks - RNNs) และโครงข่ายประสาทเทียมแบบคอนโวลูชัน (Convolutional Neural Networks - CNNs) สามารถตรวจจับรูปแบบที่ซับซ้อนในพฤติกรรมของผู้ใช้และ คุณลักษณะของสินค้าได้ การอธิบายในระบบแนะนำสินค้าช่วยให้ผู้ใช้เข้าใจถึงเหตุผลที่มีการแนะนำสินค้า ทำให้เกิด ความไว้วางใจและความพึงพอใจ การศึกษาของ Yin et al. (2023) ได้แสดงให้เห็นถึงการตีความโดยการใช้โครงข่าย ประสาทเทียม ซึ่งจะทำให้ผู้บริโภคเข้าใจหลักการทำงานของโครงข่ายและจับความชอบของผู้ใช้ที่หลากหลายได้มากขึ้น 2.3 งานวิจัยที่เกี่ยวข้องกับระบบแนะนำสินค้าที่ใช้กลยุทธ์การค้นคืนข้อมูลและแรงจูงใจในการวิจัย ผู้เขียนตระหนักถึงความท้าทายในการศึกษาแนวทางใหม่ที่เกี่ยวข้องกับการวิเคราะห์ข้อมูลการซื้อสินค้าที่เกิดขึ้นใน อดีตของลูกค้า และพิจารณาองค์ประกอบของเวลาในระบบแนะนำสินค้า ซึ่งถูกใช้งานจริงในธุรกิจมาหลายปีแล้ว การ ศึกษานี้มุ่งเน้นที่จะใช้ประโยชน์จากความสามารถของกลยุทธ์การค้นคืนในการประเมินความเกี่ยวข้องของสินค้าแต่ละ รายการสำหรับลูกค้า โดยผสมผสานตรรกะและอัลกอริทึมที่เป็นที่นิยมเพื่อสร้างประสบการณ์การช้อปปิ้ งที่ปรับให้ เหมาะกับแต่ละบุคคลได้มากขึ้น วิธีการแนะนำสินค้าต่าง ๆ มีทั้งข้อดีและข้อเสีย วิธีหนึ่งที่ได้รับความนิยมคือการแนะนำสินค้าที่คล้ายกัน ซึ่งเหมาะ สำหรับชุดข้อมูลขนาดใหญ่ที่มีผู้ใช้จำนวนมาก เนื่องจากมีความสามารถในการปรับขนาด (scalability) วิธีนี้มีความ โปร่งใสและสามารถให้คำแนะนำที่แปลกใหม่ ช่วยเพิ่มประสบการณ์ผู้ใช้ อย่างไรก็ตาม วิธีนี้มักจะมองข้ามความไม่ แน่นอนและความสัมพันธ์ระหว่างพฤติกรรมของผู้ใช้กับเวลา ซึ่งอาจส่งผลกระทบต่อความแม่นยำของการแนะนำ อีกวิธีหนึ่งที่ได้รับความนิยมในการแนะนำสินค้าคือการกรองร่วมตามผู้ใช้ ซึ่งมุ่งเน้นการวิเคราะห์พฤติกรรมของผู้ใช้ โดยการกรองร่วมเป็นแนวทางที่ใช้กันอย่างแพร่หลาย เนื่องจากใช้งานง่ายและเข้าใจได้ไม่ยาก อย่างไรก็ตาม ทั้งวิธี การแนะนำสินค้าตามสินค้าและตามผู้ใช้มีข้อจำกัดในการพิจารณาด้านเวลาและการจัดการปัญหา cold-start เมื่อ ข้อมูลของสินค้าหรือผู้ใช้มีไม่เพียงพอ โมเดลที่เสนอโดยการศึกษานี้ผสมผสานการกรองตามเนื้อหา โดยเน้นการวิเคราะห์คุณลักษณะของสินค้าและการมี ปฏิสัมพันธ์ของลูกค้ากับสินค้าแต่ละชิ้น การกรองตามเนื้อหาเหมาะสมสำหรับกรณีที่ข้อมูลผู้ใช้มีจำกัดและสามารถแก้ ปัญหา cold-start ได้อย่างมีประสิทธิภาพ อย่างไรก็ตาม ข้อจำกัดของการกรองตามเนื้อหาคืออาจทำให้แนะนำสินค้า ที่มีลักษณะคล้ายกันมากเกินไป DSI312 4 การศึกษาโดย Koren et al. (2009) เสนอวิธีการแก้ปัญหาการขาดข้อมูลและปัญหา cold-start โดยการใช้ปัจจัยที่ ซ่อนอยู่ (latent factors) ที่สามารถอธิบายความชอบของผู้ใช้และคุณลักษณะของสินค้าได้ อย่างไรก็ตาม วิธีนี้มีข้อ จำกัดในการตรวจจับรูปแบบที่ซับซ้อนและการจัดการกับความสัมพันธ์แบบไม่เชิงเส้น รวมถึงข้อจำกัดในเรื่องของการ ปรับขนาดเมื่อจัดการกับชุดข้อมูลขนาดใหญ่ Wang et al. (2015) เสนอวิธีการรวมเทคนิคการแยกเมทริกซ์และ โครงข่ายประสาทเทียมซึ่งช่วยเพิ่มความยืดหยุ่นและความเป็นส่วนตัวของการแนะนำ การศึกษานี้ยังรวมถึงการจัดอันดับแบบ Bayesian (Bayesian Personalized Ranking - BPR) ซึ่งเป็นวิธีการ ตามความน่าจะเป็นที่มีประสิทธิภาพในการจัดการกับข้อมูลที่ขาด โดยการเรียนรู้ปัจจัยแฝงจากปฏิสัมพันธ์ระหว่างผู้ใช้ และสินค้า ทำให้สามารถแนะนำสินค้าแบบเฉพาะบุคคลได้ BPR มีความสามารถในการปรับขนาดได้สูงด้วยการใช้อ ัลกอริทึมการปรับน้ำหนักแบบ stochastic gradient descent ซึ่งมีประสิทธิภาพในระบบแนะนำขนาดใหญ่ อย่างไร ก็ตาม BPR มีข้อเสียในด้านความสามารถในการตีความที่น้อยกว่าเมื่อเทียบกับวิธีการอื่น เนื่องจากมุ่งเน้นไปที่การ เพิ่มความแม่นยำในการจัดอันดับ อาจส่งผลให้โมเดลขาดความสามารถในการอธิบายคำแนะนำที่ชัดเจน ดังนั้น ผู้เขียนจึงเลือกที่จะนำจุดแข็งของแต่ละอัลกอริทึมที่ทบทวนมาใช้ในแนวทางที่เรียกว่า กลยุทธ์การค้นคืน โดย ออกแบบให้สามารถจัดโครงสร้างข้อมูลที่มีคุณภาพ ซึ่งครอบคลุมหลายมิติ เช่น ความสัมพันธ์ระหว่างผู้ใช้และสินค้า ความเหมือนกันของผู้ใช้ และปัจจัยของฤดูกาลกับพฤติกรรมการซื้อ เมื่อข้อมูลที่มีโครงสร้างครบถ้วนพร้อมแล้ว ผู้ เขียนเลือกใช้โมเดลการเรียนรู้ของเครื่องสองชนิด ได้แก่ โครงข่ายประสาทเทียมเชิงลึกและ LightGBM 3. ระเบียบวิธีวิจัย (Methodology) การศึกษานี้ประกอบด้วย 4 ขั้นตอนหลัก ดังที่แสดงในรูปที่ 4 เพื่อตอบโจทย์วัตถุประสงค์การวิจัยอย่างครบถ้วน โดย ขั้นตอน (1) เป็นการวิเคราะห์เบื้องต้น, ขั้นตอนที่ (2) เป็นการสร้างและทดลองกลยุทธ์การค้นคืนข้อมูลที่หลากหลาย, ขั้นตอนที่ (3) เป็นการเตรียมข้อมูลที่ได้จากการค้นคืนสำหรับโมเดลเฉพาะ และขั้นตอนที่ (4) เป็นการประเมินผลการ ทดลองอย่างละเอียด 3.1 การวิเคราะห์เบื้องต้น (Pre-analysis) 3.1.1 การรวบรวมข้อมูล (Data Collection) ชุดข้อมูลที่ใช้ในการศึกษานี้ได้รับการจัดเตรียมจาก H&M โดยเก็บรวบรวมตั้งแต่เดือนกันยายน 2018 ถึงเดือน กันยายน 2020 โดยมีข้อมูลลูกค้าที่ไม่ซ้ำกันทั้งหมด 1,371,980 คน (แสดงตัวอย่างในตารางที่ 1) และบันทึกข้อมูล สินค้าไว้กว่า 105,000 รายการ (ดูตัวอย่างในตารางที่ 2) ส่วนการบันทึกข้อมูลการซื้อสินค้า มีการบันทึกเป็นรายวัน รวมกว่า 32 ล้านรายการ (ดูตัวอย่างในตารางที่ 3) 3.1.2 การสำรวจข้อมูล (Data Exploratory) รูปที่ 5 แสดงให้เห็นข้อมูลเชิงลึกเกี่ยวกับพฤติกรรมการซื้อของลูกค้าในช่วงเวลาสองปี ซึ่งทำให้นักวิจัยสามารถมอง เห็นแนวโน้มและรูปแบบของธุรกิจได้ เช่น ช่วงเดือนพฤษภาคมถึงสิงหาคมมีการขายสูงสุด โดยเฉพาะในเดือน มิถุนายน จากนั้นยอดขายลดลงอย่างมากเหลือประมาณครึ่งหนึ่ง และคงที่อยู่เป็นเวลาประมาณห้าเดือน การทำความเข้าใจรูปแบบยอดขายนี้มีเป้าหมายหลักในการวางกลยุทธ์เพื่อเพิ่มการมีส่วนร่วมของลูกค้าเดิมและการ ดึงดูดลูกค้าใหม่ โดยใช้วิธีการวิเคราะห์และนำข้อมูลเชิงลึกเหล่านี้มาสร้างสรรค์สิ่งแวดล้อมที่กระตุ้นให้ลูกค้ารู้สึกตื่น เต้นและพร้อมที่จะเข้ามามีส่วนร่วมกับแพลตฟอร์ม 3.2 การเตรียมข้อมูลและการวางแผนกลยุทธ์การค้นคืน (Input Preparation and Retrieval Strategies Planning) ชุดข้อมูลครอบคลุมช่วงระยะเวลาตั้งแต่ 18 กันยายน 2018 ถึง 22 กันยายน 2020 โดยสัปดาห์สุดท้ายของข้อมูล (16–22 กันยายน 2020) ถูกกำหนดให้เป็นชุดทดสอบ ในขณะที่สี่สัปดาห์ก่อนหน้านี้ (17 สิงหาคม ถึง 16 กันยายน 2020) จะใช้เป็นชุดฝึกสอน ระหว่างช่วงนี้จะมีการนำกลยุทธ์การค้นคืนข้อมูลมาใช้เพื่อเลือกสินค้าแนะนำให้กับลูกค้า โดยพิจารณาจากความชอบส่วนบุคคลของพวกเขา DSI312 5 ในการพัฒนาเครื่องมือแนะนำสินค้า นักวิจัยได้ทำตามแนวทางของ Jin Zhan ซึ่งเป็นนักวิทยาศาสตร์ข้อมูลที่มี ประสบการณ์สูงจากประเทศญี่ปุ่น โดยการใช้ข้อมูลในสัปดาห์สุดท้ายเป็นชุดทดสอบหรือโมเดลจัดอันดับสำหรับสัปดาห์ ปัจจุบัน นักวิจัยจะทำการดึงสินค้าแนะนำจากข้อมูลย้อนหลังตามกฎที่กำหนดไว้สำหรับลูกค้าแต่ละราย โดยการทับ ซ้อนระหว่างข้อมูลสินค้าที่แนะนำกับสินค้าที่ลูกค้าซื้อในสัปดาห์นั้น ๆ จะถือเป็นตัวอย่างบวก ในขณะที่ข้อมูลที่เหลือจะ ถือเป็นตัวอย่างลบ 3.2.1 การประมวลผลข้อมูล (Input Processing) หลังจากแบ่งข้อมูลเป็นชุดฝึกสอนและชุดทดสอบแล้ว นักวิจัยดำเนินการจัดการข้อมูลที่ขาดหายและเข้ารหัสฟีเจอร์เชิง หมวดหมู่ที่เกี่ยวข้องกับคุณลักษณะของสินค้า โดยเฉพาะจะกำหนดกลุ่มให้กับสินค้าตามกลุ่มลูกค้าที่ตั้งเป้า เช่น 0 สำหรับสินค้ายูนิเซ็กซ์, 1 สำหรับผู้หญิง, และ 2 สำหรับผู้ชาย จากนั้นแปลงฟีเจอร์เชิงหมวดหมู่เหล่านี้ให้เป็นค่าที่ไม่ต่อ เนื่อง ต่อมา นักวิจัยได้ออกแบบกลยุทธ์สองประเภทสำหรับการค้นคืนข้อมูล ได้แก่ กลยุทธ์ง่าย (Simple Strategy) และ กลยุทธ์ซับซ้อน (Complex Strategy) ในกลยุทธ์แบบง่ายประกอบไปด้วยกฎพื้นฐาน เช่น การดึงสินค้าล่าสุดที่ ลูกค้าซื้อภายในช่วงเวลาที่กำหนด (3 หรือ 7 วัน) การดึงสินค้าที่มักซื้อคู่กันซึ่งเป็นที่รู้จักกันในชื่อการวิเคราะห์ตะกร้า สินค้า (Market Basket Analysis) และการใช้ฟังก์ชันลดลง (Decaying Function) สำหรับรายการที่ลูกค้าเคยซื้อ ร่วมกัน กฎของกลยุทธ์ง่ายรวมถึง: การดึงข้อมูลสินค้าที่ลูกค้าซื้อล่าสุดในช่วงเวลาที่กำหนดและทำการจับคู่คะแนนตามวันที่ซื้อครั้งล่าสุดของลูกค้า การดึงสินค้าที่ซื้อร่วมกันกับสินค้าที่เพิ่งซื้อ โดยการใช้ฟังก์ชันลดลงอ้างอิงจากงานวิจัยของ W. Zhang et al., 2017 ฟังก์ชันการลดลงใช้สูตรดังนี้: \[ r = \frac{a}{\sqrt{x}} + b \cdot e^{-cx} - d \] โดย: \( r \) คือ ความน่าจะเป็นในการสั่งซื้อสินค้าซ้ำ \( x \) คือ ช่วงเวลาห่างกันระหว่างการสั่งซื้อสินค้าครั้งสุดท้ายของลูกค้า พารามิเตอร์ \( a, b, c, d \) ถูกใช้เพื่อควบคุมสเกลและอัตราการลดลงของฟังก์ชัน ในกลยุทธ์แบบซับซ้อนนั้นจะรวมถึงกฎต่าง ๆ และแนวคิดทางคณิตศาสตร์ขั้นสูง เช่น: การกรองร่วม (Collaborative Filtering) ระบบจะวิเคราะห์ข้อมูลการซื้อสินค้าที่ผ่านมาและค้นหารูปแบบที่ คล้ายกันระหว่างผู้ใช้ การแยกเมทริกซ์ (Matrix Factorization) เป็นการแยกข้อมูลออกเป็นเมทริกซ์ผู้ใช้และสินค้าเพื่อลดมิติข้อมูล การจัดอันดับแบบ Bayesian ซึ่งเป็นอัลกอริทึมที่ใช้การอนุมานแบบ Bayesian เพื่อสร้างอันดับสินค้าสำหรับผู้ ใช้ เมื่อกระบวนการค้นคืนข้อมูลเสร็จสิ้น ชุดข้อมูลที่เตรียมจะมีฟีเจอร์ทั้งหมดที่สอดคล้องกับกฎที่ใช้ ซึ่งบันทึกพฤติกรรม การซื้อที่ผ่านมาของลูกค้าแต่ละคนในแต่ละรายการ โดยการทำการปกติกับข้อมูลให้เป็นสเกลเดียวกันโดยใช้วิธีการ Quantile Normalization (Bolstad et al., 2003) 3.3 การประยุกต์ใช้การเรียนรู้ของเครื่อง (Application of Machine Learning) 3.3.1 โมเดล LightGBM DSI312 6 LightGBM ใช้ต้นไม้การตัดสินใจ (Decision Trees) เพื่อสร้างฟังก์ชันที่เชื่อมโยงจากช่องว่างอินพุตไปยังช่องว่าง เกรเดียนท์ โดยแต่ละรอบของการเพิ่มเกรเดียนท์จะใช้เกรเดียนท์ลบของฟังก์ชันการสูญเสียที่เกิดขึ้นกับโมเดล เอาต์พุตจะถูกจัดแบ่งที่โหนดแต่ละโหนดตามฟีเจอร์ที่สำคัญที่สุด LightGBM ถูกฝึกด้วยพารามิเตอร์สำคัญหลาย อย่าง เช่น ประเภทปัญหา, อัลกอริทึมที่ใช้, เมตริกการประเมิน และความลึกสูงสุดของต้นไม้ ซึ่งรายละเอียดจะถูกระบุ ในตารางที่ 4 เพื่อหาค่าเรียนรู้ที่เหมาะสม นักวิจัยได้ใช้ห้องสมุด Optuna เพื่อทำการหาค่าที่ดีที่สุด และเลือกค่าเรียนรู้ที่ 0.03 เนื่องจากมีการเรียนรู้ที่เสถียรที่สุดในสถานการณ์นี้ 3.3.2 โมเดลโครงข่ายประสาทเทียมเชิงลึก (Deep Neural Network) โมเดลโครงข่ายประสาทเทียมเชิงลึกนี้แบ่งอินพุตออกเป็น 3 มิติ ได้แก่ มิติของลูกค้า มิติของสินค้า และมิติของ ผลิตภัณฑ์ โดยแต่ละมิติจะมีชุดของชั้น (Layers) และน้ำหนักที่สอดคล้องกัน หลังจากนำทั้งสามมิติมารวมกัน โมเดล จะมีชั้น Dense สองชั้นที่ใช้ฟังก์ชันการกระตุ้นแบบ Swish ซึ่งเป็นฟังก์ชันการกระตุ้นแบบไม่เชิงเส้นที่ช่วยเพิ่ม ประสิทธิภาพในการตรวจจับรูปแบบที่ ซับซ้อน และมีชั้น Dense หนึ่งชั้นสำหรับเอาต์พุตที่ใช้ฟังก์ชัน Sigmoid ซึ่งเป็นฟังก์ชันที่มักใช้ในงานจำแนกประเภท แบบไบนารี ฟังก์ชัน Swish ถูกกำหนดโดยสูตร: \[ \text{Swish}(x) = x \cdot \text{sigmoid}(\beta x) \] ซึ่ง \( x \) คืออินพุตของฟังก์ชัน และ \( \beta \) คือตัวควบคุมช่วงค่าของเอาต์พุต 3.4 การประเมินโมเดล (Model Evaluation) เมื่อขั้นตอนการฝึกเสร็จสิ้น นักวิจัยจะประเมินประสิทธิภาพของโมเดลที่เสนอต่อชุดข้อมูลในสัปดาห์ล่าสุด โดยใช้ข้อมูล Simple และ Advanced ในการฝึกสอนและประเมินผล โมเดลถูกประเมินด้วยเมตริกที่นิยมใช้ในระบบแนะนำสินค้า ได้แก่ ค่า Mean Average Precision (MAP) และ Mean Average Recall (MAR) ซึ่งช่วยวัดประสิทธิภาพของ การแนะนำในช่วงจำนวนสินค้า 5 ถึง 50 รายการ 4. ผลลัพธ์และการอภิปราย (Results and Discussion) จากที่อธิบายในหัวข้อ 3.4 คะแนนการประเมินของโมเดลจะเพิ่มขึ้นเมื่อจำนวนสินค้าที่แนะนำเปลี่ยนจาก 5 เป็น 50 รายการ อย่างไรก็ตาม ประสิทธิภาพของโมเดลเมื่อฝึกด้วยข้อมูลสองประเภท (Simple และ Advanced) ไม่แตกต่าง กันมากนัก ซึ่งหมายความว่าข้อมูลแบบง่าย (Simple Input) ก็เพียงพอสำหรับชุดข้อมูลและสถานการณ์การวิจัยใน ครั้งนี้แล้ว เนื่องจากข้อจำกัดของขนาดข้อมูลลูกค้าและความหลากหลายในข้อมูลประชากรของลูกค้า ทำให้นักวิจัยไม่ สามารถใช้ประโยชน์จากศักยภาพของอัลกอริทึมขั้นสูงได้อย่างเต็มที่ โดยทั่วไปแล้ว กฎการค้นคืนข้อมูลในกรณีศึกษานี้มีประสิทธิภาพในการค้นหาสินค้าที่อาจเป็นที่สนใจของลูกค้าโดยการ ให้คะแนนความเกี่ยวข้องของสินค้าต่อผู้ใช้แต่ละราย อย่างไรก็ตาม เมื่อเปรียบเทียบประสิทธิภาพระหว่างโครงข่าย ประสาทเทียมเชิงลึก (DNN) และ LightGBM พบว่า DNN ประสบปัญหาในการทำงานเนื่องจากมีชั้นซ่อนที่ซับซ้อน การปรับแต่งพารามิเตอร์ (hyperparameters) ของ DNN มีความซับซ้อนสูงและต้องการทรัพยากรการคำนวณ จำนวนมากเพื่อให้ได้ประสิทธิภาพที่ดีที่สุด ในทางกลับกัน LightGBM แสดงประสิทธิภาพที่ดีกว่า DNN อย่างมีนัยสำคัญ โดยผลลัพธ์แสดงให้เห็นว่า LightGBM มีค่า MAP@K และ MAR@K ที่สูงกว่า DNN ถึงสามเท่า การที่ LightGBM สามารถจัดการกับข้อมูล ขนาดใหญ่ได้ดี มีความสามารถในการเพิ่มประสิทธิภาพให้กับวัตถุประสงค์ที่ซับซ้อน และทนทานต่อฟีเจอร์เชิงหมวดหมู่ และข้อมูลที่มีค่าผิดปกติ (outliers) นั้น เป็นปัจจัยหลักที่ทำให้ LightGBM เหนือกว่า DNN ในการประยุกต์ใช้กับ ระบบแนะนำสินค้า DSI312 7 แม้ว่า LightGBM จะมีข้อดีหลายประการในการใช้งานในงานวิจัยนี้ แต่ก็ยังมีข้อเสียบางประการ เช่น ความยุ่งยากใน การปรับพารามิเตอร์ให้เหมาะสมที่สุด และมีแนวโน้มที่จะเกิดการ overfitting อย่างไรก็ตาม ปัญหาดังกล่าวสามารถ แก้ไขได้โดยใช้วิธีการค้นคืนข้อมูล ซึ่งช่วยให้โมเดลสามารถหลีกเลี่ยงการเกิด overfitting ได้ในระหว่างการฝึกโมเดล ข้อค้นพบนี้จึงเน้นถึงความสำคัญในการเลือกอัลกอริทึมที่เหมาะสม โดยคำนึงถึงลักษณะของข้อมูล ทรัพยากรการ คำนวณ และเมตริกการประเมินผล เพื่อให้ระบบแนะนำสินค้ามีประสิทธิภาพสูงสุด ระหว่างการทำวิจัยนี้ นักวิจัยต้องเผชิญกับความท้าทายหลายประการ เช่น ข้อจำกัดด้านเวลาของการทดลอง ทรัพยากรการคำนวณที่จำกัด และความรู้เชิงคณิตศาสตร์ที่จำเป็น ข้อจำกัดหลักคือการที่งานวิจัยนี้ไม่ได้เปรียบเทียบ ประสิทธิภาพของโมเดลกับโมเดลพื้นฐานอื่น ๆ เนื่องจากขาดตัวชี้วัดการประเมินผลที่ได้มาตรฐานที่ใช้กันโดยทั่วไปใน ระบบแนะนำสินค้า ปัจจุบันยังขาดเกณฑ์มาตรฐานที่ได้รับการยอมรับอย่างแพร่หลายในการวัดประสิทธิภาพของระบบ แนะนำสินค้า นอกจากนี้ ระบบแนะนำสินค้าที่พัฒนาขึ้นในงานวิจัยนี้อาจนำไปใช้ในสาขาอื่นนอกเหนือจากอีคอมเมิร์ซได้ หากมีการ ปรับแต่งที่เหมาะสม ตัวอย่างการนำไปใช้ เช่น 1. บริการสตรีมมิ่ง (Streaming Services): อัลกอริทึมแนะนำสามารถปรับแต่งให้แนะนำภาพยนตร์ รายการทีวี หรือเพลง ตามความชอบและพฤติกรรมการรับชมของผู้ใช้ การปรับเปลี่ยนอาจรวมถึงการเพิ่มคุณลักษณะที่ เกี่ยวข้องกับเนื้อหาบันเทิง เช่น ประเภท (Genre), ผู้กำกับ, นักแสดง หรือประเภทเพลง นอกจากนี้ กลยุทธ์การ ค้นคืนอาจต้องปรับให้คำนึงถึงปัจจัยทางเวลา เช่น ช่วงเวลาที่เหมาะสมสำหรับการแนะนำเนื้อหาตามอารมณ์หรือ ช่วงเวลาของวัน 2. การดูแลสุขภาพ (Healthcare Applications): โมเดลอาจแนะนำแผนการรักษา คำแนะนำด้านสุขภาพ หรือ การปรับเปลี่ยนพฤติกรรมตามโปรไฟล์สุขภาพและประวัติทางการแพทย์ของผู้ใช้ การปรับเปลี่ยนจะต้องรวม ข้อมูลเกี่ยวกับสุขภาพ เช่น ปัญหาทางการแพทย์ อาการ พฤติกรรมการใช้ชีวิต และผลลัพธ์ของการรักษา กลยุทธ์การค้นคืนข้อมูลอาจเลือกการรักษาตามประสิทธิภาพและความเหมาะสมกับสถานะสุขภาพของผู้ใช้ 3. การท่องเที่ยวและการบริการ (Travel and Hospitality): สำหรับแพลตฟอร์มการท่องเที่ยว โมเดลอาจแนะนำ สถานที่ท่องเที่ยว ที่พัก หรือกิจกรรมตามความสนใจ ประสบการณ์การเดินทางที่ผ่านมา และข้อจำกัดทางการเงิน ของผู้ใช้ การเปลี่ยนแปลงอาจรวมถึงคุณลักษณะที่เกี่ยวข้องกับการท่องเที่ยว เช่น สถานที่ที่ต้องการ วันที่เดิน ทาง ความชอบที่พัก และจำนวนผู้ร่วมเดินทาง กลยุทธ์การค้นคืนข้อมูลอาจให้ความสำคัญกับคำแนะนำตามความ นิยม การให้คะแนนของผู้ใช้ และความพร้อมให้บริการ ในการประยุกต์ใช้ในแต่ละด้านเหล่านี้ จำเป็นต้องมีการปรับแต่งโมเดลแนะนำให้สอดคล้องกับลักษณะเฉพาะและความ ต้องการของสาขานั้น ๆ ซึ่งอาจรวมถึงการเพิ่มคุณลักษณะที่เป็นเฉพาะของสาขานั้น ๆ การปรับเปลี่ยนกลยุทธ์การค้น คืนข้อมูลให้สอดคล้องกับบริบทสำคัญ และการปรับแต่งอัลกอริทึมแนะนำสินค้าเพื่อเพิ่มประสิทธิภาพในการใช้งาน นอกจากนี้ คำแนะนำจากผู้เชี่ยวชาญเฉพาะด้านอาจจำเป็นเพื่อให้มั่นใจว่าโมเดลมีประสิทธิภาพและมีความเหมาะสมใน สาขาที่ต้องการ 5. บทสรุป (Conclusion) งานวิจัยนี้สรุปว่า LightGBM มีประสิทธิภาพเหนือกว่าโครงข่ายประสาทเทียมเชิงลึก (Deep Neural Network - DNN) ในการประยุกต์ใช้ในระบบแนะนำสินค้า การค้นพบนี้เน้นถึงความสำคัญของการเลือกใช้อัลกอริทึมที่เหมาะสม โดยพิจารณาจากปัจจัยต่าง ๆ เช่น ลักษณะของข้อมูล ทรัพยากรการคำนวณ และตัวชี้วัดด้านประสิทธิภาพ การค้นพบ นี้มีนัยสำคัญสำหรับธุรกิจที่ต้องการนำระบบแนะนำสินค้ามาใช้ โดยให้แนวทางในการเลือกใช้อัลกอริทึมที่เหมาะสมเพื่อ เพิ่มการมีส่วนร่วมของลูกค้าและส่งเสริมยอดขาย ประการแรก ผู้เขียนมีแผนที่จะหาความร่วมมือกับธุรกิจอีคอมเมิร์ซขนาดกลางและขนาดเล็ก (SMEs) ที่มีศักยภาพใน การปรับตัวและพร้อมที่จะสนับสนุนการนำกลยุทธ์เทคโนโลยีใหม่ ๆ รวมถึงความรู้จากภายนอกเข้ามาสู่แพลตฟอร์ม ธุรกิจ การติดตามและประเมินผลการทำงานของโมเดลนั้นจำเป็นต้องใช้การทดสอบแบบ A/B สำหรับแคมเปญเฉพาะ อีกทั้งการปรับแต่งพารามิเตอร์ (hyperparameter tuning) ก็เป็นสิ่งสำคัญเนื่องจากข้อมูลมีการเพิ่มขึ้นทุกวันและ พฤติกรรมของลูกค้ามีการเปลี่ยนแปลงอย่างต่อเนื่อง ซึ่งจะช่วยให้ผู้วิจัยสามารถสังเกตสัญญาณของตลาดและ DSI312 8 ปรับปรุงแนวทางที่ใช้ได้อย่างเหมาะสม การทำเช่นนี้จะช่วยเพิ่มประสิทธิภาพของระบบแนะนำสินค้า ปรับปรุง ประสบการณ์ของลูกค้า และสร้างการเติบโตที่ยั่งยืนในธุรกิจอีคอมเมิร์ซที่มีการแข่งขันสูง ระบบแนะนำสินค้าถือเป็นสิ่งสำคัญในการนำเสนอคำแนะนำที่ตรงตามความสนใจและพฤติกรรมของผู้ใช้ งานวิจัยนี้ ยอมรับว่ามีข้อจำกัดบางประการ เช่น การจำกัดเวลา ทรัพยากร และความรู้เฉพาะด้าน แม้ว่าจะมีข้อจำกัดเหล่านี้ แต่ งานวิจัยนี้ก็ให้ข้อมูลเชิงลึกที่มีคุณค่าและเป็นพื้นฐานสำหรับการวิจัยต่อไป ในอนาคตควรมีการพัฒนามาตรฐานการ ประเมินผลที่เป็นสากลและการทำงานร่วมกันระหว่างสาขาวิชาต่าง ๆ เพื่อช่วยแก้ปัญหาเหล่านี้และพัฒนาระบบแนะนำ สินค้าให้ดียิ่งขึ้น การทำงานร่วมกันจะส่งเสริมให้เกิดการพัฒนาระบบแนะนำสินค้าที่ดีขึ้นและเชื่อมโยงความรู้ทาง คณิตศาสตร์เข้ากับการพัฒนาระบบอย่างมีประสิทธิภาพ สรุปแบบเข้าใจง่าย: ลองนึกภาพคุณเป็นเจ้าของร้านค้าออนไลน์ขนาดใหญ่ ที่มีสินค้าหลายล้านรายการ และมีลูกค้ามากมาย คุณต้องการ แนะนำสินค้าให้ลูกค้าแต่ละคน เพื่อเพิ่มโอกาสในการขาย. แต่การแนะนำสินค้าทั้งหมดให้ลูกค้าทุกคน เป็นไปไม่ได้ เพราะ ลูกค้าจะสับสน และเสียเวลาในการเลือกสินค้า. Retrieval Strategy ก็เหมือนกับการมี "ผู้ช่วยร้านค้า" ที่คอยเลือกสินค้าที่น่าสนใจ สำหรับลูกค้าแต่ละคน โดย พิจารณาจากข้อมูลต่างๆ เช่น สินค้าที่ลูกค้าเคยซื้อ สินค้าที่คนอื่นๆ ที่คล้ายกับลูกค้าเคยซื้อ สินค้ายอดนิยม ฯลฯ "ผู้ ช่วยร้านค้า" จะเลือกสินค้าจากคลังสินค้าขนาดใหญ่ มาเพียงไม่กี่รายการ แล้วส่งต่อให้พนักงานขาย (โมเดล Machine Learning) เพื่อเลือกสินค้าที่เหมาะสมที่สุด สำหรับลูกค้าแต่ละคน. Methodology ก็คือขั้นตอนการทำงานทั้งหมด ตั้งแต่การเก็บรวบ final scrip Simple Strategy เน้นที่กฎง่ายๆ ในการดึงข้อมูล โดยพิจารณาจากประวัติการซื้อของผู้ใช้แต่ละคน และสินค้ายอดนิยม มีจุด OrderHistory (ประวัติการสั่งซื้อ): คะแนนในคอลัมน์ OrderHistory_1 และ OrderHistory_2 มาจากการดึง ข้อมูลสินค้าที่ลูกค้าเคยสั่งซื้อ โดยให้คะแนนสินค้าที่สั่งซื้อบ่อยและสั่งซื้อล่าสุดมีคะแนนสูงกว่า ItemPairRetrieve (สินค้าที่ซื้อร่วมกัน): คะแนนใน คอลัมน์ ItemPairRetrieve_1 ถึง ItemPairRetrieve_4 มาจาก Market Basket Analysis ซึ่งวิเคราะห์ว่า สินค้าใดมักจะถูกซื้อร่วมกัน หากสินค้าสองรายการถูกซื้อร่วมกันบ่อย คะแนนในคอลัมน์นี้ก็จะสูง. OrderHistoryDecay (ประวัติการสั่งซื้อแบบมีค่าเสื่อม): คะแนนใน คอลัมน์ OrderHistoryDecay_1 และ OrderHistoryDecay_2 คล้ายกับ OrderHistory แต่มีการใช้ decaying function เพื่อลดน้ำหนักของสินค้าที่ถูกซื้อไปนานแล้ว ตามสมการ: Advanced Strategy: Collaborative Filtering: วิเคราะห์ประวัติการซื้อของผู้ใช้หลายๆ คน เพื่อหาความสัมพันธ์ และแนะนำ สินค้าที่ผู้ใช้คนอื่นๆ ที่มีพฤติกรรมคล้ายกันเคยซื้อ. Matrix Factorization: แปลงข้อมูลความสัมพันธ์ระหว่างผู้ใช้และสินค้า ให้อยู่ในรูปแบบเมทริกซ์ แล้วแยก เมทริกซ์ออกเป็นสองเมทริกซ์ขนาดเล็กลง เพื่อลดความซับซ้อนของข้อมูล. Bayesian Personalized Ranking (BPR): ใช้วิธี Bayesian inference เพื่อจัดอันดับสินค้าตามความ ชอบของผู้ใช้ โดยพิจารณาจากการเปรียบเทียบสินค้าเป็นคู่ๆ. หลังจากดึงข้อมูลด้วย Retrieval Strategy จะนำข้อมูลมาทำ Quantile Normalization (Bolstad et al., 2003) เพื่อปรับสเกลของข้อมูลให้อยู่ในช่วงเดียวกัน เพื่อทำนายความน่าจะเป็นที่ผู้ใช้จะซื้อสินค้าแต่ละรายการ. ยิ่งความน่าจะเป็นสูง ก็ยิ่งมีโอกาสที่ผู้ใช้จะซื้อสินค้านั้นมาก ขึ้น. DSI312 9 LightGBM โดยสรุป LightGBM จะทำงานดังนี้: 1. รับ Input: LightGBM จะรับข้อมูลที่ได้จาก Retrieval Strategy ซึ่งเป็น features ที่แปลงให้อยู่ในรูปแบบ ตัวเลขแล้ว 2. สร้าง Decision Trees: LightGBM จะสร้าง Decision Trees หลายๆ ต้น โดยแต่ละต้นจะเน้นไปที่การทำนาย ความน่าจะเป็นในการซื้อสินค้า โดยแต่ละต้นจะพยายามแก้ไขข้อผิดพลาดจากการทำนายของต้นก่อนหน้า ด้วยวิธี Gradient Boosting. 3. เรียนรู้ความสัมพันธ์: ในขณะที่สร้าง Decision Trees LightGBM จะเรียนรู้ความสัมพันธ์ระหว่าง features ต่างๆ กับความน่าจะเป็นในการซื้อสินค้า เช่น หากพบว่าผู้ใช้ที่อายุใกล้เคียงกันมักจะซื้อสินค้าชนิดเดียวกัน LightGBM จะให้ความสำคัญกับ feature ด้านอายุมากขึ้น. 4. ทำนายผลลัพธ์: หลังจากสร้าง Decision Trees ครบแล้ว LightGBM จะนำผลการทำนายของทุกต้นมารวมกัน เพื่อทำนายความน่าจะเป็นที่ผู้ใช้จะซื้อสินค้าแต่ละรายการ. ยิ่งความน่าจะเป็นสูง ก็ยิ่งมีโอกาสที่ผู้ใช้จะซื้อสินค้านั้น มากขึ้น. Deep Neural Network (DNN): การทำงานของ DNN DNN จะรับข้อมูล input ที่ได้จาก Retrieval Strategies ซึ่งเป็น vectors ของลูกค้า สินค้า และ product. จากนั้น DNN จะเรียนรู้ความสัมพันธ์ระหว่างข้อมูลเหล่านี้ ผ่าน hidden layers โดยใช้ Swish activation function และ Dropout เพื่อป้องกัน overfitting. สุดท้าย DNN จะทำนายความน่าจะเป็นที่ผู้ใช้จะซื้อสินค้า โดยใช้ sigmoid activation function ใน output layer Model Validation Mean Average Precision at K (MAP@K) และ Mean Average Recall at K (MAR@K) เพื่อประเมิน ประสิทธิภาพของโมเดล. โดยที่ K คือจำนวนสินค้าที่แนะนำ MAP@K: วัดความแม่นยำในการจัดอันดับสินค้า โดยพิจารณาจากตำแหน่งของสินค้าที่ผู้ใช้ซื้อจริง ในรายการ สินค้าที่แนะนำ. MAP@K จะให้ค่าสูง ถ้าสินค้าที่ผู้ใช้ซื้อจริง อยู่ในอันดับต้นๆ ของรายการสินค้าที่แนะนำ. MAR@K: วัดความครอบคลุมของสินค้าที่แนะนำ โดยพิจารณาว่าสินค้าที่ผู้ใช้ซื้อจริง อยู่ในรายการสินค้าที่ แนะนำหรือไม่. MAR@K จะให้ค่าสูง ถ้าสินค้าที่ผู้ใช้ซื้อจริง อยู่ในรายการสินค้าที่แนะนำ. 1. การประเมินผล: ทำการประเมินผลโมเดลทั้ง LightGBM และ DNN โดยใช้ input ที่ได้จาก Retrieval Strategies ทั้งแบบ Simple และ Advanced. โดยจะทำการทดสอบกับค่า K ที่แตกต่างกัน ตั้งแต่ 10 ถึง 50 ผลการทดลอง: Figure 11 12: แสดงกราฟเปรียบเทียบ MAP@K และ MAR@K ของ LightGBM และ DNN ที่ใช้ input แบบ Simple และ Advanced. จะเห็นว่า LightGBM มี MAP@K สูงกว่า DNN อย่างมีนัยสำคัญ สำหรับทุกค่า K. และประสิทธิภาพของ LightGBM ที่ใช้ input แบบ Simple และ Advanced ใกล้เคียงกัน. คำอธิบาย Figure 13, 14, 15, และ 16: Figure เหล่านี้แสดงตัวอย่างสินค้าที่โมเดลแนะนำ เทียบกับสินค้าที่ผู้ใช้ซื้อจริง. โดยมีรายละเอียดดังนี้: Figure 13: แสดงผลการแนะนำสินค้าของโมเดล Small LightGBM (ฝึกฝนด้วย Simple input) สำหรับลูกค้า ผู้หญิงอายุ 27 ปี ที่ไม่เคยซื้อสินค้าในร้านมาก่อน. ภาพด้านซ้ายคือสินค้าที่ผู้ใช้ซื้อจริง (Purchased) ส่วนภาพ DSI312 10 ด้านขวาคือสินค้า 10 อันดับแรกที่โมเดลแนะนำ. จะเห็นว่าโมเดลสามารถแนะนำสินค้าที่ใกล้เคียงกับสินค้าที่ผู้ใช้ซื้อ ได้. Figure 14: แสดงผลการแนะนำสินค้าของโมเดล Large LightGBM (ฝึกฝนด้วย Advanced input) สำหรับ ลูกค้าคนเดียวกันกับใน Figure 13. จะเห็นว่าผลลัพธ์ที่ได้ มีความหลากหลายมากกว่า Small LightGBM. Figure 15: แสดงผลการแนะนำสินค้าของโมเดล Small LightGBM สำหรับลูกค้าผู้หญิงอายุ 29 ปี ที่เคยซื้อ สินค้าในร้านมาแล้ว 3 ครั้ง. ภาพด้านซ้ายคือสินค้าที่ผู้ใช้ซื้อจริง ส่วนภาพด้านขวาคือสินค้า 10 อันดับแรกที่โมเดล แนะนำ. Figure 16: แสดงผลการแนะนำสินค้าของโมเดล Large LightGBM สำหรับลูกค้าคนเดียวกันกับใน Figure 15. จะเห็นว่าผลลัพธ์ที่ได้ มีความหลากหลายมากกว่า Small LightGBM. Figure เหล่านี้ แสดงให้เห็นว่า โมเดลที่นำเสนอ สามารถแนะนำสินค้าที่เกี่ยวข้องกับผู้ใช้ได้ แม้ว่าผู้ใช้จะเป็นลูกค้าใหม่ หรือเคยซื้อสินค้าในร้านมาแล้วก็ตาม. และ Large LightGBM ที่ใช้ Advanced Strategy และข้อมูลที่หลากหลาย กว่า สามารถแนะนำสินค้าได้หลากหลายกว่า Small LightGBM. สรุป: Model Validation เป็นขั้นตอนสำคัญในการประเมินประสิทธิภาพของโมเดล LightGBM และ DNN โดยใช้ metrics MAP@K และ MAR@K. ผลการทดลองแสดงให้เห็นว่า LightGBM มีประสิทธิภาพที่ดีกว่า DNN. และ Retrieval Strategies มีส่วนสำคัญในการปรับปรุงประสิทธิภาพของโมเดล. Figure 13-16 แสดงตัวอย่างการ แนะนำสินค้าของโมเดล ซึ่งแสดงให้เห็นถึงความสามารถของโมเดล ในการแนะนำสินค้าที่เกี่ยวข้องกับผู้ใช้. scrip คำอธิบายงานวิจัย มุ่งเน้นการสร้างโมเดลแนะนำสินค้าส่วนบุคคลในแพลตฟอร์ม e-commerce โดยใช้ Retrieval Strategy เป็นกลยุทธ์หลักในการเลือกสินค้าที่ผู้ใช้อาจสนใจจากฐานข้อมูลขนาดใหญ่ ก่อนนำไปใช้กับโมเดล Machine Learning เพื่อทำนายความน่าจะเป็นที่ผู้ใช้จะซื้อสินค้าแต่ละรายการ คำอธิบาย workflow 1. Pre-analysis: Data Collection: รวบรวมข้อมูลจาก H&M ประกอบด้วยข้อมูลลูกค้า ข้อมูลสินค้า และข้อมูลการทำ ธุรกรรม. Data Exploratory: วิเคราะห์ข้อมูลเบื้องต้น เช่น ช่วงเวลาที่มีการซื้อขายมากที่สุด เพื่อทำความเข้าใจ พฤติกรรมการซื้อของลูกค้า. Data Preprocessing: จัดการข้อมูลสูญหาย แปลงข้อมูลประเภท categorical เช่น เพศ ให้อยู่ในรูป แบบตัวเลข. 2. Potential Candidate Retrieval: ใช้ Retrieval Strategies (ทั้ง Simple และ Advanced) เพื่อดึงข้อมูล สินค้าที่ผู้ใช้อาจสนใจ. 3. Model Architecture: สร้างโมเดล Machine Learning 2 แบบ คือ LightGBM และ Deep Neural Network. โดย input ของโมเดล ประกอบด้วยข้อมูลที่ได้จาก Retrieval Strategies. 4. Model Validation: ประเมินประสิทธิภาพของโมเดล โดยใช้ metrics MAP@K และ MAR@K Potential Candidate Retrieval การดึงตัวเลือกที่เป็นไปได้ นขั้นตอนนี้ ระบบจะทำการดึงข้อมูลที่เป็นตัวเลือก เบื้องต้นของสินค้า ที่จะนำไปแนะนำให้ลูกค้า Retrieval Strategies DSI312 11 การใช้ Retrieval Strategies ช่วยลดจำนวนข้อมูลที่โมเดลต้องประมวลผล โดยดึงเฉพาะข้อมูลที่เกี่ยวข้อง ทำให้ โมเดลสามารถทำงานได้เร็วขึ้นและมีประสิทธิภาพสูงขึ้น นอกจากนี้ยังช่วยให้การแนะนำสินค้าแม่นยำมากขึ้นเนื่องจาก ข้อมูลที่ใช้มีความเกี่ยวข้องกับพฤติกรรมของผู้ใช้ Retrieval (วิธีการดึงข้อมูล): เทคนิคที่ใช้ในขั้นตอนนี้ประกอบด้วย: Collaborative Filtering Matrix Factorization Time Series Analysis Bayesian Personalized Ranking กลยุทธ์แบ่งเป็น 2 ระดับ คือ Simple Strategy และ Advanced Strategy Simple Strategy: ดึงสินค้าล่าสุดที่ผู้ใช้ซื้อในช่วงเวลาที่กำหนด (3 หรือ 7 วัน) โดยให้คะแนนสินค้าตามความถี่ในการซื้อ และ ระยะเวลาที่ผ่านไปนับตั้งแต่ซื้อครั้งล่าสุด. ดึงสินค้าที่ผู้ใช้มักจะซื้อพร้อมกัน โดยใช้ Market Basket Analysis (การวิเคราะห์ตะกร้าสินค้า) เพื่อให้ ทราบถึงสินค้าที่มักถูกซื้อพร้อมกัน เป็นการวิเคราะห์ความสัมพันธ์ระหว่างสินค้า. ดึงสินค้าที่ผู้ใช้ซื้อล่าสุด และสินค้าที่มักจะซื้อพร้อมกัน โดยใช้ฟังก์ชัน decaying เพื่อลดน้ำหนักของสินค้าที่ ซื้อไปนานแล้ว. ฟังก์ชัน decaying ที่ใช้ คือ r = α/√x + b*e^(-cx) - d โดยที่ x คือระยะเวลาที่ผ่านไปนับ ตั้งแต่ซื้อครั้งล่าสุด. ดึงสินค้ายอดนิยมตามกลุ่มอายุ ในช่วงเวลาที่กำหนด (5 หรือ 7 วัน) และใช้ฟังก์ชัน decaying เพื่อลดน้ำ หนักของสินค้าที่เคยเป็นที่นิยมในอดีต. ดึงสินค้าที่ผู้ใช้ซื้อ โดยวิเคราะห์ช่วงเวลา และใช้ฟังก์ชัน decaying ร่วมกับ time series เพื่อพิจารณาแนว โน้มการซื้อของผู้ใช้. ตัวอย่างนี้สามารถดูได้จาก รูปที่ 6 (Fig. 6) ซึ่งแสดงถึงคะแนน (Score) ของสินค้าต่าง ๆ ที่ดึงขึ้นมา แนะนำให้กับผู้ใช้แต่ละคน โดยใช้การลดทอนคะแนนตามระยะเวลาที่ผ่านไป เพื่อให้สินค้าที่ซื้อใกล้ ๆ กับวันที่ วิเคราะห์จะมีคะแนนสูงกว่าสินค้าที่ซื้อในอดีตนานกว่า Simple Strategy เน้นที่กฎง่ายๆ ในการดึงข้อมูล โดยพิจารณาจากประวัติการซื้อของผู้ใช้แต่ละคน และสินค้ายอดนิยม มีจุด OrderHistory (ประวัติการสั่งซื้อ): คะแนนในคอลัมน์ OrderHistory_1 และ OrderHistory_2 มาจากการดึง ข้อมูลสินค้าที่ลูกค้าเคยสั่งซื้อ โดยให้คะแนนสินค้าที่สั่งซื้อบ่อยและสั่งซื้อล่าสุดมีคะแนนสูงกว่า ItemPairRetrieve (สินค้าที่ซื้อร่วมกัน): คะแนนใน คอลัมน์ ItemPairRetrieve_1 ถึง ItemPairRetrieve_4 มาจาก Market Basket Analysis ซึ่งวิเคราะห์ว่า สินค้าใดมักจะถูกซื้อร่วมกัน หากสินค้าสองรายการถูกซื้อร่วมกันบ่อย คะแนนในคอลัมน์นี้ก็จะสูง. OrderHistoryDecay (ประวัติการสั่งซื้อแบบมีค่าเสื่อม): คะแนนใน คอลัมน์ OrderHistoryDecay_1 และ OrderHistoryDecay_2 คล้ายกับ OrderHistory แต่มีการใช้ decaying function เพื่อลดน้ำหนักของสินค้าที่ถูกซื้อไปนานแล้ว ตามสมการ: Advanced Strategy: DSI312 12 Collaborative Filtering: วิเคราะห์ประวัติการซื้อของผู้ใช้หลายๆ คน เพื่อหาความสัมพันธ์ และแนะนำ สินค้าที่ผู้ใช้คนอื่นๆ ที่มีพฤติกรรมคล้ายกันเคยซื้อ. Matrix Factorization: แปลงข้อมูลความสัมพันธ์ระหว่างผู้ใช้และสินค้า ให้อยู่ในรูปแบบเมทริกซ์ แล้วแยก เมทริกซ์ออกเป็นสองเมทริกซ์ขนาดเล็กลง เพื่อลดความซับซ้อนของข้อมูล. Bayesian Personalized Ranking (BPR): ใช้วิธี Bayesian inference เพื่อจัดอันดับสินค้าตามความ ชอบของผู้ใช้ โดยพิจารณาจากการเปรียบเทียบสินค้าเป็นคู่ๆ. หลังจากดึงข้อมูลด้วย Retrieval Strategy จะนำข้อมูลมาทำ Quantile Normalization (Bolstad et al., 2003) เพื่อปรับสเกลของข้อมูลให้อยู่ในช่วงเดียวกัน. Advanced Strategy: ดึงข้อมูล โดยอาศัยความสัมพันธ์ระหว่างผู้ใช้และสินค้า มีความแม่นยำสูงกว่า แต่ใช้ทรัพยากรและเวลาในการคำนวณ มากกว่า Simple Strategy Collaborative Filtering: แนะนำสินค้าที่ผู้ใช้คนอื่นๆ ที่มีพฤติกรรมคล้ายกันเคยซื้อ. มี 2 แบบย่อย คือ User-based: แนะนำสินค้าจากผู้ใช้ที่คล้ายกัน Item-based: แนะนำสินค้าที่คล้ายกับสินค้าที่ผู้ใช้เคยซื้อ Matrix Factorization: แยกเมทริกซ์ผู้ใช้และสินค้า เพื่อหาปัจจัยแฝงที่อธิบายความสัมพันธ์ และลดความซับ ซ้อนของข้อมูล. Bayesian Personalized Ranking (BPR): จัดอันดับสินค้าตามความชอบของผู้ใช้ โดยพิจารณาจากการ เปรียบเทียบสินค้าเป็นคู่ๆ และใช้ implicit feedback. Model Architecture LightGBM โดยสรุป LightGBM จะทำงานดังนี้: 1. รับ Input: LightGBM จะรับข้อมูลที่ได้จาก Retrieval Strategy ซึ่งเป็น features ที่แปลงให้อยู่ในรูปแบบ ตัวเลขแล้ว 2. สร้าง Decision Trees: LightGBM จะสร้าง Decision Trees หลายๆ ต้น โดยแต่ละต้นจะเน้นไปที่การทำนาย ความน่าจะเป็นในการซื้อสินค้า โดยแต่ละต้นจะพยายามแก้ไขข้อผิดพลาดจากการทำนายของต้นก่อนหน้า ด้วยวิธี Gradient Boosting. 3. เรียนรู้ความสัมพันธ์: ในขณะที่สร้าง Decision Trees LightGBM จะเรียนรู้ความสัมพันธ์ระหว่าง features ต่างๆ กับความน่าจะเป็นในการซื้อสินค้า เช่น หากพบว่าผู้ใช้ที่อายุใกล้เคียงกันมักจะซื้อสินค้าชนิดเดียวกัน LightGBM จะให้ความสำคัญกับ feature ด้านอายุมากขึ้น. 4. ทำน?