סמינר כריית נתונים - אשכול ביקורות
Document Details
Uploaded by EasyPixie
עמק יזרעאל
2025
סהר יעקב
Tags
Related
- Lecture 5 - Data Mining Continued 4fda5aafc9ef47229be04359186c0c5e.pdf
- Data Warehousing and Data Mining Clustering & K-Means PDF
- MCA-301 Data Mining May 2024 Past Paper PDF
- Data Mining Topic (7) AMT Clustering PDF
- Cluster Analysis: Basic Concepts and Algorithms Lecture 7 PDF
- BPD2233: Data Mining Clustering Chap 5 PDF
Summary
This document is a seminar paper on data mining and clustering of user reviews. It describes the methodology, data, and evaluation of a model for clustering user reviews. The document explores various algorithms and metrics used to achieve this.
Full Transcript
סמינר : כריית נתונים\ נושא : אשכול ביקורות\ מגיש : סהר יעקב ![](media/image2.png)מס׳ קבוצה : 10\ ת.ז : 314741851\ תאריך הגשה : 28.2.2025 תוכן עניינים {#תוכן-עניינים.af3} ============ [להלן הספריות שהשתמשתי בהן בקוד 3](#_Toc188446738) [מבוא 3](#_Toc188446739) [התחום ממנו הגיעה הבעיה 3](#_Toc1884...
סמינר : כריית נתונים\ נושא : אשכול ביקורות\ מגיש : סהר יעקב ![](media/image2.png)מס׳ קבוצה : 10\ ת.ז : 314741851\ תאריך הגשה : 28.2.2025 תוכן עניינים {#תוכן-עניינים.af3} ============ [להלן הספריות שהשתמשתי בהן בקוד 3](#_Toc188446738) [מבוא 3](#_Toc188446739) [התחום ממנו הגיעה הבעיה 3](#_Toc188446740) [תיאור הבעיה מבחינה עסקית 3](#_Toc188446741) [תיאור הבעיה במונחים עסקיים 4](#_Toc188446742) [תיאור המצב הקיים בעסק 4](#_Toc188446743) [המטרות העסקיות 4](#_Toc188446744) [בינה מלאכותית 4](#_Toc188446745) [תיאור הבעיה במונחים של כריית נתונים/בינה מלאכותית 4](#_Toc188446746) [מטרות של הפלט של המערכת 4](#_Toc188446747) [הנתונים 5](#_Toc188446748) [הערכת איכות הנתונים 5](#_Toc188446749) [מודלים 6](#_Toc188446750) [תיאור האלגוריתם שנבחר 6](#_Toc188446751) [סיבת הבחירה באלגוריתם זה 6](#_Toc188446752) [קביעת הפרמטרים של המודל: 6](#%D7%A7%D7%91%D7%99%D7%A2%D7%AA-%D7%94%D7%A4%D7%A8%D7%9E%D7%98%D7%A8%D7%99%D7%9D-%D7%A9%D7%9C-%D7%94%D7%9E%D7%95%D7%93%D7%9C) [קביעת/תיאור פונקציית מרחק 6](#_Toc188446754) [תיאור הפלט של המערכת: 7](#_Toc188446755) [מימוש האלגוריתם 7](#_Toc188446756) [הערכת המודל 7](#_Toc188446757) [Silhouette Score: 7](#_Toc188446758) [SSE (Sum of Squared Errors): 8](#_Toc188446759) [Davies-Bouldin Index: 8](#_Toc188446760) [Calinski-Harabasz Index: 8](#_Toc188446761) [הסיבות הצלחה/כשלון במודל 8](#%D7%94%D7%A1%D7%99%D7%91%D7%95%D7%AA-%D7%94%D7%A6%D7%9C%D7%97%D7%94%D7%9B%D7%A9%D7%9C%D7%95%D7%9F-%D7%91%D7%9E%D7%95%D7%93%D7%9C) [תצוגה ויזואלית של ההערכה 8](#_Toc188446763) [גרף Elbow Method: 8](#_Toc188446764) [גרף heatmap - 8](#_Toc188446765) [גרף polynomial function -- 8](#_Toc188446766) [תיקונים במודל המוצע 9](#_Toc188446767) [כיצד ניתן להטמיע את המודל במערכת האמיתית של הארגון 9](#_Toc188446768) [שיפור תהליכי קבלת החלטות: 9](#_Toc188446769) קביעת הפרמטרים של המודל: ------------------------ []{#_Toc188446754.anchor}קביעת/תיאור פונקציית מרחק\ פונקציית מרחק:\ מרחק אוקלידי -- ברירת המחדל של kMean בין נקודות במרחב הווקטורי, המאפשר חישוב דמיון בין ביקורות.\ פונקצית מרחק זו היא נפוצה ביותר. []{#_Toc188446755.anchor}תיאור הפלט של המערכת: - ניתוח של כל אשכול וזיהוי מילים נפוצות באשכול, לפי בחירת k מתאים. - תובנות על דפוסי ביקורות, זיהוי קשרים ותבניות חוזרות. - הרצת המודלים באמצעות random state שונים ובניהם None. שילוב של המדדים האלה בצורה אופטימלית עבור כל אחד ובאופן מאוזן ישפר את המודל. הסיבות הצלחה/כשלון במודל ------------------------