כריית נתונים - אשכול ביקורות

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson
Download our mobile app to listen on the go
Get App

Questions and Answers

מהו אחד מהנושאים שנדונו בסמינר בנושא כריית נתונים?

  • סוגי אלגוריתמים
  • תוכנית לימודים
  • שיטות לימוד
  • מודלים (correct)

איזו מהשיטות משמשת להערכת איכות הנתונים?

  • הדרכות לעובדים
  • אסטרטגיות פרסום
  • שיטות חיזוי פשוטות
  • SSE (Sum of Squared Errors) (correct)

מהו אחד מהפרמטרים שנקבעים במהלך תהליך המודל?

  • תצוגה גרפית
  • רמות גיוס
  • בעיות רגולציה
  • פונקציית מרחק (correct)

מהו אחד מהסקור המאפשר הערכת המודל?

<p>Calinski-Harabasz Index (C)</p> Signup and view all the answers

מהו האלגוריתם שנבחר בתהליך כריית הנתונים?

<p>לימוד מונחה (C)</p> Signup and view all the answers

Flashcards

אשכול ביקורות

שיטה המשמשת לארגון קבוצות של פריטים לאשכולות, המבוססת על מרחקים ותכונות משותפות.

Silhouette Score

מדד המשמש להערכת ביצועי אשכולות, מבוסס על צורת האשכולות וקרבת פריטים בתוך האשכול.

SSE (Sum of Squared Errors)

מדד להערכת ביצועי אשכולות, מבוסס על סכום ריבועי השגיאות של פריטים סביב מרכז האשכול.

Davies-Bouldin Index

מדד להערכת ביצועי אשכולות, מבוסס על ממוצע מרחק תוך אשכולי וממוצע מרחק בין אשכולי.

Signup and view all the flashcards

Calinski-Harabasz Index

מדד להערכת ביצועי אשכולות, מבוסס על התוצאות של SSE ו Between-Groups Dispersion.

Signup and view all the flashcards

Study Notes

כריית נתונים - אשכול ביקורות

  • נושא: אשכול ביקורות
  • מגיש: סהר יעקב
  • מס' קבוצה: 10
  • תאריך הגשה: 28.2.2025
  • מטרת הסמינר: כריית נתונים
  • מטרת העבודה: ניתוח ביקורות משתמשים
  • קבצי הגשה: מצגת 1, מצגת 2, עבודה סמינריונית, קוד ונתונים
  • כלי: KMeans Clustering (אשכולות)
  • נתונים: ביקורות משתמשים בפורמט טקסטואלי, אלפי רשומות
  • מטרות עסקיות: שיפור חוויית הלקוח, זיהוי בעיות במוצרים, הצעות מותאמות אישית, שיפור תהליכי העסק
  • מודלים: KMeans, LDA (Latent Dirichlet Allocation), Decision Trees
  • פונקציית מרחק: מרחק אוקלידי
  • דרכי אסיפת נתונים: ממאגרי נתונים קיימים, כגון Kaggle
  • פורמט קבצי נתונים: CSV
  • הערכת איכות הנתונים: בדיקה וניפוי של ערכים חסרים בדירוגים ובטקסט.
  • הערכת המודל: חישוב אחוז שגיאה, מדדים כמו Silhouette Score ו-SSE (Sum of Squared Errors), Davies--Bouldin Index, Calinski-Harabasz Index.
  • כלי עזר: ספריות פייתון כמו scikit-learn, numpy
  • הצגת תוצאות: גרפים ויזואליים (כגון Elbow Method), קובץ CSV
  • הטמעת המודל: שילוב המודל במערכת ניהול הביקורות של הארגון, ממשק משתמש להצגת תוצאות.
  • דרישות הגשה: קובץ ZIP הכולל מצגות, עבודה סמינריונית, קבצי נתונים, וקוד.

תוכן עניינים

  • מבוא
  • התחום ממנו הגיעה הבעיה
  • תיאור הבעיה מבחינה עסקית
  • תיאור הבעיה במונחים עסקיים
  • תיאור המצב הקיים בעסק
  • המטרות העסקיות
  • בינה מלאכותית
  • תיאור הבעיה במונחים של כריית נתונים/בינה מלאכותית
  • הפלטים של המערכת
  • הנתונים
  • תיאור מפורט של דרכי אסיפת הנתונים
  • הערכת איכות הנתונים
  • מודלים
  • תיאור האלגוריתם שנבחר
  • סיבת הבחירה באלגוריתם זה
  • קביעת הפרמטרים של המודל
  • קביעת/תיאור פונקציית מרחק
  • מימוש האלגוריתם
  • הערכת המודל (Silhouette Score, SSE, Davies-Bouldin Index, Calinski-Harabasz Index)
  • תצוגה ויזואלית של ההערכה (גרף Elbow Method)
  • תיקונים במודל המוצע
  • כיצד ניתן להטמיע את המודל במערכת האמיתית של הארגון

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

More Like This

Use Quizgecko on...
Browser
Browser