סטטיסטיקה בסיסית ועבודת מדען נתונים

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

מהו הטווח הבין-רבעוני (IQR) ?

  • ההפרש בין השכיח לרבעון הראשון
  • ההפרש בין הממוצע לרבעון השני
  • ההפרש בין הרבעון הראשון לרבעון השלישי (correct)
  • ההפרש בין הרבעון השני לשלישי

איזה משפט לא נכון לגבי ניתוח חקרני של נתונים (EDA)?

  • EDA עוזר לזהות Outliers בנתונים
  • מטרת EDA היא לזהות תבניות וקשרים בנתונים
  • ב-EDA רוצים להבין מידע שלא תמיד נראה לעין
  • ב-EDA משתמשים בכלים סטטיסטיים כדי להסיק מסקנות לגבי השערת המחקר (correct)
  • EDA מתבצע בעיקר בעזרת גרפים

איזה סוג של נתונים מתאים לחישוב ממוצע?

  • רווח (correct)
  • סולם מנה (correct)
  • שמי
  • סדר

איזו משימה לא מתבצעת במסגרת ניקוי נתונים?

<p>הפיכת נתונים לסטנדרטיים (standardization) (B)</p> Signup and view all the answers

איזה מהשלבים הבאים אינו חלק ממהלך עבודה טיפוסי של מדען נתונים?

<p>ניהול נתונים (data management) (A)</p> Signup and view all the answers

איזו מהמשימות הבאות היא לא חלק מעבודת ניתוח נתונים מתקדם?

<p>זיהוי outliners (C)</p> Signup and view all the answers

מהו תפקידו של IQR בתהליך ניתוח נתונים?

<p>זיהוי outliners (D)</p> Signup and view all the answers

איזו מהספריות הבאות מתאימה לניהול וניתוח נתונים בטבלאות?

<p>Pandas (C)</p> Signup and view all the answers

איזו פונקציה מציגה מידע על ה-DataFrame?

<p>info( ) (A)</p> Signup and view all the answers

מה זו סטיית תקן?

<p>הערך שמצביע על התפלגות הנתונים (D)</p> Signup and view all the answers

איזה מהבאים מייצג את המינימום בנתונים?

<p>min (C)</p> Signup and view all the answers

מהו הרבעון הראשון?

<p>25% מהנתונים הנמוכים ביותר (C)</p> Signup and view all the answers

איזו מהפרמטרים הבאים אינה נכללת ברשימת הסטטיסטיקות?

<p>תוחלת (C)</p> Signup and view all the answers

מה ההגדרה הנכונה של טפל (tuple)?

<p>מאחסן סדרה של ערכים שאינה ניתנת לשינוי. (D)</p> Signup and view all the answers

איזה סוג מבנה נתונים מאחסן ערכים ייחודיים ולא מכיל חזרות?

<p>קבוצה (set) (A)</p> Signup and view all the answers

איזה מבנה נתונים מאפשר שינוי של ערכים לאחר יצירתו?

<p>רשימה (list) (A)</p> Signup and view all the answers

איזה מהמאפיינים הבאים אינו נכון לגבי קבוצה (set)?

<p>מאחסן ערכים המכילים חזרות. (A), מאחסן סדרה עם סדר מסוים. (C)</p> Signup and view all the answers

איזה תו מתאם לכל תו בודד בחוץ משורת סיום?

<p>. (A)</p> Signup and view all the answers

מהו העיקרון המרכזי שמנחה את תהליך האשכולות?

<p>קיבוץ נתונים לפי דימיון (D)</p> Signup and view all the answers

באיזה תהליך עוסקים בהפחתת מספר המאפיינים תוך כדי שמירה על מידע חשוב?

<p>הורדת מימדים (D)</p> Signup and view all the answers

איזה מבין הפיתוחים הבאים קשור לאשכולות?

<p>קיבוץ נתונים על פי דפוסי התנהגות (A)</p> Signup and view all the answers

מה מהמאפיינים הבאים לא נחשב להורדת מימדים?

<p>שיפור הבהירות החזותית (B)</p> Signup and view all the answers

איזה סוג של נתונים נפוץ בעבודה עם אשכולות?

<p>נתונים עם דמיון גבוה (B)</p> Signup and view all the answers

מהו אחד השימושים העיקריים בהצגת התפלגות ערכים?

<p>זיהוי דפוסים ונקודות חריגות (A)</p> Signup and view all the answers

מה היתרון בשינוי רוחב ה-bins בעת הצגת התפלגות?

<p>מאפשר לראות רזולוציות שונות של ההתפלגות (C)</p> Signup and view all the answers

לאיזה סוג משתנים מתאימה הצגת Box Plot?

<p>משתנים כמותיים (רציפים) (D)</p> Signup and view all the answers

מהו תפקידם של ה-bins בהצגת התפלגות ערכים?

<p>למיין את הנתונים לקבוצות (B)</p> Signup and view all the answers

מהו הדגש בהצגת משתנה כמותי אחד?

<p>להציג את התפלגות ערכים של המשתנה (B)</p> Signup and view all the answers

מה היתרון של קלאסטרינג שאין צורך להגדיר מראש כמות קלאסטרים?

<p>זה מאפשר גמישות בעבודה עם דוגמאות שונות. (B)</p> Signup and view all the answers

איזה מהמאפיינים הבאים לא נחשב ליתרון של קלאסטרינג?

<p>הגדרת מספר קלאסטרים מראש. (C)</p> Signup and view all the answers

מה הכוונה במונח 'איטרציה על כל מופע בקלאסטר'?

<p>חיפוש מופעים נוספים במרחק ε מהקלאסטר הנוכחי. (B)</p> Signup and view all the answers

מהו תהליך שהוזכר בחזרה על הקלאסטרים?

<p>הגדרה מחדש של קלאסטרים עד שהכול מוגדר. (A)</p> Signup and view all the answers

איזה מהמאפיינים הבאים מייצג את ההתמודדות עם ערכי קצה בקלאסטרינג?

<p>יכולת לסווג ערכים חריגים מבלי להשפיע על הקלאסטרים. (C)</p> Signup and view all the answers

Flashcards

אשכולות (clustering)

קיבוץ נתונים לפי דימיון, תוך שמירה על קשרים.

הורדת מימדים (dimension reduction)

הפחתת מספר המאפיינים במידע, תוך שמירה על מידע חשוב.

דמיון

המאפיין שמוביל לקיבוץ נתונים באשכולות.

מאפיינים חשובים

נתונים שמובילים להבנה טובה יותר של המידע.

Signup and view all the flashcards

קיבוץ נתונים

תהליך של ארגון נתונים לפי קטגוריות דומות.

Signup and view all the flashcards

טפל (tuple)

מאחסן סדרה של ערכים שאינה ניתנת לשינוי (immutable).

Signup and view all the flashcards

רשימה (list)

מאחסן סדרה של ערכים הניתנים לשינוי (mutable).

Signup and view all the flashcards

קבוצה (set)

מאחסן סדרה של ערכים ייחודיים ללא סדר מסוים.

Signup and view all the flashcards

. (מתאם)

מתאם לכל תו בודד (חוץ משורת סיום).

Signup and view all the flashcards

הבדלים בין טפל לרשימה

טפל הוא בלתי ניתן לשינוי ורשימה ניתן לשינוי.

Signup and view all the flashcards

התפלגות ערכים

הצגת ערכים של משתנה כמותי כדי לגלות דפוסים.

Signup and view all the flashcards

זיהוי דפוסים

תהליך מציאת תבניות בתוך נתונים שמאפשרות להבין התנהגויות.

Signup and view all the flashcards

נקודות חריגות

ערכים שמתנגדות לדפוס הכללי בתוך הנתונים.

Signup and view all the flashcards

r. רוחב ה-bins

אפשרות לשנות את גודל הקטגוריות להצגת התפלגות בצורה שונה.

Signup and view all the flashcards

Box Plot

תרשים המייצג משתנים כמותיים ומסייע בהבנה של התפלגות הנתונים.

Signup and view all the flashcards

איטרציה בקלאסטרינג

חזרה על כל מופע בקלאסטר לחיפוש מופעים נוספים במרחק ε.

Signup and view all the flashcards

יתרונות קלאסטרינג

קלאסטרינג יעיל, ללא צורך בהגדרת מספר קלאסטרים מראש.

Signup and view all the flashcards

התמודדות עם ערכי קצה

קלאסטרינג מתמודד היטב עם ערכים קיצוניים (Outliers).

Signup and view all the flashcards

קלאסטרים לא מוגדרים מראש

אין צורך להגדיר מראש את כמות הקלאסטרים בתהליך.

Signup and view all the flashcards

גמישות בדאטה

קלאסטרינג מתאים לדאטה בצורות שונות ובאופנים מגוונים.

Signup and view all the flashcards

ספירה (count)

מספר הפריטים בקטגוריה מסוימת ב-DataFrame.

Signup and view all the flashcards

ממוצע (mean)

הסכום של כל הפריטים חלקי מספרם.

Signup and view all the flashcards

סטיית תקן (std)

מדד לתפוצה של ערכים סביב הממוצע.

Signup and view all the flashcards

חציון (median)

הערך באמצע במיון של סדרות נתונים.

Signup and view all the flashcards

פונקציה info()

מציגה מידע על מבנה ה-DataFrame ופרטיו.

Signup and view all the flashcards

שלבים בעבודתו של מדען נתונים

שישה שלבים שמסבירים את תהליך העבודה של מדען הנתונים.

Signup and view all the flashcards

ניסוח שאלת מחקר

השלב שבו מנסחים את ההגדרה של הבעיה הנחקרת.

Signup and view all the flashcards

ניקוי נתונים

תהליך הסרת שגיאות וחסרים בנתונים כדי להבטיח נתוני איכות.

Signup and view all the flashcards

ניתוח חקרני של נתונים (EDA)

שלב שמטרתו לזהות תבניות וקשרים בנתונים באמצעות גרפים.

Signup and view all the flashcards

ספריית Pandas

כלי לעיבוד וניתוח נתונים בטבלאות, כולל מיזוג וניקוי.

Signup and view all the flashcards

סולם שמי (nominal)

סולם נתונים לספרות המצביעות על שכיחות ללא סדר.

Signup and view all the flashcards

סולם מנה (ratio)

סולם נתונים המאפשר חישוב של שכיחות, חצאים וממוצעים.

Signup and view all the flashcards

Study Notes

סטטיסטיקה בסיסית

  • ממוצע (Mean): מרכז הכובד של ההתפלגות.
  • חציון (Median): הערך שמחלק את ההתפלגות לשני חלקים שווים.
  • שכיח (Mode): הערך שמופיע הכי הרבה פעמים.
  • סטיית תקן (Standard Deviation): מדד לפיזור הערכים סביב הממוצע.
  • שונות (Variance): מדד לפיזור הנתונים, הריבוע של סטיית התקן.
  • זנבות (Tails): הקצוות של ההתפלגות, יכולים להיות חיוביים או שליליים.
  • רבעון (Quartile): ערכים שמחלקים את ההתפלגות לארבעה חלקים שווים.
    • הרבעון הראשון (Q1) הוא הערך שמעליו נמצאים 25% מהנתונים.
    • הרבעון השני (Q2) הוא החציון.
    • הרבעון השלישי (Q3) הוא הערך שמעליו נמצאים 75% מהנתונים.
    • IQR (Interquartile Range): ההפרש בין Q3 ו-Q1

שלבים בעבודתו של מדען נתונים

  • ניסוח שאלת מחקר
  • ניקוי נתונים
  • ניתוח נתונים
  • בניית מודל
  • אימות מודל
  • הסקת מסקנות

ניתוח נתונים חקרוני (EDA)

  • המטרה היא לזהות תבניות וקשרים בנתונים, בייחוד בגרפים.
  • לחלץ משתנים, לזהות ערכים חריגים (outliers), להסיק מסקנות.

סולמות מדידה

  • סולם שמות (Nominal): שכיחות
  • סולם סדר (Ordinal): שכיחות, חציון, אחוזונים
  • סולם רווח (Interval): שכיחות, חציון, ממוצע, הפרשים
  • סולם יחס (Ratio): שכיחות, חציון, ממוצע, הפרשים, יחסים

ספריות ופונקציות ב-Python

  • Pandas: ניתוח נתונים, עיבוד נתונים, טבלאות (dataframes), מיזוג, סינון, ניקוי.
  • Matplotlib: ויזואליזציה של נתונים, יצירת גרפים, תרשימים, תצוגות.
  • SciPy: חישובים מדעיים, מתמטיים, ניתוח סטטיסטי, אופטימיזציה.
  • Scikit-learn (Sklearn): למידת מכונה.
  • NumPy: חישובים בסיסיים, מערכים.
  • Requests: פניות HTTP.
  • Beautiful Soup: ניתוח מסמכי HTML, שליפה, שינוי, ניתוח נתונים.
  • Selenium: אוטומציה של דפדפני אינטרנט.

סוגי נתונים ב-Python

  • מילון (Dictionary): זוגות מפתח-ערך.
  • טפל (Tuple): סדרת ערכים שאינה ניתנת לשינוי.
  • רשימה (List): סדרת ערכים ניתנת לשינוי.
  • קבוצה (Set): סדרת ערכים ייחודיים ללא סדר.

פונקציות ב-Pandas

  • describe(): סטטיסטיקות סיכום (לנתונים מספריים).
  • info(): מידע על DataFrame (סוגי נתונים, ערכים חסרים).
  • head(): חמש השורות הראשונות של DataFrame.
  • tail(): חמש השורות האחרונות של DataFrame.

קורלציה

  • קורלציית פירסון (Pearson): מודדת את עוצמת הקשר הלינארי בין שני משתנים (ערכים בין -1 ל-1).
  • קורלציית ספירמן (Spearman): מודדת את הקשר המונוטוני בין שני משתנים (ערכים בין -1 ל-1).
  • קורלציה קנונית (Canonical): לבחינת הקשר בין שתי קבוצות משתנים רבים.

רגרסיה לינארית

  • שיטה לחיזוי ערך של משתנה תלוי בהתבסס על משתנים עצמאיים.

קבצי CSV

  • פורמט טקסט פשוט, קל משקל יחסית.
  • קל לטיפול וארגון.
  • מאפשר ייבוא וייצוא של כמויות גדולות של נתונים.
  • דורש טיפול מיוחד בערכים המכילים תווים מיוחדים (כמו פסיק, מירכאות).

קבצי JSON

  • פורמט יעיל לתיאור נתונים מורכבים.
  • פונקציות עיבוד JSON ב-Python (json.dumps, json.loads, json.dump, json.load) להתמרה בין JSON למחרוזת נתונים (ובחזרה) ובין JSON לקובץ, ולהיפך.

כלים לביצוע קלאסטרינג

  • k-means: חלוקת נתונים לקבוצות על בסיס קירבה.
  • k-means++: שיפור האלגוריתם על ידי שיפור בחירת הסנטרואידים הראשוניים.
  • DBSCAN (Density-Based Spatial Clustering of Applications with Noise): מבוסס על צפיפות, לא על מרחק או סנטרואידים.

קלאסטרינג היררכי

  • Divisive (top-down): מחלקים קבוצות גדולות לקטנות יותר.
  • Agglomerative (bottom-up): מאחדים קבוצות קטנות לקבוצות גדולות יותר.

גרפים (ויזואליזציה)

  • Bar Plot: משתנים קטגוריאליים - הצגת כמויות או תדירויות.
  • Pie Chart: משתנים קטגוריאליים - הצגת החלק היחסי של כל קטגוריה.
  • Histogram: משתנים כמותיים - הצגת התפלגות, זיהוי דפוסים.
  • Box Plot: משתנים כמותיים - הצגת סיכום סטטיסטי (חציון, רבעונים).
  • Violin Plot: משלב בין Box Plot ו-Kernel Density Plot.
  • Kernel Density Plot: הצגת הערכת צפיפות של התפלגות.
  • Scatter Plot: הצגת קשר בין שני משתנים כמותיים.

ויזואליזציה עם matplotlib ו-seaborn

  • ספריות Python לויזואליזציה של נתונים.
  • ניתן ליצור גרפים שונים כגון היסטוגרמות, תרשימי עוגה, תרשימי מקלות, תרשימי קופסה וגרפים אחרים.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

More Like This

Statistics Basics
5 questions

Statistics Basics

IntegralNephrite6068 avatar
IntegralNephrite6068
Data Visualization Basics
6 questions

Data Visualization Basics

SelfSufficiencyIntegral avatar
SelfSufficiencyIntegral
Use Quizgecko on...
Browser
Browser