סטטיסטיקה בסיסית ועבודת מדען נתונים
33 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

מהו הטווח הבין-רבעוני (IQR) ?

  • ההפרש בין השכיח לרבעון הראשון
  • ההפרש בין הממוצע לרבעון השני
  • ההפרש בין הרבעון הראשון לרבעון השלישי (correct)
  • ההפרש בין הרבעון השני לשלישי
  • איזה משפט לא נכון לגבי ניתוח חקרני של נתונים (EDA)?

  • EDA עוזר לזהות Outliers בנתונים
  • מטרת EDA היא לזהות תבניות וקשרים בנתונים
  • ב-EDA רוצים להבין מידע שלא תמיד נראה לעין
  • ב-EDA משתמשים בכלים סטטיסטיים כדי להסיק מסקנות לגבי השערת המחקר (correct)
  • EDA מתבצע בעיקר בעזרת גרפים
  • איזה סוג של נתונים מתאים לחישוב ממוצע?

  • רווח (correct)
  • סולם מנה (correct)
  • שמי
  • סדר
  • איזו משימה לא מתבצעת במסגרת ניקוי נתונים?

    <p>הפיכת נתונים לסטנדרטיים (standardization) (B)</p> Signup and view all the answers

    איזה מהשלבים הבאים אינו חלק ממהלך עבודה טיפוסי של מדען נתונים?

    <p>ניהול נתונים (data management) (A)</p> Signup and view all the answers

    איזו מהמשימות הבאות היא לא חלק מעבודת ניתוח נתונים מתקדם?

    <p>זיהוי outliners (C)</p> Signup and view all the answers

    מהו תפקידו של IQR בתהליך ניתוח נתונים?

    <p>זיהוי outliners (D)</p> Signup and view all the answers

    איזו מהספריות הבאות מתאימה לניהול וניתוח נתונים בטבלאות?

    <p>Pandas (C)</p> Signup and view all the answers

    איזו פונקציה מציגה מידע על ה-DataFrame?

    <p>info( ) (A)</p> Signup and view all the answers

    מה זו סטיית תקן?

    <p>הערך שמצביע על התפלגות הנתונים (D)</p> Signup and view all the answers

    איזה מהבאים מייצג את המינימום בנתונים?

    <p>min (C)</p> Signup and view all the answers

    מהו הרבעון הראשון?

    <p>25% מהנתונים הנמוכים ביותר (C)</p> Signup and view all the answers

    איזו מהפרמטרים הבאים אינה נכללת ברשימת הסטטיסטיקות?

    <p>תוחלת (C)</p> Signup and view all the answers

    מה ההגדרה הנכונה של טפל (tuple)?

    <p>מאחסן סדרה של ערכים שאינה ניתנת לשינוי. (D)</p> Signup and view all the answers

    איזה סוג מבנה נתונים מאחסן ערכים ייחודיים ולא מכיל חזרות?

    <p>קבוצה (set) (A)</p> Signup and view all the answers

    איזה מבנה נתונים מאפשר שינוי של ערכים לאחר יצירתו?

    <p>רשימה (list) (A)</p> Signup and view all the answers

    איזה מהמאפיינים הבאים אינו נכון לגבי קבוצה (set)?

    <p>מאחסן ערכים המכילים חזרות. (A), מאחסן סדרה עם סדר מסוים. (C)</p> Signup and view all the answers

    איזה תו מתאם לכל תו בודד בחוץ משורת סיום?

    <p>. (A)</p> Signup and view all the answers

    מהו העיקרון המרכזי שמנחה את תהליך האשכולות?

    <p>קיבוץ נתונים לפי דימיון (D)</p> Signup and view all the answers

    באיזה תהליך עוסקים בהפחתת מספר המאפיינים תוך כדי שמירה על מידע חשוב?

    <p>הורדת מימדים (D)</p> Signup and view all the answers

    איזה מבין הפיתוחים הבאים קשור לאשכולות?

    <p>קיבוץ נתונים על פי דפוסי התנהגות (A)</p> Signup and view all the answers

    מה מהמאפיינים הבאים לא נחשב להורדת מימדים?

    <p>שיפור הבהירות החזותית (B)</p> Signup and view all the answers

    איזה סוג של נתונים נפוץ בעבודה עם אשכולות?

    <p>נתונים עם דמיון גבוה (B)</p> Signup and view all the answers

    מהו אחד השימושים העיקריים בהצגת התפלגות ערכים?

    <p>זיהוי דפוסים ונקודות חריגות (A)</p> Signup and view all the answers

    מה היתרון בשינוי רוחב ה-bins בעת הצגת התפלגות?

    <p>מאפשר לראות רזולוציות שונות של ההתפלגות (C)</p> Signup and view all the answers

    לאיזה סוג משתנים מתאימה הצגת Box Plot?

    <p>משתנים כמותיים (רציפים) (D)</p> Signup and view all the answers

    מהו תפקידם של ה-bins בהצגת התפלגות ערכים?

    <p>למיין את הנתונים לקבוצות (B)</p> Signup and view all the answers

    מהו הדגש בהצגת משתנה כמותי אחד?

    <p>להציג את התפלגות ערכים של המשתנה (B)</p> Signup and view all the answers

    מה היתרון של קלאסטרינג שאין צורך להגדיר מראש כמות קלאסטרים?

    <p>זה מאפשר גמישות בעבודה עם דוגמאות שונות. (B)</p> Signup and view all the answers

    איזה מהמאפיינים הבאים לא נחשב ליתרון של קלאסטרינג?

    <p>הגדרת מספר קלאסטרים מראש. (C)</p> Signup and view all the answers

    מה הכוונה במונח 'איטרציה על כל מופע בקלאסטר'?

    <p>חיפוש מופעים נוספים במרחק ε מהקלאסטר הנוכחי. (B)</p> Signup and view all the answers

    מהו תהליך שהוזכר בחזרה על הקלאסטרים?

    <p>הגדרה מחדש של קלאסטרים עד שהכול מוגדר. (A)</p> Signup and view all the answers

    איזה מהמאפיינים הבאים מייצג את ההתמודדות עם ערכי קצה בקלאסטרינג?

    <p>יכולת לסווג ערכים חריגים מבלי להשפיע על הקלאסטרים. (C)</p> Signup and view all the answers

    Flashcards

    אשכולות (clustering)

    קיבוץ נתונים לפי דימיון, תוך שמירה על קשרים.

    הורדת מימדים (dimension reduction)

    הפחתת מספר המאפיינים במידע, תוך שמירה על מידע חשוב.

    דמיון

    המאפיין שמוביל לקיבוץ נתונים באשכולות.

    מאפיינים חשובים

    נתונים שמובילים להבנה טובה יותר של המידע.

    Signup and view all the flashcards

    קיבוץ נתונים

    תהליך של ארגון נתונים לפי קטגוריות דומות.

    Signup and view all the flashcards

    טפל (tuple)

    מאחסן סדרה של ערכים שאינה ניתנת לשינוי (immutable).

    Signup and view all the flashcards

    רשימה (list)

    מאחסן סדרה של ערכים הניתנים לשינוי (mutable).

    Signup and view all the flashcards

    קבוצה (set)

    מאחסן סדרה של ערכים ייחודיים ללא סדר מסוים.

    Signup and view all the flashcards

    . (מתאם)

    מתאם לכל תו בודד (חוץ משורת סיום).

    Signup and view all the flashcards

    הבדלים בין טפל לרשימה

    טפל הוא בלתי ניתן לשינוי ורשימה ניתן לשינוי.

    Signup and view all the flashcards

    התפלגות ערכים

    הצגת ערכים של משתנה כמותי כדי לגלות דפוסים.

    Signup and view all the flashcards

    זיהוי דפוסים

    תהליך מציאת תבניות בתוך נתונים שמאפשרות להבין התנהגויות.

    Signup and view all the flashcards

    נקודות חריגות

    ערכים שמתנגדות לדפוס הכללי בתוך הנתונים.

    Signup and view all the flashcards

    r. רוחב ה-bins

    אפשרות לשנות את גודל הקטגוריות להצגת התפלגות בצורה שונה.

    Signup and view all the flashcards

    Box Plot

    תרשים המייצג משתנים כמותיים ומסייע בהבנה של התפלגות הנתונים.

    Signup and view all the flashcards

    איטרציה בקלאסטרינג

    חזרה על כל מופע בקלאסטר לחיפוש מופעים נוספים במרחק ε.

    Signup and view all the flashcards

    יתרונות קלאסטרינג

    קלאסטרינג יעיל, ללא צורך בהגדרת מספר קלאסטרים מראש.

    Signup and view all the flashcards

    התמודדות עם ערכי קצה

    קלאסטרינג מתמודד היטב עם ערכים קיצוניים (Outliers).

    Signup and view all the flashcards

    קלאסטרים לא מוגדרים מראש

    אין צורך להגדיר מראש את כמות הקלאסטרים בתהליך.

    Signup and view all the flashcards

    גמישות בדאטה

    קלאסטרינג מתאים לדאטה בצורות שונות ובאופנים מגוונים.

    Signup and view all the flashcards

    ספירה (count)

    מספר הפריטים בקטגוריה מסוימת ב-DataFrame.

    Signup and view all the flashcards

    ממוצע (mean)

    הסכום של כל הפריטים חלקי מספרם.

    Signup and view all the flashcards

    סטיית תקן (std)

    מדד לתפוצה של ערכים סביב הממוצע.

    Signup and view all the flashcards

    חציון (median)

    הערך באמצע במיון של סדרות נתונים.

    Signup and view all the flashcards

    פונקציה info()

    מציגה מידע על מבנה ה-DataFrame ופרטיו.

    Signup and view all the flashcards

    שלבים בעבודתו של מדען נתונים

    שישה שלבים שמסבירים את תהליך העבודה של מדען הנתונים.

    Signup and view all the flashcards

    ניסוח שאלת מחקר

    השלב שבו מנסחים את ההגדרה של הבעיה הנחקרת.

    Signup and view all the flashcards

    ניקוי נתונים

    תהליך הסרת שגיאות וחסרים בנתונים כדי להבטיח נתוני איכות.

    Signup and view all the flashcards

    ניתוח חקרני של נתונים (EDA)

    שלב שמטרתו לזהות תבניות וקשרים בנתונים באמצעות גרפים.

    Signup and view all the flashcards

    ספריית Pandas

    כלי לעיבוד וניתוח נתונים בטבלאות, כולל מיזוג וניקוי.

    Signup and view all the flashcards

    סולם שמי (nominal)

    סולם נתונים לספרות המצביעות על שכיחות ללא סדר.

    Signup and view all the flashcards

    סולם מנה (ratio)

    סולם נתונים המאפשר חישוב של שכיחות, חצאים וממוצעים.

    Signup and view all the flashcards

    Study Notes

    סטטיסטיקה בסיסית

    • ממוצע (Mean): מרכז הכובד של ההתפלגות.
    • חציון (Median): הערך שמחלק את ההתפלגות לשני חלקים שווים.
    • שכיח (Mode): הערך שמופיע הכי הרבה פעמים.
    • סטיית תקן (Standard Deviation): מדד לפיזור הערכים סביב הממוצע.
    • שונות (Variance): מדד לפיזור הנתונים, הריבוע של סטיית התקן.
    • זנבות (Tails): הקצוות של ההתפלגות, יכולים להיות חיוביים או שליליים.
    • רבעון (Quartile): ערכים שמחלקים את ההתפלגות לארבעה חלקים שווים.
      • הרבעון הראשון (Q1) הוא הערך שמעליו נמצאים 25% מהנתונים.
      • הרבעון השני (Q2) הוא החציון.
      • הרבעון השלישי (Q3) הוא הערך שמעליו נמצאים 75% מהנתונים.
      • IQR (Interquartile Range): ההפרש בין Q3 ו-Q1

    שלבים בעבודתו של מדען נתונים

    • ניסוח שאלת מחקר
    • ניקוי נתונים
    • ניתוח נתונים
    • בניית מודל
    • אימות מודל
    • הסקת מסקנות

    ניתוח נתונים חקרוני (EDA)

    • המטרה היא לזהות תבניות וקשרים בנתונים, בייחוד בגרפים.
    • לחלץ משתנים, לזהות ערכים חריגים (outliers), להסיק מסקנות.

    סולמות מדידה

    • סולם שמות (Nominal): שכיחות
    • סולם סדר (Ordinal): שכיחות, חציון, אחוזונים
    • סולם רווח (Interval): שכיחות, חציון, ממוצע, הפרשים
    • סולם יחס (Ratio): שכיחות, חציון, ממוצע, הפרשים, יחסים

    ספריות ופונקציות ב-Python

    • Pandas: ניתוח נתונים, עיבוד נתונים, טבלאות (dataframes), מיזוג, סינון, ניקוי.
    • Matplotlib: ויזואליזציה של נתונים, יצירת גרפים, תרשימים, תצוגות.
    • SciPy: חישובים מדעיים, מתמטיים, ניתוח סטטיסטי, אופטימיזציה.
    • Scikit-learn (Sklearn): למידת מכונה.
    • NumPy: חישובים בסיסיים, מערכים.
    • Requests: פניות HTTP.
    • Beautiful Soup: ניתוח מסמכי HTML, שליפה, שינוי, ניתוח נתונים.
    • Selenium: אוטומציה של דפדפני אינטרנט.

    סוגי נתונים ב-Python

    • מילון (Dictionary): זוגות מפתח-ערך.
    • טפל (Tuple): סדרת ערכים שאינה ניתנת לשינוי.
    • רשימה (List): סדרת ערכים ניתנת לשינוי.
    • קבוצה (Set): סדרת ערכים ייחודיים ללא סדר.

    פונקציות ב-Pandas

    • describe(): סטטיסטיקות סיכום (לנתונים מספריים).
    • info(): מידע על DataFrame (סוגי נתונים, ערכים חסרים).
    • head(): חמש השורות הראשונות של DataFrame.
    • tail(): חמש השורות האחרונות של DataFrame.

    קורלציה

    • קורלציית פירסון (Pearson): מודדת את עוצמת הקשר הלינארי בין שני משתנים (ערכים בין -1 ל-1).
    • קורלציית ספירמן (Spearman): מודדת את הקשר המונוטוני בין שני משתנים (ערכים בין -1 ל-1).
    • קורלציה קנונית (Canonical): לבחינת הקשר בין שתי קבוצות משתנים רבים.

    רגרסיה לינארית

    • שיטה לחיזוי ערך של משתנה תלוי בהתבסס על משתנים עצמאיים.

    קבצי CSV

    • פורמט טקסט פשוט, קל משקל יחסית.
    • קל לטיפול וארגון.
    • מאפשר ייבוא וייצוא של כמויות גדולות של נתונים.
    • דורש טיפול מיוחד בערכים המכילים תווים מיוחדים (כמו פסיק, מירכאות).

    קבצי JSON

    • פורמט יעיל לתיאור נתונים מורכבים.
    • פונקציות עיבוד JSON ב-Python (json.dumps, json.loads, json.dump, json.load) להתמרה בין JSON למחרוזת נתונים (ובחזרה) ובין JSON לקובץ, ולהיפך.

    כלים לביצוע קלאסטרינג

    • k-means: חלוקת נתונים לקבוצות על בסיס קירבה.
    • k-means++: שיפור האלגוריתם על ידי שיפור בחירת הסנטרואידים הראשוניים.
    • DBSCAN (Density-Based Spatial Clustering of Applications with Noise): מבוסס על צפיפות, לא על מרחק או סנטרואידים.

    קלאסטרינג היררכי

    • Divisive (top-down): מחלקים קבוצות גדולות לקטנות יותר.
    • Agglomerative (bottom-up): מאחדים קבוצות קטנות לקבוצות גדולות יותר.

    גרפים (ויזואליזציה)

    • Bar Plot: משתנים קטגוריאליים - הצגת כמויות או תדירויות.
    • Pie Chart: משתנים קטגוריאליים - הצגת החלק היחסי של כל קטגוריה.
    • Histogram: משתנים כמותיים - הצגת התפלגות, זיהוי דפוסים.
    • Box Plot: משתנים כמותיים - הצגת סיכום סטטיסטי (חציון, רבעונים).
    • Violin Plot: משלב בין Box Plot ו-Kernel Density Plot.
    • Kernel Density Plot: הצגת הערכת צפיפות של התפלגות.
    • Scatter Plot: הצגת קשר בין שני משתנים כמותיים.

    ויזואליזציה עם matplotlib ו-seaborn

    • ספריות Python לויזואליזציה של נתונים.
    • ניתן ליצור גרפים שונים כגון היסטוגרמות, תרשימי עוגה, תרשימי מקלות, תרשימי קופסה וגרפים אחרים.

    Studying That Suits You

    Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

    Quiz Team

    Related Documents

    Description

    הבחנו במושגי יסוד בסטטיסטיקה בסיסית כמו ממוצע, חציון ושכיח, והכנו סיכום של שלבים בעבודתו של מדען נתונים. כמו כן, נלמד על ניתוח נתונים חקרוני וסולמות מדידה. quiz זה מציע שאלות שיכולות לשפר את ההבנה שלך בתחום זה.

    More Like This

    Statistics Basics
    5 questions

    Statistics Basics

    IntegralNephrite6068 avatar
    IntegralNephrite6068
    Use Quizgecko on...
    Browser
    Browser