Podcast
Questions and Answers
מהו הטווח הבין-רבעוני (IQR) ?
מהו הטווח הבין-רבעוני (IQR) ?
- ההפרש בין השכיח לרבעון הראשון
- ההפרש בין הממוצע לרבעון השני
- ההפרש בין הרבעון הראשון לרבעון השלישי (correct)
- ההפרש בין הרבעון השני לשלישי
איזה משפט לא נכון לגבי ניתוח חקרני של נתונים (EDA)?
איזה משפט לא נכון לגבי ניתוח חקרני של נתונים (EDA)?
- EDA עוזר לזהות Outliers בנתונים
- מטרת EDA היא לזהות תבניות וקשרים בנתונים
- ב-EDA רוצים להבין מידע שלא תמיד נראה לעין
- ב-EDA משתמשים בכלים סטטיסטיים כדי להסיק מסקנות לגבי השערת המחקר (correct)
- EDA מתבצע בעיקר בעזרת גרפים
איזה סוג של נתונים מתאים לחישוב ממוצע?
איזה סוג של נתונים מתאים לחישוב ממוצע?
- רווח (correct)
- סולם מנה (correct)
- שמי
- סדר
איזו משימה לא מתבצעת במסגרת ניקוי נתונים?
איזו משימה לא מתבצעת במסגרת ניקוי נתונים?
איזה מהשלבים הבאים אינו חלק ממהלך עבודה טיפוסי של מדען נתונים?
איזה מהשלבים הבאים אינו חלק ממהלך עבודה טיפוסי של מדען נתונים?
איזו מהמשימות הבאות היא לא חלק מעבודת ניתוח נתונים מתקדם?
איזו מהמשימות הבאות היא לא חלק מעבודת ניתוח נתונים מתקדם?
מהו תפקידו של IQR בתהליך ניתוח נתונים?
מהו תפקידו של IQR בתהליך ניתוח נתונים?
איזו מהספריות הבאות מתאימה לניהול וניתוח נתונים בטבלאות?
איזו מהספריות הבאות מתאימה לניהול וניתוח נתונים בטבלאות?
איזו פונקציה מציגה מידע על ה-DataFrame?
איזו פונקציה מציגה מידע על ה-DataFrame?
מה זו סטיית תקן?
מה זו סטיית תקן?
איזה מהבאים מייצג את המינימום בנתונים?
איזה מהבאים מייצג את המינימום בנתונים?
מהו הרבעון הראשון?
מהו הרבעון הראשון?
איזו מהפרמטרים הבאים אינה נכללת ברשימת הסטטיסטיקות?
איזו מהפרמטרים הבאים אינה נכללת ברשימת הסטטיסטיקות?
מה ההגדרה הנכונה של טפל (tuple)?
מה ההגדרה הנכונה של טפל (tuple)?
איזה סוג מבנה נתונים מאחסן ערכים ייחודיים ולא מכיל חזרות?
איזה סוג מבנה נתונים מאחסן ערכים ייחודיים ולא מכיל חזרות?
איזה מבנה נתונים מאפשר שינוי של ערכים לאחר יצירתו?
איזה מבנה נתונים מאפשר שינוי של ערכים לאחר יצירתו?
איזה מהמאפיינים הבאים אינו נכון לגבי קבוצה (set)?
איזה מהמאפיינים הבאים אינו נכון לגבי קבוצה (set)?
איזה תו מתאם לכל תו בודד בחוץ משורת סיום?
איזה תו מתאם לכל תו בודד בחוץ משורת סיום?
מהו העיקרון המרכזי שמנחה את תהליך האשכולות?
מהו העיקרון המרכזי שמנחה את תהליך האשכולות?
באיזה תהליך עוסקים בהפחתת מספר המאפיינים תוך כדי שמירה על מידע חשוב?
באיזה תהליך עוסקים בהפחתת מספר המאפיינים תוך כדי שמירה על מידע חשוב?
איזה מבין הפיתוחים הבאים קשור לאשכולות?
איזה מבין הפיתוחים הבאים קשור לאשכולות?
מה מהמאפיינים הבאים לא נחשב להורדת מימדים?
מה מהמאפיינים הבאים לא נחשב להורדת מימדים?
איזה סוג של נתונים נפוץ בעבודה עם אשכולות?
איזה סוג של נתונים נפוץ בעבודה עם אשכולות?
מהו אחד השימושים העיקריים בהצגת התפלגות ערכים?
מהו אחד השימושים העיקריים בהצגת התפלגות ערכים?
מה היתרון בשינוי רוחב ה-bins בעת הצגת התפלגות?
מה היתרון בשינוי רוחב ה-bins בעת הצגת התפלגות?
לאיזה סוג משתנים מתאימה הצגת Box Plot?
לאיזה סוג משתנים מתאימה הצגת Box Plot?
מהו תפקידם של ה-bins בהצגת התפלגות ערכים?
מהו תפקידם של ה-bins בהצגת התפלגות ערכים?
מהו הדגש בהצגת משתנה כמותי אחד?
מהו הדגש בהצגת משתנה כמותי אחד?
מה היתרון של קלאסטרינג שאין צורך להגדיר מראש כמות קלאסטרים?
מה היתרון של קלאסטרינג שאין צורך להגדיר מראש כמות קלאסטרים?
איזה מהמאפיינים הבאים לא נחשב ליתרון של קלאסטרינג?
איזה מהמאפיינים הבאים לא נחשב ליתרון של קלאסטרינג?
מה הכוונה במונח 'איטרציה על כל מופע בקלאסטר'?
מה הכוונה במונח 'איטרציה על כל מופע בקלאסטר'?
מהו תהליך שהוזכר בחזרה על הקלאסטרים?
מהו תהליך שהוזכר בחזרה על הקלאסטרים?
איזה מהמאפיינים הבאים מייצג את ההתמודדות עם ערכי קצה בקלאסטרינג?
איזה מהמאפיינים הבאים מייצג את ההתמודדות עם ערכי קצה בקלאסטרינג?
Flashcards
אשכולות (clustering)
אשכולות (clustering)
קיבוץ נתונים לפי דימיון, תוך שמירה על קשרים.
הורדת מימדים (dimension reduction)
הורדת מימדים (dimension reduction)
הפחתת מספר המאפיינים במידע, תוך שמירה על מידע חשוב.
דמיון
דמיון
המאפיין שמוביל לקיבוץ נתונים באשכולות.
מאפיינים חשובים
מאפיינים חשובים
Signup and view all the flashcards
קיבוץ נתונים
קיבוץ נתונים
Signup and view all the flashcards
טפל (tuple)
טפל (tuple)
Signup and view all the flashcards
רשימה (list)
רשימה (list)
Signup and view all the flashcards
קבוצה (set)
קבוצה (set)
Signup and view all the flashcards
. (מתאם)
. (מתאם)
Signup and view all the flashcards
הבדלים בין טפל לרשימה
הבדלים בין טפל לרשימה
Signup and view all the flashcards
התפלגות ערכים
התפלגות ערכים
Signup and view all the flashcards
זיהוי דפוסים
זיהוי דפוסים
Signup and view all the flashcards
נקודות חריגות
נקודות חריגות
Signup and view all the flashcards
r. רוחב ה-bins
r. רוחב ה-bins
Signup and view all the flashcards
Box Plot
Box Plot
Signup and view all the flashcards
איטרציה בקלאסטרינג
איטרציה בקלאסטרינג
Signup and view all the flashcards
יתרונות קלאסטרינג
יתרונות קלאסטרינג
Signup and view all the flashcards
התמודדות עם ערכי קצה
התמודדות עם ערכי קצה
Signup and view all the flashcards
קלאסטרים לא מוגדרים מראש
קלאסטרים לא מוגדרים מראש
Signup and view all the flashcards
גמישות בדאטה
גמישות בדאטה
Signup and view all the flashcards
ספירה (count)
ספירה (count)
Signup and view all the flashcards
ממוצע (mean)
ממוצע (mean)
Signup and view all the flashcards
סטיית תקן (std)
סטיית תקן (std)
Signup and view all the flashcards
חציון (median)
חציון (median)
Signup and view all the flashcards
פונקציה info()
פונקציה info()
Signup and view all the flashcards
שלבים בעבודתו של מדען נתונים
שלבים בעבודתו של מדען נתונים
Signup and view all the flashcards
ניסוח שאלת מחקר
ניסוח שאלת מחקר
Signup and view all the flashcards
ניקוי נתונים
ניקוי נתונים
Signup and view all the flashcards
ניתוח חקרני של נתונים (EDA)
ניתוח חקרני של נתונים (EDA)
Signup and view all the flashcards
ספריית Pandas
ספריית Pandas
Signup and view all the flashcards
סולם שמי (nominal)
סולם שמי (nominal)
Signup and view all the flashcards
סולם מנה (ratio)
סולם מנה (ratio)
Signup and view all the flashcards
Study Notes
סטטיסטיקה בסיסית
- ממוצע (Mean): מרכז הכובד של ההתפלגות.
- חציון (Median): הערך שמחלק את ההתפלגות לשני חלקים שווים.
- שכיח (Mode): הערך שמופיע הכי הרבה פעמים.
- סטיית תקן (Standard Deviation): מדד לפיזור הערכים סביב הממוצע.
- שונות (Variance): מדד לפיזור הנתונים, הריבוע של סטיית התקן.
- זנבות (Tails): הקצוות של ההתפלגות, יכולים להיות חיוביים או שליליים.
- רבעון (Quartile): ערכים שמחלקים את ההתפלגות לארבעה חלקים שווים.
- הרבעון הראשון (Q1) הוא הערך שמעליו נמצאים 25% מהנתונים.
- הרבעון השני (Q2) הוא החציון.
- הרבעון השלישי (Q3) הוא הערך שמעליו נמצאים 75% מהנתונים.
- IQR (Interquartile Range): ההפרש בין Q3 ו-Q1
שלבים בעבודתו של מדען נתונים
- ניסוח שאלת מחקר
- ניקוי נתונים
- ניתוח נתונים
- בניית מודל
- אימות מודל
- הסקת מסקנות
ניתוח נתונים חקרוני (EDA)
- המטרה היא לזהות תבניות וקשרים בנתונים, בייחוד בגרפים.
- לחלץ משתנים, לזהות ערכים חריגים (outliers), להסיק מסקנות.
סולמות מדידה
- סולם שמות (Nominal): שכיחות
- סולם סדר (Ordinal): שכיחות, חציון, אחוזונים
- סולם רווח (Interval): שכיחות, חציון, ממוצע, הפרשים
- סולם יחס (Ratio): שכיחות, חציון, ממוצע, הפרשים, יחסים
ספריות ופונקציות ב-Python
- Pandas: ניתוח נתונים, עיבוד נתונים, טבלאות (dataframes), מיזוג, סינון, ניקוי.
- Matplotlib: ויזואליזציה של נתונים, יצירת גרפים, תרשימים, תצוגות.
- SciPy: חישובים מדעיים, מתמטיים, ניתוח סטטיסטי, אופטימיזציה.
- Scikit-learn (Sklearn): למידת מכונה.
- NumPy: חישובים בסיסיים, מערכים.
- Requests: פניות HTTP.
- Beautiful Soup: ניתוח מסמכי HTML, שליפה, שינוי, ניתוח נתונים.
- Selenium: אוטומציה של דפדפני אינטרנט.
סוגי נתונים ב-Python
- מילון (Dictionary): זוגות מפתח-ערך.
- טפל (Tuple): סדרת ערכים שאינה ניתנת לשינוי.
- רשימה (List): סדרת ערכים ניתנת לשינוי.
- קבוצה (Set): סדרת ערכים ייחודיים ללא סדר.
פונקציות ב-Pandas
- describe(): סטטיסטיקות סיכום (לנתונים מספריים).
- info(): מידע על DataFrame (סוגי נתונים, ערכים חסרים).
- head(): חמש השורות הראשונות של DataFrame.
- tail(): חמש השורות האחרונות של DataFrame.
קורלציה
- קורלציית פירסון (Pearson): מודדת את עוצמת הקשר הלינארי בין שני משתנים (ערכים בין -1 ל-1).
- קורלציית ספירמן (Spearman): מודדת את הקשר המונוטוני בין שני משתנים (ערכים בין -1 ל-1).
- קורלציה קנונית (Canonical): לבחינת הקשר בין שתי קבוצות משתנים רבים.
רגרסיה לינארית
- שיטה לחיזוי ערך של משתנה תלוי בהתבסס על משתנים עצמאיים.
קבצי CSV
- פורמט טקסט פשוט, קל משקל יחסית.
- קל לטיפול וארגון.
- מאפשר ייבוא וייצוא של כמויות גדולות של נתונים.
- דורש טיפול מיוחד בערכים המכילים תווים מיוחדים (כמו פסיק, מירכאות).
קבצי JSON
- פורמט יעיל לתיאור נתונים מורכבים.
- פונקציות עיבוד JSON ב-Python (json.dumps, json.loads, json.dump, json.load) להתמרה בין JSON למחרוזת נתונים (ובחזרה) ובין JSON לקובץ, ולהיפך.
כלים לביצוע קלאסטרינג
- k-means: חלוקת נתונים לקבוצות על בסיס קירבה.
- k-means++: שיפור האלגוריתם על ידי שיפור בחירת הסנטרואידים הראשוניים.
- DBSCAN (Density-Based Spatial Clustering of Applications with Noise): מבוסס על צפיפות, לא על מרחק או סנטרואידים.
קלאסטרינג היררכי
- Divisive (top-down): מחלקים קבוצות גדולות לקטנות יותר.
- Agglomerative (bottom-up): מאחדים קבוצות קטנות לקבוצות גדולות יותר.
גרפים (ויזואליזציה)
- Bar Plot: משתנים קטגוריאליים - הצגת כמויות או תדירויות.
- Pie Chart: משתנים קטגוריאליים - הצגת החלק היחסי של כל קטגוריה.
- Histogram: משתנים כמותיים - הצגת התפלגות, זיהוי דפוסים.
- Box Plot: משתנים כמותיים - הצגת סיכום סטטיסטי (חציון, רבעונים).
- Violin Plot: משלב בין Box Plot ו-Kernel Density Plot.
- Kernel Density Plot: הצגת הערכת צפיפות של התפלגות.
- Scatter Plot: הצגת קשר בין שני משתנים כמותיים.
ויזואליזציה עם matplotlib ו-seaborn
- ספריות Python לויזואליזציה של נתונים.
- ניתן ליצור גרפים שונים כגון היסטוגרמות, תרשימי עוגה, תרשימי מקלות, תרשימי קופסה וגרפים אחרים.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.