סיכום מדעי נתונים v1_240704_231700 PDF

Document Details

RighteousRadium2668

Uploaded by RighteousRadium2668

Holon Institute of Technology

Tags

data science statistical analysis data mining machine learning

Summary

מסמך זה מספק סיכום של מושגים סטטיסטיים, שלבים בעבודתו של מדען נתונים, כלי ניתוח נתונים ופונקציות שונות לניתוח נתונים כמו Pandas, Matplotlib וכו'.

Full Transcript

# סיכום דברים חשובים למבחן ## מושגים סטטיסטיים - **ממוצע (Mean)**: מרכז הכובד של ההתפלגות. - **חציון (Median)**: הערך שמחלק את ההתפלגות לשניים שווים. - **שכיח (Mode)**: הערך שמופיע הכי הרבה פעמים. - **סטיית תקן (Standard Deviation)**: מדד לפיזור הערכים סביב הממוצע. - **שונות (Variance)**: מדד לפי...

# סיכום דברים חשובים למבחן ## מושגים סטטיסטיים - **ממוצע (Mean)**: מרכז הכובד של ההתפלגות. - **חציון (Median)**: הערך שמחלק את ההתפלגות לשניים שווים. - **שכיח (Mode)**: הערך שמופיע הכי הרבה פעמים. - **סטיית תקן (Standard Deviation)**: מדד לפיזור הערכים סביב הממוצע. - **שונות (Variance)**: מדד לפיזור הנתונים, הוא הריבוע של סטיית התקן. - **זנבות (Tails)**: הקצוות של ההתפלגות, עשויים להיות חיוביים או שליליים. - **רבעון (Quartile)**: ערכים שמחלקים את ההתפלגות לארבעה חלקים שווים. - הרבעון הראשון (Q1) הוא הערך שמעליו נמצאים 25% מהנתונים. - הרבעון השני הוא החציון (Q2). - הרבעון השלישי (Q3) הוא הערך שמעליו נמצאים 75% מהנתונים. - קשור ל-IQR ## שלבים בעבודתו של מדען נתונים 1. ניסוח שאלת מחקר 2. ניקוי נתונים 3. ניתוח נתונים 4. בניית מודל 5. אימות מודל 6. הסקת מסקנות ### תיאור שלבים: | שלבים | תיאור | |---|---| |הגדרת שאלת או השערת מחקר | השלב שבו מנסחים את הגדרת הבעיה שעליה אנו רוצים לתת מענה | | הרכשת נתונים | טיפול בנתונים | | ניתוח חקרני של נתונים Exploratory Data Analysis | שלב בו נגדיר מהם הנתונים אותם נרצה להביא אלינו למחשב, ואת הפורמט והשיטה באמצעותה נעשה זאת | | ניתוח נתונים מתקדם | השלב בו נטייב, נוסיף או נשמיט נתונים לצורך עבודתנו<br/>השלב בו נחקור את הנתונים שהתקבלו ונבצע ניתוח ראשוני שלהם<br/>שלב בו נשתמש בכלים סטטיסטיים כדי להסיק מסקנות לגבי השערת המחקר, ו/או נייצר אלגוריתם לומד שיאפשר לנו לחזות או לגלות עובדות הקשורות למחקרנו | ## סיכום דברים חשובים למבחן ### ניתוח חקרני EDA - המטרה היא לזהות תבניות וקשרים בנתונים שאינן בהכרח מובנים מאליהם - בעיקר בגרפים - לחלץ משתנים, לזהות outliners, להסיק מסקנות שלא תמיד נראות לעין - בגדול להסתכל על ייצוג ויזואלי ולהבין מזה משהו ### מה אפשר לחשב בכל סולם: - **שמי (nominal)** - שכיחות - **סדר (ordinal)** - שכיחות, חציון, אחוזונים - **רווח (interval)** - שכיחות, חציון, ממוצע הפרשים - **סולם מנה (ratio)** - שכיחות, חציון, ממוצע, הפרשים, מנה ### ספריות ומה הן עושות: - **ספריית Pandas**: ניתוח נתונים ועיבוד נתונים, ניהול וניתוח נתונים בטבלאות (dataframes), מיזוג, סינון, וניקוי נתונים. - **ספריית Matplotib**: ויזואליזציה של נתונים, יצירת גרפים, תרשימים, תצוגות - **ספריית Scipy**: חישובים מדעיים ומתמטיים, ניתוח סטטיסטי, אופטימיזציה - **ספריית Sklearn**: למידת מכונה - **ספריית numpy**: גם ספריית חישובים אבל בסיסית יותר (מערכים וזה) - **ספריית requests**: פניות HTTP לשרתי רשת - **ספריית beautiful soup**: ניתוח מסמכי HTML, שליפה, שינוי, ניתוח נתונים - **ספריית selenium**: אוטומציה של דפדפני אינטרנט לצורך בדיקות וcrawling ### מילון, טפל, רשימה, קבוצה - **מילון (dictionary)** מאחסן זוגות של מפתח-ערך, כאשר כל מפתח ייחודי. - **טפל (tuple)** מאחסן סדרה של ערכים שאינה ניתנת לשינוי (immutable). - **רשימה (list)** מאחסן סדרה של ערכים הניתנים לשינוי (mutable). - **קבוצה (set)** מאחסן סדרה של ערכים ייחודיים ללא סדר מסוים. ### הסבר: `. `: מתאם לכל תו בודד (חוץ משורת סיום). י* י: מתאם לאפס או יותר הופעות של התו הקודם. `? י: מתאם לאפס או אחת הופעות של התו הקודם. `+ `: מתאם לאחת או יותר הופעות של התו הקודם. ## פונקציות ### פונקציה `describe()` - מחשבת סטטיסטיקות סיכום עבור עמודות מספריות ב-DataFrame. - כולל ספירה (count), ממוצע (mean), סטיית תקן (std), מינימום (min), רבעון ראשון (25%), חציון (50%), רבעון שלישי (75%) ומקסימום (max). ### פונקציה `info()` - מציגה מידע על ה-DataFrame. - כולל מספר השורות והעמודות, סוגי הנתונים (dtype), וספירת הערכים הלא-חסרים בכל עמודה. ### פונקציה `head()` - מציגה את חמש השורות הראשונות של ה-DataFrame - ניתן להגדיר מספר שורות מוגדר. ### פונקציה `tail()` - מציגה את חמש השורות האחרונות של ה-DataFrame - ניתן להגדיר מספר שורות מוגדר. ## מדדי מתאם - **קורלציית פירסון (Pearson correlation)**: מודדת את עוצמת והכיוון של הקשר הלינארי בין שני משתנים רציפים. - ערכה נע בין -1 ל-1. - **קורלציית ספירמן (Spearman correlation)**: מודדת את הקשר המונוטוני בין שני משתנים על ידי שימוש בדירוגים של הנתונים במקום הערכים המקוריים. - גם כאן הערכים נעים בין -1 ל-1. - **קורלציה קנונית (Canonical correlation)**: משמשת לבחינת הקשר בין שתי קבוצות של משתנים רבים. - זו שיטה מתקדמת יותר ולא נועדה לחישוב קורלציה בין שני משתנים בודדים. ## רגרסיה לינארית - **רגרסיה לינארית (Linear regression)**: שיטה לחיזוי ערך של משתנה תלוי (תוצאה) בהתבסס על משתנה עצמאי אחד או יותר, ולא מיועדת למדידת מקדם מתאם ישיר בין שני משתנים. ## מונחים חשובים - **מאפיינים (features)**= עמודות (columns) - **מופעים (instances)**= שורות (rows) - **מספר העמודות ב-pandas מייוצג `shape[1]`** - **מספר השורות ב-pandas מייוצג `shape[0]`** ## קבצי CSV ### יתרונות פורמט CSV: 1. פורמט טקסט קל משקל יחסית. 2. מאפשר ייבוא וייצוא כמויות נתונים גדולות. 3. נתמך על ידי מרבית המערכות והפלטפורמות. 4. קל לטיפול ולארגון. ### חסרונות פורמט CSV: 1. אינו קריא באופן אינטואיטיבי. 2. הנתונים מיוצגים ברמה אחת ולא באופן היררכי. 3. דורש טיפול מיוחד לערכים המכילים תווים מיוחדים (כמו פסיק, מירכאות). ### בעיה ופתרון - ערכים עם פסיקים: - ערכים המכילים פסיקים עלולים להתחלק לשדות נפרדים. - פתרון: שימוש ב-Escaping עם גרשיים, לדוגמה: "גולומב 52, חולון" #### שאלות תרגול - **כדי לטעון קובץ CSV לתוך דאטה פריים צריך להשתמש בפקודה `read_csv`:** - **כדי לשמור קובץ CSV לתוך דאטה פריים צריך להשתמש בפקודה `to_csv`:** ## קבצי JSON - הכרנו עכשיו 4 פונקציות משמעותיות לעבודה עם פורמט JSON, מתוך המודול `json`: - **`json.dumps`**: מקבלת אובייקט dictionary ומחזירה מחרוזת בפורמט JSON. - **`json.loads`**: מקבלת מחרוזת בפורמט JSON ומחזירה אובייקט dictionary. - **`json.dump`**: מקבלת אובייקט dictionary, `file pointer` -I וכותבת לקובץ את אובייקט JSON. - **`json.load`**: מקבלת `file pointer` לקובץ המכיל נתונים בפורמט JSON ומחזירה אובייקט dictionary. - **`dump`**: כתיבה לקובץ - **`load`**: טעינה מקובץ ## אשכולות ### שאלות מהסוג `df['age'] < 18` כנגד `df[df['age']<18]` - `df['age']<18` מחזיר סדרת בוליאנים. - `df[df['age']<18]` משתמש בסדרת הבוליאנים כדי לסנן ולהחזיר DataFrame חדש המכיל רק את השורות שבהן התנאי מתקיים. ### שאלות מהסוג שיש גרפים ושואלים על מתאם ליניארי: - אין דבר כזה מתאם פרבולי ורדיאלי - יש רק מתאם שלילי או חיובי או אין כלום בשפה הפשוטה - רק אם רואים בצורה ברורה עליה או ירידה יש לנו איזשהו מתאם בתרשימים האלו ## Vectorizer ### `bag of words - vectorizer` המושג - **Vectorizer**: אובייקט הממיר טקסט לוקטורים - **`bag of word`**: ממיר טקסט לוקטורים - מקבלים טקסט ומפרקים אותו לרשימות של מילים - מורידים מילים נפוצות (כמו "של" "את"...). - סופרים כמה כל מילה מופיע בטקסט - יוצרים וקטור שמורכב ממופעים של כל מילה, כמה פעמים כל מילה הופיעה. ## קלאסטרינג ### שאלות מהסוג התקבלתם לעבודה בחברת נטפליקס (שאלות מונחה בלתי מונחה) - דבר ראשון צריך לזהות אם מדובר במנוחה או בלתי מונחה - **אם יש תויות יעני מידע על התכונות אז זה מונחה** - **אם אין מידע אז בלתי מונחה** #### אם זה בלתי מונחה יש 2 אופציות: 1. **אשכולות (clustering)**: קיבוץ נתונים לפי דימיון כאשר דמיון זאת מילת המפתח פה לדעת שבזה צריך להשתמש. 2. **הורדת מימדים (dimension reduction)**: הפחתת מספר המאפיינים תוך שמירה על מידע חשוב לרוב מילות המפתח יהיו בצורה נוחה #### אם זה מונחה יש 2 אופציות: 1. **סיווג (classification)**: לחזות קטגוריות כמו האם מייל או ספאם או לא ספאם כאשר התוויות הן הקטגוריות. 2. **נסיגה (regression)**: לחזות ערכים רציפים כמו מחירי הדירה והתוויות הן ערכים כמותיים ### `plt.boxplot(data,whis=5)` - מה שזה עושה זה מאריך את אורך השפמים של הגרף מ-1.5 בדיפולט ל-5 בעזרת פקודת `whis`. - עכשיו מה שזה אומר שנתונים שהיו בעבר חריגים והיו מחוץ לשפם פתאום נכנסים לשפם והם כבר לא נתונים חריגים ### `hierarchical agglomerative clustring` קלאסטרינג היררכי אלגומורטיבי - אלוגריתם מלמטה למעלה - מתחיל עם נקודות נתונים בודדות - משלב אשכולות על בסיס מידת קרבה - יכול ליצור דנדוגרמה (יעני עץ) ## גרפים שונים ### Bar Plot - **מתאים עבור**: משתנים קטגוריאליים (בדידים). - **מטרה**: הצגת כמויות או תדירויות של קטגוריות שונות. - **כדאי להציג בו**: תדירות קטגוריות, השוואת כמויות בין קטגוריות. אפשר להציג משתנה אחד (קטגוריאלי) וערכים שלו. - **תכונות מיוחדות**: ניתן להציג קבוצות משנה (sub-groups) באמצעות צבעים שונים. ### Pie Chart - **מתאים עבור**: משתנים קטגוריאליים (בדידים). - **מטרה**: הצגת החלק היחסי של כל קטגוריה מתוך הכלל. - **כדאי להציג בו**: חלוקת אחוזים או חלקים של קטגוריות. אפשר להציג משתנה אחד (קטגוריאלי) וערכים שלו. - **תכונות מיוחדות**: לא מתאים להשוואת גדלים בצורה מדויקת בגלל שקשה להשוות זוויות עגולות. ### Histogram - **מתאים עבור**: משתנים כמותיים (רציפים). - **מטרה**: הצגת התפלגות של משתנה כמותי. - **כדאי להציג בו**: התפלגות ערכים, זיהוי דפוסים ונקודות חריגות. אפשר להציג משתנה כמותי אחד. - **תכונות מיוחדות**: ניתן לשנות את רוחב ה-bins כדי לראות רזולוציות שונות של ההתפלגות. ### Box Plot - **מתאים עבור**: משתנים כמותיים (רציפים). - **מטרה**: הצגת התפלגות נתונים וסטטיסטיקות סיכום (חציון, רבעונים, טווח בין רבעוני). - **כדאי להציג בו**: סיכום סטטיסטי והשוואת התפלגויות בין קבוצות. אפשר להציג משתנה כמותי אחד וקטגוריאלי אחד. - **תכונות מיוחדות**: מציג נקודות חריגות (outliers) בצורה ברורה. ### Violin Plot - **מתאים עבור**: משתנים כמותיים (רציפים). - **מטרה**: הצגת התפלגות נתונים וסטטיסטיקות סיכום בדומה ל-box plot עם מידע על צפיפות. - **כדאי להציג בו**: צפיפות התפלגות והשוואת התפלגויות בין קבוצות. אפשר להציג משתנה כמותי אחד וקטגוריאלי אחד. - **תכונות מיוחדות**: משלב בין box plot לבין kernel density plot, מציג גם את ההתפלגות וגם את סיכום הנתונים. ### Kernel Density Plot - **מתאים עבור**: משתנים כמותיים (רציפים). - **מטרה**: הצגת הערכת צפיפות של התפלגות משתנה כמותי. - **כדאי להציג בו**: צפיפות התפלגות של משתנה אחד או יותר. אפשר להציג משתנה כמותי אחד או יותר (לרוב שניים להשוואה). - **תכונות מיוחדות**: מציג התפלגות חלקה ומאפשר לראות דפוסים עדינים שאינם נראים ב-histogram. ### Scatter Plot - **מתאים עבור**: משתנים כמותיים (רציפים). - **מטרה**: הצגת הקשר בין שני משתנים כמותיים. - **כדאי להציג בו**: זיהוי קשרים, מגמות ונקודות חריגות. אפשר להציג שני משתנים כמותיים, ולעיתים משתנה קטגוריאלי נוסף (על ידי צבע/סמל). - **תכונות מיוחדות**: ניתן להוסיף יותר משתנים באמצעות צבע, גודל, צורה וסמל הנקודות. מתאים להצגת קשרים מורכבים בין משתנים. ## `k-means` אלגוריתם ### מטרה: - חלוקת הנתונים לקבוצות (קלסטרינג) בחלוקה שממזערת את מרחק הנקודות מהסנטרואידים - כך שהשונות של הערכים בכול קבוצה תקטן, כך שהערכים בכול קבוצה (קלסטר) תקטן ### מינימום לוקאלי: - הגעה להתכנסות אבל לא לחלוקה אופטימלית ### דרכים להתגבר על מינימום לוקאלי: - ביצוע אתחולים נוספים, k-means++ ### הערכת ביצועים: - נעשית או עלידי מדד SSE או מדד סילואט #### מדד SSE: - סכום ריבועי המרחק של הנקודות מהסנטרואידים - ככל שה-SSE נמוך יותר האלוגריתם טוב ומדויק יותר - חשוב להזכיר ש-SSE יכול להשתנות בין הרצות שונות כי אתחולים שונים סנטרואידים שונים מה שיוביל לחלוקה שונה, שינוי k גם יכול לגרום לשינוי - ככל שמגדילים את k כך גם ה-SSE יורד - **חיסרון**: אין דרך מוחלטת לדעת אם מדובר בציון טוב או לא. #### מדד סילואט: - מדד הסילואט משמש להערכת האיכות של חלוקת הנתונים לקלסטרים על ידי שקלול שני פרמטרים - **צפיפות הקלאסטר**: עד כמה הנתונים בתוך הקלאסטר קרובים זה לזה - **המרחק בין הקלאסטרים**: עד כמה הקלאסטרים שונים ורחוקים אחד מהשני - **הערכה**: ממוצע קרוב ל-1 זה טוב אבל קרוב ל-1- זה רע ### שיטות לבחירת k: - לפי העין, שיטת המרפק, סילואט (חשוב בתחילת התהליך) ### אלגוריתם `k-means++`: - המטרה להבטיח שההגרלה הראשונית תהיה טובה ומדויקת - זה בא לטפל בבעיה של מינימום לוקאלי משפר את ההגרלה הראשונית ### יתרונות: - אישכול יעיל ומהיר - מתמודד עם כמות נתונים גדולה ### חסרונות: - בעל חשש למינימום לוקאלי - לא עובדת דאטה סטים מסוימים (מכחול, ירח) - עובדת על דאטא של כדורים ## קלאסטרינג היררכי ### `divisive clustering` - השיטה של מלמעלה למטה שוברים כל פעם אחת קלסט - קוראים לשיטה הזאת גם `top down`. ### `Agglomerative clustering` - מאחדים בין מופעים דומים של קלסטרינג - אפשר לקרוא לשיטה הזאת גם `bottom up` - מזהה שני קלסטרים הכי קרובים וממזג אותם - כל מה שרשום למטה קשור לשיטה זאת בלבד ### Dendogram - השם של הגרף הזה שאנחנו עולים למעלה או למטה - מראה לנו את שלבי יצירת הקלסטרים ובכך מאפשר לבחור נקודת עצירה. - **מעבירים קו אופקי בהתאם לנקודת העצירה שבחרנו وكل קו שנוצר כתוצאה מהחיתוך זה הוא קלאסטר**. - **תובנה 1**: ככל שהקווים האנכיים של חיבור קלאסטרים ארוכים יותר כך המרחק בין שני הקלאסטרים שמאוחדים גדול יותר. - **תובנה 2**: ככל שעולים בעץ כמות האשכולות מצטמצמת ### Hyperparameters - **`linkage`**: מדידת מרחק בין הקלסטרים עצמם - המרחק הכי קטן מצביע על הקלסטרים הקרובים ביותר - **`connectivity constraints`**: עוזרת לפתור לפתור את גרף 2 הירחים (שקל) ### יתרונות - שיטת אישכול טובה גדולים - אין צורך להגדיר כמות קלאסטרים מראש - עובד על 2 יריחים ושל בלובים ### חסרונות - לא יעיל עבור דאטא סטים מאד - לא עובדת על משכית מכחול ## DBSCAN ### `Density-Based Spatial Clustering of Applications with Noise` - מבוסס על צפיפות, לא על מרחק או סנטרואידים. ### פרמטרים - **אפסילון (ε)**: רדיוס סביב נקודה שבו מחפשים מופעים נוספים לאותו קלאסטר. - מבטא את הצפיפות. - אם ε גדול מדי: ייווצרו מעט מדי קלאסטרים. - אם ɛ קטן מדי: ייווצרו יותר מדי קלאסטרים. - **מספר מופעים מינימלי**: מינימום מופעים כדי להגדיר קלאסטר. ### תהליך האלגוריתם 1. בחירת נקודה רנדומלית. 2. בדיקה אם יש מספיק מופעים ברדיוס ε מהנקודה. 3. אם כן, יצירת קלאסטר מהנקודה והמופעים הקרובים. 4. איטרציה על כל מופע בקלאסטר לחיפוש מופעים נוספים במרחק ε. 5. חזרה על התהליך עד שכל הקלאסטרים מוגדרים. ### יתרונות - יעילות: קלאסטרינג יעיל. - אין צורך להגדיר מראש כמות קלאסטרים. - מתאים לדאטה בצורות שונות. - מתמודד טוב עם ערכי קצה (Outliers). ### חסרונות - רגישות לפרמטר ε: בחירה לא מתאימה עלולה לגרום למעט מדי או יותר מדי קלאסטרים. - לא מתאים לצפיפויות שונות: יעילות נמוכה כשיש הבדלים משמעותיים בצפיפות בין הקלאסטרים. ## שאלות רנדומליות ממבחנים - בתרשים **scatterplot** -ניתן להציג יותר ממשתנה אחד עלידי צבע, גודל, צורה - תרשים **box plot** -זו טכניקה להצגת החציון, הרבעונים והטווח הבין רבעוני - **מתאם פירסון** - מספר שמצביע על קשר בין שני נתונים בסולם רווח או מנה - בתרשים **היסטוגרמה (Histogram)**: הגדלת מספר התאים מקטינה את ערכי התאים יעני גובה העמודות יורד ככל שנוסיף לזה עוד דברים - בתרשים **עוגה (pie chart)**: נשתמש כדי להציג הרכב השלם עבור מספר קטגוריות מועטות - בשביל למדוד את פיזור הנתונים משתמשים ב**סטיית תקן** - ניתן למיין dataframe לפי עמודה מסוימת לפי פונקציית **`sort_values`** - בשביל למדוד מרכוז נתונים בהתפלגות צידוד (skew) כמו גובה של שכר חודשים אז משתשמים בחציון **(median)** - איזה סולם מתאים למדידת ציונים בקורס: התשובה היא סולם מנה הסיבה היא שרק בסולם מנה יש את הערך 0 מוחלט ובסולם הפרש אין 0 מוחלט - **`Drop_duplicates()`** (-נשתמש ב Dataframe-כדי להסיר ערכים כפולים מ - הרכשת נתונים: מבצעים באמצעות API במידה וקיים ואם לא קיים משתמשים **crawling & scraping** בשיטת - ספריית **`beautiful soup`**: ניתוח מסמכי HTML, שליפה, שינוי, ניתוח נתונים - מטרת אלוגריתמי אשכול: לזהות דפוסים וקשרים בנתונים - טכניקה יעילה להפחתת עומס נתונים בתרשים: סינון נתונים - ב-**`Beautiful soup`** ניתן להחזיר את תוכן הטקסט של אלמנט HTML בעזרת הפונקציה `get_text` ## חישובים - **כיצד תחשב את האחוזון ה20 במערך בן 49 נתונים?** - (1+N). 20 /100 = (1+49). 20 /100 = 10 - המדידה העשירית בסדר העולה לאחר שהנתונים ממוינים בסדר עולה ### איך עושים חישוב IQR: - נניח יש לנו [16, 19, 23, 36, 39, 81, 85, 90] - הנוסחה: IQR = Q3 - Q1 - חשוב לזכור שצריך קודם למיין מערך - נחלק מערך לחצי אם החצי נופל על מספר משמיטים אותו. ## שאלות נוספות - **מה משמעות הפרמטר `keep='last'` בפקודה `df.drop_duplicates` עבור `df` מסויים (המסומן על ידי dataframe)?** - השאר את כל השורות הכפולות מלבד האחרונה ב- `df` - **נניח שאנחנו רוצים לבדוק כמה ערכים חסרים בעמודות של `df` (אובייקט מסוג dataframe), איזו מהפקודות או התכונות הבאות יכולה לסייע לנו?** - `df.info()` - **מה משמעות הפרמטר `n_components` בפקודה `PCA`?** - מספר העמודות שיש להסיר בהרצת ה- `PCA` - **עבור דטה פריים בשם `df`, מה מתקיים לגבי הפקודה `df.duplicated()`?** - נקבל וקטור של ערכים, שאורכו כמספר השורות ב- `df` - **בפונקציה `boxplot` של החבילה `seaborn` מה מסמנים השפמים?** - הם תוחמים את קצה גבול ההתפלגות באמצעות הערכים של max - min - **לאיזו מהאפשרויות הבאות יכול ה- IQR להיות קשור?** - בדיקה האם ערך מסוים מהווה `outlier` ביחס לערכי העמודה. - **כדי לדעת מהו ערך המינימום של עמודה מסוימת (המסומנת על ידי dataframe- (col_name מסויים (המסומן על ידי df), באיזו פקודה אפשר להשתמש?** - `df[col_name].min()` - **סטודנטים עוברים על תוכנית שכתבו ומצאו באמצע א שורה בה כתוב: `requests.get(abc)` יש לציין שבתחילת התוכנית מופיעה השורה: `import requests` מה כנראה המשמעות של המשתנה `abc`?** - כתובת url, של שרת HTTP שמצפים לקבל ממנו תשובה - **מה משמעות הפרמטר `normalize='index'` בפקודה `pd.crosstab` ?** - שיש לחלק את ערכם של הערכים ב-dataframe שלה cross tabulation בסך הערכים בשורה. - **איזו מהספריות הבאות אפשר מיועדות לויזואליזציה של data?** - `seaborn` - `matplotlib` - **מה מהבאים נכון לגבי ערכים חסרים?** - לא תמיד צריך לטפל בערכים חסרים - **:_explained_variance_ratio מה המשמעות של התכונה ,PCA לאחר ריצת** - ערך המודד את אחוז השונות שניתן להסביר על ידי כל אחד מה -principal components - **עבור plt (כלומר matplotlib.pyplot) מה המשמעות הפקודה הבאה: `plt.subplots(n1, n2)`?** - כמות ה- subplots שנציג הינה 1n*2n שיסודרו ב- 1ח שורות ו-2ח עמודות - **עבור dataframe מסויים (המסומן על ידי df), מה המשמעות של הפקודה הבאה: `df.corr()`?** - חישוב המתאם בין העמודות של `df`, לפי מקדם המתאם של פירסון. - **איזו מהאפשרויות הבאות תבחר את השורה השלישית מאובייקט בשם `df` מסוג dataframe?** - `df.iloc[2,:]` - **איזה קוד צריך להריץ על מנת לקבל את הכותרת של עמוד אינטרנט?** - from bs4 import BeautifulSoup soup = BeautifulSoup(html_doc,'html.parser') print soup.title.string - **:cross tabulation מה ניתן לטעון על פעולת** - כל התשובות נכונות - **איזו מהפקודות הבאות מיועדת לסיוע בטיפול (לא בגילוי) של ערכים חסרים ב- dataframe מסויים (המסומן ע"י df)?** - `df.dropna` - **מה תעשה הפקודה הבאה (ניתן להניח ש- df הינו אובייקט מסוג dataframe)?** - `df[df['age']==30]` - תחזיר את השורה/ות ב-`df` בה/בהן ערכה של העמודה `age` שווה 30. - **נניח שערך מקדם המתאם של פירסון קרוב ל- 1. מה נוכל ללמוד מכך?** - ששתי העמודות, עבורן התקבל ערך זה, בעלות תלות גבוה חיובית אחת לשניה. - **מה נצפה לראות בויזואליזציה של גרף עמודות?** - ויזואליזציה של כמות ה-outliers

Use Quizgecko on...
Browser
Browser