סיכום מדעי נתונים v1_240704_231700 PDF

# סיכום דברים חשובים למבחן ## מושגים סטטיסטיים - **ממוצע (Mean)**: מרכז הכובד של ההתפלגות. - **חציון (Median)**: הערך שמחלק את ההתפלגות לשניים שווים. - **שכיח (Mode)**: הערך שמופיע הכי הרבה פעמים. - **סטיית תקן (Standard Deviation)**: מדד לפיזור הערכים סביב הממוצע. - **שונות (Variance)**: מדד לפיזור הנתונים, הוא הריבוע של סטיית התקן. - **זנבות (Tails)**: הקצוות של ההתפלגות, עשויים להיות חיוביים או שליליים. - **רבעון (Quartile)**: ערכים שמחלקים את ההתפלגות לארבעה חלקים שווים. - הרבעון הראשון (Q1) הוא הערך שמעליו נמצאים 25% מהנתונים. - הרבעון השני הוא החציון (Q2). - הרבעון השלישי (Q3) הוא הערך שמעליו נמצאים 75% מהנתונים. - קשור ל-IQR ## שלבים בעבודתו של מדען נתונים 1. ניסוח שאלת מחקר 2. ניקוי נתונים 3. ניתוח נתונים 4. בניית מודל 5. אימות מודל 6. הסקת מסקנות ### תיאור שלבים: | שלבים | תיאור | |---|---| |הגדרת שאלת או השערת מחקר | השלב שבו מנסחים את הגדרת הבעיה שעליה אנו רוצים לתת מענה | | הרכשת נתונים | טיפול בנתונים | | ניתוח חקרני של נתונים Exploratory Data Analysis | שלב בו נגדיר מהם הנתונים אותם נרצה להביא אלינו למחשב, ואת הפורמט והשיטה באמצעותה נעשה זאת | | ניתוח נתונים מתקדם | השלב בו נטייב, נוסיף או נשמיט נתונים לצורך עבודתנו<br/>השלב בו נחקור את הנתונים שהתקבלו ונבצע ניתוח ראשוני שלהם<br/>שלב בו נשתמש בכלים סטטיסטיים כדי להסיק מסקנות לגבי השערת המחקר, ו/או נייצר אלגוריתם לומד שיאפשר לנו לחזות או לגלות עובדות הקשורות למחקרנו | ## סיכום דברים חשובים למבחן ### ניתוח חקרני EDA - המטרה היא לזהות תבניות וקשרים בנתונים שאינן בהכרח מובנים מאליהם - בעיקר בגרפים - לחלץ משתנים, לזהות outliners, להסיק מסקנות שלא תמיד נראות לעין - בגדול להסתכל על ייצוג ויזואלי ולהבין מזה משהו ### מה אפשר לחשב בכל סולם: - **שמי (nominal)** - שכיחות - **סדר (ordinal)** - שכיחות, חציון, אחוזונים - **רווח (interval)** - שכיחות, חציון, ממוצע הפרשים - **סולם מנה (ratio)** - שכיחות, חציון, ממוצע, הפרשים, מנה ### ספריות ומה הן עושות: - **ספריית Pandas**: ניתוח נתונים ועיבוד נתונים, ניהול וניתוח נתונים בטבלאות (dataframes), מיזוג, סינון, וניקוי נתונים. - **ספריית Matplotib**: ויזואליזציה של נתונים, יצירת גרפים, תרשימים, תצוגות - **ספריית Scipy**: חישובים מדעיים ומתמטיים, ניתוח סטטיסטי, אופטימיזציה - **ספריית Sklearn**: למידת מכונה - **ספריית numpy**: גם ספריית חישובים אבל בסיסית יותר (מערכים וזה) - **ספריית requests**: פניות HTTP לשרתי רשת - **ספריית beautiful soup**: ניתוח מסמכי HTML, שליפה, שינוי, ניתוח נתונים - **ספריית selenium**: אוטומציה של דפדפני אינטרנט לצורך בדיקות וcrawling ### מילון, טפל, רשימה, קבוצה - **מילון (dictionary)** מאחסן זוגות של מפתח-ערך, כאשר כל מפתח ייחודי. - **טפל (tuple)** מאחסן סדרה של ערכים שאינה ניתנת לשינוי (immutable). - **רשימה (list)** מאחסן סדרה של ערכים הניתנים לשינוי (mutable). - **קבוצה (set)** מאחסן סדרה של ערכים ייחודיים ללא סדר מסוים. ### הסבר: `. `: מתאם לכל תו בודד (חוץ משורת סיום). י* י: מתאם לאפס או יותר הופעות של התו הקודם. `? י: מתאם לאפס או אחת הופעות של התו הקודם. `+ `: מתאם לאחת או יותר הופעות של התו הקודם. ## פונקציות ### פונקציה `describe()` - מחשבת סטטיסטיקות סיכום עבור עמודות מספריות ב-DataFrame. - כולל ספירה (count), ממוצע (mean), סטיית תקן (std), מינימום (min), רבעון ראשון (25%), חציון (50%), רבעון שלישי (75%) ומקסימום (max). ### פונקציה `info()` - מציגה מידע על ה-DataFrame. - כולל מספר השורות והעמודות, סוגי הנתונים (dtype), וספירת הערכים הלא-חסרים בכל עמודה. ### פונקציה `head()` - מציגה את חמש השורות הראשונות של ה-DataFrame - ניתן להגדיר מספר שורות מוגדר. ### פונקציה `tail()` - מציגה את חמש השורות האחרונות של ה-DataFrame - ניתן להגדיר מספר שורות מוגדר. ## מדדי מתאם - **קורלציית פירסון (Pearson correlation)**: מודדת את עוצמת והכיוון של הקשר הלינארי בין שני משתנים רציפים. - ערכה נע בין -1 ל-1. - **קורלציית ספירמן (Spearman correlation)**: מודדת את הקשר המונוטוני בין שני משתנים על ידי שימוש בדירוגים של הנתונים במקום הערכים המקוריים. - גם כאן הערכים נעים בין -1 ל-1. - **קורלציה קנונית (Canonical correlation)**: משמשת לבחינת הקשר בין שתי קבוצות של משתנים רבים. - זו שיטה מתקדמת יותר ולא נועדה לחישוב קורלציה בין שני משתנים בודדים. ## רגרסיה לינארית - **רגרסיה לינארית (Linear regression)**: שיטה לחיזוי ערך של משתנה תלוי (תוצאה) בהתבסס על משתנה עצמאי אחד או יותר, ולא מיועדת למדידת מקדם מתאם ישיר בין שני משתנים. ## מונחים חשובים - **מאפיינים (features)**= עמודות (columns) - **מופעים (instances)**= שורות (rows) - **מספר העמודות ב-pandas מייוצג `shape[1]`** - **מספר השורות ב-pandas מייוצג `shape[0]`** ## קבצי CSV ### יתרונות פורמט CSV: 1. פורמט טקסט קל משקל יחסית. 2. מאפשר ייבוא וייצוא כמויות נתונים גדולות. 3. נתמך על ידי מרבית המערכות והפלטפורמות. 4. קל לטיפול ולארגון. ### חסרונות פורמט CSV: 1. אינו קריא באופן אינטואיטיבי. 2. הנתונים מיוצגים ברמה אחת ולא באופן היררכי. 3. דורש טיפול מיוחד לערכים המכילים תווים מיוחדים (כמו פסיק, מירכאות). ### בעיה ופתרון - ערכים עם פסיקים: - ערכים המכילים פסיקים עלולים להתחלק לשדות נפרדים. - פתרון: שימוש ב-Escaping עם גרשיים, לדוגמה: "גולומב 52, חולון" #### שאלות תרגול - **כדי לטעון קובץ CSV לתוך דאטה פריים צריך להשתמש בפקודה `read_csv`:** - **כדי לשמור קובץ CSV לתוך דאטה פריים צריך להשתמש בפקודה `to_csv`:** ## קבצי JSON - הכרנו עכשיו 4 פונקציות משמעותיות לעבודה עם פורמט JSON, מתוך המודול `json`: - **`json.dumps`**: מקבלת אובייקט dictionary ומחזירה מחרוזת בפורמט JSON. - **`json.loads`**: מקבלת מחרוזת בפורמט JSON ומחזירה אובייקט dictionary. - **`json.dump`**: מקבלת אובייקט dictionary, `file pointer` -I וכותבת לקובץ את אובייקט JSON. - **`json.load`**: מקבלת `file pointer` לקובץ המכיל נתונים בפורמט JSON ומחזירה אובייקט dictionary. - **`dump`**: כתיבה לקובץ - **`load`**: טעינה מקובץ ## אשכולות ### שאלות מהסוג `df['age'] < 18` כנגד `df[df['age']<18]` - `df['age']<18` מחזיר סדרת בוליאנים. - `df[df['age']<18]` משתמש בסדרת הבוליאנים כדי לסנן ולהחזיר DataFrame חדש המכיל רק את השורות שבהן התנאי מתקיים. ### שאלות מהסוג שיש גרפים ושואלים על מתאם ליניארי: - אין דבר כזה מתאם פרבולי ורדיאלי - יש רק מתאם שלילי או חיובי או אין כלום בשפה הפשוטה - רק אם רואים בצורה ברורה עליה או ירידה יש לנו איזשהו מתאם בתרשימים האלו ## Vectorizer ### `bag of words - vectorizer` המושג - **Vectorizer**: אובייקט הממיר טקסט לוקטורים - **`bag of word`**: ממיר טקסט לוקטורים - מקבלים טקסט ומפרקים אותו לרשימות של מילים - מורידים מילים נפוצות (כמו "של" "את"...). - סופרים כמה כל מילה מופיע בטקסט - יוצרים וקטור שמורכב ממופעים של כל מילה, כמה פעמים כל מילה הופיעה. ## קלאסטרינג ### שאלות מהסוג התקבלתם לעבודה בחברת נטפליקס (שאלות מונחה בלתי מונחה) - דבר ראשון צריך לזהות אם מדובר במנוחה או בלתי מונחה - **אם יש תויות יעני מידע על התכונות אז זה מונחה** - **אם אין מידע אז בלתי מונחה** #### אם זה בלתי מונחה יש 2 אופציות: 1. **אשכולות (clustering)**: קיבוץ נתונים לפי דימיון כאשר דמיון זאת מילת המפתח פה לדעת שבזה צריך להשתמש. 2. **הורדת מימדים (dimension reduction)**: הפחתת מספר המאפיינים תוך שמירה על מידע חשוב לרוב מילות המפתח יהיו בצורה נוחה #### אם זה מונחה יש 2 אופציות: 1. **סיווג (classification)**: לחזות קטגוריות כמו האם מייל או ספאם או לא ספאם כאשר התוויות הן הקטגוריות. 2. **נסיגה (regression)**: לחזות ערכים רציפים כמו מחירי הדירה והתוויות הן ערכים כמותיים ### `plt.boxplot(data,whis=5)` - מה שזה עושה זה מאריך את אורך השפמים של הגרף מ-1.5 בדיפולט ל-5 בעזרת פקודת `whis`. - עכשיו מה שזה אומר שנתונים שהיו בעבר חריגים והיו מחוץ לשפם פתאום נכנסים לשפם והם כבר לא נתונים חריגים ### `hierarchical agglomerative clustring` קלאסטרינג היררכי אלגומורטיבי - אלוגריתם מלמטה למעלה - מתחיל עם נקודות נתונים בודדות - משלב אשכולות על בסיס מידת קרבה - יכול ליצור דנדוגרמה (יעני עץ) ## גרפים שונים ### Bar Plot - **מתאים עבור**: משתנים קטגוריאליים (בדידים). - **מטרה**: הצגת כמויות או תדירויות של קטגוריות שונות. - **כדאי להציג בו**: תדירות קטגוריות, השוואת כמויות בין קטגוריות. אפשר להציג משתנה אחד (קטגוריאלי) וערכים שלו. - **תכונות מיוחדות**: ניתן להציג קבוצות משנה (sub-groups) באמצעות צבעים שונים. ### Pie Chart - **מתאים עבור**: משתנים קטגוריאליים (בדידים). - **מטרה**: הצגת החלק היחסי של כל קטגוריה מתוך הכלל. - **כדאי להציג בו**: חלוקת אחוזים או חלקים של קטגוריות. אפשר להציג משתנה אחד (קטגוריאלי) וערכים שלו. - **תכונות מיוחדות**: לא מתאים להשוואת גדלים בצורה מדויקת בגלל שקשה להשוות זוויות עגולות. ### Histogram - **מתאים עבור**: משתנים כמותיים (רציפים). - **מטרה**: הצגת התפלגות של משתנה כמותי. - **כדאי להציג בו**: התפלגות ערכים, זיהוי דפוסים ונקודות חריגות. אפשר להציג משתנה כמותי אחד. - **תכונות מיוחדות**: ניתן לשנות את רוחב ה-bins כדי לראות רזולוציות שונות של ההתפלגות. ### Box Plot - **מתאים עבור**: משתנים כמותיים (רציפים). - **מטרה**: הצגת התפלגות נתונים וסטטיסטיקות סיכום (חציון, רבעונים, טווח בין רבעוני). - **כדאי להציג בו**: סיכום סטטיסטי והשוואת התפלגויות בין קבוצות. אפשר להציג משתנה כמותי אחד וקטגוריאלי אחד. - **תכונות מיוחדות**: מציג נקודות חריגות (outliers) בצורה ברורה. ### Violin Plot - **מתאים עבור**: משתנים כמותיים (רציפים). - **מטרה**: הצגת התפלגות נתונים וסטטיסטיקות סיכום בדומה ל-box plot עם מידע על צפיפות. - **כדאי להציג בו**: צפיפות התפלגות והשוואת התפלגויות בין קבוצות. אפשר להציג משתנה כמותי אחד וקטגוריאלי אחד. - **תכונות מיוחדות**: משלב בין box plot לבין kernel density plot, מציג גם את ההתפלגות וגם את סיכום הנתונים. ### Kernel Density Plot - **מתאים עבור**: משתנים כמותיים (רציפים). - **מטרה**: הצגת הערכת צפיפות של התפלגות משתנה כמותי. - **כדאי להציג בו**: צפיפות התפלגות של משתנה אחד או יותר. אפשר להציג משתנה כמותי אחד או יותר (לרוב שניים להשוואה). - **תכונות מיוחדות**: מציג התפלגות חלקה ומאפשר לראות דפוסים עדינים שאינם נראים ב-histogram. ### Scatter Plot - **מתאים עבור**: משתנים כמותיים (רציפים). - **מטרה**: הצגת הקשר בין שני משתנים כמותיים. - **כדאי להציג בו**: זיהוי קשרים, מגמות ונקודות חריגות. אפשר להציג שני משתנים כמותיים, ולעיתים משתנה קטגוריאלי נוסף (על ידי צבע/סמל). - **תכונות מיוחדות**: ניתן להוסיף יותר משתנים באמצעות צבע, גודל, צורה וסמל הנקודות. מתאים להצגת קשרים מורכבים בין משתנים. ## `k-means` אלגוריתם ### מטרה: - חלוקת הנתונים לקבוצות (קלסטרינג) בחלוקה שממזערת את מרחק הנקודות מהסנטרואידים - כך שהשונות של הערכים בכול קבוצה תקטן, כך שהערכים בכול קבוצה (קלסטר) תקטן ### מינימום לוקאלי: - הגעה להתכנסות אבל לא לחלוקה אופטימלית ### דרכים להתגבר על מינימום לוקאלי: - ביצוע אתחולים נוספים, k-means++ ### הערכת ביצועים: - נעשית או עלידי מדד SSE או מדד סילואט #### מדד SSE: - סכום ריבועי המרחק של הנקודות מהסנטרואידים - ככל שה-SSE נמוך יותר האלוגריתם טוב ומדויק יותר - חשוב להזכיר ש-SSE יכול להשתנות בין הרצות שונות כי אתחולים שונים סנטרואידים שונים מה שיוביל לחלוקה שונה, שינוי k גם יכול לגרום לשינוי - ככל שמגדילים את k כך גם ה-SSE יורד - **חיסרון**: אין דרך מוחלטת לדעת אם מדובר בציון טוב או לא. #### מדד סילואט: - מדד הסילואט משמש להערכת האיכות של חלוקת הנתונים לקלסטרים על ידי שקלול שני פרמטרים - **צפיפות הקלאסטר**: עד כמה הנתונים בתוך הקלאסטר קרובים זה לזה - **המרחק בין הקלאסטרים**: עד כמה הקלאסטרים שונים ורחוקים אחד מהשני - **הערכה**: ממוצע קרוב ל-1 זה טוב אבל קרוב ל-1- זה רע ### שיטות לבחירת k: - לפי העין, שיטת המרפק, סילואט (חשוב בתחילת התהליך) ### אלגוריתם `k-means++`: - המטרה להבטיח שההגרלה הראשונית תהיה טובה ומדויקת - זה בא לטפל בבעיה של מינימום לוקאלי משפר את ההגרלה הראשונית ### יתרונות: - אישכול יעיל ומהיר - מתמודד עם כמות נתונים גדולה ### חסרונות: - בעל חשש למינימום לוקאלי - לא עובדת דאטה סטים מסוימים (מכחול, ירח) - עובדת על דאטא של כדורים ## קלאסטרינג היררכי ### `divisive clustering` - השיטה של מלמעלה למטה שוברים כל פעם אחת קלסט - קוראים לשיטה הזאת גם `top down`. ### `Agglomerative clustering` - מאחדים בין מופעים דומים של קלסטרינג - אפשר לקרוא לשיטה הזאת גם `bottom up` - מזהה שני קלסטרים הכי קרובים וממזג אותם - כל מה שרשום למטה קשור לשיטה זאת בלבד ### Dendogram - השם של הגרף הזה שאנחנו עולים למעלה או למטה - מראה לנו את שלבי יצירת הקלסטרים ובכך מאפשר לבחור נקודת עצירה. - **מעבירים קו אופקי בהתאם לנקודת העצירה שבחרנו وكل קו שנוצר כתוצאה מהחיתוך זה הוא קלאסטר**. - **תובנה 1**: ככל שהקווים האנכיים של חיבור קלאסטרים ארוכים יותר כך המרחק בין שני הקלאסטרים שמאוחדים גדול יותר. - **תובנה 2**: ככל שעולים בעץ כמות האשכולות מצטמצמת ### Hyperparameters - **`linkage`**: מדידת מרחק בין הקלסטרים עצמם - המרחק הכי קטן מצביע על הקלסטרים הקרובים ביותר - **`connectivity constraints`**: עוזרת לפתור לפתור את גרף 2 הירחים (שקל) ### יתרונות - שיטת אישכול טובה גדולים - אין צורך להגדיר כמות קלאסטרים מראש - עובד על 2 יריחים ושל בלובים ### חסרונות - לא יעיל עבור דאטא סטים מאד - לא עובדת על משכית מכחול ## DBSCAN ### `Density-Based Spatial Clustering of Applications with Noise` - מבוסס על צפיפות, לא על מרחק או סנטרואידים. ### פרמטרים - **אפסילון (ε)**: רדיוס סביב נקודה שבו מחפשים מופעים נוספים לאותו קלאסטר. - מבטא את הצפיפות. - אם ε גדול מדי: ייווצרו מעט מדי קלאסטרים. - אם ɛ קטן מדי: ייווצרו יותר מדי קלאסטרים. - **מספר מופעים מינימלי**: מינימום מופעים כדי להגדיר קלאסטר. ### תהליך האלגוריתם 1. בחירת נקודה רנדומלית. 2. בדיקה אם יש מספיק מופעים ברדיוס ε מהנקודה. 3. אם כן, יצירת קלאסטר מהנקודה והמופעים הקרובים. 4. איטרציה על כל מופע בקלאסטר לחיפוש מופעים נוספים במרחק ε. 5. חזרה על התהליך עד שכל הקלאסטרים מוגדרים. ### יתרונות - יעילות: קלאסטרינג יעיל. - אין צורך להגדיר מראש כמות קלאסטרים. - מתאים לדאטה בצורות שונות. - מתמודד טוב עם ערכי קצה (Outliers). ### חסרונות - רגישות לפרמטר ε: בחירה לא מתאימה עלולה לגרום למעט מדי או יותר מדי קלאסטרים. - לא מתאים לצפיפויות שונות: יעילות נמוכה כשיש הבדלים משמעותיים בצפיפות בין הקלאסטרים. ## שאלות רנדומליות ממבחנים - בתרשים **scatterplot** -ניתן להציג יותר ממשתנה אחד עלידי צבע, גודל, צורה - תרשים **box plot** -זו טכניקה להצגת החציון, הרבעונים והטווח הבין רבעוני - **מתאם פירסון** - מספר שמצביע על קשר בין שני נתונים בסולם רווח או מנה - בתרשים **היסטוגרמה (Histogram)**: הגדלת מספר התאים מקטינה את ערכי התאים יעני גובה העמודות יורד ככל שנוסיף לזה עוד דברים - בתרשים **עוגה (pie chart)**: נשתמש כדי להציג הרכב השלם עבור מספר קטגוריות מועטות - בשביל למדוד את פיזור הנתונים משתמשים ב**סטיית תקן** - ניתן למיין dataframe לפי עמודה מסוימת לפי פונקציית **`sort_values`** - בשביל למדוד מרכוז נתונים בהתפלגות צידוד (skew) כמו גובה של שכר חודשים אז משתשמים בחציון **(median)** - איזה סולם מתאים למדידת ציונים בקורס: התשובה היא סולם מנה הסיבה היא שרק בסולם מנה יש את הערך 0 מוחלט ובסולם הפרש אין 0 מוחלט - **`Drop_duplicates()`** (-נשתמש ב Dataframe-כדי להסיר ערכים כפולים מ - הרכשת נתונים: מבצעים באמצעות API במידה וקיים ואם לא קיים משתמשים **crawling & scraping** בשיטת - ספריית **`beautiful soup`**: ניתוח מסמכי HTML, שליפה, שינוי, ניתוח נתונים - מטרת אלוגריתמי אשכול: לזהות דפוסים וקשרים בנתונים - טכניקה יעילה להפחתת עומס נתונים בתרשים: סינון נתונים - ב-**`Beautiful soup`** ניתן להחזיר את תוכן הטקסט של אלמנט HTML בעזרת הפונקציה `get_text` ## חישובים - **כיצד תחשב את האחוזון ה20 במערך בן 49 נתונים?** - (1+N). 20 /100 = (1+49). 20 /100 = 10 - המדידה העשירית בסדר העולה לאחר שהנתונים ממוינים בסדר עולה ### איך עושים חישוב IQR: - נניח יש לנו [16, 19, 23, 36, 39, 81, 85, 90] - הנוסחה: IQR = Q3 - Q1 - חשוב לזכור שצריך קודם למיין מערך - נחלק מערך לחצי אם החצי נופל על מספר משמיטים אותו. ## שאלות נוספות - **מה משמעות הפרמטר `keep='last'` בפקודה `df.drop_duplicates` עבור `df` מסויים (המסומן על ידי dataframe)?** - השאר את כל השורות הכפולות מלבד האחרונה ב- `df` - **נניח שאנחנו רוצים לבדוק כמה ערכים חסרים בעמודות של `df` (אובייקט מסוג dataframe), איזו מהפקודות או התכונות הבאות יכולה לסייע לנו?** - `df.info()` - **מה משמעות הפרמטר `n_components` בפקודה `PCA`?** - מספר העמודות שיש להסיר בהרצת ה- `PCA` - **עבור דטה פריים בשם `df`, מה מתקיים לגבי הפקודה `df.duplicated()`?** - נקבל וקטור של ערכים, שאורכו כמספר השורות ב- `df` - **בפונקציה `boxplot` של החבילה `seaborn` מה מסמנים השפמים?** - הם תוחמים את קצה גבול ההתפלגות באמצעות הערכים של max - min - **לאיזו מהאפשרויות הבאות יכול ה- IQR להיות קשור?** - בדיקה האם ערך מסוים מהווה `outlier` ביחס לערכי העמודה. - **כדי לדעת מהו ערך המינימום של עמודה מסוימת (המסומנת על ידי dataframe- (col_name מסויים (המסומן על ידי df), באיזו פקודה אפשר להשתמש?** - `df[col_name].min()` - **סטודנטים עוברים על תוכנית שכתבו ומצאו באמצע א שורה בה כתוב: `requests.get(abc)` יש לציין שבתחילת התוכנית מופיעה השורה: `import requests` מה כנראה המשמעות של המשתנה `abc`?** - כתובת url, של שרת HTTP שמצפים לקבל ממנו תשובה - **מה משמעות הפרמטר `normalize='index'` בפקודה `pd.crosstab` ?** - שיש לחלק את ערכם של הערכים ב-dataframe שלה cross tabulation בסך הערכים בשורה. - **איזו מהספריות הבאות אפשר מיועדות לויזואליזציה של data?** - `seaborn` - `matplotlib` - **מה מהבאים נכון לגבי ערכים חסרים?** - לא תמיד צריך לטפל בערכים חסרים - **:_explained_variance_ratio מה המשמעות של התכונה ,PCA לאחר ריצת** - ערך המודד את אחוז השונות שניתן להסביר על ידי כל אחד מה -principal components - **עבור plt (כלומר matplotlib.pyplot) מה המשמעות הפקודה הבאה: `plt.subplots(n1, n2)`?** - כמות ה- subplots שנציג הינה 1n*2n שיסודרו ב- 1ח שורות ו-2ח עמודות - **עבור dataframe מסויים (המסומן על ידי df), מה המשמעות של הפקודה הבאה: `df.corr()`?** - חישוב המתאם בין העמודות של `df`, לפי מקדם המתאם של פירסון. - **איזו מהאפשרויות הבאות תבחר את השורה השלישית מאובייקט בשם `df` מסוג dataframe?** - `df.iloc[2,:]` - **איזה קוד צריך להריץ על מנת לקבל את הכותרת של עמוד אינטרנט?** - from bs4 import BeautifulSoup soup = BeautifulSoup(html_doc,'html.parser') print soup.title.string - **:cross tabulation מה ניתן לטעון על פעולת** - כל התשובות נכונות - **איזו מהפקודות הבאות מיועדת לסיוע בטיפול (לא בגילוי) של ערכים חסרים ב- dataframe מסויים (המסומן ע"י df)?** - `df.dropna` - **מה תעשה הפקודה הבאה (ניתן להניח ש- df הינו אובייקט מסוג dataframe)?** - `df[df['age']==30]` - תחזיר את השורה/ות ב-`df` בה/בהן ערכה של העמודה `age` שווה 30. - **נניח שערך מקדם המתאם של פירסון קרוב ל- 1. מה נוכל ללמוד מכך?** - ששתי העמודות, עבורן התקבל ערך זה, בעלות תלות גבוה חיובית אחת לשניה. - **מה נצפה לראות בויזואליזציה של גרף עמודות?** - ויזואליזציה של כמות ה-outliers

סיכום מדעי נתונים v1_240704_231700 PDF

Document Details

Tags

Related

Summary

Full Transcript