סיכום מדעי הנתונים PDF

Summary

סיכום של קורס מבוא למדעי הנתונים, העוסק בשיטות וטכניקות לניתוח נתונים, כמו ניתוח חקרני של נתונים, טיפול בערכים חסרים, ויזואליזציה, אשכולות, ויישומים. כולל דיון על כלים כגון Python, Pandas, NumPy, Scikit-learn, וכו'.

Full Transcript

‫עזר למידה לקורס מבוא למדעי הנתונים‬ ‫תקציר החומר‪:‬‬ ‫‪.1‬שלבי עבודת מדען הנתונים‪:‬‬ ‫א‪.‬מדעני נתונים פועלים בדרך כלל לפי תהליך מובנה‪:‬‬ ‫‪...

‫עזר למידה לקורס מבוא למדעי הנתונים‬ ‫תקציר החומר‪:‬‬ ‫‪.1‬שלבי עבודת מדען הנתונים‪:‬‬ ‫א‪.‬מדעני נתונים פועלים בדרך כלל לפי תהליך מובנה‪:‬‬ ‫‪ )1‬ניסוח שאלות מחקר ‪:‬הגדרת היפותזה או שאלה שתנחה את הניתוח‪.‬‬ ‫‪ )2‬הרכשת נתונים ‪:‬איסוף נתונים מממשקי ‪ API,‬סריקת אתרים או מאגרי מידע‪.‬‬ ‫‪ )3‬ניקוי והכנת הנתונים ‪:‬טיפול בערכים חסרים‪ ,‬חריגים ופורמטים לא אחידים‪.‬‬ ‫‪ )4‬ניתוח חקרני של נתונים ‪ (EDA):‬שימוש בשיטות סטטיסטיות ובוויזואליזציות כדי‬ ‫לזהות תבניות וקשרים‪.‬‬ ‫‪ )5‬ניתוח מתקדם ‪:‬שימוש במודלים של למידת מכונה‪ ,‬מבחנים סטטיסטיים או כלי ניתוח‬ ‫אחרים‪.‬‬ ‫‪ )6‬דיווח והצגת התוצאות ‪:‬הצגת ממצאים באמצעות ויזואליזציות‪ ,‬סיכומים ומצגות‪.‬‬ ‫כלים מרכזיים ושפות תכנות‪:‬‬ ‫‪.2‬‬ ‫א‪.‬פייתון )‪ - (Python‬שפת התכנות המרכזית במדעי הנתונים‪.‬‬ ‫ב‪ - Jupyter Notebook.‬סביבה אינטראקטיבית לכתיבת קוד‪ ,‬בדיקות ושיתוף תוצאות‪.‬‬ ‫ספריות פייתון‪:‬‬ ‫א‪( Pandas.‬ספריית פייתון) ‪ -‬כלי מרכזי לטיפול בניתוח ועיבוד נתונים‪ ,‬באמצעות‬ ‫מבנים כמו ‪ DataFrame‬ו‪Series‬‬ ‫ב‪ - NumPy.‬משמשת לחישובים נומריים ועבודה עם מערכים‪.‬‬ ‫ג‪Seaborn.‬ו‪ - Matplotlib -‬יצירת ויזואליזציות כמו תרשימי פיזור‪ ,‬היסטוגרמות‬ ‫ותרשימי קופסה‪.‬‬ ‫ד‪ - Scikit-learn.‬ספריית למידת מכונה הכוללת כלים לאשכול‪ ,‬רגרסיה‪ ,‬סיווג וצמצום‬ ‫ממדים‪.‬‬ ‫ה‪ Requests.‬ו ‪ -BeautifulSoup‬לאיסוף נתונים מהרשת וסריקת אתרים‪.‬‬ ‫‪.3‬טכניקות ויזואליזציה של נתונים‪:‬‬ ‫א‪.‬תרשימי פיזור ‪:‬הצגת קשרים בין משתנים נומריים‪.‬‬ ‫ב‪.‬היסטוגרמות ‪:‬הצגת התפלגויות של נתונים ותדירותם‪.‬‬ ‫ג‪.‬תרשימי קופסה ‪ (Box Plots):‬הצגת חציון‪ ,‬רבעונים וחריגים‪.‬‬ ‫ד‪.‬מפות חום ‪ (Heatmaps):‬ייצוג קשרים או עוצמת נתונים‪.‬‬ ‫‪.4‬יסודות סטטיסטיים‬ ‫א‪.‬סטטיסטיקה תיאורית ‪:‬ממוצע‪ ,‬חציון‪ ,‬סטיית תקן וטווח בין‪-‬רבעוני‪(IQR).‬‬ ‫ב‪.‬מתאם פירסון ‪:‬מדידת קשר ליניארי בין שני משתנים רציפים‪.‬‬ ‫ג‪.‬סולמות מדידה‪:‬‬ ‫‪ )1‬נומינלי ‪:‬קטגוריות ללא סדר‪.‬‬ ‫‪ )2‬סודר ‪:‬קטגוריות בסדר מסוים‪.‬‬ ‫‪ )3‬אינטרוול ‪:‬ערכים מספריים ללא אפס מוחלט (למשל טמפרטורה)‪.‬‬ ‫‪ )4‬יחס ‪:‬ערכים מספריים עם אפס מוחלט (למשל משקל)‪.‬‬ ‫‪.5‬למידת מכונה‬ ‫א‪.‬למידה מונחית ‪ (Supervised Learning):‬אלגוריתמים כמו רגרסיה ליניארית‪ ,‬רגרסיה‬ ‫לוגיסטית ומודלים לסיווג‪.‬‬ ‫ב‪.‬למידה לא מונחית ‪ (Unsupervised Learning):‬שיטות כמו ‪ K-Means, DBSCAN‬ו ‪-PCA‬‬ ‫לצמצום ממדים‪.‬‬ ‫ג‪.‬זיהוי חריגים ‪ (Outlier Detection):‬זיהוי נתונים חריגים‪.‬‬ ‫ד‪.‬הנדסת מאפיינים ‪ (Feature Engineering):‬בחירה‪ ,‬יצירה או שינוי של מאפיינים לשיפור‬ ‫ביצועי המודל‪.‬‬ ‫‪.6‬הרכשת ועיבוד נתונים‬ ‫א‪.‬ממשקי ‪ - API‬שימוש בממשקי ‪ REST‬לקבלת נתונים מובנים‪.‬‬ ‫ב‪.‬סריקת אתרים ‪ (Web Crawling):‬אוטומציה של איסוף נתונים מאתרים באמצעות כלים‬ ‫כמו ‪.BeautifulSoup‬‬ ‫ג‪.‬פורמטים לשמירת נתונים ‪:‬קבצי ‪( CSV‬מבנה טבלאי) ו( ‪-JSON‬מבנה היררכי‪.‬‬ ‫‪.7‬אתגרים נפוצים בעבודה עם נתונים‬ ‫א‪.‬טיפול בערכים חסרים באמצעות אימפוטציה (ממוצע‪ ,‬חציון‪ ,‬שכיח)‪.‬‬ ‫ב‪.‬זיהוי וניהול חריגים‪.‬‬ ‫ג‪.‬עיצוב ואיחוד נתונים לצרכי ניתוח‪.‬‬ ‫‪.8‬יישומים ושימושים‬ ‫א‪.‬מודלים לחיזוי ‪:‬זיהוי מגמות או התנהגויות (למשל‪ ,‬חיזוי מכירות)‪.‬‬ ‫ב‪.‬אשכולות ‪ (Clustering):‬קיבוץ ישויות דומות (למשל‪ ,‬פילוח לקוחות)‪.‬‬ ‫ג‪.‬ניתוח טקסט ‪:‬עיבוד נתונים טקסטואליים (למשל‪ ,‬ניתוח סנטימנט)‪.‬‬ ‫למידת מכונה‪ :‬הרחבה מפורטת‬ ‫למידת מכונה )‪ (Machine Learning‬היא תחום במדעי הנתונים שמאפשר למערכות ללמוד ולשפר את‬ ‫ביצועיהן על בסיס נתונים קודמים‪ ,‬ללא תכנות מפורש‪.‬התחום מתבסס על יצירת מודלים שמסוגלים‬ ‫לזהות תבניות ולהסיק מסקנות מתוך נתונים‪.‬‬ ‫סוגי למידת מכונה‬ ‫‪.1‬למידה מונחית)‪(Supervised Learning‬‬ ‫א‪.‬הגדרה ‪:‬למידה ממערכת נתונים שבה כל דוגמה כוללת גם את התוצאה הרצויה (תווית או‬ ‫ערך)‪.‬המטרה היא לחזות את הערכים או התוויות של נתונים חדשים‪.‬‬ ‫ב‪.‬יישומים‪:‬‬ ‫‪ o‬רגרסיה ‪ (Regression):‬חיזוי ערכים רציפים‪ ,‬כמו מחירי בתים‪ ,‬טמפרטורה או‬ ‫מכירות‪.‬‬ ‫▪ דוגמה‪: Linear Regression, Ridge Regression.‬‬ ‫‪ o‬סיווג ‪ (Classification):‬סיווג נתונים לקטגוריות‪ ,‬כמו זיהוי דואר זבל או סיווג‬ ‫מחלות‪.‬‬ ‫▪ דוגמה ‪: Logistic Regression, Decision Trees, Random Forests,‬‬ ‫‪SVM.‬‬ ‫ג‪.‬דוגמאות לשימושים‪:‬‬ ‫‪ o‬חיזוי מחירי מניות‪.‬‬ ‫‪ o‬זיהוי תמונות של חתולים וכלבים‪.‬‬ ‫‪ o‬זיהוי הונאות בכרטיסי אשראי‪.‬‬ ‫‪.2‬למידה לא מונחית)‪(Unsupervised Learning‬‬ ‫א‪.‬הגדרה ‪:‬למידה ממערכת נתונים ללא תוויות‪.‬המטרה היא לזהות תבניות או מבנים בנתונים‪.‬‬ ‫ב‪.‬יישומים‪:‬‬ ‫‪ o‬אשכולות ‪ (Clustering):‬חלוקה לקבוצות של אובייקטים דומים‪ ,‬כמו פילוח לקוחות‪.‬‬ ‫▪ דוגמה‪: K-Means, DBSCAN, Hierarchical Clustering.‬‬ ‫‪ o‬צמצום ממדים ‪ (Dimensionality Reduction):‬הקטנת כמות המשתנים לשם ניתוח‬ ‫יעיל יותר‪.‬‬ ‫▪ דוגמה‪: Principal Component Analysis (PCA), t-SNE.‬‬ ‫ג‪.‬דוגמאות לשימושים‪:‬‬ ‫‪ o‬ניתוח התנהגות משתמשים באתרי אינטרנט‪.‬‬ ‫‪ o‬זיהוי קבוצות גיאוגרפיות על סמך נתוני אוכלוסייה‪.‬‬ ‫‪.3‬למידת חיזוק)‪(Reinforcement Learning‬‬ ‫א‪.‬הגדרה ‪:‬שיטה שבה המערכת לומדת דרך ניסוי וטעייה באמצעות קבלת חיזוקים חיוביים או‬ ‫שליליים (כמו משחק שחמט או ניווט רובוטים)‪.‬‬ ‫ב‪.‬יישומים‪:‬‬ ‫‪ o‬משחקים( לדוגמה ‪: AlphaGo‬של‪Google).‬‬ ‫‪ o‬ניהול מערכות אוטומטיות (לדוגמה‪ :‬ניהול תעבורה עירונית)‪.‬‬ ‫רכיבי מפתח בלמידת מכונה‬ ‫‪.1‬נתונים)‪(Data‬‬ ‫א‪.‬איכות וכמות הנתונים משפיעות ישירות על ביצועי המודלים‪.‬‬ ‫ב‪.‬נתונים יכולים להיות נומריים‪ ,‬קטגוריאליים‪ ,‬טקסטואליים‪ ,‬או תמונות‪.‬‬ ‫‪.2‬מודלים)‪(Models‬‬ ‫א‪.‬המודלים הם הפונקציות המתמטיות שמנבאות את התוצאה על סמך הנתונים‪.‬‬ ‫ב‪.‬דוגמה‪: Decision Trees, Neural Networks, Linear Models.‬‬ ‫‪.3‬תהליך אימון)‪(Training Process‬‬ ‫א‪.‬שלבים מרכזיים‪:‬‬ ‫‪ o‬פיצול הנתונים לסט אימון )‪ (Training‬וסט בדיקה‪(Testing).‬‬ ‫‪ o‬שימוש באלגוריתם למידת מכונה לאימון המודל על סט האימון‪.‬‬ ‫‪ o‬הערכת ביצועי המודל על סט הבדיקה‪.‬‬ ‫‪.4‬מדדים להערכת מודלים)‪(Evaluation Metrics‬‬ ‫א‪.‬דיוק ‪ (Accuracy):‬אחוז התחזיות הנכונות‪.‬‬ ‫ב‪.‬דיוק ממוצע משוקלל ‪ (F1-Score):‬מדד משולב של דיוק ושלמות‪.‬‬ ‫ג‪MSE (Mean Squared Error):.‬למדידת שגיאות במודלי רגרסיה‪.‬‬ ‫ד‪ROC Curve:.‬למדידת ביצועי מודלים לסיווג‪.‬‬ ‫אלגוריתמים נפוצים בלמידת מכונה‬ ‫‪.1‬רגרסיה ליניארית)‪(Linear Regression‬‬ ‫א‪.‬שימוש ‪:‬חיזוי ערכים רציפים על ידי מציאת קו ישר שמתאר את הנתונים‪.‬‬ ‫ב‪.‬יישומים ‪:‬חיזוי מחירי דירות‪ ,‬חיזוי צריכת חשמל‪.‬‬ ‫‪.2‬רגרסיה לוגיסטית)‪(Logistic Regression‬‬ ‫א‪.‬שימוש ‪:‬סיווג לקטגוריות בינאריות (למשל‪ :‬כן‪/‬לא)‪.‬‬ ‫ב‪.‬יישומים ‪:‬זיהוי דואר זבל‪ ,‬חיזוי הישרדות על ספינת הטיטניק‪.‬‬ ‫‪.3‬עצים בינאריים)‪(Decision Trees‬‬ ‫א‪.‬שימוש ‪:‬סיווג נתונים על סמך סדרת החלטות‪.‬‬ ‫ב‪.‬יתרון ‪:‬אינטואיטיבי להבנה וקל ליישום‪.‬‬ ‫‪.4‬יער אקראי)‪(Random Forest‬‬ ‫א‪.‬שימוש ‪:‬שילוב של מספר עצי החלטה לקבלת תוצאה משופרת‪.‬‬ ‫ב‪.‬יישומים ‪:‬חיזוי מחלות‪ ,‬ניתוח סנטימנט טקסטואלי‪.‬‬ ‫‪SVM (Support Vector Machines).5‬‬ ‫א‪.‬שימוש ‪:‬הפרדת נתונים בעזרת קו חיץ אופטימלי‪.‬‬ ‫ב‪.‬יישומים ‪:‬זיהוי פנים‪ ,‬זיהוי פגמים במוצרים‪.‬‬ ‫‪K-Means Clustering.6‬‬ ‫א‪.‬שימוש ‪:‬חלוקת נתונים לקבוצות דומות‪.‬‬ ‫ב‪.‬יישומים ‪:‬פילוח שוק‪ ,‬זיהוי קבוצות גיאוגרפיות‪.‬‬ ‫שלבי עבודה על פרויקט למידת מכונה‬ ‫‪.1‬הבנת הבעיה והגדרת מטרות‪.‬‬ ‫‪.2‬איסוף נתונים רלוונטיים‪.‬‬ ‫‪.3‬ניקוי והכנת נתונים‪:‬‬ ‫‪ o‬טיפול בערכים חסרים‪.‬‬ ‫‪ o‬זיהוי וניהול של חריגים‪.‬‬ ‫‪ o‬המרת סוגי נתונים‪.‬‬ ‫‪.4‬בחירת אלגוריתם מתאים לאופי הבעיה‪.‬‬ ‫‪.5‬אימון המודל והערכת ביצועים‪.‬‬ ‫‪.6‬שיפור המודל‪(Tuning):‬‬ ‫‪ o‬שינוי היפר‪-‬פרמטרים‪.‬‬ ‫‪ o‬הוספת מאפיינים או מחיקתם‪.‬‬ ‫‪.7‬פריסה ושימוש במודל‪.‬‬ ‫שאלות ממבחנים‬ ‫תשובה נכונה‪ :‬א‪.‬לזהות תבניות וקשרים בנתונים שאינם בהכרח מובנים מאליהם‪.‬‬ ‫הסבר‪:‬‬ ‫)‪EDA (Exploratory Data Analysis‬הוא שלב חשוב בתהליך ניתוח נתונים שבו חוקרים את המידע‬ ‫הגולמי כדי להבין אותו טוב יותר‪.‬המטרה היא לזהות תבניות‪ ,‬מגמות‪ ,‬קורלציות‪ ,‬ואנומליות‪ ,‬שיכולים‬ ‫לספק תובנות ראשוניות על הנתונים‪.‬לדוגמה‪ ,‬אם יש לך נתונים על מכירות של חנות‪ ,‬ניתוח ‪ EDA‬יכול‬ ‫לגלות שמכירות מסוימות גבוהות במיוחד בחגים או שיש הבדל משמעותי בין מכירות גברים לנשים‪.‬‬ ‫תשובה נכונה‪ :‬א‬ ‫הסבר‪:‬‬ ‫‪DBSCAN (Density-Based Spatial Clustering of Applications with Noise):‬‬ ‫‪ o‬מזהה קבוצות על סמך צפיפות הנקודות‪.‬‬ ‫‪ o‬אינו דורש להגדיר מספר קבוצות מראש‪.‬‬ ‫‪ o‬מתאים לנתונים בצורות לא סטנדרטיות (כמו עיגול או קשת)‪.‬‬ ‫למה זה מתאים?‬ ‫‪DBSCAN‬יכול לזהות את המבנה הלא רגיל של הנתונים (עיגול‪ ,‬עיניים ופה) ללא תלות במיקום‬ ‫ ‬ ‫או בגודל‪.‬‬ ‫לכן‪ ,‬זו תשובה נכונה‪.‬‬ ‫ ‬ ‫תשובה נכונה‪ :‬א‪.‬בסולם סודר אפשר לחשב שכיח ובסולם רווח אפשר לחשב גם ממוצע‪.‬‬ ‫הסבר‪:‬‬ ‫סולם סודר מתאים למידע שיש לו סדר‪ ,‬כמו דירוגים (למשל‪" ,‬טוב"‪" ,‬בינוני"‪" ,‬גרוע")‪ ,‬אך המרווחים בין‬ ‫הערכים אינם מוגדרים‪.‬בסולם רווח המרווחים מוגדרים‪ ,‬ולכן אפשר לבצע חישובים כמו ממוצע‪.‬לדוגמה‪,‬‬ ‫טמפרטורות בציוני צלזיוס הן סולם רווח‪ ,‬כי ההפרשים בין הערכים משמעותיים‪.‬‬ ‫תשובה נכונה‪ :‬א‪.‬כתובות אימייל‪.‬‬ ‫הסבר‪:‬‬ ‫ביטויים רגולריים )‪ (Regular Expressions‬הם כלים לזיהוי או התאמת טקסט לתבניות מסוימות‪.‬הביטוי‬ ‫שנתון כאן מזהה כתובות דוא"ל על פי מבנה סטנדרטי‪ :‬שם משתמש‪ ,‬סימן @ ודומיין( כגון‪gmail.com).‬‬ ‫תשובה נכונה‪ :‬א‪.‬כן‪ ,‬ע"י משתנים דו‪-‬ממדיים ועוד מיקום‪ ,‬צבעים וכו‪'.‬‬ ‫הסבר‪:‬‬ ‫תרשים פיזור )‪ (scatterplot‬מציג שני משתנים ‪ (x‬ו ‪-y).‬כדי להוסיף משתנה שלישי‪ ,‬אפשר להשתמש‬ ‫באלמנטים חזותיים נוספים כמו צבעים‪ ,‬גדלי הנקודות‪ ,‬או צורות שונות‪.‬‬ ‫תשובה נכונה‪ :‬א‪.‬טכניקה להצגת החציון‪ ,‬הרבעונים והטווח הבין‪-‬רבעוני‪.‬‬ ‫הסבר‪:‬‬ ‫תרשים קופסה מציג סיכום של נתונים סטטיסטיים בצורה גרפית‪.‬הוא מראה את החציון‪ ,‬את הרבעונים‬ ‫(‪ 25%‬ו‪ )75%-‬ואת המרווח בין הקצוות ‪ (Interquartile Range),‬ובכך מספק תמונה מהירה של פיזור‬ ‫הנתונים‪.‬‬ ‫תשובה נכונה‪ :‬א‪.‬מספר שמצביע על קשר בין שני נתונים בסולם רווח או מנה‪.‬‬ ‫הסבר‪:‬‬ ‫מתאם פירסון מודד קשר לינארי בין שני משתנים‪.‬הוא נע בין ‪( 1-‬קשר שלילי מושלם) ל‪( 1-‬קשר חיובי‬ ‫מושלם)‪ ,‬כאשר ‪ 0‬מצביע על היעדר קשר‪.‬לדוגמה‪ ,‬אפשר לבדוק את הקשר בין שעות לימוד לציונים‪.‬‬ ‫תשובה נכונה‪ :‬א‪62.‬‬ ‫שיטת חישוב‪:‬‬ ‫וידוא שהנתונים ממוינים‬ ‫סך הכל פריטי נתונים – ‪8‬‬ ‫מיקום ה‪ 8( 2 - 25%‬כפול ‪ 25‬לחלק ל‪ | )100‬הערך באינדקס ‪23 – 2‬‬ ‫מיקום ה‪ | 6 - 75%‬הערך באינדקס ‪85 – 6‬‬ ‫‪62=85-23‬‬ ‫הסבר‪:‬‬ ‫)‪IQR (Interquartile Range‬הוא המרווח בין הרבעון הראשון )‪ (Q1‬לרבעון השלישי ‪ (Q3).‬הוא מייצג את‬ ‫הטווח המרכזי של הנתונים שבו נמצאים ‪ 50%‬מהערכים‪.‬‬ ‫תשובה נכונה‪ :‬ב‪.‬בגרף הימני יש מתאם חיובי‪ ,‬האמצעי שלילי והשמאלי אפס‬ ‫‪.‬‬ ‫הסבר‪:‬‬ ‫מתאם מתאר את עוצמת וכיוון הקשר בין משתנים‪.‬גרף עם מתאם חיובי יראה מגמה עולה‪ ,‬שלילי יראה‬ ‫מגמה יורדת‪ ,‬ואפס מעיד שאין קשר ברור‪.‬‬ ‫תשובה נכונה‪ :‬א‪. Sklearn.‬‬ ‫הסבר‪:‬‬ ‫‪ Sklearn‬או ‪ Scikit-learn‬היא ספרייה שמספקת כלים רבים ללמידת מכונה‪ ,‬כולל אלגוריתמים של‬ ‫למידה בלתי מונחית כמו ‪ clustering‬ו‪-PCA.‬‬ ‫תשובה נכונה‪ :‬א‪.‬לבדוק אם יש ‪ API‬ואז לבצע ‪ crawling‬אם אין‪.‬‬ ‫הסבר‪:‬‬ ‫הרכשה )‪ (data acquisition‬של נתונים מאתר מתבצעת בצורה מתוכננת‪ :‬תחילה מחפשים ‪ API‬רשמי‪ ,‬ואם‬ ‫אין‪ ,‬מבצעים ‪ web crawling‬עם כלים כמו‪BeautifulSoup.‬‬ ‫תשובה נכונה‪ :‬א‪.‬המאפיינים בעמודות והמופעים בשורות‪.‬‬ ‫הסבר‪:‬‬ ‫במבנה נתונים של ‪ DataFrame,‬עמודות מייצגות מאפיינים (לדוגמה‪ ,‬גיל‪ ,‬מין‪ ,‬משקל)‪ ,‬ושורות מייצגות‬ ‫מופעים (לדוגמה‪ ,‬אנשים שונים)‪.‬‬ ‫תשובה נכונה‪ :‬א‪. Pandas.‬‬ ‫הסבר‪:‬‬ ‫‪ Pandas‬היא ספרייה לניתוח נתונים שמאפשרת עבודה עם מבנים כמו ‪ DataFrame‬וסדרות‪.‬‬ ‫נכתוב בדרך כלל ‪import pandas as pd‬‬ ‫תשובה נכונה‪ :‬א‪.‬אובייקט שמסייע בהפיכת טקסט לוקטורי בשיטת‪bag of words.‬‬ ‫הסבר‪:‬‬ ‫‪Vectorizer‬משמש לייצוג טקסטים בצורה מספרית כדי שניתן יהיה להשתמש בהם באלגוריתמים של‬ ‫למידת מכונה‪.‬‬ ‫הרחבה‪:‬‬ ‫תשובה נכונה‪ :‬א‪.‬ככל שנגדיל את מספר התאים‪ ,‬ערכי התאים יהיו קטנים יותר‪.‬‬ ‫הסבר‪:‬‬ ‫היסטוגרמה מחלקת נתונים לקבוצות (תאים)‪.‬הגדלת מספר התאים מפחיתה את כמות הנתונים בכל תא‪.‬‬ ‫תשובה נכונה‪ :‬א‪.‬פניות ‪ HTTP‬או ‪ HTTPS‬לשרתי רשת‪.‬‬ ‫הסבר‪:‬‬ ‫‪ Requests‬משמשת לשליחה וקבלה של מידע משרתי אינטרנט‪ ,‬לדוגמה‪ ,‬כדי להוריד נתונים מאתרים‪.‬‬ ‫תשובה נכונה‪ :‬א‪.‬בעיית למידה בלתי מונחית‪(clustering).‬‬ ‫הסבר‪:‬‬ ‫‪Clustering‬מסווג נתונים לקבוצות על בסיס דמיון בין הנתונים‪ ,‬בלי לדעת מראש מהן הקבוצות‪.‬‬ ‫תשובה נכונה‪ :‬א‪. median.‬‬ ‫הסבר‪:‬‬ ‫מילוי ערכים חסרים עם החציון שומר על יציבות הנתונים‪ ,‬במיוחד כשהם מכילים ערכים חריגים‪.‬‬ ‫תשובה נכונה‪ :‬א‪. read_csv.‬‬ ‫הסבר‪:‬‬ ‫פקודת ‪ read_csv‬היא הדרך הנפוצה לטעינת נתוני ‪ CSV‬לתוך ‪ DataFrame‬בפייתון‪.‬‬ ‫תשובה נכונה‪ :‬א‪.‬סטיית תקן‪.‬‬ ‫הסבר‪:‬‬ ‫סטיית תקן מודדת עד כמה הערכים בנתונים מתפזרים סביב הממוצע‪.‬‬ ‫תשובה נכונה‪ :‬א ‪. K-Means‬עם‪K=4.‬‬ ‫הסבר‪:‬‬ ‫הגרף מציג ‪ 4‬קבוצות מובחנות שניתן לחלק בצורה פשוטה עם ‪ K-Means‬אם נבחר ‪K=4K=4K=4.‬בעוד‬ ‫‪DBSCAN‬מתאים למקרים מורכבים יותר ‪, K-Means‬הוא הפתרון הפשוט והאפקטיבי ביותר במצב זה‪.‬‬ ‫תשובה נכונה‪ :‬א‪.‬בגרף הימני יש מתאם לינארי אפס‪ ,‬האמצעי והשמאלי חיוביים‪.‬‬ ‫הסבר‪:‬‬ ‫מתאם לינארי שלילי מתאר מצב שבו ככל שערך של משתנה אחד עולה‪ ,‬הערך של השני יורד‪.‬מתאם חיובי‬ ‫מראה מגמה הפוכה (שניהם עולים יחד)‪ ,‬ואילו אפס מצביע על היעדר קשר ברור‪.‬‬ ‫תשובה נכונה‪ :‬א‪.‬ניסוח שאלת מחקר‪.‬‬ ‫הסבר‪:‬‬ ‫ניסוח שאלה ברורה הוא הבסיס לכל מחקר‪.‬זה עוזר להתמקד במטרה ולבחור את הכלים והטכניקות‬ ‫הנכונות‪.‬‬ ‫שובה נכונה‪ :‬א‪.‬למצוא מילים שמתחילות באות גדולה וממשיכות באותיות קטנות‪.‬‬ ‫הסבר‪:‬‬ ‫הביטוי הרגולרי מחפש תבניות של מילים )‪ (b‬שמתחילות באות גדולה )‪ (A-Z‬וממשיכות באותיות קטנות‬ ‫‪(a-z).‬‬ ‫תשובה נכונה‪ :‬א ‪.‬‬ ‫הסבר‪:‬‬ ‫הביטוי הרגולרי מזהה מספרים שלמים ואחריהם עשרוניים‪ ,‬עם רווח או פסיק ביניהם‪ ,‬כמו בדוגמאות‬ ‫הנתונות‪.‬‬ ‫תשובה נכונה‪ :‬א‪.‬יש להשתמש בתרשימי עוגה להצגת הרכב שלם למספר קטגוריות מועטות‪.‬‬ ‫הסבר‪:‬‬ ‫תרשים עוגה מתאים להמחשת חלקים מתוך השלם כאשר יש מספר מוגבל של קטגוריות‪.‬‬ ‫תשובה נכונה‪ :‬א‪. get_text().‬‬ ‫הסבר‪:‬‬ ‫הפונקציה )(‪ get_text‬מחלצת את הטקסט הפנימי של אלמנט ‪ HTML,‬ללא קוד נוסף‪.‬‬ ‫תשובה נכונה‪ :‬א‪. Class.‬‬ ‫הסבר‪:‬‬ ‫ב ‪-HTML,‬המאפיין "‪ "class‬משמש להגדרת סגנונות ואיפיון אלמנטים באמצעות ‪ CSS‬או‪JavaScript.‬‬ ‫תשובה נכונה‪ :‬א‬ ‫תשובה נכונה‪ :‬א‪. shape.‬‬ ‫הסבר‪:‬‬ ‫המאפיין ‪ shape‬מחזיר זוג ערכים‪ :‬מספר השורות )]‪ (shape[0‬ומספר העמודות‪(shape).‬‬ ‫תשובה נכונה‪ :‬א‪.‬‬ ‫הסבר‪:‬‬ ‫‪ Mode‬הוא הפתרון המתאים ביותר במקרה זה‪ ,‬כי הוא אינו תלוי אם הנתונים הם מספריים או‬ ‫טקסטואליים (יחזיר את הערך השכיח ‪ 1‬או ‪.)2‬‬ ‫‪ Median‬דורש ערכים מספריים בלבד‪ ,‬ולכן אינו מתאים לשאלה‪.‬‬ ‫הרחבה‪:‬‬ ‫תשובה נכונה‪ :‬א‪.‬הורדת מימדים‪(dimension reduction).‬‬ ‫הסבר‪:‬‬ ‫כאשר יש מספר גדול של מאפיינים‪ ,‬משתמשים בטכניקות כמו ‪ PCA‬להקטנת מספר המימדים תוך‬ ‫שמירה על המידע החשוב‪.‬‬ ‫תשובה נכונה‪ :‬א‪.‬סולם מנה‪.‬‬ ‫הסבר‪:‬‬ ‫סולם מנה מאפשר לבצע חישובים כמו יחס בין ציונים (למשל‪ ,‬תלמיד אחד קיבל ציון כפול מאחר)‪.‬‬ ‫תשובה נכונה‪ :‬א‪.‬נראה פחות נתונים חריגים‪.‬‬ ‫הסבר‪:‬‬ ‫הערך ‪ whis‬משפיע על טווח הזיהוי של ערכים חריגים‪.‬ערך גבוה יותר מרחיב את הטווח ומקטין את כמות‬ ‫החריגים‪.‬‬ ‫תשובה נכונה‪ :‬א‪.‬חציון‪(median).‬‬ ‫הסבר‪:‬‬ ‫החציון אינו מושפע מערכים חריגים ולכן מתאים להתפלגויות עם צידוד גבוה כמו משכורות‪.‬‬ ‫תשובה נכונה‪ :‬א( ‪. Dictionary‬מילון‪).‬‬ ‫הסבר‪:‬‬ ‫מילון בפייתון מתאים לאחסון נתונים בפורמט מפתח‪-‬ערך‪ ,‬כמו {"שם"‪" :‬דוד"}‪.‬‬ ‫תשובה נכונה‪ :‬א‪.‬פייתון‪.‬‬ ‫הסבר‪:‬‬ ‫פייתון היא השפה המובילה במדעי הנתונים בזכות הספריות המגוונות שלה‪ ,‬כמו ‪ Pandas, NumPy‬ו‪-‬‬ ‫‪Sklearn.‬‬ ‫תשובה נכונה‪ :‬א‪. sort_values().‬‬ ‫הסבר‪:‬‬ ‫הפונקציה )(‪ sort_values‬מאפשרת למיין ‪ DataFrame‬לפי עמודה נבחרת‪.‬‬ ‫תשובה נכונה‪ :‬א‪.‬המדידה העשירית לאחר מיון הנתונים‪.‬‬ ‫הסבר‪:‬‬ ‫כדי לחשב אחוזון‪ ,‬ממיינים את הנתונים ובוחרים את הערך במיקום המתאים ליחס המבוקש (‪ 20%‬מתוך‬ ‫‪ 49‬זה בערך ‪.)10‬‬ ‫תשובה נכונה‪ :‬א‬ ‫הסבר‪:‬‬ ‫ע"פ הפירוט לעיל‬ ‫תשובה נכונה ‪:‬א‪. Series.‬‬ ‫הסבר‪:‬‬ ‫ב ‪-Pandas, Series‬הוא מבנה נתונים חד‪-‬מימדי שניתן לראות אותו כרשימה ממוספרת עם‬ ‫ ‬ ‫אינדקסים‪.‬‬ ‫לעומת זאת ‪, DataFrame‬הוא מבנה דו‪-‬מימדי (טבלה)‪.‬‬ ‫ ‬ ‫תשובה נכונה ‪:‬א‪.‬תהליך זיהוי ערכים החורגים באופן משמעותי מיתר הערכים‪.‬‬ ‫הסבר‪:‬‬ ‫זיהוי חריגים )‪ (Outliers‬הוא תהליך חשוב בניתוח נתונים שבו מאתרים ערכים שלא תואמים‬ ‫ ‬ ‫למגמות הכלליות של הנתונים‪.‬‬ ‫חריגים יכולים להצביע על שגיאות או תופעות מעניינות‪.‬‬ ‫ ‬ ‫תשובה נכונה ‪:‬א‪.‬כל התשובות נכונות‪.‬‬ ‫הסבר‪:‬‬ ‫למידה לא מונחית משמשת לבעיות כמו עיבוד תמונה‪ ,‬עיבוד שפה טבעית‪ ,‬וביולוגיה חישובית‪,‬‬ ‫ ‬ ‫בזיהוי דפוסים וקשרים בנתונים‪.‬‬ ‫‪:‬‬ ‫תשובה נכונה‬ ‫‪2 True False‬‬ ‫לא קיימת תשובה כזו בתשובות (הקוד נבדק)‬ ‫תשובה נכונה ‪:‬א‪. PCA (Principal Component Analysis).‬‬ ‫הסבר‪:‬‬ ‫‪PCA‬הוא אלגוריתם למידה לא מונחית המשמש להפחתת ממדים‪.‬‬ ‫ ‬ ‫רגרסיות לוגיסטיות וליניאריות הן אלגוריתמי למידה מונחית‪.‬‬ ‫ ‬ ‫תשובה נכונה ‪:‬א‪. df.shape.‬‬ ‫הסבר‪:‬‬ ‫הפקודה ‪shape‬מחזירה טאפאל עם מספר השורות והעמודות‪.‬‬ ‫ ‬ ‫‪size‬מחזירה את מספר התאים הכולל‪.‬‬ ‫ ‬ ‫תשובה נכונה ‪:‬א‪.‬ספריית‪seaborn.‬‬ ‫הסבר‪:‬‬ ‫‪ Sns‬הוא הקיצור המקובל לייבוא של ספריית ‪ Seaborn‬המשמשת ליצירת גרפים ויזואליים‬ ‫ ‬ ‫מתקדמים‪.‬‬ ‫תשובה נכונה ‪:‬א‪. to_csv.‬‬ ‫הסבר‪:‬‬ ‫הפונקציה ‪to_csv‬משמשת לכתיבת נתונים מקובץ ‪ DataFrame‬לקובץ‪CSV.‬‬ ‫ ‬ ‫התשובה הנכונה‪ :‬א‬ ‫הסבר‪ :‬ארוך מידיי‬ ‫תשובה נכונה ‪:‬א‪.‬הערך השכיח‪.‬‬ ‫הסבר‪:‬‬ ‫בנתונים קטגוריאליים נהוג למלא את הערכים החסרים בערך השכיח ‪ (Mode),‬שהוא הערך‬ ‫ ‬ ‫הנפוץ ביותר‪.‬‬ ‫תשובה נכונה ‪:‬ד‪.‬כל התשובות נכונות‪.‬‬ ‫הסבר‪:‬‬ ‫‪requests, BeautifulSoup,‬ו ‪-Selenium‬הם כלים נפוצים לאינטראקציה עם נתונים מ ‪-API‬‬ ‫ ‬ ‫או אתרים‪.‬‬ ‫תשובה נכונה ‪:‬א‪.‬לזהות דפוסים וקשרים בנתונים‪.‬‬ ‫הסבר‪:‬‬ ‫‪ Clustering‬משמש לחלוקה של נתונים לקבוצות על פי דמיון ביניהם‪.‬‬ ‫ ‬ ‫תשובה נכונה ‪:‬א‪.‬הצגת שכיחות של ערכים רציפים‪.‬‬ ‫הסבר‪:‬‬ ‫היסטוגרמה מציגה את התפלגות הערכים באמצעות עמודות‪.‬‬ ‫ ‬ ‫תשובה נכונה ‪:‬א‪.‬פורמט אפשרי לקבלת תשובה משאילתא‪.‬‬ ‫הסבר‪:‬‬ ‫‪ JSON‬הוא פורמט נפוץ להחלפת מידע במערכות‪Web-API.‬‬ ‫ ‬ ‫תשובה נכונה ‪ :‬א‬ ‫תשובה נכונה ‪:‬ד‪.‬כל התשובות נכונות‪.‬‬ ‫הסבר‪:‬‬ ‫הביטוי יכול לזהות שמות באנגלית‪ ,‬כתובות ‪ URL,‬וכתובות דוא"ל‪.‬‬ ‫ ‬ ‫תשובה נכונה ‪:‬א‪.‬לזהות תבניות וקשרים שאינם מובנים מאליהם‪.‬‬ ‫הסבר‪:‬‬ ‫‪ EDA‬משמש לחקירת הנתונים ולמציאת תובנות ראשוניות‪.‬‬ ‫ ‬ ‫תשובה נכונה ‪:‬א‪.‬הרכשת נתונים‪.‬‬ ‫הסבר‪:‬‬ ‫לאחר ניסוח שאלת המחקר‪ ,‬יש לאסוף נתונים רלוונטיים‪.‬‬ ‫ ‬ ‫שאלה ‪ :19‬אילו סוגי נתונים ניתן לאחסן ב?‪-DataFrame‬‬ ‫תשובה נכונה ‪:‬א‪.‬כל התשובות נכונות‪.‬‬ ‫הסבר‪:‬‬ ‫‪DataFrame‬יכול להכיל מספרים‪ ,‬טקסט‪ ,‬תאריכים ועוד‪.‬‬ ‫ ‬ ‫שאלה ‪ :20‬איזה מבנה נתונים בלתי ניתן לשינוי?‬ ‫תשובה נכונה ‪:‬א‪. Tuple.‬‬ ‫הסבר‪:‬‬ ‫‪(Tuple‬טאפל) הוא מבנה נתונים שאינו ניתן לשינוי‪ ,‬בשונה מרשימות או מילונים‪.‬‬ ‫ ‬

Use Quizgecko on...
Browser
Browser