מבחן מועד א' מבוא למדעי הנתונים 21.3.2024 HIT

Summary

This is a past paper for an Introduction to Data Science course at Holon Institute of Technology (HIT) from the winter semester 2024. The exam was held on 21/03/2024. The paper includes multiple-choice questions about data analysis concepts such as data mining, data visualization, and machine learning algorithms. The document contains a variety of questions, some related to theory and others with practical application using programming languages such as Python.

Full Transcript

‫מבחן מועד א' בקורס‪ :‬מבוא למדעי הנתונים‬ ‫מספר קורס‪:‬‬ ‫סמסטר חורף תשפ״ד‬ ‫תאריך הבחינה‪21/3/24 :‬‬ ‫שמות המרצים‪ :‬ד"ר יהונתן שלר‪ ,‬אינג' עידן טוביס‬ ‫משך הבחינה‪ :‬שעתיים‪.‬‬ ‫ ‬...

‫מבחן מועד א' בקורס‪ :‬מבוא למדעי הנתונים‬ ‫מספר קורס‪:‬‬ ‫סמסטר חורף תשפ״ד‬ ‫תאריך הבחינה‪21/3/24 :‬‬ ‫שמות המרצים‪ :‬ד"ר יהונתן שלר‪ ,‬אינג' עידן טוביס‬ ‫משך הבחינה‪ :‬שעתיים‪.‬‬ ‫ ‬ ‫חומר עזר‪ :‬מחשבון‪.‬‬ ‫ ‬ ‫מבנה הבחינה‪ :‬בחינה רב ברירתית‬ ‫ ‬ ‫הוראות כלליות‪ :‬יש לסמן את התשובה הנכונה מבין ארבע אפשרויות‬ ‫ ‬ ‫בהצלחה!‬ ‫מהי המטרה של ניתוח חקרני של נתונים (‪?)EDA‬‬ ‫‪.1‬‬ ‫לזהות תבניות וקשרים בנתונים שאינם בהכרח מובנים מאליהם‪.‬‬ ‫א‪.‬‬ ‫לשאול את שאלות המחקר עליהם ינתנו התשובות בהמשך המחקר ‪.‬‬ ‫ב‪.‬‬ ‫לקבוע את הסיבה והמסובב באופן מוחלט‪.‬‬ ‫ג‪.‬‬ ‫להכין נתונים למודלי למידת מכונה וניתוח מתקדם יותר‪.‬‬ ‫ד‪.‬‬ ‫‪.2‬אתם מנסים לבצע אשכול )‪ (clustering‬של מבנה נתונים שנראה כך (ככה יצא ‪):‬‬ ‫איזה אלגוריתם יאפשר לאשכל את הנתונים ל‪ 4‬קבוצות‪ ,‬כך שיתקבלו ‪ 2‬קבוצות עבור‬ ‫העיניים‪ ,‬קבוצה עבור הפה וקבוצה עבור העיגול החיצוני?‬ ‫א‪DBSCAN.‬‬ ‫ב‪ KMeans.‬עם ‪K=4‬‬ ‫ג‪Anomaly detection.‬‬ ‫ד‪PCA.‬‬ ‫‪.3‬מה מהבאים נכון לגבי ההבדל בין סולם סודר )‪ (ordinal‬וסולם רווח)‪? (interval‬‬ ‫א‪.‬בסולם סודר ובסולם רווח אפשר לחשב שכיח ובסולם רווח אפשר לחשב גם ממוצע‪.‬‬ ‫ב‪.‬בסולם סודר אנחנו מודדים מעלות פרנהייט‪ ,‬בסולם רווח אנחנו מודדים מעלות צלזיוס‪.‬‬ ‫ג‪.‬בסולם סודר אפשר לחבר ולחסר ובסולם רווח אפשר גם לכפול ולחלק‪.‬‬ ‫ד‪.‬בסולם סודר המרווחים הם שלמים ובסולם רווח המרווחים יכולים להיות גם ממשיים‪.‬‬ ‫‪.4‬אילו מחרוזות יחזיר הביטוי הרגולרי (‪ )regular expression‬הבא‪:‬‬ ‫’‪r’^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$‬‬ ‫א‪.‬כתובות אימייל‬ ‫ב‪.‬מספרי טלפון‬ ‫ג‪.‬אתרי רשת חברתית‬ ‫ד‪.‬שמות ושמות משפחה‪ ,‬כולל שם אמצעי או אות אמצעית עם נקודה אחריה‬ ‫‪.5‬חברת צוות טוענת שאפשר להציג שלושה משתנים (מאפיינים ‪ )features /‬ויותר על‬ ‫תרשים פיזור )‪.(scatterplot‬האם הטענה שלה נכונה?‬ ‫א‪.‬כן‪ ,‬תרשים פיזור הוא אמנם גרף דו‪-‬מימדי‪ ,‬אך ניתן להציג שני משתנים ע"י מיקום‪ ,‬ועוד‬ ‫כמה משתנים ע"י צורות‪ ,‬צבעים‪ ,‬גדלים וכד'‬ ‫ב‪.‬לא‪ ,‬תרשים פיזור הוא גרף דו‪-‬מימדי‪.‬לא ניתן להציג יותר משני משתנים נומריים‪.‬‬ ‫ג‪.‬כן‪ ,‬תרשים פיזור הוא גרף דו‪-‬מימדי‪ ,‬אבל ניתן להציג עוד משתנה בינארי יחיד ע"י צבע‪.‬‬ ‫ד‪.‬לא‪ ,‬טכנית זה אפשרי כמו בתשובות שטוענות "כן"‪ ,‬אבל נהוג שלא לעשות כך‪.‬‬ ‫‪.6‬מהו תרשים קופסה? )‪(box plot‬‬ ‫א‪.‬טכניקה להצגת החציון‪ ,‬הרבעונים והטווח הבין רבעוני‬ ‫ב‪.‬כלי גרפי להצגת התפלגות נתונים לפי חציונים‪ ,‬רבעונים ושלישונים‪.‬‬ ‫ג‪.‬דרך להצגת ההתפלגות הסטטיסטית של נתון מסויים‬ ‫ד‪.‬תרשים שמציג את הקופסה התוחמת של הנתונים )‪(bounding box‬‬ ‫‪.7‬מהו מתאם פירסון (‪?)pearson‬‬ ‫א‪.‬מספר שמצביע לנו על קשר (קורלציה ‪ /‬מתאם) בין שני נתונים בסולם רווח או מנה‬ ‫ב‪.‬מספר שמצביע לנו על קשר (קורלציה ‪ /‬מתאם) בין שני נתונים בסולם מנה או סודר‬ ‫ג‪.‬מספר שמצביע לנו על קשר (קורלציה ‪ /‬מתאם) בין שני נתונים בסולם סודר בלבד‬ ‫ד‪.‬מספר שמצביע לנו על קשר (קורלציה ‪ /‬מתאם) בין שני נתונים בסולם מנה בלבד‬ ‫חשבו את ה ‪ IQR‬של הנתונים הבאים‪[16,19,23,36,39,81,85,90]:‬‬ ‫‪.8‬‬ ‫‪62‬‬ ‫א‪.‬‬ ‫‪37.5‬‬ ‫ב‪.‬‬ ‫‪49‬‬ ‫ג‪.‬‬ ‫‪83‬‬ ‫ד‪.‬‬ ‫‪.9‬מה ניתן לומר על המתאם בין המאפיינים ‪ X1, X2‬בכל אחד מהתרשימים הבאים?‬ ‫בכל הגרפים יש מתאם לינארי קרוב לאפס‬ ‫א‪.‬‬ ‫בגרף הימני יש מתאם לינארי חיובי‪ ,‬בגרף האמצעי שלילי ובגרף השמאלי אפס‬ ‫ב‪.‬‬ ‫בגרף הימני יש מתאם לינארי שלילי‪ ,‬בגרף האמצעי חיובי ובגרף השמאלי אפס‬ ‫ג‪.‬‬ ‫בגרפים הימני והאמצעי יש מתאמים פרבוליים‪ ,‬ובגרף השמאלי מתאם רדיאלי‬ ‫ד‪.‬‬ ‫‪.10‬איזו ספרייה בפייתון משמשת לביצוע אלגוריתמים של למידה בלתי מונחית?‬ ‫‪Sklearn‬‬ ‫א‪.‬‬ ‫‪Pandas‬‬ ‫ב‪.‬‬ ‫‪Matplotlib‬‬ ‫ג‪.‬‬ ‫‪SciPy‬‬ ‫ד‪.‬‬ ‫‪.11‬נרצה ליצור ‪ dataset‬המכיל נתונים עבור מאפיינים של בגדים‪ ,‬לשם כך נרצה לבצע הרכשה‬ ‫של נתונים מאתר ‪.Shein‬כיצד נוכל לעשות זאת?‬ ‫נבדוק האם לאתר יש ‪.API‬אם קיים‪ ,‬נשתמש בו‪.‬אם אין ‪ -‬נבצע ‪crawling‬‬ ‫א‪.‬‬ ‫נוכל לבצע את ההרכשה באמצעות‪ API.‬ופענוח התוצאות ע"י ‪BeautifulSoup‬‬ ‫ב‪.‬‬ ‫נטען את הדאטה סט באמצעות הדאטה סטים המוכנים שיש כבר בפייתון‪.‬‬ ‫ג‪.‬‬ ‫נוכל לבצע את ההרכשה באמצעות‪ API.‬ופענוח התוצאות ע"י ‪JSON‬‬ ‫ד‪.‬‬ ‫‪.12‬איך מיוצגים מאפיינים )‪ (features‬ומופעים )‪ (instances‬ב‪?dataframe‬‬ ‫המאפיינים מיוצגים בעמודות והמופעים בשורות‬ ‫א‪.‬‬ ‫המאפיינים מיוצגים בשורות והמופעים בעמודות‬ ‫ב‪.‬‬ ‫המאפיינים מיוצגים כ ‪ float64‬והמופעים כ ‪object‬‬ ‫ג‪.‬‬ ‫המאפיינים מיוצגים כ ‪ object‬והמופעים כ ‪float64‬‬ ‫ד‪.‬‬ ‫‪.13‬איזו ספרייה מקובל לייבא כ‪?pd‬‬ ‫‪Pandas‬‬ ‫א‪.‬‬ ‫‪PythonDuplicates‬‬ ‫ב‪.‬‬ ‫‪DynamicProgramming‬‬ ‫ג‪.‬‬ ‫‪Numpy‬‬ ‫ד‪.‬‬ ‫‪.14‬מה זה ‪?vectorizer‬‬ ‫אוביקט המסייע בהפיכה של מסמך טקסט ליצוג וקטורי של המילים בשיטת ‪bag of‬‬ ‫א‪.‬‬ ‫‪words‬‬ ‫שיעור אוביקט המסייע בחישוב גודל הוקטור של כמות הנתונים של רשומה מסוימת‬ ‫ב‪.‬‬ ‫לניתוח‬ ‫אלגוריתם לזיהוי ומיון טקסטים לפי רמת הקושי‬ ‫ג‪.‬‬ ‫טכניקה להורדת מימדים מווקטור במרחב גבוה לווקטור במרחב נמוך‬ ‫ד‪.‬‬ ‫‪.15‬כיצד משפיעה הגדלת מספר התאים בהיסטוגרמה על ערכי התאים (כלומר‪ ,‬גובה העמודות‬ ‫המייצגות את כמות הדגימות בכל תא)?‬ ‫א‪.‬ככל שנגדיל את מספר התאים אז ערכי התאים יהיו קטנים יותר‪.‬‬ ‫ב‪.‬אין קשר בין כמות התאים שנבחר לבין ערכי התאים‪.‬‬ ‫ג‪.‬להיסטוגרמה יש מספר תאים קבוע שמוגדר לפי מספר המשתנים שהיא מייצגת ואין‬ ‫אפשרות להגדיל או להקטין את מספר התאים‪.‬‬ ‫ד‪.‬ככל שנגדיל את מספר התאים אז ערכי התאים יהיו גדולים יותר‬ ‫‪.16‬מה השימוש המרכזי של ספריית ‪ requests‬בפייתון?‬ ‫א‪.‬פניות ‪ HTTP‬או ‪ HTTPS‬לשרתי רשת‬ ‫ב‪.‬אימון מודלים של למידת מכונה‬ ‫ג‪.‬מענה על שאילתות לניתוח נתוני עתק‬ ‫ד‪.‬בקשות מידע למסדי נתונים מסוג ‪SQL‬‬ ‫‪.17‬לאחר הלימודים‪ ,‬התקבלתם לעבודה בחברת נטפליקס‪.‬קיבלתם משימה ממחלקת‬ ‫השיווק‪.‬הלקוחות מאופיינים לפי ‪ 50‬תכונות שונות שנתונות לנו‪.‬ברצוננו לסדר את‬ ‫הלקוחות ב‪ 5‬קבוצות שונות‪ ,‬לפי הדמיון ביניהם‪.‬איך תסווגו את הבעיה?‬ ‫א‪.‬הבעיה שייכת ללמידה לא מונחית (‪ )unsupervised learning‬והיא מוגדרת כבעיית‬ ‫אשכול (‪) clustering‬‬ ‫ב) הבעיה שייכת ללמידה לא מונחית (‪ )unsupervised learning‬והיא מוגדרת כבעיית‬ ‫נסיגה (רגרסיה )‬ ‫ג) הבעיה שייכת ללמידה מונחית (‪ )supervised learning‬והיא מוגדרת כבעיית‬ ‫סיווג )‪(classification‬‬ ‫ד) הבעיה שייכת ללמידה מונחית (‪ )supervised learning‬והיא מוגדרת כבעיית הורדת‬ ‫מימדים )‪(dimension reduction‬‬ ‫‪.18‬מה הדרך המועדפת מבין האפשרויות הבאות כדי למלא את הערכים החסרים בקוד הבא‬ ‫(במקום הפקודה הרשומה כ ‪)XXXX‬‬ ‫‪import pandas as pd‬‬ ‫)}] ‪df = pd.DataFrame({ 'A' : [ 1 , 2 , None , 4‬‬ ‫) ‪df[ 'A' ].fillna(df[ 'A' ].XXXX(), inplace= True‬‬ ‫א‪median.‬‬ ‫ב‪max.‬‬ ‫ג‪mode.‬‬ ‫ד‪dropna.‬‬ ‫‪.19‬כדי לטעון קובץ ‪ CSV‬לתוך מסגרת נתונים (‪ )dataframe‬תשתמשו בפקודה הבא‪:‬‬ ‫א‪read_csv.‬‬ ‫ב‪load_csv.‬‬ ‫ג‪import_csv.‬‬ ‫ד‪.‬אי אפשר לטעון קבצי ‪ CSV‬לתוך מסגרת נתונים‪ ,‬רק קבצי ‪ JSON‬או מילונים‬ ‫‪.20‬מבין המדדים הבאים‪ ,‬מהו מדד המשמש למדידת פיזור נתונים?‬ ‫א‪.‬סטיית תקן‬ ‫ב‪.‬חציון‬ ‫ג‪.‬ממוצע‬ ‫ד‪.‬רבעון‬ ‫בהצלחה!‬

Use Quizgecko on...
Browser
Browser