מבחן מועד א' מבוא למדעי הנתונים 21.3.2024 HIT
Document Details
Uploaded by RighteousRadium2668
Holon Institute of Technology
2024
HIT
Tags
Related
- Python for Data Science Lecture Notes PDF
- Introduction to Machine Learning with Python (PDF)
- Internship Report on Python For Data Science/ Iris Dataset PDF 2024-2025
- Data Science Roadmap PDF
- Ancita Dsouza CV - MSc Data Science, Python, Machine Learning
- Python for Machine Learning (PDF) - Fundamentals to Real-World Applications
Summary
This is a past paper for an Introduction to Data Science course at Holon Institute of Technology (HIT) from the winter semester 2024. The exam was held on 21/03/2024. The paper includes multiple-choice questions about data analysis concepts such as data mining, data visualization, and machine learning algorithms. The document contains a variety of questions, some related to theory and others with practical application using programming languages such as Python.
Full Transcript
מבחן מועד א' בקורס :מבוא למדעי הנתונים מספר קורס: סמסטר חורף תשפ״ד תאריך הבחינה21/3/24 : שמות המרצים :ד"ר יהונתן שלר ,אינג' עידן טוביס משך הבחינה :שעתיים. ...
מבחן מועד א' בקורס :מבוא למדעי הנתונים מספר קורס: סמסטר חורף תשפ״ד תאריך הבחינה21/3/24 : שמות המרצים :ד"ר יהונתן שלר ,אינג' עידן טוביס משך הבחינה :שעתיים. חומר עזר :מחשבון. מבנה הבחינה :בחינה רב ברירתית הוראות כלליות :יש לסמן את התשובה הנכונה מבין ארבע אפשרויות בהצלחה! מהי המטרה של ניתוח חקרני של נתונים (?)EDA .1 לזהות תבניות וקשרים בנתונים שאינם בהכרח מובנים מאליהם. א. לשאול את שאלות המחקר עליהם ינתנו התשובות בהמשך המחקר . ב. לקבוע את הסיבה והמסובב באופן מוחלט. ג. להכין נתונים למודלי למידת מכונה וניתוח מתקדם יותר. ד. .2אתם מנסים לבצע אשכול ) (clusteringשל מבנה נתונים שנראה כך (ככה יצא ): איזה אלגוריתם יאפשר לאשכל את הנתונים ל 4קבוצות ,כך שיתקבלו 2קבוצות עבור העיניים ,קבוצה עבור הפה וקבוצה עבור העיגול החיצוני? אDBSCAN. ב KMeans.עם K=4 גAnomaly detection. דPCA. .3מה מהבאים נכון לגבי ההבדל בין סולם סודר ) (ordinalוסולם רווח)? (interval א.בסולם סודר ובסולם רווח אפשר לחשב שכיח ובסולם רווח אפשר לחשב גם ממוצע. ב.בסולם סודר אנחנו מודדים מעלות פרנהייט ,בסולם רווח אנחנו מודדים מעלות צלזיוס. ג.בסולם סודר אפשר לחבר ולחסר ובסולם רווח אפשר גם לכפול ולחלק. ד.בסולם סודר המרווחים הם שלמים ובסולם רווח המרווחים יכולים להיות גם ממשיים. .4אילו מחרוזות יחזיר הביטוי הרגולרי ( )regular expressionהבא: ’r’^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$ א.כתובות אימייל ב.מספרי טלפון ג.אתרי רשת חברתית ד.שמות ושמות משפחה ,כולל שם אמצעי או אות אמצעית עם נקודה אחריה .5חברת צוות טוענת שאפשר להציג שלושה משתנים (מאפיינים )features /ויותר על תרשים פיזור ).(scatterplotהאם הטענה שלה נכונה? א.כן ,תרשים פיזור הוא אמנם גרף דו-מימדי ,אך ניתן להציג שני משתנים ע"י מיקום ,ועוד כמה משתנים ע"י צורות ,צבעים ,גדלים וכד' ב.לא ,תרשים פיזור הוא גרף דו-מימדי.לא ניתן להציג יותר משני משתנים נומריים. ג.כן ,תרשים פיזור הוא גרף דו-מימדי ,אבל ניתן להציג עוד משתנה בינארי יחיד ע"י צבע. ד.לא ,טכנית זה אפשרי כמו בתשובות שטוענות "כן" ,אבל נהוג שלא לעשות כך. .6מהו תרשים קופסה? )(box plot א.טכניקה להצגת החציון ,הרבעונים והטווח הבין רבעוני ב.כלי גרפי להצגת התפלגות נתונים לפי חציונים ,רבעונים ושלישונים. ג.דרך להצגת ההתפלגות הסטטיסטית של נתון מסויים ד.תרשים שמציג את הקופסה התוחמת של הנתונים )(bounding box .7מהו מתאם פירסון (?)pearson א.מספר שמצביע לנו על קשר (קורלציה /מתאם) בין שני נתונים בסולם רווח או מנה ב.מספר שמצביע לנו על קשר (קורלציה /מתאם) בין שני נתונים בסולם מנה או סודר ג.מספר שמצביע לנו על קשר (קורלציה /מתאם) בין שני נתונים בסולם סודר בלבד ד.מספר שמצביע לנו על קשר (קורלציה /מתאם) בין שני נתונים בסולם מנה בלבד חשבו את ה IQRשל הנתונים הבאים[16,19,23,36,39,81,85,90]: .8 62 א. 37.5 ב. 49 ג. 83 ד. .9מה ניתן לומר על המתאם בין המאפיינים X1, X2בכל אחד מהתרשימים הבאים? בכל הגרפים יש מתאם לינארי קרוב לאפס א. בגרף הימני יש מתאם לינארי חיובי ,בגרף האמצעי שלילי ובגרף השמאלי אפס ב. בגרף הימני יש מתאם לינארי שלילי ,בגרף האמצעי חיובי ובגרף השמאלי אפס ג. בגרפים הימני והאמצעי יש מתאמים פרבוליים ,ובגרף השמאלי מתאם רדיאלי ד. .10איזו ספרייה בפייתון משמשת לביצוע אלגוריתמים של למידה בלתי מונחית? Sklearn א. Pandas ב. Matplotlib ג. SciPy ד. .11נרצה ליצור datasetהמכיל נתונים עבור מאפיינים של בגדים ,לשם כך נרצה לבצע הרכשה של נתונים מאתר .Sheinכיצד נוכל לעשות זאת? נבדוק האם לאתר יש .APIאם קיים ,נשתמש בו.אם אין -נבצע crawling א. נוכל לבצע את ההרכשה באמצעות API.ופענוח התוצאות ע"י BeautifulSoup ב. נטען את הדאטה סט באמצעות הדאטה סטים המוכנים שיש כבר בפייתון. ג. נוכל לבצע את ההרכשה באמצעות API.ופענוח התוצאות ע"י JSON ד. .12איך מיוצגים מאפיינים ) (featuresומופעים ) (instancesב?dataframe המאפיינים מיוצגים בעמודות והמופעים בשורות א. המאפיינים מיוצגים בשורות והמופעים בעמודות ב. המאפיינים מיוצגים כ float64והמופעים כ object ג. המאפיינים מיוצגים כ objectוהמופעים כ float64 ד. .13איזו ספרייה מקובל לייבא כ?pd Pandas א. PythonDuplicates ב. DynamicProgramming ג. Numpy ד. .14מה זה ?vectorizer אוביקט המסייע בהפיכה של מסמך טקסט ליצוג וקטורי של המילים בשיטת bag of א. words שיעור אוביקט המסייע בחישוב גודל הוקטור של כמות הנתונים של רשומה מסוימת ב. לניתוח אלגוריתם לזיהוי ומיון טקסטים לפי רמת הקושי ג. טכניקה להורדת מימדים מווקטור במרחב גבוה לווקטור במרחב נמוך ד. .15כיצד משפיעה הגדלת מספר התאים בהיסטוגרמה על ערכי התאים (כלומר ,גובה העמודות המייצגות את כמות הדגימות בכל תא)? א.ככל שנגדיל את מספר התאים אז ערכי התאים יהיו קטנים יותר. ב.אין קשר בין כמות התאים שנבחר לבין ערכי התאים. ג.להיסטוגרמה יש מספר תאים קבוע שמוגדר לפי מספר המשתנים שהיא מייצגת ואין אפשרות להגדיל או להקטין את מספר התאים. ד.ככל שנגדיל את מספר התאים אז ערכי התאים יהיו גדולים יותר .16מה השימוש המרכזי של ספריית requestsבפייתון? א.פניות HTTPאו HTTPSלשרתי רשת ב.אימון מודלים של למידת מכונה ג.מענה על שאילתות לניתוח נתוני עתק ד.בקשות מידע למסדי נתונים מסוג SQL .17לאחר הלימודים ,התקבלתם לעבודה בחברת נטפליקס.קיבלתם משימה ממחלקת השיווק.הלקוחות מאופיינים לפי 50תכונות שונות שנתונות לנו.ברצוננו לסדר את הלקוחות ב 5קבוצות שונות ,לפי הדמיון ביניהם.איך תסווגו את הבעיה? א.הבעיה שייכת ללמידה לא מונחית ( )unsupervised learningוהיא מוגדרת כבעיית אשכול () clustering ב) הבעיה שייכת ללמידה לא מונחית ( )unsupervised learningוהיא מוגדרת כבעיית נסיגה (רגרסיה ) ג) הבעיה שייכת ללמידה מונחית ( )supervised learningוהיא מוגדרת כבעיית סיווג )(classification ד) הבעיה שייכת ללמידה מונחית ( )supervised learningוהיא מוגדרת כבעיית הורדת מימדים )(dimension reduction .18מה הדרך המועדפת מבין האפשרויות הבאות כדי למלא את הערכים החסרים בקוד הבא (במקום הפקודה הרשומה כ )XXXX import pandas as pd )}] df = pd.DataFrame({ 'A' : [ 1 , 2 , None , 4 ) df[ 'A' ].fillna(df[ 'A' ].XXXX(), inplace= True אmedian. בmax. גmode. דdropna. .19כדי לטעון קובץ CSVלתוך מסגרת נתונים ( )dataframeתשתמשו בפקודה הבא: אread_csv. בload_csv. גimport_csv. ד.אי אפשר לטעון קבצי CSVלתוך מסגרת נתונים ,רק קבצי JSONאו מילונים .20מבין המדדים הבאים ,מהו מדד המשמש למדידת פיזור נתונים? א.סטיית תקן ב.חציון ג.ממוצע ד.רבעון בהצלחה!