Podcast
Questions and Answers
מהי המטרה העיקרית של ניתוח חקרני של נתונים (EDA)?
מהי המטרה העיקרית של ניתוח חקרני של נתונים (EDA)?
- למצוא את הסיבה הדומיננטית לכל תופעה ולזהות את הגורם המרכזי שמשפיע עליה.
- לבדוק את התפלגות הנתונים וליצור השערות לגבי מערכות יחסים אפשריות בין משתנים. (correct)
- לזהות נתונים חריגים (אנומליות) וטפל בהן.
- ליצור גרפים וטבלאות יפות ומקצועיות לפרסום המחקר.
איזה מודל למידה מכונה יהיה המתאים ביותר לחיזוי תוצאות מבחן לאחר ניתוח נתונים של סטודנטים, כולל ציונים בבחינות קודמות, שעות לימוד, נוכחות בשיעורים ומידת השימוש בחומרים?
איזה מודל למידה מכונה יהיה המתאים ביותר לחיזוי תוצאות מבחן לאחר ניתוח נתונים של סטודנטים, כולל ציונים בבחינות קודמות, שעות לימוד, נוכחות בשיעורים ומידת השימוש בחומרים?
- רגרסיה לינארית (correct)
- אשכול (clustering)
- עץ החלטה
- התאמת פרופיל (פרופילציה)
מהו היתרון העיקרי של שימוש במודל אשכול (clustering) בנתונים?
מהו היתרון העיקרי של שימוש במודל אשכול (clustering) בנתונים?
- הוא מאפשר לזהות באופן מדויק את הגורמים המשפיעים על תוצאה מסוימת.
- הוא תמיד יחזיר את התוצאה המדויקת ביותר ויפתור את כל בעיות הניתוח.
- הוא יכול לחשוף קבוצות נתונים לא מוכרות בעלות מאפיינים משותפים, גם אם לא ידועים מראש. (correct)
- הוא יביא לשימוש במודלים אחרים, כמו רגרסיה, לקבלת תוצאות מדויקות עוד יותר.
איזה מהבאים לא נחשב ככלי מתאים לניתוח נתונים חקרני?
איזה מהבאים לא נחשב ככלי מתאים לניתוח נתונים חקרני?
איזה משפט נכון לגבי דיסקטיבציה?
איזה משפט נכון לגבי דיסקטיבציה?
איזה מהבאים אינו יתרון של שימוש במודלים של למידה מכונה?
איזה מהבאים אינו יתרון של שימוש במודלים של למידה מכונה?
מתי נבחר להשתמש באלגוריתם DBSCAN (Density-Based Spatial Clustering of Applications with Noise) לביצוע אשכול (clustering)?
מתי נבחר להשתמש באלגוריתם DBSCAN (Density-Based Spatial Clustering of Applications with Noise) לביצוע אשכול (clustering)?
מהו היתרון העיקרי של ניתוח רכיבים ראשיים (PCA) על פני אשכול (clustering)?
מהו היתרון העיקרי של ניתוח רכיבים ראשיים (PCA) על פני אשכול (clustering)?
אילו מהטענות הבאות נכונות לגבי סולם סודר?
אילו מהטענות הבאות נכונות לגבי סולם סודר?
מהם הערכים האפשריים שיתקבלו כאשר הביטוי הרגולרי '^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+.[a-zA-Z]{2,}$' יופעל על מחרוזת?
מהם הערכים האפשריים שיתקבלו כאשר הביטוי הרגולרי '^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+.[a-zA-Z]{2,}$' יופעל על מחרוזת?
מהו הבסיס לתرשים פיזור?
מהו הבסיס לתرשים פיזור?
מהו תרשים קופסה?
מהו תרשים קופסה?
האם ניתן להציג יותר משני משתנים בתרשים פיזור?
האם ניתן להציג יותר משני משתנים בתרשים פיזור?
אילו מהטבלאות הבאות מייצגות סולם רווח?
אילו מהטבלאות הבאות מייצגות סולם רווח?
מה ההבדל העיקרי בין סולם סודר לסולם רווח?
מה ההבדל העיקרי בין סולם סודר לסולם רווח?
מהו מתאם פירסון? (pearson correlation)
מהו מתאם פירסון? (pearson correlation)
מה ניתן לומר על המתאם בין המאפיינים X1, X2בכל אחד מהתרשימים הבאים?
מה ניתן לומר על המתאם בין המאפיינים X1, X2בכל אחד מהתרשימים הבאים?
מהו התפקיד של ספריית Sklearn בפייתון?
מהו התפקיד של ספריית Sklearn בפייתון?
איך מיוצגים מאפיינים ( featuresומופעים ( instancesב?dataframe
איך מיוצגים מאפיינים ( featuresומופעים ( instancesב?dataframe
מה זה ?vectorizer
מה זה ?vectorizer
כדי לטעון קובץ CSV לתוך מסגרת נתונים (dataframe) תשתמשו בפקודה הבאה:
כדי לטעון קובץ CSV לתוך מסגרת נתונים (dataframe) תשתמשו בפקודה הבאה:
לאחר הלימודים, קיבלתם עבודה בחברת נטפליקס. קיבלתם משימה ממחלקת השיווק. הלקוחות מאופיינים לפי 50 תכונות שונות שנתונות לנו. ברצוננו לסדר את הלקוחות ב5 קבוצות שונות, לפי הדמיון ביניהם. איך תסווגו את הבעיה?
לאחר הלימודים, קיבלתם עבודה בחברת נטפליקס. קיבלתם משימה ממחלקת השיווק. הלקוחות מאופיינים לפי 50 תכונות שונות שנתונות לנו. ברצוננו לסדר את הלקוחות ב5 קבוצות שונות, לפי הדמיון ביניהם. איך תסווגו את הבעיה?
מהו השימוש המרכזי של ספריית requestsבפייתון?
מהו השימוש המרכזי של ספריית requestsבפייתון?
מה הדרך המועדפת מבין האפשרויות הבאות כדי למלא את הער values החסרים בקוד הבא (במקום הפקודה הרשומה כ XXXX)?
import pandas as pd
df = pd.DataFrame({'A': [1, 2, None, 4]})
df['A'].fillna(df['A'].XXXX(), inplace=True)
מה הדרך המועדפת מבין האפשרויות הבאות כדי למלא את הער values החסרים בקוד הבא (במקום הפקודה הרשומה כ XXXX)?
import pandas as pd
df = pd.DataFrame({'A': [1, 2, None, 4]})
df['A'].fillna(df['A'].XXXX(), inplace=True)
כיצד משפיעה הגדלת מספר התאים בהיסטוגרמה על ערכי התאים (כלומר, גובה העמודות המייצגות את כמות הדגימות בכל תא)?
כיצד משפיעה הגדלת מספר התאים בהיסטוגרמה על ערכי התאים (כלומר, גובה העמודות המייצגות את כמות הדגימות בכל תא)?
איזו ספרייה בפייתון מקובל לייבא כ ?pd
איזו ספרייה בפייתון מקובל לייבא כ ?pd
חשבו את ה IQRשל הנתונים הבאים[16,19,23,36,39,81,85,90]:
חשבו את ה IQRשל הנתונים הבאים[16,19,23,36,39,81,85,90]:
מהו תפקידו של box plot?
מהו תפקידו של box plot?
Flashcards
סולם סודר
סולם סודר
סולם מדידה שאין בו ממש מרווחים, ניתן לחבר ולחסר.
סולם רווח
סולם רווח
סולם מדידה עם מרווחים שיכולים להיות ממשיים, ניתן לחבר, לחסר, לכפול ולחלק.
כתובת אימייל
כתובת אימייל
ביטוי רגולרי המייצג פורמט של כתובת דואר אלקטרוני.
תרשים פיזור
תרשים פיזור
Signup and view all the flashcards
הממוצע בסולם רווח
הממוצע בסולם רווח
Signup and view all the flashcards
מרווחים בסולם סודר
מרווחים בסולם סודר
Signup and view all the flashcards
מרווחים בסולם רווח
מרווחים בסולם רווח
Signup and view all the flashcards
תשובות על מספר משתנים בתרשים פיזור
תשובות על מספר משתנים בתרשים פיזור
Signup and view all the flashcards
חקר נתונים (EDA)
חקר נתונים (EDA)
Signup and view all the flashcards
אשכול (Clustering)
אשכול (Clustering)
Signup and view all the flashcards
אלגוריתם DBSCAN
אלגוריתם DBSCAN
Signup and view all the flashcards
KMeans (K=4)
KMeans (K=4)
Signup and view all the flashcards
אנומליה (Anomaly detection)
אנומליה (Anomaly detection)
Signup and view all the flashcards
PCA
PCA
Signup and view all the flashcards
סולם סודר (Ordinal scale)
סולם סודר (Ordinal scale)
Signup and view all the flashcards
סולם רווח (Interval scale)
סולם רווח (Interval scale)
Signup and view all the flashcards
קופסה (Box Plot)
קופסה (Box Plot)
Signup and view all the flashcards
מתאם פירסון (Pearson)
מתאם פירסון (Pearson)
Signup and view all the flashcards
IQR (Interquartile Range)
IQR (Interquartile Range)
Signup and view all the flashcards
היסטוגרמה (Histogram)
היסטוגרמה (Histogram)
Signup and view all the flashcards
ספריית 'Pandas'
ספריית 'Pandas'
Signup and view all the flashcards
API (Application Programming Interface)
API (Application Programming Interface)
Signup and view all the flashcards
Vectorizer
Vectorizer
Signup and view all the flashcards
למידה לא מונחית (Unsupervised Learning)
למידה לא מונחית (Unsupervised Learning)
Signup and view all the flashcards
קבוצות (Clustering)
קבוצות (Clustering)
Signup and view all the flashcards
שיטת 'fillna' ב-Pandas
שיטת 'fillna' ב-Pandas
Signup and view all the flashcards
מדד משקל (Standard Deviation)
מדד משקל (Standard Deviation)
Signup and view all the flashcards
דרכי טעינת CSV
דרכי טעינת CSV
Signup and view all the flashcards
גרף לינארי (Linear Graph)
גרף לינארי (Linear Graph)
Signup and view all the flashcards
סיווג (Classification)
סיווג (Classification)
Signup and view all the flashcards
שיטת קרולינג (Crawling)
שיטת קרולינג (Crawling)
Signup and view all the flashcards
Study Notes
מבחן מועד א' - מבוא למדעי הנתונים
- תאריך הבחינה: 21/3/24
- משך הבחינה: שעתיים
- חומר עזר: מחשבון
- מבנה הבחינה: בחינה רב-ברירתית
- הוראות: יש לסמן את התשובה הנכונה מבין ארבע אפשרויות.
- מרצים: ד"ר יהונתן שלר, אינג' עידן טוביס
- מספר קורס: לא צוין
שאלות לדוגמה
- שאלה 1: מהי המטרה של ניתוח חקרני של נתונים (EDA)?
- תשובה נכונה: לזהות תבניות וקשרים בנתונים שאינם בהכרח מובנים מאליהם.
- שאלה 2: איזה אלגוריתם יאפשר לאשכול את הנתונים ל-4 קבוצות, כך שיתקבלו 2 קבוצות עבור העיניים, קבוצה עבור הפה וקבוצה עבור העיגול החיצוני?
- תשובה נכונה: K4 עם KMeans.
- שאלה 3: מה מהבאים נכון לגבי ההבדל בין סולם סודר (ordinal) וסולם רווח (interval)?
- תשובה נכונה: בסולם סודר אנחנו מודדים מעלות פרנהייט, בסולם רווח אנחנו מודדים מעלות צלזיוס.
- שאלה 4: אילו מחרוזות יחזיר הביטוי הרגולרי (regular expression) הבא: r'^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+.[a-zA-Z]{2,}$'
- תשובה נכונה: כתובות אימייל.
- שאלה 5: חברת צוות טוענת שאפשר להציג שלושה משתנים (מאפיינים / features) ויותר על תרשים פיזור (scatterplot). האם הטענה שלה נכונה?
- תשובה נכונה: כן, ניתן להציג יותר משני משתנים, ע"י מיקום, צורות, צבעים, גדלים וכו'.
- שאלה 6: מהו תרשים קופסה? (box plot)
- תשובה נכונה: טכניקה להצגת החציון, הרבעונים והטווח הבין-רבעוני.
- שאלה 7: מהו מתאם פירסון (pearson)?
- תשובה נכונה: מספר שמצביע לנו על קשר בין שני נתונים בסולם רווח או מנה.
- שאלה 8: חשבו את ה-IQR של הנתונים הבאים: [16,19,23,36,39,81,85,90]
- תשובה נכונה: 49
- שאלה 9: מה ניתן לומר על המתאם בין המאפיינים X1,X2 בכל אחד מהתרשימים הבאים?
- תשובה נכונה: בגרף הימני יש מתאם לינארי חיובי, בגרף האמצעי שלילי ובגרף השמאלי אפס.
- שאלה 10: איזו ספרייה בפייתון משמשת לביצוע אלגוריתמים של למידה בלתי מונחית?
- תשובה נכונה: SciPy.
- שאלה 11: נרצה ליצור dataset המכיל נתונים עבור מאפיינים של בגדים, לשם כך נרצה לבצע הרכשה של נתונים מאתר Shein. כיצד נוכל לעשות זאת?
- תשובה נכונה: נבדוק האם לאתר יש API. אם קיים, נשתמש בו. אם אין - נבצע crawling.
- שאלה 12: איך מיוצגים מאפיינים (features) ומופעים (dataframe (instances?
- תשובה נכונה: המאפיינים מיוצגים בעמודות, והמופעים בשורות.
- שאלה 13: איזו ספרייה מקובל לייבא כ-pd?
- תשובה נכונה: Pandas.
- שאלה 14: מה זה vectorizer?
- תשובה נכונה: אוביקט המסייע בהפיכה של מסמך טקסט ליצוג וקטורי של המילים בשיטת bag of words.
- שאלה 15: כיצד משפיעה הגדלת מספר התאים בהיסטוגרמה על ערכי התאים?
- תשובה נכונה: ככל שנגדיל את מספר התאים, ערכי התאים יהיו קטנים יותר.
- שאלה 16: מה השימוש המרכזי של ספריית requests בפייתון?
- תשובה נכונה: פניות HTTP או HTTPS לשרתי רשת.
- שאלה 17: לאחר הלימודים, התקבלתם לעבודה בחברת נטפליקס. קיבלתם משימה ממחלקת השיווק. הלקוחות מאופיינים לפי 50 תכונות שונות שנתונות לנו. ברצוננו לסדר את הלקוחות ב-5 קבוצות שונות, לפי הדמיון ביניהם. איך תסווגו את הבעיה?
- תשובה נכונה: הבעיה שייכת ללמידה לא מונחית (unsupervised learning) והיא מוגדרת בבעיית אשכול (clustering).
- שאלה 18: מה הדרך המועדפת מבין האפשרויות הבאות כדי למלא את הערבים החסרים בקוד הבא (במקום הפקודה הרשומה ב-XXXX)?
- תשובה נכונה: median.
- שאלה 19: כדי לטעון קובץ CSV לתוך מסגרת נתונים (dataframe) תשתמשו בפקודה הבא:
- תשובה נכונה: read_csv.
- שאלה 20: מבין המדדים הבאים, מהו מדד המשמש למדידת פיזור נתונים?
- תשובה נכונה: סטיית תקן.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Related Documents
Description
מבחן זה מתמקד בהבנת מושגי יסוד במדעי הנתונים. הוא כולל שאלות רב-ברירתיות על ניתוח נתונים, אלגוריתמים וסטטיסטיקה. הכנה טובה תסייע בבחינה ובפיתוח הבנה עמוקה יותר בתחום.