מבחן מועד א' - מבוא למדעי הנתונים
28 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

מהי המטרה העיקרית של ניתוח חקרני של נתונים (EDA)?

  • למצוא את הסיבה הדומיננטית לכל תופעה ולזהות את הגורם המרכזי שמשפיע עליה.
  • לבדוק את התפלגות הנתונים וליצור השערות לגבי מערכות יחסים אפשריות בין משתנים. (correct)
  • לזהות נתונים חריגים (אנומליות) וטפל בהן.
  • ליצור גרפים וטבלאות יפות ומקצועיות לפרסום המחקר.

איזה מודל למידה מכונה יהיה המתאים ביותר לחיזוי תוצאות מבחן לאחר ניתוח נתונים של סטודנטים, כולל ציונים בבחינות קודמות, שעות לימוד, נוכחות בשיעורים ומידת השימוש בחומרים?

  • רגרסיה לינארית (correct)
  • אשכול (clustering)
  • עץ החלטה
  • התאמת פרופיל (פרופילציה)

מהו היתרון העיקרי של שימוש במודל אשכול (clustering) בנתונים?

  • הוא מאפשר לזהות באופן מדויק את הגורמים המשפיעים על תוצאה מסוימת.
  • הוא תמיד יחזיר את התוצאה המדויקת ביותר ויפתור את כל בעיות הניתוח.
  • הוא יכול לחשוף קבוצות נתונים לא מוכרות בעלות מאפיינים משותפים, גם אם לא ידועים מראש. (correct)
  • הוא יביא לשימוש במודלים אחרים, כמו רגרסיה, לקבלת תוצאות מדויקות עוד יותר.

איזה מהבאים לא נחשב ככלי מתאים לניתוח נתונים חקרני?

<p>מודל רגרסיה לינארית (A)</p> Signup and view all the answers

איזה משפט נכון לגבי דיסקטיבציה?

<p>דיסקטיבציה היא תהליך של חלוקת מערך נתונים גדול למספר קטן יותר של מערכי נתונים. (B)</p> Signup and view all the answers

איזה מהבאים אינו יתרון של שימוש במודלים של למידה מכונה?

<p>היכולת ליצור מודלים גמישים וקלים להבנה ולתפעול. (B)</p> Signup and view all the answers

מתי נבחר להשתמש באלגוריתם DBSCAN (Density-Based Spatial Clustering of Applications with Noise) לביצוע אשכול (clustering)?

<p>כאשר קיימות צורות מורכבות של אשכולות, עם צפיפות שונה, כולל קבוצות קטנות או גדולות. (B)</p> Signup and view all the answers

מהו היתרון העיקרי של ניתוח רכיבים ראשיים (PCA) על פני אשכול (clustering)?

<p>PCA מוצא אשכולות עם מספר קטן יותר של מאפיינים. (D)</p> Signup and view all the answers

אילו מהטענות הבאות נכונות לגבי סולם סודר?

<p>בסולם סודר ניתן לחבר ולחסר, אך לא לכפול או לחלק. (A), בסולם סודר ניתן להשוות בין ערכים, אך לא למדוד את המרחק ביניהם. (C)</p> Signup and view all the answers

מהם הערכים האפשריים שיתקבלו כאשר הביטוי הרגולרי '^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+.[a-zA-Z]{2,}$' יופעל על מחרוזת?

<p>רק כתובות אימייל תקינות. (B)</p> Signup and view all the answers

מהו הבסיס לתرשים פיזור?

<p>תרשים פיזור הוא גרף דו-מימדי שמציג את הקשר בין שני משתנים נומריים. (D)</p> Signup and view all the answers

מהו תרשים קופסה?

<p>תרשים קופסה מציג את התפלגות הנתונים בצורה חזותית, תוך הדגשת רבעונים, מינימום ומקסימום. (A)</p> Signup and view all the answers

האם ניתן להציג יותר משני משתנים בתרשים פיזור?

<p>כן, ניתן להציג שלושה משתנים בתרשים פיזור, תוך שימוש בצבעים, גדלים או צורות כדי להבחין בין הערכים השלישיים. (A)</p> Signup and view all the answers

אילו מהטבלאות הבאות מייצגות סולם רווח?

<p>טבלה שמראה את גובהם של התלמידים. (C)</p> Signup and view all the answers

מה ההבדל העיקרי בין סולם סודר לסולם רווח?

<p>ההבדל העיקרי הוא שבסולם רווח יש נקודת אפס מוחלטת, בעוד שבסולם סודר אין נקודת אפס מוחלטת. (B)</p> Signup and view all the answers

מהו מתאם פירסון? (‪pearson correlation)

<p>מספר שמצביע לנו על קשר (קורלציה ‪ /‬מתאם) בין שני נתונים בסולם רווח או מנה (A)</p> Signup and view all the answers

מה ניתן לומר על המתאם בין המאפיינים ‪ X1, X2‬בכל אחד מהתרשימים הבאים?

<p>בגרף הימני יש מתאם לינארי שלילי‪ ,‬בגרף האמצעי חיובי ובגרף השמאלי אפס (D)</p> Signup and view all the answers

מהו התפקיד של ספריית ‪Sklearn‬ בפייתון?

<p>היא משמשת לביצוע אלגוריתמים של למידה בלתי מונחית (D)</p> Signup and view all the answers

איך מיוצגים מאפיינים (‪ features‬ומופעים (‪ instances‬ב‪?dataframe‬

<p>המאפיינים מיוצגים בעמודות והמופעים בשורות (A)</p> Signup and view all the answers

מה זה ‪?vectorizer‬

<p>אוביקט המסייע בהפיכה של מסמך טקסט ליצוג וקטורי של המילים בשיטת ‪ bag of words‬ (D)</p> Signup and view all the answers

כדי לטעון קובץ CSV לתוך מסגרת נתונים (dataframe) תשתמשו בפקודה הבאה:

<p>read_csv (A)</p> Signup and view all the answers

לאחר הלימודים, קיבלתם עבודה בחברת נטפליקס. קיבלתם משימה ממחלקת השיווק. הלקוחות מאופיינים לפי 50 תכונות שונות שנתונות לנו. ברצוננו לסדר את הלקוחות ב5 קבוצות שונות, לפי הדמיון ביניהם. איך תסווגו את הבעיה?

<p>הבעיה שייכת ללמידה לא מונחית (unsupervised learning) והיא מוגדרת כבעיית אשכול (clustering) (D)</p> Signup and view all the answers

מהו השימוש המרכזי של ספריית ‪requests‬בפייתון?

<p>פניות HTTP או HTTPS לשרתי רשת (D)</p> Signup and view all the answers

מה הדרך המועדפת מבין האפשרויות הבאות כדי למלא את הער values החסרים בקוד הבא (במקום הפקודה הרשומה כ XXXX)?

import pandas as pd

df = pd.DataFrame({'A': [1, 2, None, 4]})
df['A'].fillna(df['A'].XXXX(), inplace=True)

<p>median (D)</p> Signup and view all the answers

כיצד משפיעה הגדלת מספר התאים בהיסטוגרמה על ערכי התאים (כלומר, גובה העמודות המייצגות את כמות הדגימות בכל תא)?

<p>ככל שנגדיל את מספר התאים אז ערכי התאים יהיו קטנים יותר. (B)</p> Signup and view all the answers

איזו ספרייה בפייתון מקובל לייבא כ ‪?pd‬

<p>Pandas (D)</p> Signup and view all the answers

חשבו את ה ‪ IQR‬של הנתונים הבאים‪[16,19,23,36,39,81,85,90]:‬‬

<p>49 (D)</p> Signup and view all the answers

מהו תפקידו של ‪ box plot‬?

<p>טכניקה להצגת החציון, הרבעונים והטווח הבין רבעוני (D)</p> Signup and view all the answers

Flashcards

סולם סודר

סולם מדידה שאין בו ממש מרווחים, ניתן לחבר ולחסר.

סולם רווח

סולם מדידה עם מרווחים שיכולים להיות ממשיים, ניתן לחבר, לחסר, לכפול ולחלק.

כתובת אימייל

ביטוי רגולרי המייצג פורמט של כתובת דואר אלקטרוני.

תרשים פיזור

גרף דו-מימדי שמציג משתנים על צירים X ו-Y.

Signup and view all the flashcards

הממוצע בסולם רווח

ביכולת לחשב ממוצע בסולם רווח, בניגוד לסולם סודר.

Signup and view all the flashcards

מרווחים בסולם סודר

מרווחים בסולם סודר הם תמיד שלמים ולא ממשיים.

Signup and view all the flashcards

מרווחים בסולם רווח

מרווחים בסולם רווח יכולים להיות גם ממשיים.

Signup and view all the flashcards

תשובות על מספר משתנים בתרשים פיזור

אפשר להציג 2 משתנים על צירים ויותר באמצעות צבעים וגדלים.

Signup and view all the flashcards

חקר נתונים (EDA)

תהליך לזיהוי תבניות וכוללת קשרים בנתונים שאינם واضحة מההתחלה.

Signup and view all the flashcards

אשכול (Clustering)

שיטת ניתוח נתונים לקבוצות דומות לפי תכונות.

Signup and view all the flashcards

אלגוריתם DBSCAN

אלגוריתם לקיבוץ נתונים לפי צפיפות ולא לפי מספר קבוצות.

Signup and view all the flashcards

KMeans (K=4)

אלגוריתם אשכולת נתונים המשרו את הנתונים ל-K קבוצות.

Signup and view all the flashcards

אנומליה (Anomaly detection)

שיטת זיהוי חריגות בנתונים שאינן תואמות לתבניות הרגילות.

Signup and view all the flashcards

PCA

שיטה להורדת ממדים של נתונים תוך שמירה על המשתנים החשובים ביותר.

Signup and view all the flashcards

סולם סודר (Ordinal scale)

סולם מדידה בו הסדר חשוב, אך המרווחים לא מדודים באופן מדויק.

Signup and view all the flashcards

סולם רווח (Interval scale)

סולם שבו המרווחים בין הערכים נמדדים באופן שווה, אך אין נקודת אפס מוחלטת.

Signup and view all the flashcards

קופסה (Box Plot)

טכניקת הצגת החציון, הרבעונים והטווח הבין רבעוני של נתונים.

Signup and view all the flashcards

מתאם פירסון (Pearson)

מספר שמעיד על הקורלציה בין שני נתונים בסולם רווח או מנה.

Signup and view all the flashcards

IQR (Interquartile Range)

המרחק בין הרבעון הראשון לשלישי במדדים, המציין פיזור נתונים.

Signup and view all the flashcards

היסטוגרמה (Histogram)

גרף המייצג את כמות הדגימות בכל טווח או תא.

Signup and view all the flashcards

ספריית 'Pandas'

ספרייה בפייתון לעיבוד וניתוח נתונים באמצעות DataFrames.

Signup and view all the flashcards

API (Application Programming Interface)

ממשק המאפשר אינטראקציה עם שירותים וקבצים באינטרנט.

Signup and view all the flashcards

Vectorizer

אוביקט שממיר טקסט לייצוג וקטורי באמצעות bag of words.

Signup and view all the flashcards

למידה לא מונחית (Unsupervised Learning)

למידה בה המודל מזהה דפוסים ללא תוויות ידועות.

Signup and view all the flashcards

קבוצות (Clustering)

שיטה בה נתונים מסודרים לקבוצות על סמך דמיון.

Signup and view all the flashcards

שיטת 'fillna' ב-Pandas

שיטה למילוי ערכים חסרים במידע ממסגרות נתונים.

Signup and view all the flashcards

מדד משקל (Standard Deviation)

מדד שמצביע על פיזור נתונים סביב ממוצע.

Signup and view all the flashcards

דרכי טעינת CSV

שימוש בפקודת read_csv לטעינת קובץ CSV ב-Pandas.

Signup and view all the flashcards

גרף לינארי (Linear Graph)

גרף המראה קשר ישיר בין שני משתנים.

Signup and view all the flashcards

סיווג (Classification)

הליך בו המודל מזהה ואוטם נתונים לקבוצות על פי תוויות ידועות.

Signup and view all the flashcards

שיטת קרולינג (Crawling)

תהליך לאיסוף נתונים מאתרים ללא API.

Signup and view all the flashcards

Study Notes

מבחן מועד א' - מבוא למדעי הנתונים

  • תאריך הבחינה: 21/3/24
  • משך הבחינה: שעתיים
  • חומר עזר: מחשבון
  • מבנה הבחינה: בחינה רב-ברירתית
  • הוראות: יש לסמן את התשובה הנכונה מבין ארבע אפשרויות.
  • מרצים: ד"ר יהונתן שלר, אינג' עידן טוביס
  • מספר קורס: לא צוין

שאלות לדוגמה

  • שאלה 1: מהי המטרה של ניתוח חקרני של נתונים (EDA)?
    • תשובה נכונה: לזהות תבניות וקשרים בנתונים שאינם בהכרח מובנים מאליהם.
  • שאלה 2: איזה אלגוריתם יאפשר לאשכול את הנתונים ל-4 קבוצות, כך שיתקבלו 2 קבוצות עבור העיניים, קבוצה עבור הפה וקבוצה עבור העיגול החיצוני?
    • תשובה נכונה: K4 עם KMeans.
  • שאלה 3: מה מהבאים נכון לגבי ההבדל בין סולם סודר (ordinal) וסולם רווח (interval)?
    • תשובה נכונה: בסולם סודר אנחנו מודדים מעלות פרנהייט, בסולם רווח אנחנו מודדים מעלות צלזיוס.
  • שאלה 4: אילו מחרוזות יחזיר הביטוי הרגולרי (regular expression) הבא: r'^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+.[a-zA-Z]{2,}$'
    • תשובה נכונה: כתובות אימייל.
  • שאלה 5: חברת צוות טוענת שאפשר להציג שלושה משתנים (מאפיינים / features) ויותר על תרשים פיזור (scatterplot). האם הטענה שלה נכונה?
    • תשובה נכונה: כן, ניתן להציג יותר משני משתנים, ע"י מיקום, צורות, צבעים, גדלים וכו'.
  • שאלה 6: מהו תרשים קופסה? (box plot)
    • תשובה נכונה: טכניקה להצגת החציון, הרבעונים והטווח הבין-רבעוני.
  • שאלה 7: מהו מתאם פירסון (pearson)?
    • תשובה נכונה: מספר שמצביע לנו על קשר בין שני נתונים בסולם רווח או מנה.
  • שאלה 8: חשבו את ה-IQR של הנתונים הבאים: [16,19,23,36,39,81,85,90]
    • תשובה נכונה: 49
  • שאלה 9: מה ניתן לומר על המתאם בין המאפיינים X1,X2 בכל אחד מהתרשימים הבאים?
    • תשובה נכונה: בגרף הימני יש מתאם לינארי חיובי, בגרף האמצעי שלילי ובגרף השמאלי אפס.
  • שאלה 10: איזו ספרייה בפייתון משמשת לביצוע אלגוריתמים של למידה בלתי מונחית?
    • תשובה נכונה: SciPy.
  • שאלה 11: נרצה ליצור dataset המכיל נתונים עבור מאפיינים של בגדים, לשם כך נרצה לבצע הרכשה של נתונים מאתר Shein. כיצד נוכל לעשות זאת?
    • תשובה נכונה: נבדוק האם לאתר יש API. אם קיים, נשתמש בו. אם אין - נבצע crawling.
  • שאלה 12: איך מיוצגים מאפיינים (features) ומופעים (dataframe (instances?
    • תשובה נכונה: המאפיינים מיוצגים בעמודות, והמופעים בשורות.
  • שאלה 13: איזו ספרייה מקובל לייבא כ-pd?
    • תשובה נכונה: Pandas.
  • שאלה 14: מה זה vectorizer?
    • תשובה נכונה: אוביקט המסייע בהפיכה של מסמך טקסט ליצוג וקטורי של המילים בשיטת bag of words.
  • שאלה 15: כיצד משפיעה הגדלת מספר התאים בהיסטוגרמה על ערכי התאים?
    • תשובה נכונה: ככל שנגדיל את מספר התאים, ערכי התאים יהיו קטנים יותר.
  • שאלה 16: מה השימוש המרכזי של ספריית requests בפייתון?
    • תשובה נכונה: פניות HTTP או HTTPS לשרתי רשת.
  • שאלה 17: לאחר הלימודים, התקבלתם לעבודה בחברת נטפליקס. קיבלתם משימה ממחלקת השיווק. הלקוחות מאופיינים לפי 50 תכונות שונות שנתונות לנו. ברצוננו לסדר את הלקוחות ב-5 קבוצות שונות, לפי הדמיון ביניהם. איך תסווגו את הבעיה?
    • תשובה נכונה: הבעיה שייכת ללמידה לא מונחית (unsupervised learning) והיא מוגדרת בבעיית אשכול (clustering).
  • שאלה 18: מה הדרך המועדפת מבין האפשרויות הבאות כדי למלא את הערבים החסרים בקוד הבא (במקום הפקודה הרשומה ב-XXXX)?
    • תשובה נכונה: median.
  • שאלה 19: כדי לטעון קובץ CSV לתוך מסגרת נתונים (dataframe) תשתמשו בפקודה הבא:
    • תשובה נכונה: read_csv.
  • שאלה 20: מבין המדדים הבאים, מהו מדד המשמש למדידת פיזור נתונים?
    • תשובה נכונה: סטיית תקן.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Description

מבחן זה מתמקד בהבנת מושגי יסוד במדעי הנתונים. הוא כולל שאלות רב-ברירתיות על ניתוח נתונים, אלגוריתמים וסטטיסטיקה. הכנה טובה תסייע בבחינה ובפיתוח הבנה עמוקה יותר בתחום.

More Like This

Use Quizgecko on...
Browser
Browser