סיכום מדעי הנתונים PDF
Document Details
Uploaded by RighteousRadium2668
Holon Institute of Technology
Tags
Summary
סיכום של קורס מבוא למדעי הנתונים, העוסק בשיטות וטכניקות לניתוח נתונים, כמו ניתוח חקרני של נתונים, טיפול בערכים חסרים, ויזואליזציה, אשכולות, ויישומים. כולל דיון על כלים כגון Python, Pandas, NumPy, Scikit-learn, וכו'.
Full Transcript
עזר למידה לקורס מבוא למדעי הנתונים תקציר החומר: .1שלבי עבודת מדען הנתונים: א.מדעני נתונים פועלים בדרך כלל לפי תהליך מובנה: ...
עזר למידה לקורס מבוא למדעי הנתונים תקציר החומר: .1שלבי עבודת מדען הנתונים: א.מדעני נתונים פועלים בדרך כלל לפי תהליך מובנה: )1ניסוח שאלות מחקר :הגדרת היפותזה או שאלה שתנחה את הניתוח. )2הרכשת נתונים :איסוף נתונים מממשקי API,סריקת אתרים או מאגרי מידע. )3ניקוי והכנת הנתונים :טיפול בערכים חסרים ,חריגים ופורמטים לא אחידים. )4ניתוח חקרני של נתונים (EDA):שימוש בשיטות סטטיסטיות ובוויזואליזציות כדי לזהות תבניות וקשרים. )5ניתוח מתקדם :שימוש במודלים של למידת מכונה ,מבחנים סטטיסטיים או כלי ניתוח אחרים. )6דיווח והצגת התוצאות :הצגת ממצאים באמצעות ויזואליזציות ,סיכומים ומצגות. כלים מרכזיים ושפות תכנות: .2 א.פייתון ) - (Pythonשפת התכנות המרכזית במדעי הנתונים. ב - Jupyter Notebook.סביבה אינטראקטיבית לכתיבת קוד ,בדיקות ושיתוף תוצאות. ספריות פייתון: א( Pandas.ספריית פייתון) -כלי מרכזי לטיפול בניתוח ועיבוד נתונים ,באמצעות מבנים כמו DataFrameוSeries ב - NumPy.משמשת לחישובים נומריים ועבודה עם מערכים. גSeaborn.ו - Matplotlib -יצירת ויזואליזציות כמו תרשימי פיזור ,היסטוגרמות ותרשימי קופסה. ד - Scikit-learn.ספריית למידת מכונה הכוללת כלים לאשכול ,רגרסיה ,סיווג וצמצום ממדים. ה Requests.ו -BeautifulSoupלאיסוף נתונים מהרשת וסריקת אתרים. .3טכניקות ויזואליזציה של נתונים: א.תרשימי פיזור :הצגת קשרים בין משתנים נומריים. ב.היסטוגרמות :הצגת התפלגויות של נתונים ותדירותם. ג.תרשימי קופסה (Box Plots):הצגת חציון ,רבעונים וחריגים. ד.מפות חום (Heatmaps):ייצוג קשרים או עוצמת נתונים. .4יסודות סטטיסטיים א.סטטיסטיקה תיאורית :ממוצע ,חציון ,סטיית תקן וטווח בין-רבעוני(IQR). ב.מתאם פירסון :מדידת קשר ליניארי בין שני משתנים רציפים. ג.סולמות מדידה: )1נומינלי :קטגוריות ללא סדר. )2סודר :קטגוריות בסדר מסוים. )3אינטרוול :ערכים מספריים ללא אפס מוחלט (למשל טמפרטורה). )4יחס :ערכים מספריים עם אפס מוחלט (למשל משקל). .5למידת מכונה א.למידה מונחית (Supervised Learning):אלגוריתמים כמו רגרסיה ליניארית ,רגרסיה לוגיסטית ומודלים לסיווג. ב.למידה לא מונחית (Unsupervised Learning):שיטות כמו K-Means, DBSCANו -PCA לצמצום ממדים. ג.זיהוי חריגים (Outlier Detection):זיהוי נתונים חריגים. ד.הנדסת מאפיינים (Feature Engineering):בחירה ,יצירה או שינוי של מאפיינים לשיפור ביצועי המודל. .6הרכשת ועיבוד נתונים א.ממשקי - APIשימוש בממשקי RESTלקבלת נתונים מובנים. ב.סריקת אתרים (Web Crawling):אוטומציה של איסוף נתונים מאתרים באמצעות כלים כמו .BeautifulSoup ג.פורמטים לשמירת נתונים :קבצי ( CSVמבנה טבלאי) ו( -JSONמבנה היררכי. .7אתגרים נפוצים בעבודה עם נתונים א.טיפול בערכים חסרים באמצעות אימפוטציה (ממוצע ,חציון ,שכיח). ב.זיהוי וניהול חריגים. ג.עיצוב ואיחוד נתונים לצרכי ניתוח. .8יישומים ושימושים א.מודלים לחיזוי :זיהוי מגמות או התנהגויות (למשל ,חיזוי מכירות). ב.אשכולות (Clustering):קיבוץ ישויות דומות (למשל ,פילוח לקוחות). ג.ניתוח טקסט :עיבוד נתונים טקסטואליים (למשל ,ניתוח סנטימנט). למידת מכונה :הרחבה מפורטת למידת מכונה ) (Machine Learningהיא תחום במדעי הנתונים שמאפשר למערכות ללמוד ולשפר את ביצועיהן על בסיס נתונים קודמים ,ללא תכנות מפורש.התחום מתבסס על יצירת מודלים שמסוגלים לזהות תבניות ולהסיק מסקנות מתוך נתונים. סוגי למידת מכונה .1למידה מונחית)(Supervised Learning א.הגדרה :למידה ממערכת נתונים שבה כל דוגמה כוללת גם את התוצאה הרצויה (תווית או ערך).המטרה היא לחזות את הערכים או התוויות של נתונים חדשים. ב.יישומים: oרגרסיה (Regression):חיזוי ערכים רציפים ,כמו מחירי בתים ,טמפרטורה או מכירות. ▪ דוגמה: Linear Regression, Ridge Regression. oסיווג (Classification):סיווג נתונים לקטגוריות ,כמו זיהוי דואר זבל או סיווג מחלות. ▪ דוגמה : Logistic Regression, Decision Trees, Random Forests, SVM. ג.דוגמאות לשימושים: oחיזוי מחירי מניות. oזיהוי תמונות של חתולים וכלבים. oזיהוי הונאות בכרטיסי אשראי. .2למידה לא מונחית)(Unsupervised Learning א.הגדרה :למידה ממערכת נתונים ללא תוויות.המטרה היא לזהות תבניות או מבנים בנתונים. ב.יישומים: oאשכולות (Clustering):חלוקה לקבוצות של אובייקטים דומים ,כמו פילוח לקוחות. ▪ דוגמה: K-Means, DBSCAN, Hierarchical Clustering. oצמצום ממדים (Dimensionality Reduction):הקטנת כמות המשתנים לשם ניתוח יעיל יותר. ▪ דוגמה: Principal Component Analysis (PCA), t-SNE. ג.דוגמאות לשימושים: oניתוח התנהגות משתמשים באתרי אינטרנט. oזיהוי קבוצות גיאוגרפיות על סמך נתוני אוכלוסייה. .3למידת חיזוק)(Reinforcement Learning א.הגדרה :שיטה שבה המערכת לומדת דרך ניסוי וטעייה באמצעות קבלת חיזוקים חיוביים או שליליים (כמו משחק שחמט או ניווט רובוטים). ב.יישומים: oמשחקים( לדוגמה : AlphaGoשלGoogle). oניהול מערכות אוטומטיות (לדוגמה :ניהול תעבורה עירונית). רכיבי מפתח בלמידת מכונה .1נתונים)(Data א.איכות וכמות הנתונים משפיעות ישירות על ביצועי המודלים. ב.נתונים יכולים להיות נומריים ,קטגוריאליים ,טקסטואליים ,או תמונות. .2מודלים)(Models א.המודלים הם הפונקציות המתמטיות שמנבאות את התוצאה על סמך הנתונים. ב.דוגמה: Decision Trees, Neural Networks, Linear Models. .3תהליך אימון)(Training Process א.שלבים מרכזיים: oפיצול הנתונים לסט אימון ) (Trainingוסט בדיקה(Testing). oשימוש באלגוריתם למידת מכונה לאימון המודל על סט האימון. oהערכת ביצועי המודל על סט הבדיקה. .4מדדים להערכת מודלים)(Evaluation Metrics א.דיוק (Accuracy):אחוז התחזיות הנכונות. ב.דיוק ממוצע משוקלל (F1-Score):מדד משולב של דיוק ושלמות. גMSE (Mean Squared Error):.למדידת שגיאות במודלי רגרסיה. דROC Curve:.למדידת ביצועי מודלים לסיווג. אלגוריתמים נפוצים בלמידת מכונה .1רגרסיה ליניארית)(Linear Regression א.שימוש :חיזוי ערכים רציפים על ידי מציאת קו ישר שמתאר את הנתונים. ב.יישומים :חיזוי מחירי דירות ,חיזוי צריכת חשמל. .2רגרסיה לוגיסטית)(Logistic Regression א.שימוש :סיווג לקטגוריות בינאריות (למשל :כן/לא). ב.יישומים :זיהוי דואר זבל ,חיזוי הישרדות על ספינת הטיטניק. .3עצים בינאריים)(Decision Trees א.שימוש :סיווג נתונים על סמך סדרת החלטות. ב.יתרון :אינטואיטיבי להבנה וקל ליישום. .4יער אקראי)(Random Forest א.שימוש :שילוב של מספר עצי החלטה לקבלת תוצאה משופרת. ב.יישומים :חיזוי מחלות ,ניתוח סנטימנט טקסטואלי. SVM (Support Vector Machines).5 א.שימוש :הפרדת נתונים בעזרת קו חיץ אופטימלי. ב.יישומים :זיהוי פנים ,זיהוי פגמים במוצרים. K-Means Clustering.6 א.שימוש :חלוקת נתונים לקבוצות דומות. ב.יישומים :פילוח שוק ,זיהוי קבוצות גיאוגרפיות. שלבי עבודה על פרויקט למידת מכונה .1הבנת הבעיה והגדרת מטרות. .2איסוף נתונים רלוונטיים. .3ניקוי והכנת נתונים: oטיפול בערכים חסרים. oזיהוי וניהול של חריגים. oהמרת סוגי נתונים. .4בחירת אלגוריתם מתאים לאופי הבעיה. .5אימון המודל והערכת ביצועים. .6שיפור המודל(Tuning): oשינוי היפר-פרמטרים. oהוספת מאפיינים או מחיקתם. .7פריסה ושימוש במודל. שאלות ממבחנים תשובה נכונה :א.לזהות תבניות וקשרים בנתונים שאינם בהכרח מובנים מאליהם. הסבר: )EDA (Exploratory Data Analysisהוא שלב חשוב בתהליך ניתוח נתונים שבו חוקרים את המידע הגולמי כדי להבין אותו טוב יותר.המטרה היא לזהות תבניות ,מגמות ,קורלציות ,ואנומליות ,שיכולים לספק תובנות ראשוניות על הנתונים.לדוגמה ,אם יש לך נתונים על מכירות של חנות ,ניתוח EDAיכול לגלות שמכירות מסוימות גבוהות במיוחד בחגים או שיש הבדל משמעותי בין מכירות גברים לנשים. תשובה נכונה :א הסבר: DBSCAN (Density-Based Spatial Clustering of Applications with Noise): oמזהה קבוצות על סמך צפיפות הנקודות. oאינו דורש להגדיר מספר קבוצות מראש. oמתאים לנתונים בצורות לא סטנדרטיות (כמו עיגול או קשת). למה זה מתאים? DBSCANיכול לזהות את המבנה הלא רגיל של הנתונים (עיגול ,עיניים ופה) ללא תלות במיקום או בגודל. לכן ,זו תשובה נכונה. תשובה נכונה :א.בסולם סודר אפשר לחשב שכיח ובסולם רווח אפשר לחשב גם ממוצע. הסבר: סולם סודר מתאים למידע שיש לו סדר ,כמו דירוגים (למשל" ,טוב"" ,בינוני"" ,גרוע") ,אך המרווחים בין הערכים אינם מוגדרים.בסולם רווח המרווחים מוגדרים ,ולכן אפשר לבצע חישובים כמו ממוצע.לדוגמה, טמפרטורות בציוני צלזיוס הן סולם רווח ,כי ההפרשים בין הערכים משמעותיים. תשובה נכונה :א.כתובות אימייל. הסבר: ביטויים רגולריים ) (Regular Expressionsהם כלים לזיהוי או התאמת טקסט לתבניות מסוימות.הביטוי שנתון כאן מזהה כתובות דוא"ל על פי מבנה סטנדרטי :שם משתמש ,סימן @ ודומיין( כגוןgmail.com). תשובה נכונה :א.כן ,ע"י משתנים דו-ממדיים ועוד מיקום ,צבעים וכו'. הסבר: תרשים פיזור ) (scatterplotמציג שני משתנים (xו -y).כדי להוסיף משתנה שלישי ,אפשר להשתמש באלמנטים חזותיים נוספים כמו צבעים ,גדלי הנקודות ,או צורות שונות. תשובה נכונה :א.טכניקה להצגת החציון ,הרבעונים והטווח הבין-רבעוני. הסבר: תרשים קופסה מציג סיכום של נתונים סטטיסטיים בצורה גרפית.הוא מראה את החציון ,את הרבעונים ( 25%ו )75%-ואת המרווח בין הקצוות (Interquartile Range),ובכך מספק תמונה מהירה של פיזור הנתונים. תשובה נכונה :א.מספר שמצביע על קשר בין שני נתונים בסולם רווח או מנה. הסבר: מתאם פירסון מודד קשר לינארי בין שני משתנים.הוא נע בין ( 1-קשר שלילי מושלם) ל( 1-קשר חיובי מושלם) ,כאשר 0מצביע על היעדר קשר.לדוגמה ,אפשר לבדוק את הקשר בין שעות לימוד לציונים. תשובה נכונה :א62. שיטת חישוב: וידוא שהנתונים ממוינים סך הכל פריטי נתונים – 8 מיקום ה 8( 2 - 25%כפול 25לחלק ל | )100הערך באינדקס 23 – 2 מיקום ה | 6 - 75%הערך באינדקס 85 – 6 62=85-23 הסבר: )IQR (Interquartile Rangeהוא המרווח בין הרבעון הראשון ) (Q1לרבעון השלישי (Q3).הוא מייצג את הטווח המרכזי של הנתונים שבו נמצאים 50%מהערכים. תשובה נכונה :ב.בגרף הימני יש מתאם חיובי ,האמצעי שלילי והשמאלי אפס . הסבר: מתאם מתאר את עוצמת וכיוון הקשר בין משתנים.גרף עם מתאם חיובי יראה מגמה עולה ,שלילי יראה מגמה יורדת ,ואפס מעיד שאין קשר ברור. תשובה נכונה :א. Sklearn. הסבר: Sklearnאו Scikit-learnהיא ספרייה שמספקת כלים רבים ללמידת מכונה ,כולל אלגוריתמים של למידה בלתי מונחית כמו clusteringו-PCA. תשובה נכונה :א.לבדוק אם יש APIואז לבצע crawlingאם אין. הסבר: הרכשה ) (data acquisitionשל נתונים מאתר מתבצעת בצורה מתוכננת :תחילה מחפשים APIרשמי ,ואם אין ,מבצעים web crawlingעם כלים כמוBeautifulSoup. תשובה נכונה :א.המאפיינים בעמודות והמופעים בשורות. הסבר: במבנה נתונים של DataFrame,עמודות מייצגות מאפיינים (לדוגמה ,גיל ,מין ,משקל) ,ושורות מייצגות מופעים (לדוגמה ,אנשים שונים). תשובה נכונה :א. Pandas. הסבר: Pandasהיא ספרייה לניתוח נתונים שמאפשרת עבודה עם מבנים כמו DataFrameוסדרות. נכתוב בדרך כלל import pandas as pd תשובה נכונה :א.אובייקט שמסייע בהפיכת טקסט לוקטורי בשיטתbag of words. הסבר: Vectorizerמשמש לייצוג טקסטים בצורה מספרית כדי שניתן יהיה להשתמש בהם באלגוריתמים של למידת מכונה. הרחבה: תשובה נכונה :א.ככל שנגדיל את מספר התאים ,ערכי התאים יהיו קטנים יותר. הסבר: היסטוגרמה מחלקת נתונים לקבוצות (תאים).הגדלת מספר התאים מפחיתה את כמות הנתונים בכל תא. תשובה נכונה :א.פניות HTTPאו HTTPSלשרתי רשת. הסבר: Requestsמשמשת לשליחה וקבלה של מידע משרתי אינטרנט ,לדוגמה ,כדי להוריד נתונים מאתרים. תשובה נכונה :א.בעיית למידה בלתי מונחית(clustering). הסבר: Clusteringמסווג נתונים לקבוצות על בסיס דמיון בין הנתונים ,בלי לדעת מראש מהן הקבוצות. תשובה נכונה :א. median. הסבר: מילוי ערכים חסרים עם החציון שומר על יציבות הנתונים ,במיוחד כשהם מכילים ערכים חריגים. תשובה נכונה :א. read_csv. הסבר: פקודת read_csvהיא הדרך הנפוצה לטעינת נתוני CSVלתוך DataFrameבפייתון. תשובה נכונה :א.סטיית תקן. הסבר: סטיית תקן מודדת עד כמה הערכים בנתונים מתפזרים סביב הממוצע. תשובה נכונה :א . K-MeansעםK=4. הסבר: הגרף מציג 4קבוצות מובחנות שניתן לחלק בצורה פשוטה עם K-Meansאם נבחר K=4K=4K=4.בעוד DBSCANמתאים למקרים מורכבים יותר , K-Meansהוא הפתרון הפשוט והאפקטיבי ביותר במצב זה. תשובה נכונה :א.בגרף הימני יש מתאם לינארי אפס ,האמצעי והשמאלי חיוביים. הסבר: מתאם לינארי שלילי מתאר מצב שבו ככל שערך של משתנה אחד עולה ,הערך של השני יורד.מתאם חיובי מראה מגמה הפוכה (שניהם עולים יחד) ,ואילו אפס מצביע על היעדר קשר ברור. תשובה נכונה :א.ניסוח שאלת מחקר. הסבר: ניסוח שאלה ברורה הוא הבסיס לכל מחקר.זה עוזר להתמקד במטרה ולבחור את הכלים והטכניקות הנכונות. שובה נכונה :א.למצוא מילים שמתחילות באות גדולה וממשיכות באותיות קטנות. הסבר: הביטוי הרגולרי מחפש תבניות של מילים ) (bשמתחילות באות גדולה ) (A-Zוממשיכות באותיות קטנות (a-z). תשובה נכונה :א . הסבר: הביטוי הרגולרי מזהה מספרים שלמים ואחריהם עשרוניים ,עם רווח או פסיק ביניהם ,כמו בדוגמאות הנתונות. תשובה נכונה :א.יש להשתמש בתרשימי עוגה להצגת הרכב שלם למספר קטגוריות מועטות. הסבר: תרשים עוגה מתאים להמחשת חלקים מתוך השלם כאשר יש מספר מוגבל של קטגוריות. תשובה נכונה :א. get_text(). הסבר: הפונקציה )( get_textמחלצת את הטקסט הפנימי של אלמנט HTML,ללא קוד נוסף. תשובה נכונה :א. Class. הסבר: ב -HTML,המאפיין " "classמשמש להגדרת סגנונות ואיפיון אלמנטים באמצעות CSSאוJavaScript. תשובה נכונה :א תשובה נכונה :א. shape. הסבר: המאפיין shapeמחזיר זוג ערכים :מספר השורות )] (shape[0ומספר העמודות(shape). תשובה נכונה :א. הסבר: Modeהוא הפתרון המתאים ביותר במקרה זה ,כי הוא אינו תלוי אם הנתונים הם מספריים או טקסטואליים (יחזיר את הערך השכיח 1או .)2 Medianדורש ערכים מספריים בלבד ,ולכן אינו מתאים לשאלה. הרחבה: תשובה נכונה :א.הורדת מימדים(dimension reduction). הסבר: כאשר יש מספר גדול של מאפיינים ,משתמשים בטכניקות כמו PCAלהקטנת מספר המימדים תוך שמירה על המידע החשוב. תשובה נכונה :א.סולם מנה. הסבר: סולם מנה מאפשר לבצע חישובים כמו יחס בין ציונים (למשל ,תלמיד אחד קיבל ציון כפול מאחר). תשובה נכונה :א.נראה פחות נתונים חריגים. הסבר: הערך whisמשפיע על טווח הזיהוי של ערכים חריגים.ערך גבוה יותר מרחיב את הטווח ומקטין את כמות החריגים. תשובה נכונה :א.חציון(median). הסבר: החציון אינו מושפע מערכים חריגים ולכן מתאים להתפלגויות עם צידוד גבוה כמו משכורות. תשובה נכונה :א( . Dictionaryמילון). הסבר: מילון בפייתון מתאים לאחסון נתונים בפורמט מפתח-ערך ,כמו {"שם"" :דוד"}. תשובה נכונה :א.פייתון. הסבר: פייתון היא השפה המובילה במדעי הנתונים בזכות הספריות המגוונות שלה ,כמו Pandas, NumPyו- Sklearn. תשובה נכונה :א. sort_values(). הסבר: הפונקציה )( sort_valuesמאפשרת למיין DataFrameלפי עמודה נבחרת. תשובה נכונה :א.המדידה העשירית לאחר מיון הנתונים. הסבר: כדי לחשב אחוזון ,ממיינים את הנתונים ובוחרים את הערך במיקום המתאים ליחס המבוקש ( 20%מתוך 49זה בערך .)10 תשובה נכונה :א הסבר: ע"פ הפירוט לעיל תשובה נכונה :א. Series. הסבר: ב -Pandas, Seriesהוא מבנה נתונים חד-מימדי שניתן לראות אותו כרשימה ממוספרת עם אינדקסים. לעומת זאת , DataFrameהוא מבנה דו-מימדי (טבלה). תשובה נכונה :א.תהליך זיהוי ערכים החורגים באופן משמעותי מיתר הערכים. הסבר: זיהוי חריגים ) (Outliersהוא תהליך חשוב בניתוח נתונים שבו מאתרים ערכים שלא תואמים למגמות הכלליות של הנתונים. חריגים יכולים להצביע על שגיאות או תופעות מעניינות. תשובה נכונה :א.כל התשובות נכונות. הסבר: למידה לא מונחית משמשת לבעיות כמו עיבוד תמונה ,עיבוד שפה טבעית ,וביולוגיה חישובית, בזיהוי דפוסים וקשרים בנתונים. : תשובה נכונה 2 True False לא קיימת תשובה כזו בתשובות (הקוד נבדק) תשובה נכונה :א. PCA (Principal Component Analysis). הסבר: PCAהוא אלגוריתם למידה לא מונחית המשמש להפחתת ממדים. רגרסיות לוגיסטיות וליניאריות הן אלגוריתמי למידה מונחית. תשובה נכונה :א. df.shape. הסבר: הפקודה shapeמחזירה טאפאל עם מספר השורות והעמודות. sizeמחזירה את מספר התאים הכולל. תשובה נכונה :א.ספרייתseaborn. הסבר: Snsהוא הקיצור המקובל לייבוא של ספריית Seabornהמשמשת ליצירת גרפים ויזואליים מתקדמים. תשובה נכונה :א. to_csv. הסבר: הפונקציה to_csvמשמשת לכתיבת נתונים מקובץ DataFrameלקובץCSV. התשובה הנכונה :א הסבר :ארוך מידיי תשובה נכונה :א.הערך השכיח. הסבר: בנתונים קטגוריאליים נהוג למלא את הערכים החסרים בערך השכיח (Mode),שהוא הערך הנפוץ ביותר. תשובה נכונה :ד.כל התשובות נכונות. הסבר: requests, BeautifulSoup,ו -Seleniumהם כלים נפוצים לאינטראקציה עם נתונים מ -API או אתרים. תשובה נכונה :א.לזהות דפוסים וקשרים בנתונים. הסבר: Clusteringמשמש לחלוקה של נתונים לקבוצות על פי דמיון ביניהם. תשובה נכונה :א.הצגת שכיחות של ערכים רציפים. הסבר: היסטוגרמה מציגה את התפלגות הערכים באמצעות עמודות. תשובה נכונה :א.פורמט אפשרי לקבלת תשובה משאילתא. הסבר: JSONהוא פורמט נפוץ להחלפת מידע במערכותWeb-API. תשובה נכונה :א תשובה נכונה :ד.כל התשובות נכונות. הסבר: הביטוי יכול לזהות שמות באנגלית ,כתובות URL,וכתובות דוא"ל. תשובה נכונה :א.לזהות תבניות וקשרים שאינם מובנים מאליהם. הסבר: EDAמשמש לחקירת הנתונים ולמציאת תובנות ראשוניות. תשובה נכונה :א.הרכשת נתונים. הסבר: לאחר ניסוח שאלת המחקר ,יש לאסוף נתונים רלוונטיים. שאלה :19אילו סוגי נתונים ניתן לאחסן ב?-DataFrame תשובה נכונה :א.כל התשובות נכונות. הסבר: DataFrameיכול להכיל מספרים ,טקסט ,תאריכים ועוד. שאלה :20איזה מבנה נתונים בלתי ניתן לשינוי? תשובה נכונה :א. Tuple. הסבר: (Tupleטאפל) הוא מבנה נתונים שאינו ניתן לשינוי ,בשונה מרשימות או מילונים.