טיפול בנתונים, EDA' למידת מכונה PDF
Document Details
Uploaded by RighteousRadium2668
Holon Institute of Technology
Tags
Summary
המסמך מתאר טכניקות לטיפול בנתונים חסרים, כפילויות ונתונים חריגים, וכן המרת סוגי נתונים. הוא מציג שיטות בסיסיות באמצעות Python, ומספק דוגמאות קוד.
Full Transcript
טיפול בנתונים-נתונים חסרים ,כפילויות בנתונים ,נתונים חריגים ,המרת סוגי נתונים טיפול בנתונים הוא שלב קריטי בתהליך ניתוח הנתונים ,שבו מבטיחים שהנתונים יהיו מדויקים ,עקביים ומוכנים לניתוח.התהליך כולל התמודדות עם בעיות כמו נתונים חסרים ,כפילויות ,נתונים חריגים,...
טיפול בנתונים-נתונים חסרים ,כפילויות בנתונים ,נתונים חריגים ,המרת סוגי נתונים טיפול בנתונים הוא שלב קריטי בתהליך ניתוח הנתונים ,שבו מבטיחים שהנתונים יהיו מדויקים ,עקביים ומוכנים לניתוח.התהליך כולל התמודדות עם בעיות כמו נתונים חסרים ,כפילויות ,נתונים חריגים, והמרת סוגי נתונים. .1נתונים חסרים ()Missing Data מהם נתונים חסרים? נתונים חסרים מופיעים כאשר אין ערכים באחד או יותר מהשדות בטבלה.הם עשויים להיגרם מטעויות איסוף נתונים ,שגיאות מערכת ,או מדיניות עסקית. טכניקות לטיפול בנתונים חסרים: .1מחיקת נתונים חסרים: ○ שימוש :כאשר יש מעט מאוד נתונים חסרים ,או כאשר הם חסרים במאפיינים פחות חשובים. ○ שיטות: )(dropnaב Pandas-למחיקת שורות או עמודות. python CopyEdit #מוחק שורות עם ערכים חסרים )(df = df.dropna ○ .2השלמת ערכים חסרים (:)Imputation ○ שימוש :כאשר לא רוצים למחוק נתונים ,ניתן למלא ערכים חסרים בעזרת: ממוצע/חציון/שכיחות (.)mean/median/mode שיטות מתקדמות יותר כמו רגרסיה או מודלים מבוססי למידה חישובית. python CopyEdit )df['column_name'].fillna(df['column_name'].mean(), inplace=True .3 .4שימוש בערכי ברירת מחדל: ○ הזנת ערכים קבועים ,למשל "לא ידוע" או .0 python CopyEdit )df['column_name'].fillna("Unknown", inplace=True .5 .2כפילויות בנתונים ()Duplicate Data מהן כפילויות? כפילויות מתרחשות כאשר יש שורות זהות או כמעט זהות בטבלה.כפילויות עלולות להוביל לסטיות בניתוח ולתוצאות מוטעות. טיפול בכפילויות: איתור ומחיקה: ○ שימוש ב )(duplicated-ב Pandas-כדי לזהות ולמחוק שורות כפולות. python CopyEdit #מוחק כפילויות )(df = df.drop_duplicates שמירת רשומות ייחודיות בלבד: ○ ניתן להתמקד בשדה מסוים ולהסיר כפילויות על פיו: python CopyEdit )]'df = df.drop_duplicates(subset=['column_name .3נתונים חריגים ()Outliers מהם נתונים חריגים? נתונים חריגים הם ערכים שנמצאים רחוק משמעותית מרוב הערכים במדגם.הם יכולים לנבוע מטעויות מדידה ,שגיאות הקלדה ,או תופעות אמיתיות. זיהוי נתונים חריגים: : סטטיסטיקות תיאוריות.1. או טווחי ערכים,)IQR( רבעונים,○ שימוש בסטיות תקן python CopyEdit )Q1 = df['column_name'].quantile(0.25 )Q3 = df['column_name'].quantile(0.75 IQR = Q3 - Q1 lower_bound = Q1 - 1.5 * IQR upper_bound = Q3 + 1.5 * IQR outliers = df[(df['column_name'] < lower_bound) | ])(df['column_name'] > upper_bound.2 : ויזואליזציה.3. לזיהוי חזותיScatterplot- וBoxplot ○ שימוש בתרשימים כמו python CopyEdit import matplotlib.pyplot as plt )]'df.boxplot(column=['column_name )(plt.show.4 :טיפול בנתונים חריגים : מחיקה.1.○ הסרת הערכים החריגים אם הם נחשבים כטעויות python CopyEdit df = df[(df['column_name'] >= lower_bound) & (df['column_name'] ])