טיפול בנתונים, EDA' למידת מכונה PDF

‫טיפול בנתונים‪-‬נתונים חסרים‪ ,‬כפילויות בנתונים‪ ,‬נתונים חריגים‪ ,‬המרת סוגי נתונים‬ ‫טיפול בנתונים הוא שלב קריטי בתהליך ניתוח הנתונים‪ ,‬שבו מבטיחים שהנתונים יהיו מדויקים‪ ,‬עקביים‬ ‫ומוכנים לניתוח‪.‬התהליך כולל התמודדות עם בעיות כמו נתונים חסרים‪ ,‬כפילויות‪ ,‬נתונים חריגים‪,‬‬ ‫והמרת סוגי נתונים‪.‬‬ ‫‪.1‬נתונים חסרים (‪)Missing Data‬‬ ‫מהם נתונים חסרים?‬ ‫נתונים חסרים מופיעים כאשר אין ערכים באחד או יותר מהשדות בטבלה‪.‬הם עשויים להיגרם מטעויות‬ ‫איסוף נתונים‪ ,‬שגיאות מערכת‪ ,‬או מדיניות עסקית‪.‬‬ ‫טכניקות לטיפול בנתונים חסרים‪:‬‬ ‫‪.1‬מחיקת נתונים חסרים‪:‬‬ ‫○ שימוש‪ :‬כאשר יש מעט מאוד נתונים חסרים‪ ,‬או כאשר הם חסרים במאפיינים פחות‬ ‫חשובים‪.‬‬ ‫○ שיטות‪:‬‬ ‫ ‪ )(dropna‬ב‪ Pandas-‬למחיקת שורות או עמודות‪.‬‬ ‫‪ python‬‬ ‫‪ CopyEdit‬‬ ‫‪ #‬מוחק שורות עם ערכים חסרים‬ ‫‪)(df = df.dropna‬‬ ‫○‬ ‫‪.2‬השלמת ערכים חסרים (‪:)Imputation‬‬ ‫○ שימוש‪ :‬כאשר לא רוצים למחוק נתונים‪ ,‬ניתן למלא ערכים חסרים בעזרת‪:‬‬ ‫ ממוצע‪/‬חציון‪/‬שכיחות (‪.)mean/median/mode‬‬ ‫ שיטות מתקדמות יותר כמו רגרסיה או מודלים מבוססי למידה חישובית‪.‬‬ ‫‪ python‬‬ ‫‪ CopyEdit‬‬ ‫‪)df['column_name'].fillna(df['column_name'].mean(), inplace=True‬‬ ‫‪.3‬‬ ‫‪.4‬שימוש בערכי ברירת מחדל‪:‬‬ ‫○ הזנת ערכים קבועים‪ ,‬למשל "לא ידוע" או ‪.0‬‬ ‫‪ python‬‬ ‫‪ CopyEdit‬‬ ‫‪)df['column_name'].fillna("Unknown", inplace=True‬‬ ‫‪.5‬‬ ‫‪.2‬כפילויות בנתונים (‪)Duplicate Data‬‬ ‫מהן כפילויות?‬ ‫כפילויות מתרחשות כאשר יש שורות זהות או כמעט זהות בטבלה‪.‬כפילויות עלולות להוביל לסטיות‬ ‫בניתוח ולתוצאות מוטעות‪.‬‬ ‫טיפול בכפילויות‪:‬‬ ‫ איתור ומחיקה‪:‬‬ ‫○ שימוש ב‪ )(duplicated-‬ב‪ Pandas-‬כדי לזהות ולמחוק שורות כפולות‪.‬‬ ‫‪ python‬‬ ‫‪ CopyEdit‬‬ ‫‪ #‬מוחק כפילויות‬ ‫‪)(df = df.drop_duplicates‬‬ ‫‬ ‫ שמירת רשומות ייחודיות בלבד‪:‬‬ ‫○ ניתן להתמקד בשדה מסוים ולהסיר כפילויות על פיו‪:‬‬ ‫‪ python‬‬ ‫‪ CopyEdit‬‬ ‫‪)]'df = df.drop_duplicates(subset=['column_name‬‬ ‫‬ ‫‪.3‬נתונים חריגים (‪)Outliers‬‬ ‫מהם נתונים חריגים?‬ ‫נתונים חריגים הם ערכים שנמצאים רחוק משמעותית מרוב הערכים במדגם‪.‬הם יכולים לנבוע מטעויות‬ ‫מדידה‪ ,‬שגיאות הקלדה‪ ,‬או תופעות אמיתיות‪.‬‬ ‫זיהוי נתונים חריגים‪:‬‬ :‫ סטטיסטיקות תיאוריות‬.1.‫ או טווחי ערכים‬,)IQR( ‫ רבעונים‬,‫○ שימוש בסטיות תקן‬ python CopyEdit )Q1 = df['column_name'].quantile(0.25 )Q3 = df['column_name'].quantile(0.75 IQR = Q3 - Q1 lower_bound = Q1 - 1.5 * IQR upper_bound = Q3 + 1.5 * IQR outliers = df[(df['column_name'] < lower_bound) | ])(df['column_name'] > upper_bound.2 :‫ ויזואליזציה‬.3.‫ לזיהוי חזותי‬Scatterplot-‫ ו‬Boxplot ‫○ שימוש בתרשימים כמו‬ python CopyEdit import matplotlib.pyplot as plt )]'df.boxplot(column=['column_name )(plt.show.4 :‫טיפול בנתונים חריגים‬ :‫ מחיקה‬.1.‫○ הסרת הערכים החריגים אם הם נחשבים כטעויות‬ python CopyEdit df = df[(df['column_name'] >= lower_bound) & (df['column_name'] ])

טיפול בנתונים, EDA' למידת מכונה PDF

Document Details

Tags

Related

Summary

Full Transcript