טיפול בנתונים, EDA' למידת מכונה PDF

Summary

המסמך מתאר טכניקות לטיפול בנתונים חסרים, כפילויות ונתונים חריגים, וכן המרת סוגי נתונים. הוא מציג שיטות בסיסיות באמצעות Python, ומספק דוגמאות קוד.

Full Transcript

‫טיפול בנתונים‪-‬נתונים חסרים‪ ,‬כפילויות בנתונים‪ ,‬נתונים חריגים‪ ,‬המרת סוגי נתונים‬ ‫טיפול בנתונים הוא שלב קריטי בתהליך ניתוח הנתונים‪ ,‬שבו מבטיחים שהנתונים יהיו מדויקים‪ ,‬עקביים‬ ‫ומוכנים לניתוח‪.‬התהליך כולל התמודדות עם בעיות כמו נתונים חסרים‪ ,‬כפילויות‪ ,‬נתונים חריגים‪,‬‬...

‫טיפול בנתונים‪-‬נתונים חסרים‪ ,‬כפילויות בנתונים‪ ,‬נתונים חריגים‪ ,‬המרת סוגי נתונים‬ ‫טיפול בנתונים הוא שלב קריטי בתהליך ניתוח הנתונים‪ ,‬שבו מבטיחים שהנתונים יהיו מדויקים‪ ,‬עקביים‬ ‫ומוכנים לניתוח‪.‬התהליך כולל התמודדות עם בעיות כמו נתונים חסרים‪ ,‬כפילויות‪ ,‬נתונים חריגים‪,‬‬ ‫והמרת סוגי נתונים‪.‬‬ ‫‪.1‬נתונים חסרים (‪)Missing Data‬‬ ‫מהם נתונים חסרים?‬ ‫נתונים חסרים מופיעים כאשר אין ערכים באחד או יותר מהשדות בטבלה‪.‬הם עשויים להיגרם מטעויות‬ ‫איסוף נתונים‪ ,‬שגיאות מערכת‪ ,‬או מדיניות עסקית‪.‬‬ ‫טכניקות לטיפול בנתונים חסרים‪:‬‬ ‫‪.​1‬מחיקת נתונים חסרים‪:‬‬ ‫​○ שימוש‪ :‬כאשר יש מעט מאוד נתונים חסרים‪ ,‬או כאשר הם חסרים במאפיינים פחות‬ ‫חשובים‪.‬‬ ‫​○ שיטות‪:‬‬ ‫​ ‪ )(dropna‬ב‪ Pandas-‬למחיקת שורות או עמודות‪.‬‬ ‫‪​ python‬‬ ‫‪​ CopyEdit‬‬ ‫‪ #‬מוחק שורות עם ערכים חסרים‬ ‫‪)(df = df.dropna‬‬ ‫​○‬ ‫‪.​2‬השלמת ערכים חסרים (‪:)Imputation‬‬ ‫​○ שימוש‪ :‬כאשר לא רוצים למחוק נתונים‪ ,‬ניתן למלא ערכים חסרים בעזרת‪:‬‬ ‫​ ממוצע‪/‬חציון‪/‬שכיחות (‪.)mean/median/mode‬‬ ‫​ שיטות מתקדמות יותר כמו רגרסיה או מודלים מבוססי למידה חישובית‪.‬‬ ‫‪​ python‬‬ ‫‪​ CopyEdit‬‬ ‫‪)df['column_name'].fillna(df['column_name'].mean(), inplace=True‬‬ ‫‪.​3‬‬ ‫‪.​4‬שימוש בערכי ברירת מחדל‪:‬‬ ‫​○ הזנת ערכים קבועים‪ ,‬למשל "לא ידוע" או ‪.0‬‬ ‫‪​ python‬‬ ‫‪​ CopyEdit‬‬ ‫‪)df['column_name'].fillna("Unknown", inplace=True‬‬ ‫‪.​5‬‬ ‫‪.2‬כפילויות בנתונים (‪)Duplicate Data‬‬ ‫מהן כפילויות?‬ ‫כפילויות מתרחשות כאשר יש שורות זהות או כמעט זהות בטבלה‪.‬כפילויות עלולות להוביל לסטיות‬ ‫בניתוח ולתוצאות מוטעות‪.‬‬ ‫טיפול בכפילויות‪:‬‬ ‫​ איתור ומחיקה‪:‬‬ ‫​○ שימוש ב‪ )(duplicated-‬ב‪ Pandas-‬כדי לזהות ולמחוק שורות כפולות‪.‬‬ ‫‪​ python‬‬ ‫‪​ CopyEdit‬‬ ‫‪ #‬מוחק כפילויות‬ ‫‪)(df = df.drop_duplicates‬‬ ‫​‬ ‫​ שמירת רשומות ייחודיות בלבד‪:‬‬ ‫​○ ניתן להתמקד בשדה מסוים ולהסיר כפילויות על פיו‪:‬‬ ‫‪​ python‬‬ ‫‪​ CopyEdit‬‬ ‫‪)]'df = df.drop_duplicates(subset=['column_name‬‬ ‫​‬ ‫‪.3‬נתונים חריגים (‪)Outliers‬‬ ‫מהם נתונים חריגים?‬ ‫נתונים חריגים הם ערכים שנמצאים רחוק משמעותית מרוב הערכים במדגם‪.‬הם יכולים לנבוע מטעויות‬ ‫מדידה‪ ,‬שגיאות הקלדה‪ ,‬או תופעות אמיתיות‪.‬‬ ‫זיהוי נתונים חריגים‪:‬‬ :‫ סטטיסטיקות תיאוריות‬.​1.‫ או טווחי ערכים‬,)IQR( ‫ רבעונים‬,‫​○ שימוש בסטיות תקן‬ ​ python ​ CopyEdit )Q1 = df['column_name'].quantile(0.25 )Q3 = df['column_name'].quantile(0.75 IQR = Q3 - Q1 lower_bound = Q1 - 1.5 * IQR upper_bound = Q3 + 1.5 * IQR outliers = df[(df['column_name'] < lower_bound) | ])(df['column_name'] > upper_bound.​2 :‫ ויזואליזציה‬.​3.‫ לזיהוי חזותי‬Scatterplot-‫ ו‬Boxplot ‫​○ שימוש בתרשימים כמו‬ ​ python ​ CopyEdit import matplotlib.pyplot as plt )]'df.boxplot(column=['column_name )(plt.show.​4 :‫טיפול בנתונים חריגים‬ :‫ מחיקה‬.​1.‫​○ הסרת הערכים החריגים אם הם נחשבים כטעויות‬ ​ python ​ CopyEdit df = df[(df['column_name'] >= lower_bound) & (df['column_name'] ])

Use Quizgecko on...
Browser
Browser