מסמך ללא שם (2) - PDF
Document Details
Uploaded by RighteousRadium2668
Holon Institute of Technology
Tags
Summary
מסמך זה עוסק ב-Python ו-Pandas, כלי לניתוח נתונים. הוא מציג נושאים כמו הרכשה ואחסון נתונים, טיפול בנתונים, למידת מכונה, וניתוח טקסט.
Full Transcript
הנושאים בהם ארצה להתמקד הם: 1.חבילת pandas .2הרכשה והאחסון נתונים- -פורמטים לשמירת נתונים ,הרכשה באמצעות ,APIהרכשה באמצעות CRAWLINGתBEAUT...
הנושאים בהם ארצה להתמקד הם: 1.חבילת pandas .2הרכשה והאחסון נתונים- -פורמטים לשמירת נתונים ,הרכשה באמצעות ,APIהרכשה באמצעות CRAWLINGתBEAUTIFULSOUP,CSS .3טיפול בנתונים -נתונים וסוגי משתנים ,משתנים בדידים ,משתנים רציפים ,הסתברויות וקשרים בין משתנים,נתונים חסרים ,כפילויות בנתונים ,נתונים חרגים ,המרה של סוגי נתוניםתEDA .4למידת מכונה -סוגי למידת מכונה ,למידה מונחית-רגרסיה לינארית ,רגרסיה לוגיסיטית,KNN,עץ החלטה' ,NAIVE BAYESרשת נוירונים.SVM,למידה לא מונחית ,KMEANS -קלאסטרינג היררכיDBSCAN, .5ניתוח טקסט -ביטויים רגולריים ,המרה של טקסט למטריצה ,למידה מונחית על טקסט שיעור :pandas-1 סקירה על חבילת :Pandas Pandasהיא חבילת Pythonפופולרית לניתוח נתונים ,מניפולציה ועבודה עם מבני נתונים.היא משמשת מפתחים ,אנליסטים ,מדעני נתונים וכל מי שעוסק בניתוח נתונים בצורה נרחבת. מאפיינים עיקריים של :Pandas .1מבני נתונים עיקריים: ○ :Seriesמבנה נתונים חד-ממדי ,כמו רשימה או עמודה בודדת של טבלה. ○ :DataFrameמבנה נתונים דו-ממדי ,כמו טבלה הכוללת שורות ועמודות. ○ ( Panelפחות בשימוש) :מבנה נתונים תלת-ממדי. .2ייבוא וייצוא נתונים: ○ תמיכה בייבוא וייצוא נתונים ממקורות שונים ,CSV, Excel, SQL, JSON, HTML :ועוד. דוגמה : python CopyEdit import pandas as pd #קריאת קובץ CSV )'df = pd.read_csv('file.csv #שמירת נתונים לקובץ Excel )'df.to_excel('file.xlsx ○ .3מניפולציה בנתונים: ○ סינון נתונים ,מיון ,שינוי ערכים ,הוספה או מחיקת עמודות ושורות. דוגמה : python CopyEdit #יצירת עמודה חדשה df['new_column'] = df['existing_column'] * 2 #סינון נתונים ]filtered_df = df[df['column'] > 10 ○ .4ניתוח נתונים: ○ ביצוע סטטיסטיקות תיאוריות (כגון ממוצע ,סטיית תקן). ○ קבוצתיות ( )Group Byוסיכום נתונים. דוגמה : python CopyEdit #חישוב ממוצע לפי קטגוריה )(df.groupby('category').mean ○ .5עיבוד נתונים חסרים: ○ זיהוי ,טיפול והשלמת נתונים חסרים (.)NaN דוגמה : python CopyEdit #החלפת ערכים חסרים באפס )df.fillna(0, inplace=True #מחיקת שורות עם נתונים חסרים )df.dropna(inplace=True ○ .6מיזוג ושילוב נתונים: ○ שילוב בין DataFramesבאמצעות פונקציות כגון merge, concatו.join- דוגמה : python CopyEdit #מיזוג על בסיס )'combined_df = pd.merge(df1, df2, on='key_column עמודה משותפת ○ .7תמיכה בתאריכים וזמנים: ○ עיבוד וסינון של נתונים הכוללים תאריכים וזמנים (.)datetime דוגמה : python CopyEdit )]'df['date'] = pd.to_datetime(df['date #סינון תאריכים אחרי 2025 ]'df[df['date'] > '2025-01-01 ○ .8וויזואליזציה בסיסית: ○ יצירת גרפים בסיסיים (לדוגמה.)plot : דוגמה : python CopyEdit #יצירת גרף קווי )'df['column'].plot(kind='line ○ יתרונות מרכזיים: אינטגרציה חזקה עם חבילות נוספות כמו NumPyו.Matplotlib- קלות שימוש ושפה אינטואיטיבית שמזכירה .SQL יעילות גבוהה גם בעבודה עם מערכי נתונים גדולים. שימושים נפוצים: ניתוח נתונים פיננסיים. ניקוי ועיבוד נתונים. ניתוחי סדרות עיתיות (.)Time Series שילוב נתונים ממקורות שונים. התקנה: כדי להתקין את :Pandas bash CopyEdit pip install pandas Pandasהיא כלי רב-עוצמה שמאפשר לנהל ,לעבד ולנתח נתונים בקלות רבה.היא מהווה חלק מרכזי כמעט בכל פרויקט שעוסק בניתוח נתונים ב.Python- שיעור -2הרכשת נתונים :API מהי הרכשת נתונים? הרכשת נתונים ( )Data Acquisitionהיא התהליך של איסוף נתונים ממקורות שונים לצורך ניתוח ,עיבוד ,או שימוש בפרויקטים.נתונים יכולים להגיע ממגוון מקורות כגון קבצים ,מסדי נתונים ,או ממשקי .APIבחירה בפורמט ובשיטה המתאימה תלויה בצרכי הפרויקט ובמקור הנתונים. פורמטים נפוצים לשמירת נתונים נתונים נשמרים בפורמטים שונים ,בהתאם למבנה שלהם ,למטרה ולשימוש. הפורמטים הנפוצים ביותר כוללים: )CSV (Comma-Separated Values.1 מאפיינים :קובץ טקסט פשוט שבו הנתונים מופרדים באמצעות פסיקים. יתרונות: ○ קל לשימוש ולקריאה. ○ נתמך על ידי רוב הכלים לניתוח נתונים ,כולל Excelו.Pandas- חסרונות: ○ מתאים לנתונים טבלאיים בלבד. ○ חסר תמיכה במבנים מורכבים. דוגמה : csv CopyEdit name,age,city Alice,30,New York Bob,25,San Francisco )JSON (JavaScript Object Notation.2 מאפיינים :פורמט טקסטואלי מובנה הנתמך ברוב השפות.מאפשר יצוג של נתונים היררכיים. יתרונות: ○ גמיש ומתאים למבנים מורכבים (כגון רשימות ואובייקטים מקוננים). ○ נפוץ במיוחד בממשקי .API חסרונות: ○ קבצים גדולים עלולים להיות פחות יעילים מבחינת ביצועים. דוגמה : json CopyEdit { ","name": "Alice ",age": 30 "{ :"address ","city": "New York ""zip": "10001 } } )XML (eXtensible Markup Language.3 מאפיינים :פורמט טקסטואלי המשמש בעיקר ביישומים ותיקים יותר. יתרונות: ○ תומך במבנים היררכיים ומורכבים. ○ קריא גם עבור מחשבים וגם עבור בני אדם. חסרונות: ○ מסורבל יותר מ.JSON- ○ פחות פופולרי בשימוש מודרני. דוגמה : xml CopyEdit >Alice30New York