Summary

מסמך זה עוסק ב-Python ו-Pandas, כלי לניתוח נתונים. הוא מציג נושאים כמו הרכשה ואחסון נתונים, טיפול בנתונים, למידת מכונה, וניתוח טקסט.

Full Transcript

‫הנושאים בהם ארצה להתמקד הם‪:‬‬ ‫‪1.‬חבילת ‪pandas‬‬ ‫‪.2‬הרכשה והאחסון נתונים‪- -‬פורמטים לשמירת נתונים‪ ,‬הרכשה באמצעות ‪ ,API‬הרכשה באמצעות‬ ‫‪CRAWLING‬ת‪BEAUT...

‫הנושאים בהם ארצה להתמקד הם‪:‬‬ ‫‪1.‬חבילת ‪pandas‬‬ ‫‪.2‬הרכשה והאחסון נתונים‪- -‬פורמטים לשמירת נתונים‪ ,‬הרכשה באמצעות ‪ ,API‬הרכשה באמצעות‬ ‫‪CRAWLING‬ת‪BEAUTIFULSOUP,CSS‬‬ ‫‪.3‬טיפול בנתונים‪ -‬נתונים וסוגי משתנים‪ ,‬משתנים בדידים‪ ,‬משתנים רציפים‪ ,‬הסתברויות וקשרים בין‬ ‫משתנים‪,‬נתונים חסרים‪ ,‬כפילויות בנתונים‪ ,‬נתונים חרגים‪ ,‬המרה של סוגי נתוניםת‪EDA‬‬ ‫‪.4‬למידת מכונה‪ -‬סוגי למידת מכונה‪ ,‬למידה מונחית‪-‬רגרסיה לינארית‪ ,‬רגרסיה לוגיסיטית‪,KNN,‬עץ החלטה'‬ ‫‪ ,NAIVE BAYES‬רשת נוירונים‪.SVM,‬למידה לא מונחית‪ ,KMEANS -‬קלאסטרינג היררכי‪DBSCAN,‬‬ ‫‪.5‬ניתוח טקסט‪ -‬ביטויים רגולריים‪ ,‬המרה של טקסט למטריצה‪ ,‬למידה מונחית על טקסט‬ ‫שיעור ‪:pandas-1‬‬ ‫סקירה על חבילת ‪:Pandas‬‬ ‫‪ Pandas‬היא חבילת ‪ Python‬פופולרית לניתוח נתונים‪ ,‬מניפולציה ועבודה עם מבני נתונים‪.‬היא משמשת‬ ‫מפתחים‪ ,‬אנליסטים‪ ,‬מדעני נתונים וכל מי שעוסק בניתוח נתונים בצורה נרחבת‪.‬‬ ‫מאפיינים עיקריים של ‪:Pandas‬‬ ‫‪.​1‬מבני נתונים עיקריים‪:‬‬ ‫​○ ‪ :Series‬מבנה נתונים חד‪-‬ממדי‪ ,‬כמו רשימה או עמודה בודדת של טבלה‪.‬‬ ‫​○ ‪ :DataFrame‬מבנה נתונים דו‪-‬ממדי‪ ,‬כמו טבלה הכוללת שורות ועמודות‪.‬‬ ‫​○ ‪( Panel‬פחות בשימוש)‪ :‬מבנה נתונים תלת‪-‬ממדי‪.‬‬ ‫‪.​2‬ייבוא וייצוא נתונים‪:‬‬ ‫​○ תמיכה בייבוא וייצוא נתונים ממקורות שונים‪ ,CSV, Excel, SQL, JSON, HTML :‬ועוד‪.‬‬ ‫דוגמה‪​ :‬‬ ‫‪​ python‬‬ ‫‪​ CopyEdit‬‬ ‫‪import pandas as pd‬‬ ‫‪ #‬קריאת קובץ ‪CSV‬‬ ‫‪)'df = pd.read_csv('file.csv‬‬ ‫‪ #‬שמירת נתונים לקובץ ‪Excel‬‬ ‫‪)'df.to_excel('file.xlsx‬‬ ‫​○‬ ‫‪.​3‬מניפולציה בנתונים‪:‬‬ ‫​○ סינון נתונים‪ ,‬מיון‪ ,‬שינוי ערכים‪ ,‬הוספה או מחיקת עמודות ושורות‪.‬‬ ‫דוגמה‪​ :‬‬ ‫‪​ python‬‬ ‫‪​ CopyEdit‬‬ ‫‪ #‬יצירת עמודה חדשה‬ ‫‪df['new_column'] = df['existing_column'] * 2‬‬ ‫‪ #‬סינון נתונים‬ ‫‪]filtered_df = df[df['column'] > 10‬‬ ‫​○‬ ‫‪.​4‬ניתוח נתונים‪:‬‬ ‫​○ ביצוע סטטיסטיקות תיאוריות (כגון ממוצע‪ ,‬סטיית תקן)‪.‬‬ ‫​○ קבוצתיות (‪ )Group By‬וסיכום נתונים‪.‬‬ ‫דוגמה‪​ :‬‬ ‫‪​ python‬‬ ‫‪​ CopyEdit‬‬ ‫‪ #‬חישוב ממוצע לפי קטגוריה‬ ‫‪)(df.groupby('category').mean‬‬ ‫​○‬ ‫‪.​5‬עיבוד נתונים חסרים‪:‬‬ ‫​○ זיהוי‪ ,‬טיפול והשלמת נתונים חסרים (‪.)NaN‬‬ ‫דוגמה‪​ :‬‬ ‫‪​ python‬‬ ‫‪​ CopyEdit‬‬ ‫‪ #‬החלפת ערכים חסרים באפס‬ ‫‪)df.fillna(0, inplace=True‬‬ ‫‪ #‬מחיקת שורות עם נתונים חסרים‬ ‫‪)df.dropna(inplace=True‬‬ ‫​○‬ ‫‪.​6‬מיזוג ושילוב נתונים‪:‬‬ ‫​○ שילוב בין ‪ DataFrames‬באמצעות פונקציות כגון ‪ merge, concat‬ו‪.join-‬‬ ‫דוגמה‪​ :‬‬ ‫‪​ python‬‬ ‫‪​ CopyEdit‬‬ ‫‪ #‬מיזוג על בסיס‬ ‫‪)'combined_df = pd.merge(df1, df2, on='key_column‬‬ ‫עמודה משותפת‬ ‫​○‬ ‫‪.​7‬תמיכה בתאריכים וזמנים‪:‬‬ ‫​○ עיבוד וסינון של נתונים הכוללים תאריכים וזמנים (‪.)datetime‬‬ ‫דוגמה‪​ :‬‬ ‫‪​ python‬‬ ‫‪​ CopyEdit‬‬ ‫‪)]'df['date'] = pd.to_datetime(df['date‬‬ ‫‪ #‬סינון תאריכים אחרי ‪2025‬‬ ‫‪]'df[df['date'] > '2025-01-01‬‬ ‫​○‬ ‫‪.​8‬וויזואליזציה בסיסית‪:‬‬ ‫​○ יצירת גרפים בסיסיים (לדוגמה‪.)plot :‬‬ ‫דוגמה‪​ :‬‬ ‫‪​ python‬‬ ‫‪​ CopyEdit‬‬ ‫‪ #‬יצירת גרף קווי‬ ‫‪)'df['column'].plot(kind='line‬‬ ‫​○‬ ‫יתרונות מרכזיים‪:‬‬ ‫אינטגרציה חזקה עם חבילות נוספות כמו ‪ NumPy‬ו‪.Matplotlib-‬‬ ‫​‬ ‫קלות שימוש ושפה אינטואיטיבית שמזכירה ‪.SQL‬‬ ‫​‬ ‫יעילות גבוהה גם בעבודה עם מערכי נתונים גדולים‪.‬‬ ‫​‬ ‫שימושים נפוצים‪:‬‬ ‫ניתוח נתונים פיננסיים‪.‬‬ ‫​‬ ‫ניקוי ועיבוד נתונים‪.‬‬ ‫​‬ ‫ניתוחי סדרות עיתיות (‪.)Time Series‬‬ ‫​‬ ‫שילוב נתונים ממקורות שונים‪.‬‬ ‫​‬ ‫התקנה‪:‬‬ ‫כדי להתקין את ‪:Pandas‬‬ ‫‪bash‬‬ ‫‪CopyEdit‬‬ ‫‪pip install pandas‬‬ ‫‪ Pandas‬היא כלי רב‪-‬עוצמה שמאפשר לנהל‪ ,‬לעבד ולנתח נתונים בקלות רבה‪.‬היא מהווה חלק מרכזי כמעט בכל‬ ‫פרויקט שעוסק בניתוח נתונים ב‪.Python-‬‬ ‫שיעור ‪-2‬הרכשת נתונים ‪:API‬‬ ‫מהי הרכשת נתונים?‬ ‫הרכשת נתונים (‪ )Data Acquisition‬היא התהליך של איסוף נתונים ממקורות‬ ‫שונים לצורך ניתוח‪ ,‬עיבוד‪ ,‬או שימוש בפרויקטים‪.‬נתונים יכולים להגיע ממגוון‬ ‫מקורות כגון קבצים‪ ,‬מסדי נתונים‪ ,‬או ממשקי ‪.API‬בחירה בפורמט ובשיטה‬ ‫המתאימה תלויה בצרכי הפרויקט ובמקור הנתונים‪.‬‬ ‫פורמטים נפוצים לשמירת נתונים‬ ‫נתונים נשמרים בפורמטים שונים‪ ,‬בהתאם למבנה שלהם‪ ,‬למטרה ולשימוש‪.‬‬ ‫הפורמטים הנפוצים ביותר כוללים‪:‬‬ ‫‪)CSV (Comma-Separated Values.1‬‬ ‫​ מאפיינים‪ :‬קובץ טקסט פשוט שבו הנתונים מופרדים באמצעות פסיקים‪.‬‬ ‫​ יתרונות‪:‬‬ ‫​○ קל לשימוש ולקריאה‪.‬‬ ‫​○ נתמך על ידי רוב הכלים לניתוח נתונים‪ ,‬כולל ‪ Excel‬ו‪.Pandas-‬‬ ‫​ חסרונות‪:‬‬ ‫​○ מתאים לנתונים טבלאיים בלבד‪.‬‬ ‫​○ חסר תמיכה במבנים מורכבים‪.‬‬ ‫דוגמה‪​ :‬‬ ‫‪​ csv‬‬ ‫‪​ CopyEdit‬‬ ‫‪name,age,city‬‬ ‫‪Alice,30,New York‬‬ ‫‪Bob,25,San Francisco‬‬ ‫​‬ ‫‪)JSON (JavaScript Object Notation.2‬‬ ‫​ מאפיינים‪ :‬פורמט טקסטואלי מובנה הנתמך ברוב השפות‪.‬מאפשר יצוג של‬ ‫נתונים היררכיים‪.‬‬ ‫​ יתרונות‪:‬‬ ‫​○ גמיש ומתאים למבנים מורכבים (כגון רשימות ואובייקטים מקוננים)‪.‬‬ ‫​○ נפוץ במיוחד בממשקי ‪.API‬‬ ‫​ חסרונות‪:‬‬ ‫​○ קבצים גדולים עלולים להיות פחות יעילים מבחינת ביצועים‪.‬‬ ‫דוגמה‪​ :‬‬ ‫‪​ json‬‬ ‫‪​ CopyEdit‬‬ ‫{‬ ‫"‪,"name": "Alice‬‬ ‫"‪,age": 30‬‬ ‫"‪{ :"address‬‬ ‫"‪,"city": "New York‬‬ ‫"‪"zip": "10001‬‬ ‫}‬ ‫}‬ ‫​‬ ‫‪)XML (eXtensible Markup Language.3‬‬ ‫​ מאפיינים‪ :‬פורמט טקסטואלי המשמש בעיקר ביישומים ותיקים יותר‪.‬‬ ‫​ יתרונות‪:‬‬ ‫​○ תומך במבנים היררכיים ומורכבים‪.‬‬ ‫​○ קריא גם עבור מחשבים וגם עבור בני אדם‪.‬‬ ‫​ חסרונות‪:‬‬ ‫​○ מסורבל יותר מ‪.JSON-‬‬ ‫​○ פחות פופולרי בשימוש מודרני‪.‬‬ ‫דוגמה‪​ :‬‬ ‫‪​ xml‬‬ ‫‪​ CopyEdit‬‬ ‫‪>Alice30New York

Use Quizgecko on...
Browser
Browser