חבילת Pandas ועיבוד נתונים

Study Notes

פורמטים לשמירת נתונים: הבנה של פורמטים שונים לאחסון נתונים (כגון CSV, JSON, Excel וכו').
רכישה באמצעות API: הרכשת נתונים באמצעות ממשקים API.
רכישה באמצעות Crawling ו-BeautifulSoup: הרכשת נתונים מהאינטרנט באמצעות טכניקות Crawling ו-BeautifulSoup להוצאת מידע מ-HTML.

נתונים וסוגי משתנים: הבנה של סוגים שונים של משתנים (כמותיים, איכותיים, בדידים, רציפים).
משתנים בדידים ומשתנים רציפים: הבנה של ההבדלים בין משתנים בדידים (למשל מספרים שלמים) ומשתנים רציפים (למשל, גובה).
הסתברויות וקשרים בין משתנים: הבנה של מושגים בסיסיים בהסתברות וזיהוי קשרים בין משתנים.
נתונים חסרים: טכניקות לטיפול בנתונים חסרים.
כפילויות בנתונים: זיהוי וטיפול בכפילויות בתוך קבוצת נתונים.
נתונים חרגים: זיהוי וטיפול בנתונים חריגים (Outliers).
המרה של סוגי נתונים: שינוי סוגי נתונים, למשל מ-Text ל-Numeric.
EDA (Exploratory Data Analysis): טכניקות לניתוח ראשוני של נתונים.

סוגי למידת מכונה: הבדלים בין למידה מונחית ולמידה לא מונחית.
למידה מונחית:
- רגרסיה לינארית: מודל לינארי לניבוי ערכי יעד.
- רגרסיה לוגיסטית: מודל לניבוי הסתברויות.
- KNN (K-Nearest Neighbors): מודל למידת מכונה מבוסס מרחקים.
- עץ החלטה: מודל למידת מכונה שמתאר עץ עם ענפים להחלטות.
- Naive Bayes: מודל למידת מכונה מבוסס על ההסתברות.
- רשת נוירונים: מודל למידת מכונה מורכב המבוסס על רשתות של נוירונים.
- SVM (Support Vector Machines): מודל למידת מכונה למקרה של הפרדה בין קבוצות נתונים.
למידה לא מונחית:
- K-Means: אלגוריתם קלאסטרינג למציאת קבוצות דומות בתוך נתונים.
- קלאסטרינג היררכי: אלגוריתם קלאסטרינג המבוסס על מחלקות היררכיות.
- DBSCAN (Density-Based Spatial Clustering of Applications with Noise): אלגוריתם קלאסטרינג המבוסס על צפיפות.