Data Science: Machine Learning & Visualization

Definition: A subset of artificial intelligence that uses algorithms to analyze data and make predictions or decisions without being explicitly programmed.
Types:
- Supervised Learning: Models trained on labeled data (e.g., regression, classification).
- Unsupervised Learning: Models that find patterns in unlabeled data (e.g., clustering, dimensionality reduction).
- Reinforcement Learning: Models learn by receiving rewards or penalties for actions taken.
Popular Algorithms:
- Linear Regression
- Decision Trees
- Support Vector Machines (SVM)
- Neural Networks

Purpose: To visually communicate data insights and trends, making complex data more accessible.
Common Tools:
- Matplotlib: Basic plotting library for Python.
- Seaborn: Statistical data visualization based on Matplotlib.
- Tableau: Business intelligence tool for interactive data visualization.
- Power BI: Microsoft tool for transforming raw data into informative visuals.
Key Techniques:
- Bar Charts, Line Graphs, Scatter Plots for univariate/multivariate analysis.
- Heatmaps for correlation matrices.
- Dashboards for real-time data monitoring.

Definition: The process of collecting, exploring, and presenting large amounts of data to discover underlying patterns.
Descriptive Statistics: Summarizes data characteristics using measures such as mean, median, mode, variance, and standard deviation.
Inferential Statistics: Makes predictions or inferences about a population based on a sample, including hypothesis testing and confidence intervals.
Key Concepts:
- Correlation vs. Causation
- P-values and significance testing
- T-tests, ANOVA for comparing groups

Importance: Essential step to clean and prepare raw data for analysis and modeling.
Steps Involved:
- Data Cleaning: Handling missing values, removing duplicates, correcting errors.
- Data Transformation: Normalizing or scaling features, encoding categorical variables.
- Feature Selection: Identifying and selecting relevant features to improve model performance.
- Data Splitting: Dividing data into training, validation, and test sets to evaluate model generalization.

Subset of artificial intelligence that employs algorithms to analyze data for predictions or decisions.
Supervised Learning: Utilizes labeled datasets for training; includes regression and classification tasks.
Unsupervised Learning: Analyzes unlabeled data to identify patterns; techniques include clustering and dimensionality reduction.
Reinforcement Learning: Learns optimal actions based on rewards or penalties from the environment.
Popular algorithms include Linear Regression, Decision Trees, Support Vector Machines (SVM), and Neural Networks.

Aims to convey data insights and trends visually, enhancing accessibility of complex information.
Matplotlib: A fundamental plotting library in Python for basic visualizations.
Seaborn: A statistical visualization tool built on Matplotlib, ideal for advanced data representation.
Tableau: A leading business intelligence platform for creating interactive data visualizations.
Power BI: Microsoft's analytics service that transforms raw data into understandable visuals.
Utilizes various techniques like Bar Charts, Line Graphs, and Scatter Plots for data analysis, alongside Heatmaps for correlation visualization and Dashboards for real-time data monitoring.

Involves collecting, exploring, and depicting data to unveil underlying patterns and insights.
Descriptive Statistics: Summarizes data characteristics through metrics such as mean, median, mode, variance, and standard deviation.
Inferential Statistics: Draws conclusions about a population based on sample data; encompasses hypothesis testing and constructing confidence intervals.
Important concepts include understanding correlation versus causation, P-values, significance testing, T-tests, and ANOVA for group comparisons.

A critical step to clean and prepare raw data for effective analysis and modeling outcomes.
Data Cleaning: Process of managing missing values, eliminating duplicates, and rectifying errors in the dataset.
Data Transformation: Adjusts features through normalization, scaling, and encoding of categorical variables.
Feature Selection: Involves identifying and choosing relevant features to enhance the performance of predictive models.
Data Splitting: Segregates data into training, validation, and test sets to assess model generalization effectively.