Régression Linéaire Polynomiale PDF
Document Details
Uploaded by SereneArgon3619
Université Virtuelle du Burkina Faso
Rodrique Kafando, PhD
Tags
Summary
Cette présentation détaille les concepts fondamentaux de la régression, notamment la régression linéaire, la régression multiple, et la régression polynomiale. Elle aborde également des sujets importants tels que les méthodes de validation et les problèmes courants rencontrés avec la régression. La présentation est centrée sur le traitement des données et des techniques mathématiques associées à la régression.
Full Transcript
Regression L3 1 Rodrique Kafando, PhD Introduction 2 Rodrique Kafando, PhD Introduction Objectifs d'apprentissage Comprendre les concepts fondamentaux de la régression. Distinguer entre dif...
Regression L3 1 Rodrique Kafando, PhD Introduction 2 Rodrique Kafando, PhD Introduction Objectifs d'apprentissage Comprendre les concepts fondamentaux de la régression. Distinguer entre différents types de problèmes de régression. Appréhender l'utilisation des modèles de régression dans divers domaines. 3 Rodrique Kafando, PhD Définition La régression est une méthode statistique qui permet d'étudier la relation entre une variable dépendante (ou réponse) et une ou plusieurs variables indépendantes (ou explicatives). Elle sert à prédire, modéliser, et caractériser cette relation. Formule de base de la Régression : Y est la variable dépendante. X1,X2,...,Xn sont les variables indépendantes. β0,β1,...,βn sont les coefficients de régression. ε est l'erreur ou le résidu. 4 Rodrique Kafando, PhD Regression & Data Science Modélisation prédictive La régression est l'un des algorithmes fondamentaux utilisés pour la modélisation prédictive dans divers secteurs, y compris la finance, la santé et le marketing. Importance des caractéristiques Identifie quelles variables ont un impact significatif sur la variable dépendante, ce qui facilite une meilleure prise de décision. 5 Rodrique Kafando, PhD Regression & Data Science Optimisation Les algorithmes de régression servent souvent de base pour optimiser des modèles ou des systèmes plus complexes, tels que les algorithmes d'apprentissage par renforcement ou les réseaux neuronaux. Apprentissage par transfert ou Transfert learning Les modèles de régression entraînés sur une tâche peuvent souvent être affinés ou adaptés pour des tâches connexes, servant ainsi de pas vers une IA générale. 6 Rodrique Kafando, PhD Types de régressions Régression linéaire simple Définition Prédit (ou Étudie) la relation entre une variable indépendante et une variable dépendante en ajustant une ligne droite. Equation : Y est la variable dépendante. X est la variable indépendante. β0, β1 sont les coefficients de régression. ε est l'erreur ou le résidu. 7 Rodrique Kafando, PhD Types de régressions Régression multiple Définition Semblable à la régression linéaire simple mais avec plusieurs variables indépendantes. Equation : Y est la variable dépendante. X1,X2,...,Xn sont les variables indépendantes. β0,β1,...,βn sont les coefficients de régression. ε est l'erreur ou le résidu. 8 Rodrique Kafando, PhD Types de régressions Régression polynomiale Définition Lorsque la relation n'est pas linéaire, une équation polynomiale peut mieux décrire la relation. Formule pour une régression de degré 2 : Les degrés plus élevés ajoutent des termes de puissance plus élevés à la formule. 9 Rodrique Kafando, PhD Types de régressions Régression logistique Définition Bien qu'elle soit principalement utilisée pour la classification, elle se base sur le concept de la régression pour estimer la probabilité qu'une instance appartienne à une certaine classe. Formule pour une régression de degré 2 : Où p est la probabilité d'appartenance à une certaine classe. 10 Rodrique Kafando, PhD Terminologie Variables indépendantes (prédictives) Variables sur lesquelles nous basons nos prédictions. Variable dépendante (réponse) Variable que nous cherchons à prédire ou à expliquer. Coefficients de régression Ce sont les poids attribués à chaque variable indépendante dans le modèle de régression. Ils indiquent l'importance et la direction (positive/négative) de la relation avec la variable dépendante. Erreur et résidu L'erreur est la différence entre la valeur prédite par le modèle et la valeur réelle. Le résidu est une mesure de cette erreur pour chaque point de données. Où: ei est l'erreur pour la ième observation. yi est la valeur réelle pour la ième observation. ŷi est la valeur prédite pour la ième observation. 11 Rodrique Kafando, PhD Régression Linéaire multiple 12 Rodrique Kafando, PhD Hypothèses de la régression linéaire Linéarité : ○ La relation entre les variables indépendantes et la variable dépendante doit être linéaire. Indépendance : ○ Les erreurs (résidus) doivent être indépendantes les unes des autres. ○ Importance de la collecte de données aléatoire. Homoscédasticité : ○ La variance des erreurs doit rester constante le long de la ligne de régression. Absence de multicolinéarité : ○ Les variables indépendantes ne doivent pas être trop fortement corrélées entre elles. ○ Détectée avec le facteur d'inflation de la variance (VIF). Normalité des erreurs : ○ Les erreurs doivent suivre une distribution normale. 13 Rodrique Kafando, PhD Méthode des moindres carrés Principe: ○ La méthode des moindres carrés est une approche standard pour estimer les coefficients d'un modèle de régression. Le but est de minimiser la somme des carrés des différences (résidus) entre les observations réelles et celles prédites par le modèle. ○ Le but est de minimiser S en ajustant les coefficients β. Formellement, pour un modèle simple y=β0+β1x, l'objectif est de minimiser la fonction : Où où yi sont les observations réelles et β0+β1xi sont les prédictions du modèle. 14 Rodrique Kafando, PhD Méthode des moindres carrés Calcul des coefficients Les coefficients β0 et β1 qui minimisent la somme des carrés des résidus peuvent être trouvés en utilisant des formules dérivées des équations normales. Pour un modèle de régression simple, ces formules sont : où sont les moyennes des variables x et y, respectivement. Interprétation Intercept (β0) : Il représente la valeur prévue de y lorsque x est 0. C'est la valeur à laquelle la ligne de régression coupe l'axe des ordonnées. Pente (β1) : Elle indique le changement attendu dans y pour un changement d'une unité dans x. Par exemple, si β1 est 3, cela signifie que pour chaque augmentation d'une unité de x, y augmente de 3 unités. Si β1 est négatif, cela indiquerait une relation inverse entre x et y. 15 Rodrique Kafando, PhD Évaluation de la performance du modèle Coefficient de détermination (R²) Indique la proportion de la variance de la variable dépendante expliquée par les variables indépendantes. Erreur quadratique moyenne (RMSE): Indique l'erreur moyenne du modèle en termes d'unités de la variable dépendante. Tests de significativité : Tests t pour les coefficients de régression: Déterminent si chaque coefficient est statistiquement différent de zéro. Test F pour le modèle global: Évalue si le modèle global est significatif. 16 Rodrique Kafando, PhD Amélioration du modèle Transformation des variables ○ Par exemple, utilisation du logarithme ou de la racine carrée pour transformer une variable afin de respecter les hypothèses. Sélection de variables ○ Techniques comme la sélection en avant, la sélection en arrière et la sélection pas à pas pour inclure/exclure des variables dans le modèle. Régularisation ○ Techniques telles que la régression Ridge et Lasso pour éviter le surajustement et gérer la multicolinéarité. 17 Rodrique Kafando, PhD Régression Linéaire multiple 18 Rodrique Kafando, PhD Régression Linéaire multiple Rappel Interprétation des coefficients: Chaque coefficient représente le changement attendu dans la variable dépendante pour une unité de changement dans la variable indépendante correspondante, tout en gardant toutes les autres variables constantes. Problèmes courants et solutions Multicolinéarité: ○ Utilisation du VIF (Facteur d'Inflation de la Variance) pour détecter et éliminer les variables problématiques. Autocorrélation des erreurs: ○ Test de Durbin-Watson pour déceler l'autocorrélation. ○ Utilisation de modèles ARIMA ou d'autres techniques de séries temporelles si nécessaire. Hétéroscédasticité: ○ Utilisation de graphiques des résidus ou tests formels comme le test de Breusch-Pagan. ○ Solutions possibles : transformations de variables ou utilisation de techniques de pondération. 19 Rodrique Kafando, PhD Régression Linéaire multiple Techniques de régularisation Régression Ridge (L2) Pénalise les coefficients avec une grande magnitude pour éviter le surajustement. Elle consite à minimiser : Régression Lasso (L1) Pénalise les coefficients absolus pour effectuer une sélection automatique des variables. Régression Elastic Net Combinaison des pénalités L1 et L2 pour bénéficier des avantages de la Ridge et de la Lasso. 20 Rodrique Kafando, PhD Régression Linéaire multiple Méthodes de validation Validation croisée (Cross-validation): Technique de validation du modèle en divisant les données en sous-ensembles et en alternant entre formation et test. Partitionnement des données: Division des données en ensembles d'entraînement, de validation et de test pour évaluer les performances du modèle. Extension à la régression non linéaire Régression polynomiale: ○ Utilisation de puissances supérieures des variables indépendantes pour modéliser des relations non linéaires. Régression spline: ○ Division de l'espace des données en sous-ensembles et ajustement de polynômes séparés dans chaque sous-ensemble. 21 Rodrique Kafando, PhD Régression Linéaire polynomiale 22 Rodrique Kafando, PhD Régression Linéaire polynomiale - Extension de la régression linéaire pour modéliser des relations non linéaires entre les variables. - Comment une régression linéaire simple (de degré 1) peut être transformée en une régression de degré n. - ans une régression linéaire standard, nous modélisons la relation entre la variable dépendante y et une variable indépendante x avec l'équation de la ligne droite y=β0+β1x - Cette formule ne peut capturer que des relations linéaires. Si la relation entre x et y est courbée ou non linéaire, la régression linéaire simple ne sera pas adéquate. Pourquoi utiliser une régression polynomiale ? - Limitations de la régression linéaire pour modéliser des relations non linéaires (voir exemple). 23 Rodrique Kafando, PhD Régression Linéaire polynomiale - Extension de la régression linéaire pour modéliser des relations non linéaires entre les variables. - Comment une régression linéaire simple (de degré 1) peut être transformée en une régression de degré n. - Dans une régression linéaire standard, nous modélisons la relation entre la variable dépendante y et une variable indépendante x avec l'équation de la ligne droite y=β0+β1x - Cette formule ne peut capturer que des relations linéaires. Si la relation entre x et y est courbée ou non linéaire, la régression linéaire simple ne sera pas adéquate. Principe de la Régression polynomiale - Pour modéliser la non-linéarité, nous pouvons étendre le modèle en incluant des termes polynomiaux. Cela signifie ajouter des puissances supérieures de x comme de nouvelles variables indépendantes. - Équation d'un polynôme de degré n : - Elle permet au modèle de s'ajuster à une variété de formes de données, allant au-delà de la simple relation linéaire. - Cela peut améliorer significativement la qualité de l'ajustement et la capacité prédictive du modèle sur des données non linéaires. 24 Rodrique Kafando, PhD Régression Linéaire polynomiale - Extension de la régression linéaire pour modéliser des relations non linéaires entre les variables. - Comment une régression linéaire simple (de degré 1) peut être transformée en une régression de degré n. - Dans une régression linéaire standard, nous modélisons la relation entre la variable dépendante y et une variable indépendante x avec l'équation de la ligne droite y=β0+β1x - Cette formule ne peut capturer que des relations linéaires. Si la relation entre x et y est courbée ou non linéaire, la régression linéaire simple ne sera pas adéquate. Principe de la Régression polynomiale Les coefficients dans un modèle polynomial indiquent l'impact de chaque terme sur la variable réponse. Dans l'exemple ci-dessus, après avoir ajusté le modèle, model.coef_ (voir code diapos suivante) donne les coefficients pour chaque terme polynomial. 25 Rodrique Kafando, PhD Régression Linéaire polynomiale 1 7 2 Le coefficient pour x (disons β1) indique l'effet linéaire de x sur 3 y. 4 5 6 Le coefficient pour x2 (disons β2) indique l'effet du terme quadratique. Cet effet est non-linéaire et indique comment la relation entre x et y change à un taux qui n'est pas constant; c'est la courbure de la relation. 26 Rodrique Kafando, PhD Régression Linéaire polynomiale # Modèle de régression linéaire # Importer les librairies nécessaire model = LinearRegression() import numpy as np model.fit(x_poly, y) import matplotlib.pyplot as plt y_poly_pred = model.predict(x_poly) from sklearn.linear_model import LinearRegression from sklearn.preprocessing import PolynomialFeatures # Évaluer le modèle from sklearn.metrics import mean_squared_error, r2_score rmse = np.sqrt(mean_squared_error(y, y_poly_pred)) r2 = r2_score(y, y_poly_pred) # Générer des données d'exemple # Afficher les résultats np.random.seed(0) print('Les coefficients du modèle sont:', model.coef_) x = 2 - 3 * np.random.normal(0, 1, 20) print('Root Mean Squared Error:', rmse) y = x - 2 * (x ** 2) + np.random.normal(-3,3,20) print('R2 Score:', r2) # Tracer les données et le modèle # Transformer les données pour inclure les termes plt.scatter(x, y, s=10) polynomiaux # Tri des valeurs pour le traçage # Ici, nous utilisons un polynôme de degré 2 sorted_zip = sorted(zip(x, y_poly_pred)) polynomial_features =PolynomialFeatures(degree=2) x, y_poly_pred = zip(*sorted_zip) x_poly = polynomial_features.fit_transform(x[:, plt.plot(x, y_poly_pred, color='m') np.newaxis]) plt.show() 27 Rodrique Kafando, PhD Régression Linéaire polynomiale Choisir le bon degré - Le danger du surajustement (overfitting): Lorsqu'un polynôme de degré très élevé ajuste les données trop parfaitement, au point de capturer le bruit. - Techniques pour choisir le degré optimal: Utilisation de la validation croisée, observation du R^2 et d'autres métriques. Comparaison avec d'autres méthodes non linéaires - Régression par splines, régression avec termes d'interaction, etc. - Quand utiliser la régression polynomiale par rapport à d'autres méthodes. Avantages et inconvénients - Avantages: Flexibilité pour modéliser des relations non linéaires, facilement interprétable. - Inconvénients: Risque de surajustement, augmentation de la complexité avec l'augmentation du degré, difficulté potentielle d'interprétation avec des degrés élevés. 28 Rodrique Kafando, PhD Méthodes de validation et d'évaluation 29 Rodrique Kafando, PhD Méthodes de validation et d'évaluation La validation croisée Objectif : Assurer que le modèle de régression est généralisable à de nouvelles données. Prévenir le surajustement. Méthodologie : Partitionner le jeu de données en plusieurs sous-ensembles (folds). Entraîner le modèle sur k−1 folds et le tester sur le fold restant. Répéter ce processus k fois avec chaque fold servant une fois comme jeu de test. Les métriques d’évaluation R-carré (R²) : Mesure la proportion de la variance pour la variable dépendante qui est expliquée par les variables indépendantes dans le modèle. Plus le R² est proche de 1, mieux c'est. RMSE (Root Mean Square Error) : Racine carrée de la moyenne des carrés des écarts entre les valeurs observées et les valeurs prédites. Donne une idée de la grandeur des erreurs de prédiction. Une faible valeur de RMSE moyenne indique que le modèle prédit avec précision les valeurs sur de nouvelles données. MAE (Mean Absolute Error) : Moyenne de la valeur absolue des écarts entre les prédictions et les observations. Moins sensible aux valeurs aberrantes que le RMSE. 30 Rodrique Kafando, PhD Méthodes de validation et d'évaluation Diagnostic du modèle Analyse des résidus : Réaliser un plot des résidus pour identifier d'éventuelles structures ou tendances qui pourraient indiquer des problèmes dans le modèle, comme la non-linéarité. Tests d'hypothèses : Exécuter des tests statistiques (comme le test de Shapiro-Wilk pour la normalité des résidus) pour valider les hypothèses sous-jacentes à la régression linéaire. Amélioration de modèles Ajustement des hyperparamètres : Sélectionner le modèle avec le meilleur ensemble d'hyper-paramètres en utilisant des techniques telles que la recherche sur grille (Grid Search). Sélection des variables : Appliquer des méthodes comme la sélection en arrière (backward elimination) pour réduire le nombre de variables explicatives et éviter le surajustement. # Initialisation du modèle de régression linéaire model = LinearRegression() # Calcul du RMSE via la validation croisée scores = cross_val_score(model, X, y, scoring='neg_mean_squared_error', cv=10) rmse_scores = [sqrt(-score) for score in scores] print(f"RMSE moyenne: {np.mean(rmse_scores)}") 31 Rodrique Kafando, PhD Méthodes de validation et d'évaluation Régularisation Objectif : Contrôler la complexité du modèle pour prévenir le surajustement et améliorer la généralisation. Régression Ridge (L2) Définition : Ajout d'un terme de pénalité équivalent au carré des coefficients de régression à la fonction de coût. Avantage : Réduit la complexité en pénalisant les poids élevés. Hyper-paramètre : α, contrôle la force de la pénalité. Régression Lasso (L1) Définition : Ajout d'un terme de pénalité proportionnel à la valeur absolue des coefficients de régression. Avantage : Peut conduire à des modèles plus parcimonieux en réduisant certains coefficients à zéro, ce qui équivaut à une sélection de caractéristiques. Hyperparamètre : α, contrôle la force de la pénalité. 32 Rodrique Kafando, PhD Méthodes de validation et d'évaluation Sélection de Caractéristiques (Feature Selection) But : Améliorer la performance du modèle en éliminant les variables redondantes ou non significatives. Techniques : Filtrage : Utiliser des tests statistiques pour sélectionner les caractéristiques. Emballage (Wrapper methods) : Tester différentes combinaisons de caractéristiques et sélectionner le meilleur ensemble. Intrinsèque : Algorithmes qui effectuent la sélection de caractéristiques comme partie intégrante du processus de formation (e.g., Lasso). Transformation des variables Normalisation et Standardisation : Pourquoi : Avoir des échelles comparables entre les variables peut améliorer la convergence des méthodes numériques utilisées dans l'optimisation des modèles de régression. Méthodes : MinMaxScaler, StandardScaler dans scikit-learn. Polynômes et Interactions : Utilité : Capturer des relations non linéaires et des interactions entre variables. Outil : PolynomialFeatures dans scikit-learn pour générer des termes polynomiaux et d'interaction. 33 Rodrique Kafando, PhD Méthodes de validation et d'évaluation Exemple # Données X_train, X_test, y_train, y_test = train_test_split(X, y,test_size=0.2, random_state=42) # Normalisation scaler = StandardScaler() X_train_scaled = scaler.fit_transform(X_train) X_test_scaled = scaler.transform(X_test) # Régression Ridge ridge = Ridge(alpha=1.0) ridge.fit(X_train_scaled, y_train) ridge_pred = ridge.predict(X_test_scaled) print(f"RMSE Ridge: {sqrt(mean_squared_error(y_test, ridge_pred))}") # Régression Lasso pour la sélection de caractéristiques lasso = Lasso(alpha=0.1) lasso.fit(X_train_scaled, y_train) lasso_pred = lasso.predict(X_test_scaled) print(f"RMSE Lasso: {sqrt(mean_squared_error(y_test,lasso_pred))}") 34 Rodrique Kafando, PhD Régression Linéaire polynomiale Cas pratiques Confère - Régression 35 Rodrique Kafando, PhD