Document Details

BuoyantComputerArt

Uploaded by BuoyantComputerArt

HEC Lausanne

Tags

linear regression statistics regression analysis

Summary

This document provides an overview of linear regression, including simple and multiple linear regression models and equations, along with discussions of terms, estimation, and other concepts related to regression. It covers different types of regression equations like linear, polynomial, logistic, and hyperbolic, as well as considerations for choosing the right model for different scenarios and situations.

Full Transcript

MODULE 1 ÉQUATION DE RÉGRESSION LINÉAIRE SIMPLE Un modèle de régression simple permet d’estimer le lien entre deux variables quantitatives et non transformées. y = β! + β" X + ϵ ó 𝐸(𝑦) = 𝛽! + 𝛽" 𝑋 o E(y) correspond à une valeur moyenne de y pour une valeur particulière...

MODULE 1 ÉQUATION DE RÉGRESSION LINÉAIRE SIMPLE Un modèle de régression simple permet d’estimer le lien entre deux variables quantitatives et non transformées. y = β! + β" X + ϵ ó 𝐸(𝑦) = 𝛽! + 𝛽" 𝑋 o E(y) correspond à une valeur moyenne de y pour une valeur particulière de x Informe sur le signe (influence +/-) et sur l’amplitude de l’influence des variables indépendantes sur la variable dépendante à l’ANOVA informe seulement sur l’existence ou non d’une influence La variable dépendante est généralement continue Les variables indépendantes continues peuvent être directement utilisé dans la régression. Des variables qualitatives (comme le sexe) peuvent être incluses grâce à certaines techniques comme les variables dummy/binaire TERME D’ERREUR Le terme d'erreur 𝜖 capture tout ce que le modèle ne peut pas expliquer o Variables omises : Facteurs influençant y mais non inclus dans le modèle o Variabilité aléatoire : Bruit inhérent aux données, c-à-d. l’erreur aléatoire dans les données Par hypothèse : 𝐸(𝜖) = 0 à ∑(𝑦# − 𝑦3# ) = 0 o En moyenne les erreurs de prédiction du modèle ne sont pas biaisées. Les erreurs ne tendent pas à être systématiquement positives ou négatives pour une valeur donnée de la variable indépendante. o Implique que la droite de régression passe correctement au centre des points de données. Il n’y a pas de tendance systématique où la droite serait systématiquement au- dessus ou en dessous des points de données. ÉQUATION ESTIMÉE 𝑦3 = b! + b" x o 𝑦3 correspond à une estimation de E(y) mais peut aussi fournir une estimation individuelle de y N’établit pas une relation de cause à effet entre x et y mais détermine dans quelle mesure les variables sont associés SPÉCIFICATION à Par une transformation logarithmique le modèle de régression linéaire permet de représenter des équations non linéaires FONCTION PUISSANCE (LOG-LOG) : Équation générale : 𝑦 = 𝐵$ 𝑥 %! Forme logarithmique : ln(y) = ln(B! ) + B" ln(x) 𝜕𝑦 𝑥 ∗ = 𝐵" 𝜕𝑥 𝑦 FONCTION EXPONENTIELLE (LOG-LINÉAIRE) Équation générale : 𝑦 = 𝐵! 𝑒 {%!'} Forme logarithmique : 𝑙𝑛(𝑦) = 𝑙𝑛(𝐵! ) + 𝐵" x )* ' ∗ = 𝐵" x )' * SEMI-LOGARITHMIQUE Équation générale : e+ = 𝐵! 𝑥 %! Forme logarithmique : y = ln(𝐵! ) + 𝐵" ln(𝑥) 𝜕𝑦 𝑥 𝐵" ∗ = 𝜕𝑥 𝑦 𝑦 FONCTION LOGISTIQUE " Équation générale : 𝑦 = ,". / "{$% ' $! (} 0 * Forme logarithmique : ln B"1*C = 𝐵! + 𝐵" 𝑥 FONCTION HYPERBOLIQUE " Équation générale : 𝑦 = 𝐵! + 𝐵" B C ' 𝜕𝑦 𝑥 𝐵" ∗ =− 𝜕𝑥 𝑦 𝑥 CRITÈRE MCO Minimisation de la somme des carrés des écarts entre la droite de régression et les valeurs observées Minimisation ∑(𝑦# − 𝑦3# )2 ó ∑(𝑦# − 𝑏! − 𝑏" 𝑥# )2 ó ∑𝑢#2 o Peut être prouvé en prenant les CPO par rapport à 𝐵! /𝐵" ESTIMATION PARAMÈTRES Revient à ajuster une droite aux nuages de points (2D) 𝑏! = 𝑦G − 𝑏" 𝑥̅ ∑+ *,!('* 1'̅ )(** 1* 7) 8(. ∑+ 7 *,!('* ** )19'̅ * 𝑏" = ∑+ - ó 8(- ó ∑+ - - *,!('* 1'̅ ) *,!('* )19'̅ o ! Ne pas arrondir lorsqu’on utilise la deuxième méthode ! 𝑏$ 𝑒𝑡 𝑏" sont des variables aléatoires qui varie d’un échantillon à l’autre et possèdent donc une distribution d’échantillonnage CARACTÉRISTIQUE DE LA DROITE ESTIMÉE La droite estimée passe par 𝑥̅ et 𝑦G " La moyenne des valeurs prédites est égale à la moyenne des valeurs observées : 9 ∑𝑦3# = 𝑦G3 = " 9 ∑𝑦# = 𝑦G LES DIFFÉRENTES SOMMES SCRES = ∑9#:"(𝑦# − 𝑦3# )2 à C’est la somme qui est minimisé, soit le critère SCREG = ∑9#:"(𝑦3# − 𝑦G)2 à Représente la partie expliquée de l’ajustement et détermine dans quelle mesure les valeurs 𝑦3# prédites par les coefficients de régression estimés diffèrent de la moyenne d'échantillon 𝑦G SCTOT = ∑9#:"(𝑦# − 𝑦G)2 à C’est une mesure globale de l’ajustement, peut être interprété comme une mesure de l’ajustement des observations autour de la droite 𝑦G à IMPORTANT : 𝑑𝑓;$< = 𝑑𝑓=/> + 𝑑𝑓=/8 ?@=/8 ?@=/> 𝑀𝐶𝑅𝑒𝑠 = 912 Et MCReg = 9A B/ CDE#DAF/ #9BéH COEFFICIENT DE DÉTERMINATION Mesure de l’adéquation de l’équation estimée de la régression aux valeurs observées 𝑦# , soit le % de SCTot expliquée par l’équation estimée de la régression ?@=/> ?@=/8 ∑(' 1'̅ )- 8- 𝑅2 = ?@;$< ó 1 − ?@;$< ó 𝑏"2 ∑(*!1*7)- ó 𝑏"2 8-( *. Si l’ajustement est parfait à 𝑦# − 𝑦3 = 0 et cela implique 𝑆𝐶𝑅𝑒𝑠 = 0 ó𝑆𝐶𝑇𝑜𝑡 = 𝑆𝐶𝑅𝑒𝑔 COEFFICIENT DE CORRÉLATION ∑('* 1'̅ )(** 1*7) 8(. 𝑝̂'* = = I∑('* 1'̅ )- I∑(** 1*7)- 8( 8. 8(. 𝑝̂'* = ó (𝑠𝑖𝑔𝑛𝑒 𝑏" ) √𝑅2 8 8 (. Le coefficient est compris entre -1 et 1 HYPOTHÈSES DE L’ESTIMATEUR DES MOINDRES CARRÉS Si ces conditions sont respectées, les estimations des coefficients seront impartiales et efficaces. Les inférences statistiques (tests, intervalles de confiance) seront valides. Enfin, les prédictions du modèle seront fiables. Dans ce cas, 𝑏! et 𝑏" sont des estimations non-biaisées de 𝐵! et 𝐵" , possède le plus petit EQM et implique que les erreurs-type des coefficients estimé 𝜎A% et 𝜎A! sont les plus petits parmi tous les estimateurs linéaires et non-biaisés concevables. MOYENNE ZÉRO : 𝐸(𝜖) = 0 ó 𝐸(𝑦) = 𝐵! + 𝐵" 𝑥 à pas de biais systématique INDÉPENDANCE : Chaque 𝜖# est indépendant de 𝑥# ainsi que de tout 𝑥J , 𝑗 ≠ 𝑖 à les erreurs de prédiction 𝜖# ne dépendent pas des valeurs des variables indépendantes 𝑥# et ne sont pas influencées par les valeurs des autres observations 𝑥J cela permet d’éviter des biais dus à des relations non désirées entre les erreurs et les prédicteurs NON-AUTOCORRÉLATION : Chaque 𝜖# indépendante de tout 𝜖J , 𝑗 ≠ 𝑖 à Les erreurs de prédiction 𝜖# sont indépendantes les unes des autres. C-à-d, l’erreur pour une observation donnée n’influence pas l’erreur pour une autre observation. Les erreurs ne suivent pas de tendance systématique. HOMOSCÉDASTICITÉ (variance constante) : 𝜎K* = 𝜎K , ∀𝑖 à selon cette hypothèse, la variance des erreurs à travers toutes les observations est constante. La dispersion des erreurs autour de la ligne de régression est la même, quelle que soit la valeur de 𝑥# NORMALITÉ : La distribution de 𝜖 suit une loi normale Si les hypothèse 1 et 2 sont violée cela biaise l’estimateur des MCO (𝐸(𝑏) ≠ 𝐵), tandis qu’une violation des hypothèses 3 à 5 ne biaise pas l’estimateur mais invalide les méthodes inférentielles. DISTRIBUTION D'ÉCHANTILLONNAGE MCO L/M∑'*- 𝜎A% = I9∑('* 1'̅ )- L/ L/ 𝜎A " = ó I∑('* 1'̅ )- M8(-(91") à IMPORTANT : Estimation de 𝜎K par 𝑠N ?@=/8 ∑N- 𝑠N = √𝑀𝐶𝑅𝑒𝑠 = ^ 912 ó ^912* Il y a deux paramètres qui doivent être estimés, ainsi il y n-2 df On calculera donc une estimation de 𝜎3%O% et 𝜎3%O! 𝜎3%O% et 𝜎3%O! décroit quand ∑(𝑥# − 𝑥̅ )2 augmente. L’estimation devient d’autant plus précise que la variabilité indépendante x prend des valeurs plus étalées. Cela s’explique car une plus grande dispersion des valeurs de x fournit plus d’information sur la relation entre x et y, ce qui permet une estimation plus fiable des coefficients. TESTS D'HYPOTHÈSE (STUDENT) 𝐻$ : 𝐵" = 𝐵",! = 0 contre 𝐻" : 𝐵" ≠ 𝐵",! = 0 o Le non-rejet de 𝐻! signifie soit que la relation entre X et Y n’est pas linéaire ou que X influence peu/pas Y o Un rejet de 𝐻! ne permet pas de conclure qu’une relation de cause à effet lie x et y A! 1 %!,% Statistique de test : 𝑇 = L Q 1! ~ 𝑠𝑡𝑢𝑑𝑒𝑛𝑡(𝑛 − 2) 912 Valeur critique = 𝑡"1 2 - 912 Test bilatéral : 𝐻$ : 𝐵" = 0 à On rejette si 𝑃CDF < 𝛼 ou |𝑡| > 𝑡"1 2 - à 𝑝CDF = 𝑝(𝑇 < −|𝑡|) + 𝑝(𝑇 > |𝑡|) 912 912 𝐼𝐶"1R (𝐵" ) = i𝑏" − 𝑡"1 2 𝜎 3A! ; 𝑏" + 𝑡"1 2𝜎 3A! k - - Idem pour 𝑏! TEST FISCHER 𝐻$ : 𝐵" = 𝐵",! = 0 contre : 𝐻" ∶ 𝐵" ≠ 𝐵",! = 0 Basé sur la comparaison de deux estimateurs différents de 𝜎K. Soit MCReg et MCRes qui sous 𝐻! : 𝐵" = 0 , sont sans biais et leur rapport proche de 1. Toutefois, si 𝐻! est fausse, MCReg surestime 𝜎K et le rapport augmente. ?@=/> Statistique de test : 𝐹 = 34567 ~ 𝐹𝑖𝑠𝑐ℎ𝑒𝑟(1, 𝑛 − 2) +"- ",912 Valeur critique = 𝑓"1R ",912 Test unilatéral sup : On rejette si 𝐹 > 𝑓"1R ou 𝑝CDF < 𝛼 à 𝑃CDF = 𝑝(𝐹 > 𝑓) TEST DE FISHER ET TABLEAU ANOVA MISE EN GARDE Un rejet de 𝐻! ne nous permet pas de conclure que la relation entre x et y est linéaire pour toutes les valeurs de x. La relation linéaire permet d’expliquer une partie de la variabilité de y Il faut faire attention aux prévisions pour des valeurs qui n’appartiennent pas à l’intervalle observé. Par exemple régression linéaire entre l’âge et le salaire. Si le test prouve une relation entre x et y, et que 𝑅2 indique que l’équation estimée est bien adaptée au donnée, l’équation estimée de la régression permet de faire des estimations et des prévisions. PRÉVISION 𝑦3H = 𝑏$ + 𝑏" 𝑥H à pour un niveau de x donné, 𝑥 = 𝑥H. Toutefois cette équation ne nous donne aucune information sur la précision de l’estimation, il faut faire de l’inférence sur les résultats. Le calcul inférentiel se focalise sur l’interprétation ‘moyenne conditionnelle’ 912 912 𝐼𝐶"1R q𝑦H r = [𝑦3H − 𝑡"1 2 𝜎 3*S8 ; 𝑦3H + 𝑡"1 2𝜎 3*S8 ] - - - " T' 1'̅ U 𝜎3*S8 = 𝑠N u9 + v∑('8 1'̅ )-w * L’intervalle de prévision le plus étroit, et donc le plus précis est obtenu lorsque 𝑥H = 𝑥̅. L’intervalle de confiance s’élargir au fur et à mesure que 𝑥H s’écarte de 𝑥̅ L’intervalle de confiance pour une valeur moyenne est plus étroit que pour une valeur individuelle ANALYSE DES RÉSIDUS Sert à déterminer si le modèle de régression estimé est approprié Il est possible de vérifier les hypothèses qui sous-tendent l’inférence sur l’estimateur des MCO sont satisfait MODULE 2 ÉQUATION RÉGRESSION LINÉAIRE MULTIPLE 𝑦 = 𝐵$ + 𝐵" 𝑥" + 𝐵2 𝑥2 + ⋯ + 𝐵V 𝑥V + 𝜖 Contient 𝐾(1 < 𝐾 < 𝑛 − 1) variables indépendantes mais généralement 𝑛 ≫ 𝐾 Si K (le nombre de variables indépendantes) = 𝑛 − 1 (le nombre total d’observation) l’ajustement serait parfait (analogie à une régressions simple avec une observation). Si le modèle à autant de paramètre que d’observations, le modèle peut ajuster exactement chaque point de données et ainsi les résidus sont tous nuls. à risque de overfitting, le modèle est trop spécifique aux données de l’échantillon. La valeur d’un paramètre 𝑏V donne le nombre d’unité supplémentaire de y pour une augmentation d’une unité de 𝑥V lorsque les autres variables sont constantes 𝐸(𝑌|𝑥" , 𝑥2 , … , 𝑥V ) est l’espérance de y pour un vecteur de valeurs des variables indépendante donné REPRÉSENTATION POUR K = 2 La représentation est possible car il n’y a que trois dimensions : 𝑥" , 𝑥2 𝑒𝑡 𝑦 L’équivalent de la droite de régression pour k = 1 est appelé surface de réponse FORME MATRICIELLE Il est possible de résumer ce modèle à travers toutes les 𝑛 observations et 𝑘 variables, sous la forme matricielle : 𝑌 = 𝑋𝐵 + 𝜖 ÉQUATION ESTIMÉE 𝑦3 = 𝑏$ + 𝑏" 𝑥" + 𝑏2 𝑥2 + ⋯ + 𝑏V 𝑥V Sous forme matricielle : 𝑌~ = 𝑋𝑏 ESTIMATION DES COEFFICIENTS 𝐵~ = 𝑏 = (𝑋 ; 𝑋)1" (𝑋 ; 𝑌) TEST STUDENT Test d’hypothèse sur des paramètres individuels 8: 8: 𝑠A9 = ó MW"1=(- ; X∑('*9 1'̅ 9)- MW"1=(- ; X8(- (91") 9 9 9 9 9 o 𝑅'29Y9 est le coefficient de détermination d’une régression de 𝑥V sur toutes les variables indépendantes x autres que k o L’erreur-type empirique des paramètres estimés est d’autant plus faible que : § L’erreur-type empirique de la régression (𝑠N ) est faible § La variance de 𝑥V est grande § n est grand § 𝑥V est faiblement corrélé avec X_k (faible multicolinéarité) 𝐻! ∶ 𝐵V = 𝐵!,V = 0 contre 𝐻" : 𝐵V ≠ 𝐵!,V = 0 A9 1%%,9 Statistique de test : 𝑡V = ~ 𝑡 91V1" 81 9 A9 o On peut déduire 𝑠A9 depuis < 91V1" 𝐼𝐶(𝑏V ) = [𝑏V ± 𝑡"1 2 𝑠A9 ] - 91V1" Test bilatéral : 𝐻$ : 𝐵" = 0 à On rejette si 𝑃CDF < 𝛼 ou |𝑡| > 𝑡"1 2 - o 𝑝CDF = 𝑝(𝑇 < −|𝑡|) + 𝑝(𝑇 > |𝑡|) Si n tend vers ∞ il faut prendre la table statistique d’une loi normale TEST FISCHER Test de signification globale 𝐻! : 𝐵" = 𝐵2 = ⋯ = 𝐵V = 0 contre 𝐻" : 𝑎𝑢 𝑚𝑜𝑖𝑛𝑠 1 ≠ 0 3456< (91V1")= - Statistique de test : 𝐹 = = 34567 ~ 𝐹V,91V1" ó 𝐹 = V("1= - ) +"9"! V,91V1" Test unilatéral sup : On rejette si 𝐹 > 𝑓"1R ou 𝑝CDF < 𝛼 à 𝑃CDF = 𝑝(𝐹 > 𝑓) Plus 𝑛 − 𝑘 est grand, plus la statistique F est élevée. Cela représente le fait que plus il y a d’observations par rapport au nombre de variables indépendantes, plus il semble qu’une certaine qualité d’ajustement du modèle se soit produit aléatoirement MULTICOLINÉARITÉ Aucun des coefficients estimés 𝑏V n’est individuellement statistiquement significatif (selon le test de student), mais que le modèle soit globalement statistiquement significatif Ceci s’explique par la multicolinéarité, soit le fait que les variables indépendantes 𝑥V soient corrélées entre elles. Cela engendre plusieurs problèmes : o Les erreurs-type des coefficients estimés augmentent, ce qui signifie que les estimations des coefficients 𝐵~V deviennent moins précise o Risque que les coefficients estimés prennent le signe opposé à celui du vrai paramètre o Les tets de significativité sont moins puissants. Si les erreurs-types sont plus grandes, la statistique t diminue. Il devient plus difficile de rejeter l’hypothèse nulle o Il devient difficile de déterminer l’effet propre de chaque variable Exemple : Nous étudions les complications après l’accouchement dans différentes maternités d’un pays en développement. On souhaite mettre dans le modèle, à la fois le milieu de résidence (urbain ou rural) et le fait qu’il y ait ou non un médecin dans la clinique. Or, dans la zone d’enquête, les maternités rurales sont dirigées seulement par des sage-femmes tandis que l’on trouve un médecin dans toutes les maternités urbaines sauf une. Dès lors, dans ce contexte précis, le milieu de résidence prédit presque totalement la présence d’un médecin et on se retrouve face à une multicolinéarité. à On ne peut donc distinguer l’effet de la présence d’un médecin de celui du milieu de résidence. Puisque les deux variables sont toujours liées, le modèle aura du mal à distinguer les effets individuels de ces deux variables. Dans notre exemple, il ne saura pas si les différences observées sans les complications après accouchement sont dues au milieu de résidence ou à la présence d’un médecin, car ces deux facteurs sont pratiquement indissociables. 𝑆𝑒𝑢𝑖𝑙 = ƒ𝑝̂ '9'> ƒ = 0.7 Pour pallier au problème de multicolinéarité il faut augmenter la taille de l’échantillon. Si n augmente la variance des estimations diminue, une plus grande diversité est capturée, les estimations des coefficients deviennent plus précis et les tests de significativité plus puissants car les statistiques de test augmente. S’il y a colinéarité parfaite entre deux ou plusieurs variables, leurs paramètres ne peuvent pas être estimés COEFFICIENT DE DÉTERMINATION Idem que pour la régression linéaire simple Exprime le pourcentage de la somme des carrés totaux ‘expliqué’ par l’équation estimée de la régression. Il ne peut être décomposé en contributions explicatives de chacune des K variables indépendantes o Exception si zéro cas de colinéarité COMPLICATION DU COEFFICIENT DE DÉTERMINATION Si on ajoute des variables à notre modèle de régression le modèle s’ajuste mieux aux données observées, ce qui réduit la SCRes ou reste constante. Ainsi, si SCRes diminue cela fait augmenter 𝑅2. De plus, il se peut que l’ajout d’une variable non significatives fasse tout de même augmenter 𝑅2 , simplement car l’ajout de cette variable permet au modèle de mieux s’ajuster, serait-ce qu’un peu. Exemple : Supposons un modèle de régression simple avec une seule variable indépendante 𝑥# et que nous obtenons un certain 𝑅2. Si nous ajoutons une deuxième variable 𝑥2 , le modèle devient plus flexible et peut mieux expliquer la variance de Y. Même si 𝑥2 n'ajoute que peu d'explication supplémentaire, elle ne peut pas augmenter la SCRes. Par conséquent, 𝑅2 ne peut qu'augmenter ou rester le même. 𝑅2 dépend de K, ce qui complique la comparaison de la qualité d’ajustement de différents modèles de régression si le nombre de variables indépendantes n’est pas identique. COEFFICIENT DE DÉTERMINATION AJUSTÉ Alternative à 𝑅2 34567 91" 8- 𝑅G2 = 1 − +"9"! 34?@A ó 1 − (1 − 𝑅2 ) B91V1"C ó 1 − 8:-. +"! ?@=/8 ?@;$< o 91V1" est la variance estimée des résidus 𝑠N2 et 91" est la variance estimée de Y (𝑠*2 ) L’ajout d’une variable indépendante peut faire augmenter ou diminue 𝑅G2. Ainsi, il peut être négatif ou positif o Si l’ajout d’une variable indépendante diminue proportionnellement moins SCRes qu’il n’augmente k, alors 𝑠N2 augmente et 𝑅G2 diminue ?@=/> Un ajout de 𝑥V réduit les erreurs de prévision à SCReg = SCTot – SCRes augmente à 𝑅2 = ?@;$< augmente Il a été démontré que l’ajout d’une variable indépendante augmente 𝑅G2 si la statistique du t de Student de cette variable est supérieur à 1. Ainsi, la variable indépendante supplémentaire n’a pas besoin d’être statistiquement significative, même au seuil de 10% TABLEAU RÉGRESSION MULTIPLE Lorsqu’on fait des tests d’hypothèse on peut les vérifier directement en contrôlant si 𝑝CDF < 𝛼 TESTS D’HYPOTHÈSE ALTERNATIFS On peut s’intéresser à des tests d’hypothèse alternatifs, 𝐻! : 𝐵V = 0 Exemple : on pourrait s’intéresser à savoir si la véritable hausse salariale par année d’âge est égale à 500 -. COEFFICIENTS STANDARDISÉS Facilite la comparaison des paramètres estimés et peut être interprété comme la variation de la variable dépendante suivant l’augmentation d’un écart type de x (exprimé en écart type de y) 8(9 𝑏V8

Use Quizgecko on...
Browser
Browser