Module 1 : Régression Linéaire Simple - PDF
Document Details
Uploaded by BuoyantComputerArt
HEC Lausanne, UNIL
2024
Marius Brülhart, Jan-Erik Meidell
Tags
Summary
This document details Module 1 of a course on linear regression and causal analysis. The course is for first-year bachelor students at HEC Lausanne, UNIL, Spring 2024. It introduces concepts like linear regression, estimation, and inference.
Full Transcript
HEC Lausanne Module 1 Régression Linéaire Simple Cours : Régression et analyse causale (“Statistique II”)...
HEC Lausanne Module 1 Régression Linéaire Simple Cours : Régression et analyse causale (“Statistique II”) Printemps 2024 Bachelor 1ère année, HEC Lausanne, UNIL Marius Brülhart, Jan-Erik Meidell Régression et analyse causale Module 1 1 / 56 HEC Lausanne 1 Equation de la régression 2 Estimation par les moindres carrés 3 Coefficient de détermination 4 Inférence sur les paramètres 5 Prévision et validation du modèle Régression et analyse causale Module 1 2 / 56 Equation de la régression ANOVA et régression HEC Lausanne ANOVA ▶ Variables indépendantes qualitatives ou quantitatives (en intervalles) ▶ Information sur l’existence d’une influence des variables indépendantes sur les valeurs de la variable dépendante, mais non sur le signe et l’amplitude de cette influence ▶ Exemple : Est-ce que les salaires des employés d’une entreprise différent selon la nationalité des employés? Régression ▶ Variables indépendantes continues ▶ Information sur le signe et l’amplitude d’une influence éventuelle des variables indépendantes sur les valeurs de la variable dépendante ▶ Exemple : Comment est-ce que les salaires varient-ils en fonction de l’âge des employés? =⇒ Etablir un lien entre une variable dépendante Y et une variable indépendante X , pour pouvoir ensuite faire des prévisions sur Y en fonction de X Régression et analyse causale Module 1 3 / 56 Equation de la régression Equation de la régression HEC Lausanne Régression linéaire : ligne droite qui décrit la relation entre une variable dépendante et une variable indépendante simple (une seule variable indépendante, ou “explicative”) La variable aléatoire dépendante est désormais notée Y , et la variable indépendante observée est notée x La relation entre Y et x est perturbée par un “terme d’erreur” additif, noté ϵ Par hypothèse, E (ϵ) = 0 L’équation de régression linéaire simple (ou “modèle de régression”) s’écrit de la façon suivante : Y = β0 + β1 x + ϵ ou E (Y ) = β0 + β1 x où β0 et β1 sont les paramètres (ou coéfficients) du modèle, et le terme d’erreur ϵ est une variable aléatoire. Régression et analyse causale Module 1 4 / 56 Equation de la régression Equation de la régression (suite) HEC Lausanne β0 représente le point d’intersection de la droite de régression avec l’ordonnée : l’ordonnée à l’origine β1 représente la pente de la droite de régression Régression et analyse causale Module 1 5 / 56 Equation de la régression Equation estimée HEC Lausanne Le premier but de la régression est d’estimer les valeurs des paramètres inconnus β0 et β1 (”coefficients de régression”) Pour estimer β0 et β1 , on va utiliser un échantillon de taille n contenant les couples (xi , yi ), pour i = 1,..., n On estimera β0 et β1 par les statistiques d’échantillon b0 et b1 (parfois écrits β̂0 et β̂1 ) Ainsi, l’équation estimée de la régression est donnée par : ŷ = b0 + b1 x où ŷ est l’estimation ponctuelle de E (Y ) A noter : L’équation estimée de la régression n’établit pas nécessairement une relation de cause à effet entre x et Y. Elle indique seulement comment ou dans quelle mesure les variables sont associées =⇒ corrélation ̸= causalité! Régression et analyse causale Module 1 6 / 56 Equation de la régression Processus d’estimation HEC Lausanne Régression et analyse causale Module 1 7 / 56 Equation de la régression Équations non linéaires (1) HEC Lausanne Le modèle de régression linéaire permet de représenter des équations non linéaires en effectuant une transformation logarithmique. Exemples : fonction puissance (spécification “log-log”) : ▶ y = β0 x β1 ⇔ ln y = ln β0 + β1 ln x ▶ relation estimable uniquement pour valeurs non négatives de y et x ▶ ∂x × y = β1 élasticité : ∂y x Régression et analyse causale Module 1 8 / 56 Equation de la régression Équations non linéaires (2) HEC Lausanne fonction exponentielle (spécification “log-linéaire”) : ▶ y = β0 e β1 x ⇔ ln y = ln β0 + β1 x ▶ relation estimable uniquement pour valeurs non négatives de y ▶ ∂x × y = β1 x élasticité : ∂y x Régression et analyse causale Module 1 9 / 56 Equation de la régression Équations non linéaires (3) HEC Lausanne spécification semi logarithimique : ▶ e y = β0 x β1 ⇔ y = ln β0 + β1 ln x ▶ relation estimable uniquement pour valeurs non négatives de x ▶ ∂x × y = y élasticité : ∂y x β1 Régression et analyse causale Module 1 10 / 56 Equation de la régression Équations non linéaires (4) HEC Lausanne fonction logistique : 1 ▶ y= 1+e −(β0 +β1 x ) ⇔ ln ( 1−y y ) = β0 + β1 x ▶ relation estimable uniquement pour valeurs 0 ≤ y < 1 Régression et analyse causale Module 1 11 / 56 Equation de la régression Équations non linéaires (5) HEC Lausanne fonction hyperbolique : ▶ y = β0 + β1 x1 ▶ relation estimable uniquement pour valeurs x ̸= 0 ▶ élasticité : ∂y ∂x × y = − xy x β1 Régression et analyse causale Module 1 12 / 56 Equation de la régression Équations non linéaires (6) HEC Lausanne Régression et analyse causale Module 1 13 / 56 Estimation par les moindres carrés Estimation des paramètres HEC Lausanne Puisque le modèle de régression linéaire simple ne contient que deux variables X et Y , les données (xi , yi ) peuvent être représentées dans un graphique (donc en 2 dimensions) : le “nuage de points”. L’estimation des paramètres β0 et β1 revient à ajuster une ligne droite à ce nuage de points : ▶ Si l’écart entre les valeurs observées yi et les valeurs estimées ŷi est faible, on peut considérer que la droite de régression est bien adaptée aux données observées. ▶ Il s’agit alors de déterminer un critère d’optimisation pour définir le sens précis d’une “bonne adaptation aux données”. ▶ Ce choix de critère correspond au choix de l’estimateur des paramètres de l’équation de la régression. Régression et analyse causale Module 1 14 / 56 Estimation par les moindres carrés Exemple Statville (1) HEC Lausanne Le syndic s’intéresse au rapport entre l’âge et le revenu des résidents de Statville. Il sélectionne un échantillon aléatoire simple de taille n = 12. Régression et analyse causale Module 1 15 / 56 Estimation par les moindres carrés Critère des moindres carrés HEC Lausanne On choisit comme critère d’optimisation pour l’ajustement de la droite de regression la minimisation de la somme des carrés des écarts entre la droite de régression et les valeurs observées. On parle alors de l’estimateur des moindres carrés (ou “estimateur MCO”, pour “moindres carrés ordinaires”; ou “estimateur OLS”, pour “Ordinary Least Squares”) Cette méthode fut inventée de façon indépendante par Adrien-Marie Legendre (mathématicien français, 1752-1833) et Carl Friedrich Gauss (mathématicien allemand, 1777-1855). Formellement, la méthode est la suivante : {b0 , b1 } = argminb0 ,b1 i=1 (yi − ŷi )2 = argminb0 ,b1 i=1 (yi − b0 − b1 xi )2 Pn Pn = argminb0 ,b1 ui2 Pn i=1 où les ui sont appelés les résidus de la régression. Régression et analyse causale Module 1 16 / 56 Estimation par les moindres carrés Estimateur des moindres carrés HEC Lausanne Le terme que l’on minimise, i=1 (yi − ŷi )2 = 2 i=1 ui , est nommé Pn Pn la“somme des carrés des résidus” (SCRes). Conditions de première ordre : ∂SCRes n ▶ = 2 (yi − b0 − b1 xi )(−1) = 0 P ∂β0 β0 =b0 i=1 n n yi = nb0 + b1 xi P P ⇒ i=1 i=1 ∂SCRes n ▶ = 2 (yi − b0 − b1 xi )(−xi ) = 0 P ∂β1 β1 =b1 i=1 n n n xi yi = b0 xi + b1 xi2 P P P ⇒ i=1 i=1 i=1 =⇒ ”équations normales” (2 équations, 2 inconnues) Régression et analyse causale Module 1 17 / 56 Estimation par les moindres carrés Estimateur des moindres carrés (suite) HEC Lausanne Dérivation de l’estimateur : Diviser la 1ère équation normale par n, et réarranger les termes : 1 Pn 1 Pn b0 = ȳ − b1 x̄, où ȳ = yi et x̄ = xi n i=1 n i=1 Substituer b0 dans la 2ème équation normale : 2 1 Pn i=1 xi yi = ȳ i=1 xi −b1 x̄ i=1 xi +b1 i=1 xi = i=1 xi i=1 yi Pn Pn Pn Pn Pn n 1 Pn +b1 i=1 xi 2 [ i=1 xi ]2 Pn − n 1 Pn i=1 xi yi i=1 xi i=1 yi Pn Pn − (xi − x̄)(yi − ȳ) sxy Pn b1 = n = i =1 = 2 2− 1 2 Pn (xi − x̄)2 sx x [ x ] =1 Pn Pn i i=1 i n i=1 i Régression et analyse causale Module 1 18 / 56 Estimation par les moindres carrés Exemple Statville (1, suite) HEC Lausanne (x − x̄ )(yi − ȳ ) 252928.4 Pn b1 = i=1 Pn i = = 279.7 (x i=1 i − x̄ ) 2 904.3 b0 = ȳ − b1 x̄ = 51931.2 − 279.7 ∗ 43.1 ≃ 39885 i (ind.) y i (revenu) x i (âge) yi − y xi − x ( x i − x )( y i − y ) ( x i − x )2 1 52125.0 48.1 193.9 5.0 978.6 25.5 2 50955.9 38.7 -975.3 -4.4 4245.4 18.9 3 53382.9 48.6 1451.7 5.6 8061.1 30.8 4 51286.9 37.5 -644.3 -5.5 3570.3 30.7 5 55243.6 54.7 3312.5 11.6 38434.3 134.6 6 53384.7 40.7 1453.5 -2.4 -3481.4 5.7 7 53488.2 50.1 1557.1 7.1 10982.0 49.7 8 54134.1 45.9 2202.9 2.9 6281.9 8.1 9 52706.4 55.9 775.2 12.9 9975.6 165.6 10 42144.3 25.1 -9786.9 -18.0 176033.4 323.5 11 52665.2 36.9 734.1 -6.1 -4503.3 37.6 12 51656.7 34.5 -274.5 -8.6 2350.7 73.3 Moyenne 51931.2 43.1 0 0 21077.4 75.4 Somme 623174.0 516.8 0 0 252928.4 904.3 Régression et analyse causale Module 1 19 / 56 Estimation par les moindres carrés Exemple Statville (1, suite) HEC Lausanne Régression et analyse causale Module 1 20 / 56 Estimation par les moindres carrés Exemple Statville (1, suite) HEC Lausanne Interprétation des coefficients estimés : ▶ b1 = 279.7 → En moyenne, un citoyen de Statville gagne 279.7 francs de plus par année d’âge supplémentaire ▶ b0 = 39885 → En moyenne, un ”nouveau-né” à Statville gagne 39885 francs Prévisions (pour des limites d’âge réalistes) : ▶ ŷ = b0 + b1 x ▶ salaire estimé pour une personne de 30 ans : ŷ = 39885 + 279.7 · 30 = 48276 ▶ salaire estimé pour une personne de 60 ans : ŷ = 39885 + 279.7 · 60 = 56667 Régression et analyse causale Module 1 21 / 56 Estimation par les moindres carrés Caractéristiques de la droite estimée HEC Lausanne L’équation de la régression estimée par les moindres carrés, ŷ = b0 + b1 x , est telle que : ▶ La moyenne des valeurs prédites est égale à la moyenne des valeurs observées : 1X 1X n n ŷi = ŷ¯ = yi = ȳ n i=1 n i=1 ▶ La droite estimée passe par x̄ et ȳ Régression et analyse causale Module 1 22 / 56 Coefficient de détermination Résidus HEC Lausanne Rappel : De par sa construction, l’estimateur des moindres carrés minimise la somme des carrés des résidus : SCRes = i=1 (yi − ŷi )2 = 2 i=1 ui Pn Pn Question : Quelle est la qualité d’ajustement de l’équation de la régression estimée? Comment arrive-t-elle à “expliquer” les variations de la variable dépendante? La qualité d’ajustement est d’autant meilleure que l’équation estimée arrive à minimiser l’écart entre (a) la valeur observée yi de la variable dépendante pour un élément de l’échantillon et (b) la valeur prédite ŷi correspondante. Cet écart définit le i eme résidu ui. Régression et analyse causale Module 1 23 / 56 Coefficient de détermination Exemple Statville (2) HEC Lausanne Calcul de SCRes i (ind.) y i (revenu) x i (âge) yˆ i = 39885 + 279.7 * x i y i − yˆ i ( y i − yˆ i )2 1 52125.0 48.1 53343.0 -1218.0 1483550.6 2 50955.9 38.7 50713.7 242.2 58665.3 3 53382.9 48.6 53484.3 -101.4 10274.8 4 51286.9 37.5 50381.1 905.8 820405.6 5 55243.6 54.7 55176.5 67.1 4507.4 6 53384.7 40.7 51261.3 2123.5 4509068.6 7 53488.2 50.1 53903.9 -415.6 172735.6 8 54134.1 45.9 52728.7 1405.4 1975015.2 9 52706.4 55.9 55530.2 -2823.8 7973726.7 10 42144.3 25.1 46900.3 -4756.1 22620189.0 11 52665.2 36.9 50215.3 2450.0 6002285.9 12 51656.7 34.5 49535.7 2121.0 4498484.4 Moyenne 51931.2 43.1 51931.2 0 4177409.1 Somme 623174.0 516.8 623174.0 0 50128909.0 Régression et analyse causale Module 1 24 / 56 Coefficient de détermination Somme des carrés de la régression HEC Lausanne Les variations de la variable dépendante “expliquées” par l’équation de la régression estimée sont mesurées par la somme des carrés de la régression (ou “somme des carrés expliqués”) : SCReg = i=1 (ŷi − ȳ )2 Pn =⇒ SCReg détermine dans quelle mesure les valeurs ŷi prédites par les coefficients de régression estimés différent de la moyenne d’échantillon ȳ Régression et analyse causale Module 1 25 / 56 Coefficient de détermination Exemple Statville (2, suite) HEC Lausanne Calcul de SCReg 2 i (ind.) y i (revenu) x i (âge) yˆ i = 39885 + 279.7 * x i yˆ i - y ( yˆ i - y ) 1 52125.0 48.1 53343.0 1411.9 1993391.2 2 50955.9 38.7 50713.7 -1217.5 1482312.4 3 53382.9 48.6 53484.3 1553.1 2412088.1 4 51286.9 37.5 50381.1 -1550.0 2402553.1 5 55243.6 54.7 55176.5 3245.3 10532106.9 6 53384.7 40.7 51261.3 -669.9 448778.9 7 53488.2 50.1 53903.9 1972.7 3891529.2 8 54134.1 45.9 52728.7 797.6 636138.2 9 52706.4 55.9 55530.2 3599.0 12953007.7 10 42144.3 25.1 46900.3 -5030.8 25309218.3 11 52665.2 36.9 50215.3 -1715.9 2944315.5 12 51656.7 34.5 49535.7 -2395.4 5738114.6 Moyenne 51931.2 43.1 51931.2 0 5895296.2 Somme 623174.0 516.8 623174.0 0 70743554.2 Régression et analyse causale Module 1 26 / 56 Coefficient de détermination Somme totale des carrés HEC Lausanne La globalité des variations observées de la variable dépendante sont mesurées par la somme totale des carrés (i.e. la somme des carrés des écarts totaux ) : SCTot = i=1 (yi − ȳ )2 Pn =⇒ SCTot détermine dans quelle mesure les valeurs observées yi différent de la moyenne d’échantillon ȳ. =⇒ Alors que SCRes est une mesure de l’ajustement des observations yi autour de la droite de régression estimée ŷi , SCTot peut être interprété comme une mesure de l’ajustement des observations autour de la droite ȳ. Régression et analyse causale Module 1 27 / 56 Coefficient de détermination Exemple Statville (2, suite) HEC Lausanne Calcul de SCTot 2 i (ind.) y i (revenu) yi − y (y i − y) 1 52125.0 193.9 37583.3 2 50955.9 -975.3 951197.2 3 53382.9 1451.7 2107506.6 4 51286.9 -644.3 415064.1 5 55243.6 3312.5 10972379.8 6 53384.7 1453.5 2112799.2 7 53488.2 1557.1 2424502.0 8 54134.1 2202.9 4852923.0 9 52706.4 775.2 601012.4 10 42144.3 -9786.9 95783322.5 11 52665.2 734.1 538837.5 12 51656.7 -274.5 75335.5 Moyenne 51931.2 0 10072705.3 Somme 623174.0 0 120872463.1 Régression et analyse causale Module 1 28 / 56 Coefficient de détermination Décomposition de la somme totale des carrés HEC Lausanne SCTot = SCReg + SCRes → SCReg peut être considérée comme la partie ”expliquée” de SCTot (i.e. la partie ”expliquée” des variations observées entre les yi ), et SCRes comme la partie ”inexpliquée”. Régression et analyse causale Module 1 29 / 56 Coefficient de détermination Coefficient de détermination R 2 HEC Lausanne On mesure l’adéquation de l’équation estimée de la régression aux valeurs observées yi par le coefficient de détermination : SCReg SCReg SCRes R2 = = =1− =⇒ 0 ≤ R 2 ≤ 1 SCTot SCReg + SCRes SCTot → Le R-carré exprime le pourcentage de la somme totale des carrés “expliqué” par l’équation estimée de la régression. (xi − x̄ )2 2 2 sx Pn → Dérivation alternative : R2 = 2 b1 Pni=1 = b 1 2 i=1 (yi − ȳ )2 sy 70743554.2 9.12 Exemple Statville : R 2 = = 279.72 = 0.585 120872463.1 3314.92 Régression et analyse causale Module 1 30 / 56 Coefficient de détermination R 2 et coefficient de corrélation HEC Lausanne Coefficient de corrélation (corrélation estimée) entre x et y : i=1 (xi − x̄ )(yi − ȳ ) sxy Pn ρ̂xy = qP = , −1 ≤ ρ̂xy ≤ 1 sx sy i=1 (xi − x̄ ) i=1 (yi − ȳ )2 2 qP n n Relations entre R 2 et ρ̂xy : → R 2 = ρ̂2xy 2 2 s2 sx2 R 2 = b12 sx2 = = ρ̂2xy sxy sxy ⋆ = y sx4 sy2 sx2 sy2 ⋆ Le terme “R 2 ” vient du fait que parfois on utilise “R” pour désigner ce que nous appelons “ρxy ”. √ → b1 > 0 ⇐⇒ ρ̂xy = R2 √ → b1 < 0 ⇐⇒ ρ̂xy = − R2 √ Exemple Statville : R 2 = 0.585 |⇐⇒ {z } ρ̂xy = 0.585 = 0.765 b1 >0 Régression et analyse causale Module 1 31 / 56 Inférence sur les paramètres Inférence sur les paramètres HEC Lausanne Les méthodes présentées jusqu’ici concernent l’estimation de la droite de régression. Nous passons maintenant à l’inférence, à savoir effectuer des tests d’hypothèse basés sur des raisonnements probabilistes. Les paramètres estimés b0 et b1 sont des statistiques d’échantillon. Tout comme Y , ce sont donc des variables aléatoires qui varient d’un échantillon à l’autre et possèdent une distribution d’échantillonnage permettant le développement de méthodes inférentielles. Régression et analyse causale Module 1 32 / 56 Inférence sur les paramètres Hypothèses de l’estimateur des moindres carrés HEC Lausanne La légitimité des tests d’hypothèse repose sur des hypothèses faites à propos du terme d’erreur ϵ du modèle de régression. Distribution de ϵ supposée pour l’inférence sur les estimations du modèle de régression par les moindres carrés ordinaires : ϵi ∼ N (0, σϵ2 ) ∀i Cette hypothèse est composée de cinq éléments. Régression et analyse causale Module 1 33 / 56 Inférence sur les paramètres Hypothèses de l’estimateur des moindres carrés (suite) HEC Lausanne Les cinq hypothèses de base sur le terme d’erreur ϵ sont les suivantes : 1. Moyenne zéro : E (ϵ) = 0 ⇐⇒ E (Y ) = β0 + β1 x 2. Indépendance : Chaque ϵi est indépendant de xi ainsi que de tout xj , j ̸= i. 3. Non-autocorrélation : Chaque ϵi est indépendante de tout ϵj , j ̸= i. 4. Homoscedasticité (variance constante) : σϵi = σϵ , ∀i. 5. Normalité : La distribution de ϵ suit une loi normale. Une violation des hypothèses 1 et 2 biaise l’estimateur des MCO (donc E (b) ̸= β). Une violation des hypothèses 3 à 5 ne biaise pas l’estimateur mais invalide les méthodes inférentielles que nous développons ci-dessous. Régression et analyse causale Module 1 34 / 56 Inférence sur les paramètres Hypothèses de l’estimateur des moindres carrés (suite) HEC Lausanne Illustration des hypothèses 1 à 5 : Régression et analyse causale Module 1 35 / 56 Inférence sur les paramètres Hypothèses de l’estimateur des moindres carrés (suite) HEC Lausanne On peut démontrer que, à condition que les cinq hypothèses soient satisfaites, l’estimateur des moindres carrés est le meilleur des estimateurs concevables, dans le sens suivant (Théorème de Gauss-Markov ) : ▶ Les coefficients estimés b0 et b1 sont des estimations non-biaisées des paramètres β0 et β1. ▶ L’estimateur des moindres carrés implique que les erreurs-type des coefficients estimés σb0 et σb1 sont les plus petits parmi tous les estimateurs linéaires et non-biaisés concevables. ⇒ L’estimateur MCO est l’estimateur le plus précis parmi les estimateurs linéaires et non-biaisés; il a donc la plus petite erreur quadratique moyenne. Régression et analyse causale Module 1 36 / 56 Inférence sur les paramètres Tests d’hypothèses HEC Lausanne Distribution d’échantillonnage de l’estimateur des moindres carrés si les hypothèses sur ϵ sont satisfaites : Espérance : E (b0 ) = β0 , E (b1 ) = β1 =⇒ estimateur sans biais Erreur-type des coefficients estimés : s n σϵ · x2 P i i=1 σϵ σϵ σb0 = s , σb1 = s =q n n P (xi − x̄ )2 n P (xi − x̄ )2 sx (n − 1) 2 i=1 i=1 Loi de probabilité : Normale =⇒ b0 ∼ N (β0 , σb20 ), b1 ∼ N (β1 , σb21 ) Régression et analyse causale Module 1 37 / 56 Inférence sur les paramètres Tests d’hypothèses (suite) HEC Lausanne L’écart-type des erreurs σϵ n’est pas connu, mais il peut être estimé sans biais (i.e. E (Su ) = σϵ ) par l’erreur-type de la régression Su (i.e. l’écart type des résidus) : 2 sP SCRes i=1 ui s n su = = n−2 n−2 Il y a n − 2 degrés de liberté, puisque deux paramètres (β0 et β1 ) doivent être estimés pour calculer SCRes. s n su · x2 P su i i=1 On utilisera donc : σ̂βˆ0 = s et σ̂βˆ1 = q n n P (xi − x̄ )2 sx2 (n − 1) i=1 Régression et analyse causale Module 1 38 / 56 Inférence sur les paramètres Tests d’hypothèses (suite) HEC Lausanne A noter que l’erreur-type des coefficients estimés par la méthode des moindres carrés décroı̂t quand (xi − x̄ )2 augmente : l’estimation P devient d’autant plus précise que la variable indépendante x prend des valeurs plus “étalées”. L’hypothèse la plus communément testée concerne la signification statistique de x comme facteur “explicatif” des variations de Y : H0 : β1 = β1,0 = 0 contre H1 : β1 ̸= β1,0 = 0 Lorsque l’on ne rejette pas H0 , on conclut qu’il n’y a pas de relation linéaire entre X et Y : ▶ Soit la relation entre X et Y n’est pas linéaire ▶ Soit la variation de X influe pas ou peu sur la variation de Y Si les hypothèses sur ϵ sont satisfaites, on peut se servir de la loi de Student pour tester des hypothèses sur β0 et β1. Régression et analyse causale Module 1 39 / 56 Inférence sur les paramètres Tests d’hypothèses (suite) HEC Lausanne Statistique de test : b0 − β0,0 ▶ T = ∼ Student(n − 2), où β0,0 est la valeur de β0 sous H0 σ̂b0 b1 − β1,0 ▶ T = ∼ Student(n − 2) , où β1,0 est la valeur de β1 sous H0 σ̂b1 Régression et analyse causale Module 1 40 / 56 Inférence sur les paramètres Exemple Statville (3) HEC Lausanne Test bilatéral : H0 : β1 = |{z} 0 contre H1 : β1 ̸= |{z} 0 , seuil de signification α = 1% β1,0 β1,0 SCRes s 50128909∗ r n−2 Erreur-type de b1 : σ̂b1 = s = √ 10 = 74.45 n 904.3∗∗ (xi − x̄ )2 P i=1 b1 − β1,0 279.7∗∗ Statistique de test observée : t = = = 3.76 σ̂b1 74.45 Valeur critique : t = 3.76 > t1−α/2 n−2 10 = t0.995 = 3.169 =⇒ H0 rejetée valeur p : pval = P(T < −3.76) + P(T > 3.76) = 0.0037 < 0.01 =⇒ H0 rejetée ∗ ∗∗ c.f. slide 23, c.f. slide 18 Régression et analyse causale Module 1 41 / 56 Inférence sur les paramètres Intervalles de confiance HEC Lausanne Les intervalles de confiance autour des deux paramètres estimés sont définis comme suit : ▶ intercept : IC1−α (β0 ) = [b0 − t1−α/2 n−2 σ̂βˆ0 , b0 + t1−α/2 n−2 σ̂βˆ0 ] ▶ pente : IC1−α (β1 ) = [b1 − t1−α/2 n−2 σ̂βˆ1 , b1 + t1−α/2 n−2 σ̂βˆ1 ] Exemple Statville : ▶ Intervalle autour de b1 avec seuil de confiance de 1 − α = 99% : 10 10 IC0.99 (β1 ) = [b1 − t0.995 σ̂βˆ1 , b1 + t0.995 σ̂βˆ1 ] = [279.7 − 3.169 · 74.45, 279.7 + 3.169 · 74.45] = [43.8, 515.6] Régression et analyse causale Module 1 42 / 56 Inférence sur les paramètres Test de Fisher HEC Lausanne Dans le contexte de la régression linéaire simple (donc avec une seule variable explicative), on peut construire un test d’hypothèse sur β1 équivalent au test du t de Student introduit précédemment, en se basant sur la distribution de Fisher. ! En régression multiple, le test du F de Fisher permettra de construire un test de signification globale, impossibe avec le test du t de Student. On teste l’hypothèse concernant la signification statistique de x : H0 : β1 = 0 contre H1 : β1 ̸= 0 La logique qui sous-tend le test du F de Fisher est basée sur la comparaison de deux estimateurs différents de σϵ. Un estimateur est basé sur SCRes (tout comme l’estimateur su ), tandis que l’autre est basé sur SCReg. Sous H0 : β1 = 0, les deux estimateurs sont sans biais, et leur rapport doit donc être proche de 1. Par contre, si H0 est fausse, alors l’estimateur basé sur SCReg surestime σϵ et le rapport entre les deux estimateurs augmente. Régression et analyse causale Module 1 43 / 56 Inférence sur les paramètres Test de Fisher (suite) HEC Lausanne SCReg Statistique de test : F = ∼ Fisher (1, n − 2) SCRes n−2 Exemple Statville : (α = 1%) : SCReg 70743554.2 ▶ Statistique de test observée : f = = = 14.11 SCRes 50128909 n−2 10 1,10 ▶ Valeur critique : f = 14.11 > fα1,n−2 = f0.01 = 10.04 =⇒ H0 rejetée → Excel : =INVERSE.LOI.F(0.01;1;10) ▶ valeur p : pval = P(F > 14.11) = 0.0037 < 0.01 =⇒ H0 rejetée → Excel : =LOI.F(14.11;1;10) Régression et analyse causale Module 1 44 / 56 Inférence sur les paramètres Test de Fisher et tableau ANOVA HEC Lausanne Les composantes du test de Fisher sont souvent présentés sous la forme d’un tableau ANOVA : Somme Degrés Source de la des de Moyenne des carrés F variation carrés liberté Régression SCReg 1 SCReg MCReg MCReg = f= 1 MCRes Résidus SCRes n−2 SCRes MCRes = n−2 Totale SCTot n−1 Régression et analyse causale Module 1 45 / 56 Inférence sur les paramètres Exemple Statville (4) HEC Lausanne Excel : Outils → Utilitaire d’analyse → Régression linéaire → Niveau de confiance → 0.01 ! Inférence sur les paramètres Inférence sur les paramètres Tests d’hypothèses (suite) Tests d’hypothèses (suite) HE Statistique de test: Statistique de test: —ˆ0 ≠ —0,0 I T = ≥ ˆStudent(n ≠ 2), où —0,0 est la valeur de —0 sou ˆI—ˆ0 T = —0 ≠ —0,0 ≥ Student(n ≠ 2), où — 0,0 est la valeu ‡ ˆ—ˆ0 ‡ —ˆ1 ≠ —1,0 I T = ≥—ˆStudent(n ≠ 2) , où —1,0 est la valeur de —1 so ˆ ˆ1 T = 1 ≠ —1,0 Module 1 ≥ Student(n ≠ 2) , où —1,0 est 46 la/ val ‡ I— Régression et analyse causale 56 Inférence sur les paramètres Interprétation des tests HEC Lausanne Un rejet de H0 : β1 = 0 ne nous permet pas de conclure qu’une relation de cause à effet lie x et y → Dans l’exemple de Statville, il serait absurde de dire que l’âge “cause” des salaires plus élevés. Un rejet de H0 : β1 = 0 ne nous permet pas de conclure que la relation entre x et y est linéaire pour toute valeur de x. Des prévisions pour des valeurs de x qui n’appartiennent pas à l’intervalle observé (extrapolations) doivent être sujettes à caution. Régression et analyse causale Module 1 47 / 56 Prévision et validation du modèle Prévision et analyse des résidus pour un niveau donné de x HEC Lausanne Estimation ponctuelle pour un niveau de x donné, x = xp : ŷp = b0 + b1 xp Exemple Statville (5) : salaire moyen estimé pour une personne de 30 ans (xp = 30) : ŷ30 = 39885 + 279.7 · 30 = 48276 L’estimation ponctuelle est la même qu’on cherche à prédire la valeur individuelle de y pour xp , ŷp , ou qu’on cherche à prédire la moyenne conditionnelle de y pour xp , E (ŷ |x = xp ). Le calcul inférentiel, cependant, n’est pas identique. Par la suite, nous focaliserons sur l’interprétation “moyenne conditionnelle”. Régression et analyse causale Module 1 48 / 56 Prévision et validation du modèle Inférence sur la prévision HEC Lausanne Estimation par intervalle : 1 (xp − x̄ )2 s → Erreur-type de Ŷp : σ̂Ŷp = su · + Pn n i=1 (xi − x̄ ) 2 → Intervalle de prévision : IC1−α (yp ) = ŷp − t1−α/2 σ̂Ŷp , ŷp + t1−α/2 h i n−2 n−2 σ̂Ŷp → L’intervalle de prévision le plus étroit, et donc l’estimation la plus précise, est obtenu pour xp = x̄ , auquel cas σ̂Ŷp = su 1/n. Par p conséquent, l’intervalle de confiance pour yp s’élargit au fur et à mesure que xp s’écarte de x̄. Régression et analyse causale Module 1 49 / 56 Prévision et validation du modèle Exemple Statville (5, suite) HEC Lausanne Erreur-type de Ŷ30 : 1 (30 − x̄ )2 1 (−13.1)2 s s σ̂Ŷ30 = su + Pn = 2238.9 · + = 1170 n i=1 (xi − x̄ ) 2 12 904.3 Intervalle de confiance (ou “de prévision”), seuil de confiance 1 − α = 99% : 10 σ̂ IC0.99 (y30 ) = ŷ30 − t0.995 10 Ŷ30 , Ŷ30 + t0.995 σ̂Ŷ30 h i = [48276 − 3.169 · 1170, 48276 + 3.169 · 1170] = [44568, 51984] Régression et analyse causale Module 1 50 / 56 Prévision et validation du modèle Exemple Statville (5, suite) HEC Lausanne 60000 Intervalle de confiance à 99% construit sur les 50000 prévisions E (ŷ |x = xp ), 40000 correspondant à tous les revenu estimé 30000 xp dans l’intervalle couvert par les valeurs 20000 observées xi 10000 0 25 35 âge 45 55 Régression et analyse causale Module 1 51 / 56 Prévision et validation du modèle Analyse des résidus HEC Lausanne L’analyse des résidus ui = yi − ŷi peut servir d’outil pour déterminer si le modèle de régression estimé est approprié. On vérifie ainsi que les hypothèses qui sous-tendent l’inférence sur l’estimateur des moindres carrés sont satisfaites. La validité des hypothèses 2 (indépendance), 3 (non-autocorrélation) et 4 (homoscédasticité) peut être examinée graphiquement dans un “nuage de points” des résidus par rapport à x. Régression et analyse causale Module 1 52 / 56 Prévision et validation du modèle Exemple Statville (6) HEC Lausanne Excel : Outils → Utilitaire d’analyse → Régression linéaire → cocher Courbe des résidus Variable X 1 Graphique des résidus 3000 2000 1000 0 Résidus -1000 0.0 10.0 20.0 30.0 40.0 50.0 60.0 -2000 -3000 -4000 -5000 -6000 Variable X 1 Régression et analyse causale Module 1 53 / 56 Prévision et validation du modèle Analyse des résidus (suite) HEC Lausanne Nuages de points homoscédasticité Régression et analyse causale Module 1 54 / 56 Prévision et validation du modèle Analyse des résidus (suite) HEC Lausanne hétéroscedasticité (violation de la 4e hypothèse) Régression et analyse causale Module 1 55 / 56 Prévision et validation du modèle Analyse des résidus (suite) HEC Lausanne dépendance entre ui et xi (violation de la 2e hypothèse) autocorrélation (violation de la 3e hypothèse) Régression et analyse causale Module 1 56 / 56