Module 1 : Régression Linéaire Simple PDF

HEC Lausanne Module 1 Régression Linéaire Simple Cours : Régression et analyse causale (“Statistique II”)...

HEC Lausanne Module 1 Régression Linéaire Simple Cours : Régression et analyse causale (“Statistique II”) Printemps 2024 Bachelor 1ère année, HEC Lausanne, UNIL Marius Brülhart, Jan-Erik Meidell Régression et analyse causale Module 1 1 / 56 HEC Lausanne 1 Equation de la régression 2 Estimation par les moindres carrés 3 Coefficient de détermination 4 Inférence sur les paramètres 5 Prévision et validation du modèle Régression et analyse causale Module 1 2 / 56 Equation de la régression ANOVA et régression HEC Lausanne ANOVA ▶ Variables indépendantes qualitatives ou quantitatives (en intervalles) ▶ Information sur l’existence d’une influence des variables indépendantes sur les valeurs de la variable dépendante, mais non sur le signe et l’amplitude de cette influence ▶ Exemple : Est-ce que les salaires des employés d’une entreprise différent selon la nationalité des employés? Régression ▶ Variables indépendantes continues ▶ Information sur le signe et l’amplitude d’une influence éventuelle des variables indépendantes sur les valeurs de la variable dépendante ▶ Exemple : Comment est-ce que les salaires varient-ils en fonction de l’âge des employés? =⇒ Etablir un lien entre une variable dépendante Y et une variable indépendante X , pour pouvoir ensuite faire des prévisions sur Y en fonction de X Régression et analyse causale Module 1 3 / 56 Equation de la régression Equation de la régression HEC Lausanne Régression linéaire : ligne droite qui décrit la relation entre une variable dépendante et une variable indépendante simple (une seule variable indépendante, ou “explicative”) La variable aléatoire dépendante est désormais notée Y , et la variable indépendante observée est notée x La relation entre Y et x est perturbée par un “terme d’erreur” additif, noté ϵ Par hypothèse, E (ϵ) = 0 L’équation de régression linéaire simple (ou “modèle de régression”) s’écrit de la façon suivante : Y = β0 + β1 x + ϵ ou E (Y ) = β0 + β1 x où β0 et β1 sont les paramètres (ou coéfficients) du modèle, et le terme d’erreur ϵ est une variable aléatoire. Régression et analyse causale Module 1 4 / 56 Equation de la régression Equation de la régression (suite) HEC Lausanne β0 représente le point d’intersection de la droite de régression avec l’ordonnée : l’ordonnée à l’origine β1 représente la pente de la droite de régression Régression et analyse causale Module 1 5 / 56 Equation de la régression Equation estimée HEC Lausanne Le premier but de la régression est d’estimer les valeurs des paramètres inconnus β0 et β1 (”coefficients de régression”) Pour estimer β0 et β1 , on va utiliser un échantillon de taille n contenant les couples (xi , yi ), pour i = 1,..., n On estimera β0 et β1 par les statistiques d’échantillon b0 et b1 (parfois écrits β̂0 et β̂1 ) Ainsi, l’équation estimée de la régression est donnée par : ŷ = b0 + b1 x où ŷ est l’estimation ponctuelle de E (Y ) A noter : L’équation estimée de la régression n’établit pas nécessairement une relation de cause à effet entre x et Y. Elle indique seulement comment ou dans quelle mesure les variables sont associées =⇒ corrélation ̸= causalité! Régression et analyse causale Module 1 6 / 56 Equation de la régression Processus d’estimation HEC Lausanne Régression et analyse causale Module 1 7 / 56 Equation de la régression Équations non linéaires (1) HEC Lausanne Le modèle de régression linéaire permet de représenter des équations non linéaires en effectuant une transformation logarithmique. Exemples : fonction puissance (spécification “log-log”) : ▶ y = β0 x β1 ⇔ ln y = ln β0 + β1 ln x ▶ relation estimable uniquement pour valeurs non négatives de y et x ▶ ∂x × y = β1 élasticité : ∂y x Régression et analyse causale Module 1 8 / 56 Equation de la régression Équations non linéaires (2) HEC Lausanne fonction exponentielle (spécification “log-linéaire”) : ▶ y = β0 e β1 x ⇔ ln y = ln β0 + β1 x ▶ relation estimable uniquement pour valeurs non négatives de y ▶ ∂x × y = β1 x élasticité : ∂y x Régression et analyse causale Module 1 9 / 56 Equation de la régression Équations non linéaires (3) HEC Lausanne spécification semi logarithimique : ▶ e y = β0 x β1 ⇔ y = ln β0 + β1 ln x ▶ relation estimable uniquement pour valeurs non négatives de x ▶ ∂x × y = y élasticité : ∂y x β1 Régression et analyse causale Module 1 10 / 56 Equation de la régression Équations non linéaires (4) HEC Lausanne fonction logistique : 1 ▶ y= 1+e −(β0 +β1 x ) ⇔ ln ( 1−y y ) = β0 + β1 x ▶ relation estimable uniquement pour valeurs 0 ≤ y < 1 Régression et analyse causale Module 1 11 / 56 Equation de la régression Équations non linéaires (5) HEC Lausanne fonction hyperbolique : ▶ y = β0 + β1 x1 ▶ relation estimable uniquement pour valeurs x ̸= 0 ▶ élasticité : ∂y ∂x × y = − xy x β1 Régression et analyse causale Module 1 12 / 56 Equation de la régression Équations non linéaires (6) HEC Lausanne Régression et analyse causale Module 1 13 / 56 Estimation par les moindres carrés Estimation des paramètres HEC Lausanne Puisque le modèle de régression linéaire simple ne contient que deux variables X et Y , les données (xi , yi ) peuvent être représentées dans un graphique (donc en 2 dimensions) : le “nuage de points”. L’estimation des paramètres β0 et β1 revient à ajuster une ligne droite à ce nuage de points : ▶ Si l’écart entre les valeurs observées yi et les valeurs estimées ŷi est faible, on peut considérer que la droite de régression est bien adaptée aux données observées. ▶ Il s’agit alors de déterminer un critère d’optimisation pour définir le sens précis d’une “bonne adaptation aux données”. ▶ Ce choix de critère correspond au choix de l’estimateur des paramètres de l’équation de la régression. Régression et analyse causale Module 1 14 / 56 Estimation par les moindres carrés Exemple Statville (1) HEC Lausanne Le syndic s’intéresse au rapport entre l’âge et le revenu des résidents de Statville. Il sélectionne un échantillon aléatoire simple de taille n = 12. Régression et analyse causale Module 1 15 / 56 Estimation par les moindres carrés Critère des moindres carrés HEC Lausanne On choisit comme critère d’optimisation pour l’ajustement de la droite de regression la minimisation de la somme des carrés des écarts entre la droite de régression et les valeurs observées. On parle alors de l’estimateur des moindres carrés (ou “estimateur MCO”, pour “moindres carrés ordinaires”; ou “estimateur OLS”, pour “Ordinary Least Squares”) Cette méthode fut inventée de façon indépendante par Adrien-Marie Legendre (mathématicien français, 1752-1833) et Carl Friedrich Gauss (mathématicien allemand, 1777-1855). Formellement, la méthode est la suivante : {b0 , b1 } = argminb0 ,b1 i=1 (yi − ŷi )2 = argminb0 ,b1 i=1 (yi − b0 − b1 xi )2 Pn Pn = argminb0 ,b1 ui2 Pn i=1 où les ui sont appelés les résidus de la régression. Régression et analyse causale Module 1 16 / 56 Estimation par les moindres carrés Estimateur des moindres carrés HEC Lausanne Le terme que l’on minimise, i=1 (yi − ŷi )2 = 2 i=1 ui , est nommé Pn Pn la“somme des carrés des résidus” (SCRes). Conditions de première ordre : ∂SCRes n ▶ = 2 (yi − b0 − b1 xi )(−1) = 0 P ∂β0 β0 =b0 i=1 n n yi = nb0 + b1 xi P P ⇒ i=1 i=1 ∂SCRes n ▶ = 2 (yi − b0 − b1 xi )(−xi ) = 0 P ∂β1 β1 =b1 i=1 n n n xi yi = b0 xi + b1 xi2 P P P ⇒ i=1 i=1 i=1 =⇒ ”équations normales” (2 équations, 2 inconnues) Régression et analyse causale Module 1 17 / 56 Estimation par les moindres carrés Estimateur des moindres carrés (suite) HEC Lausanne Dérivation de l’estimateur : Diviser la 1ère équation normale par n, et réarranger les termes : 1 Pn 1 Pn b0 = ȳ − b1 x̄, où ȳ = yi et x̄ = xi n i=1 n i=1 Substituer b0 dans la 2ème équation normale : 2 1 Pn i=1 xi yi = ȳ i=1 xi −b1 x̄ i=1 xi +b1 i=1 xi = i=1 xi i=1 yi Pn Pn Pn Pn Pn n 1 Pn +b1 i=1 xi 2 [ i=1 xi ]2 Pn − n 1 Pn i=1 xi yi i=1 xi i=1 yi Pn Pn − (xi − x̄)(yi − ȳ) sxy Pn b1 = n = i =1 = 2 2− 1 2 Pn (xi − x̄)2 sx x [ x ] =1 Pn Pn i i=1 i n i=1 i Régression et analyse causale Module 1 18 / 56 Estimation par les moindres carrés Exemple Statville (1, suite) HEC Lausanne (x − x̄ )(yi − ȳ ) 252928.4 Pn b1 = i=1 Pn i = = 279.7 (x i=1 i − x̄ ) 2 904.3 b0 = ȳ − b1 x̄ = 51931.2 − 279.7 ∗ 43.1 ≃ 39885 i (ind.) y i (revenu) x i (âge) yi − y xi − x ( x i − x )( y i − y ) ( x i − x )2 1 52125.0 48.1 193.9 5.0 978.6 25.5 2 50955.9 38.7 -975.3 -4.4 4245.4 18.9 3 53382.9 48.6 1451.7 5.6 8061.1 30.8 4 51286.9 37.5 -644.3 -5.5 3570.3 30.7 5 55243.6 54.7 3312.5 11.6 38434.3 134.6 6 53384.7 40.7 1453.5 -2.4 -3481.4 5.7 7 53488.2 50.1 1557.1 7.1 10982.0 49.7 8 54134.1 45.9 2202.9 2.9 6281.9 8.1 9 52706.4 55.9 775.2 12.9 9975.6 165.6 10 42144.3 25.1 -9786.9 -18.0 176033.4 323.5 11 52665.2 36.9 734.1 -6.1 -4503.3 37.6 12 51656.7 34.5 -274.5 -8.6 2350.7 73.3 Moyenne 51931.2 43.1 0 0 21077.4 75.4 Somme 623174.0 516.8 0 0 252928.4 904.3 Régression et analyse causale Module 1 19 / 56 Estimation par les moindres carrés Exemple Statville (1, suite) HEC Lausanne Régression et analyse causale Module 1 20 / 56 Estimation par les moindres carrés Exemple Statville (1, suite) HEC Lausanne Interprétation des coefficients estimés : ▶ b1 = 279.7 → En moyenne, un citoyen de Statville gagne 279.7 francs de plus par année d’âge supplémentaire ▶ b0 = 39885 → En moyenne, un ”nouveau-né” à Statville gagne 39885 francs Prévisions (pour des limites d’âge réalistes) : ▶ ŷ = b0 + b1 x ▶ salaire estimé pour une personne de 30 ans : ŷ = 39885 + 279.7 · 30 = 48276 ▶ salaire estimé pour une personne de 60 ans : ŷ = 39885 + 279.7 · 60 = 56667 Régression et analyse causale Module 1 21 / 56 Estimation par les moindres carrés Caractéristiques de la droite estimée HEC Lausanne L’équation de la régression estimée par les moindres carrés, ŷ = b0 + b1 x , est telle que : ▶ La moyenne des valeurs prédites est égale à la moyenne des valeurs observées : 1X 1X n n ŷi = ŷ¯ = yi = ȳ n i=1 n i=1 ▶ La droite estimée passe par x̄ et ȳ Régression et analyse causale Module 1 22 / 56 Coefficient de détermination Résidus HEC Lausanne Rappel : De par sa construction, l’estimateur des moindres carrés minimise la somme des carrés des résidus : SCRes = i=1 (yi − ŷi )2 = 2 i=1 ui Pn Pn Question : Quelle est la qualité d’ajustement de l’équation de la régression estimée? Comment arrive-t-elle à “expliquer” les variations de la variable dépendante? La qualité d’ajustement est d’autant meilleure que l’équation estimée arrive à minimiser l’écart entre (a) la valeur observée yi de la variable dépendante pour un élément de l’échantillon et (b) la valeur prédite ŷi correspondante. Cet écart définit le i eme résidu ui. Régression et analyse causale Module 1 23 / 56 Coefficient de détermination Exemple Statville (2) HEC Lausanne Calcul de SCRes i (ind.) y i (revenu) x i (âge) yˆ i = 39885 + 279.7 * x i y i − yˆ i ( y i − yˆ i )2 1 52125.0 48.1 53343.0 -1218.0 1483550.6 2 50955.9 38.7 50713.7 242.2 58665.3 3 53382.9 48.6 53484.3 -101.4 10274.8 4 51286.9 37.5 50381.1 905.8 820405.6 5 55243.6 54.7 55176.5 67.1 4507.4 6 53384.7 40.7 51261.3 2123.5 4509068.6 7 53488.2 50.1 53903.9 -415.6 172735.6 8 54134.1 45.9 52728.7 1405.4 1975015.2 9 52706.4 55.9 55530.2 -2823.8 7973726.7 10 42144.3 25.1 46900.3 -4756.1 22620189.0 11 52665.2 36.9 50215.3 2450.0 6002285.9 12 51656.7 34.5 49535.7 2121.0 4498484.4 Moyenne 51931.2 43.1 51931.2 0 4177409.1 Somme 623174.0 516.8 623174.0 0 50128909.0 Régression et analyse causale Module 1 24 / 56 Coefficient de détermination Somme des carrés de la régression HEC Lausanne Les variations de la variable dépendante “expliquées” par l’équation de la régression estimée sont mesurées par la somme des carrés de la régression (ou “somme des carrés expliqués”) : SCReg = i=1 (ŷi − ȳ )2 Pn =⇒ SCReg détermine dans quelle mesure les valeurs ŷi prédites par les coefficients de régression estimés différent de la moyenne d’échantillon ȳ Régression et analyse causale Module 1 25 / 56 Coefficient de détermination Exemple Statville (2, suite) HEC Lausanne Calcul de SCReg 2 i (ind.) y i (revenu) x i (âge) yˆ i = 39885 + 279.7 * x i yˆ i - y ( yˆ i - y ) 1 52125.0 48.1 53343.0 1411.9 1993391.2 2 50955.9 38.7 50713.7 -1217.5 1482312.4 3 53382.9 48.6 53484.3 1553.1 2412088.1 4 51286.9 37.5 50381.1 -1550.0 2402553.1 5 55243.6 54.7 55176.5 3245.3 10532106.9 6 53384.7 40.7 51261.3 -669.9 448778.9 7 53488.2 50.1 53903.9 1972.7 3891529.2 8 54134.1 45.9 52728.7 797.6 636138.2 9 52706.4 55.9 55530.2 3599.0 12953007.7 10 42144.3 25.1 46900.3 -5030.8 25309218.3 11 52665.2 36.9 50215.3 -1715.9 2944315.5 12 51656.7 34.5 49535.7 -2395.4 5738114.6 Moyenne 51931.2 43.1 51931.2 0 5895296.2 Somme 623174.0 516.8 623174.0 0 70743554.2 Régression et analyse causale Module 1 26 / 56 Coefficient de détermination Somme totale des carrés HEC Lausanne La globalité des variations observées de la variable dépendante sont mesurées par la somme totale des carrés (i.e. la somme des carrés des écarts totaux ) : SCTot = i=1 (yi − ȳ )2 Pn =⇒ SCTot détermine dans quelle mesure les valeurs observées yi différent de la moyenne d’échantillon ȳ. =⇒ Alors que SCRes est une mesure de l’ajustement des observations yi autour de la droite de régression estimée ŷi , SCTot peut être interprété comme une mesure de l’ajustement des observations autour de la droite ȳ. Régression et analyse causale Module 1 27 / 56 Coefficient de détermination Exemple Statville (2, suite) HEC Lausanne Calcul de SCTot 2 i (ind.) y i (revenu) yi − y (y i − y) 1 52125.0 193.9 37583.3 2 50955.9 -975.3 951197.2 3 53382.9 1451.7 2107506.6 4 51286.9 -644.3 415064.1 5 55243.6 3312.5 10972379.8 6 53384.7 1453.5 2112799.2 7 53488.2 1557.1 2424502.0 8 54134.1 2202.9 4852923.0 9 52706.4 775.2 601012.4 10 42144.3 -9786.9 95783322.5 11 52665.2 734.1 538837.5 12 51656.7 -274.5 75335.5 Moyenne 51931.2 0 10072705.3 Somme 623174.0 0 120872463.1 Régression et analyse causale Module 1 28 / 56 Coefficient de détermination Décomposition de la somme totale des carrés HEC Lausanne SCTot = SCReg + SCRes → SCReg peut être considérée comme la partie ”expliquée” de SCTot (i.e. la partie ”expliquée” des variations observées entre les yi ), et SCRes comme la partie ”inexpliquée”. Régression et analyse causale Module 1 29 / 56 Coefficient de détermination Coefficient de détermination R 2 HEC Lausanne On mesure l’adéquation de l’équation estimée de la régression aux valeurs observées yi par le coefficient de détermination : SCReg SCReg SCRes R2 = = =1− =⇒ 0 ≤ R 2 ≤ 1 SCTot SCReg + SCRes SCTot → Le R-carré exprime le pourcentage de la somme totale des carrés “expliqué” par l’équation estimée de la régression. (xi − x̄ )2 2 2 sx Pn → Dérivation alternative : R2 = 2 b1 Pni=1 = b 1 2 i=1 (yi − ȳ )2 sy 70743554.2 9.12 Exemple Statville : R 2 = = 279.72 = 0.585 120872463.1 3314.92 Régression et analyse causale Module 1 30 / 56 Coefficient de détermination R 2 et coefficient de corrélation HEC Lausanne Coefficient de corrélation (corrélation estimée) entre x et y : i=1 (xi − x̄ )(yi − ȳ ) sxy Pn ρ̂xy = qP = , −1 ≤ ρ̂xy ≤ 1 sx sy i=1 (xi − x̄ ) i=1 (yi − ȳ )2 2 qP n n Relations entre R 2 et ρ̂xy : → R 2 = ρ̂2xy 2 2 s2 sx2 R 2 = b12 sx2 = = ρ̂2xy sxy sxy ⋆ = y sx4 sy2 sx2 sy2 ⋆ Le terme “R 2 ” vient du fait que parfois on utilise “R” pour désigner ce que nous appelons “ρxy ”. √ → b1 > 0 ⇐⇒ ρ̂xy = R2 √ → b1 < 0 ⇐⇒ ρ̂xy = − R2 √ Exemple Statville : R 2 = 0.585 |⇐⇒ {z } ρ̂xy = 0.585 = 0.765 b1 >0 Régression et analyse causale Module 1 31 / 56 Inférence sur les paramètres Inférence sur les paramètres HEC Lausanne Les méthodes présentées jusqu’ici concernent l’estimation de la droite de régression. Nous passons maintenant à l’inférence, à savoir effectuer des tests d’hypothèse basés sur des raisonnements probabilistes. Les paramètres estimés b0 et b1 sont des statistiques d’échantillon. Tout comme Y , ce sont donc des variables aléatoires qui varient d’un échantillon à l’autre et possèdent une distribution d’échantillonnage permettant le développement de méthodes inférentielles. Régression et analyse causale Module 1 32 / 56 Inférence sur les paramètres Hypothèses de l’estimateur des moindres carrés HEC Lausanne La légitimité des tests d’hypothèse repose sur des hypothèses faites à propos du terme d’erreur ϵ du modèle de régression. Distribution de ϵ supposée pour l’inférence sur les estimations du modèle de régression par les moindres carrés ordinaires : ϵi ∼ N (0, σϵ2 ) ∀i Cette hypothèse est composée de cinq éléments. Régression et analyse causale Module 1 33 / 56 Inférence sur les paramètres Hypothèses de l’estimateur des moindres carrés (suite) HEC Lausanne Les cinq hypothèses de base sur le terme d’erreur ϵ sont les suivantes : 1. Moyenne zéro : E (ϵ) = 0 ⇐⇒ E (Y ) = β0 + β1 x 2. Indépendance : Chaque ϵi est indépendant de xi ainsi que de tout xj , j ̸= i. 3. Non-autocorrélation : Chaque ϵi est indépendante de tout ϵj , j ̸= i. 4. Homoscedasticité (variance constante) : σϵi = σϵ , ∀i. 5. Normalité : La distribution de ϵ suit une loi normale. Une violation des hypothèses 1 et 2 biaise l’estimateur des MCO (donc E (b) ̸= β). Une violation des hypothèses 3 à 5 ne biaise pas l’estimateur mais invalide les méthodes inférentielles que nous développons ci-dessous. Régression et analyse causale Module 1 34 / 56 Inférence sur les paramètres Hypothèses de l’estimateur des moindres carrés (suite) HEC Lausanne Illustration des hypothèses 1 à 5 : Régression et analyse causale Module 1 35 / 56 Inférence sur les paramètres Hypothèses de l’estimateur des moindres carrés (suite) HEC Lausanne On peut démontrer que, à condition que les cinq hypothèses soient satisfaites, l’estimateur des moindres carrés est le meilleur des estimateurs concevables, dans le sens suivant (Théorème de Gauss-Markov ) : ▶ Les coefficients estimés b0 et b1 sont des estimations non-biaisées des paramètres β0 et β1. ▶ L’estimateur des moindres carrés implique que les erreurs-type des coefficients estimés σb0 et σb1 sont les plus petits parmi tous les estimateurs linéaires et non-biaisés concevables. ⇒ L’estimateur MCO est l’estimateur le plus précis parmi les estimateurs linéaires et non-biaisés; il a donc la plus petite erreur quadratique moyenne. Régression et analyse causale Module 1 36 / 56 Inférence sur les paramètres Tests d’hypothèses HEC Lausanne Distribution d’échantillonnage de l’estimateur des moindres carrés si les hypothèses sur ϵ sont satisfaites : Espérance : E (b0 ) = β0 , E (b1 ) = β1 =⇒ estimateur sans biais Erreur-type des coefficients estimés : s n σϵ · x2 P i i=1 σϵ σϵ σb0 = s , σb1 = s =q n n P (xi − x̄ )2 n P (xi − x̄ )2 sx (n − 1) 2 i=1 i=1 Loi de probabilité : Normale =⇒ b0 ∼ N (β0 , σb20 ), b1 ∼ N (β1 , σb21 ) Régression et analyse causale Module 1 37 / 56 Inférence sur les paramètres Tests d’hypothèses (suite) HEC Lausanne L’écart-type des erreurs σϵ n’est pas connu, mais il peut être estimé sans biais (i.e. E (Su ) = σϵ ) par l’erreur-type de la régression Su (i.e. l’écart type des résidus) : 2 sP SCRes i=1 ui s n su = = n−2 n−2 Il y a n − 2 degrés de liberté, puisque deux paramètres (β0 et β1 ) doivent être estimés pour calculer SCRes. s n su · x2 P su i i=1 On utilisera donc : σ̂βˆ0 = s et σ̂βˆ1 = q n n P (xi − x̄ )2 sx2 (n − 1) i=1 Régression et analyse causale Module 1 38 / 56 Inférence sur les paramètres Tests d’hypothèses (suite) HEC Lausanne A noter que l’erreur-type des coefficients estimés par la méthode des moindres carrés décroı̂t quand (xi − x̄ )2 augmente : l’estimation P devient d’autant plus précise que la variable indépendante x prend des valeurs plus “étalées”. L’hypothèse la plus communément testée concerne la signification statistique de x comme facteur “explicatif” des variations de Y : H0 : β1 = β1,0 = 0 contre H1 : β1 ̸= β1,0 = 0 Lorsque l’on ne rejette pas H0 , on conclut qu’il n’y a pas de relation linéaire entre X et Y : ▶ Soit la relation entre X et Y n’est pas linéaire ▶ Soit la variation de X influe pas ou peu sur la variation de Y Si les hypothèses sur ϵ sont satisfaites, on peut se servir de la loi de Student pour tester des hypothèses sur β0 et β1. Régression et analyse causale Module 1 39 / 56 Inférence sur les paramètres Tests d’hypothèses (suite) HEC Lausanne Statistique de test : b0 − β0,0 ▶ T = ∼ Student(n − 2), où β0,0 est la valeur de β0 sous H0 σ̂b0 b1 − β1,0 ▶ T = ∼ Student(n − 2) , où β1,0 est la valeur de β1 sous H0 σ̂b1 Régression et analyse causale Module 1 40 / 56 Inférence sur les paramètres Exemple Statville (3) HEC Lausanne Test bilatéral : H0 : β1 = |{z} 0 contre H1 : β1 ̸= |{z} 0 , seuil de signification α = 1% β1,0 β1,0 SCRes s 50128909∗ r n−2 Erreur-type de b1 : σ̂b1 = s = √ 10 = 74.45 n 904.3∗∗ (xi − x̄ )2 P i=1 b1 − β1,0 279.7∗∗ Statistique de test observée : t = = = 3.76 σ̂b1 74.45 Valeur critique : t = 3.76 > t1−α/2 n−2 10 = t0.995 = 3.169 =⇒ H0 rejetée valeur p : pval = P(T < −3.76) + P(T > 3.76) = 0.0037 < 0.01 =⇒ H0 rejetée ∗ ∗∗ c.f. slide 23, c.f. slide 18 Régression et analyse causale Module 1 41 / 56 Inférence sur les paramètres Intervalles de confiance HEC Lausanne Les intervalles de confiance autour des deux paramètres estimés sont définis comme suit : ▶ intercept : IC1−α (β0 ) = [b0 − t1−α/2 n−2 σ̂βˆ0 , b0 + t1−α/2 n−2 σ̂βˆ0 ] ▶ pente : IC1−α (β1 ) = [b1 − t1−α/2 n−2 σ̂βˆ1 , b1 + t1−α/2 n−2 σ̂βˆ1 ] Exemple Statville : ▶ Intervalle autour de b1 avec seuil de confiance de 1 − α = 99% : 10 10 IC0.99 (β1 ) = [b1 − t0.995 σ̂βˆ1 , b1 + t0.995 σ̂βˆ1 ] = [279.7 − 3.169 · 74.45, 279.7 + 3.169 · 74.45] = [43.8, 515.6] Régression et analyse causale Module 1 42 / 56 Inférence sur les paramètres Test de Fisher HEC Lausanne Dans le contexte de la régression linéaire simple (donc avec une seule variable explicative), on peut construire un test d’hypothèse sur β1 équivalent au test du t de Student introduit précédemment, en se basant sur la distribution de Fisher. ! En régression multiple, le test du F de Fisher permettra de construire un test de signification globale, impossibe avec le test du t de Student. On teste l’hypothèse concernant la signification statistique de x : H0 : β1 = 0 contre H1 : β1 ̸= 0 La logique qui sous-tend le test du F de Fisher est basée sur la comparaison de deux estimateurs différents de σϵ. Un estimateur est basé sur SCRes (tout comme l’estimateur su ), tandis que l’autre est basé sur SCReg. Sous H0 : β1 = 0, les deux estimateurs sont sans biais, et leur rapport doit donc être proche de 1. Par contre, si H0 est fausse, alors l’estimateur basé sur SCReg surestime σϵ et le rapport entre les deux estimateurs augmente. Régression et analyse causale Module 1 43 / 56 Inférence sur les paramètres Test de Fisher (suite) HEC Lausanne SCReg Statistique de test : F = ∼ Fisher (1, n − 2) SCRes n−2 Exemple Statville : (α = 1%) : SCReg 70743554.2 ▶ Statistique de test observée : f = = = 14.11 SCRes 50128909 n−2 10 1,10 ▶ Valeur critique : f = 14.11 > fα1,n−2 = f0.01 = 10.04 =⇒ H0 rejetée → Excel : =INVERSE.LOI.F(0.01;1;10) ▶ valeur p : pval = P(F > 14.11) = 0.0037 < 0.01 =⇒ H0 rejetée → Excel : =LOI.F(14.11;1;10) Régression et analyse causale Module 1 44 / 56 Inférence sur les paramètres Test de Fisher et tableau ANOVA HEC Lausanne Les composantes du test de Fisher sont souvent présentés sous la forme d’un tableau ANOVA : Somme Degrés Source de la des de Moyenne des carrés F variation carrés liberté Régression SCReg 1 SCReg MCReg MCReg = f= 1 MCRes Résidus SCRes n−2 SCRes MCRes = n−2 Totale SCTot n−1 Régression et analyse causale Module 1 45 / 56 Inférence sur les paramètres Exemple Statville (4) HEC Lausanne Excel : Outils → Utilitaire d’analyse → Régression linéaire → Niveau de confiance → 0.01 ! Inférence sur les paramètres Inférence sur les paramètres Tests d’hypothèses (suite) Tests d’hypothèses (suite) HE Statistique de test: Statistique de test: —ˆ0 ≠ —0,0 I T = ≥ ˆStudent(n ≠ 2), où —0,0 est la valeur de —0 sou ˆI—ˆ0 T = —0 ≠ —0,0 ≥ Student(n ≠ 2), où — 0,0 est la valeu ‡ ˆ—ˆ0 ‡ —ˆ1 ≠ —1,0 I T = ≥—ˆStudent(n ≠ 2) , où —1,0 est la valeur de —1 so ˆ ˆ1 T = 1 ≠ —1,0 Module 1 ≥ Student(n ≠ 2) , où —1,0 est 46 la/ val ‡ I— Régression et analyse causale 56 Inférence sur les paramètres Interprétation des tests HEC Lausanne Un rejet de H0 : β1 = 0 ne nous permet pas de conclure qu’une relation de cause à effet lie x et y → Dans l’exemple de Statville, il serait absurde de dire que l’âge “cause” des salaires plus élevés. Un rejet de H0 : β1 = 0 ne nous permet pas de conclure que la relation entre x et y est linéaire pour toute valeur de x. Des prévisions pour des valeurs de x qui n’appartiennent pas à l’intervalle observé (extrapolations) doivent être sujettes à caution. Régression et analyse causale Module 1 47 / 56 Prévision et validation du modèle Prévision et analyse des résidus pour un niveau donné de x HEC Lausanne Estimation ponctuelle pour un niveau de x donné, x = xp : ŷp = b0 + b1 xp Exemple Statville (5) : salaire moyen estimé pour une personne de 30 ans (xp = 30) : ŷ30 = 39885 + 279.7 · 30 = 48276 L’estimation ponctuelle est la même qu’on cherche à prédire la valeur individuelle de y pour xp , ŷp , ou qu’on cherche à prédire la moyenne conditionnelle de y pour xp , E (ŷ |x = xp ). Le calcul inférentiel, cependant, n’est pas identique. Par la suite, nous focaliserons sur l’interprétation “moyenne conditionnelle”. Régression et analyse causale Module 1 48 / 56 Prévision et validation du modèle Inférence sur la prévision HEC Lausanne Estimation par intervalle : 1 (xp − x̄ )2 s → Erreur-type de Ŷp : σ̂Ŷp = su · + Pn n i=1 (xi − x̄ ) 2 → Intervalle de prévision : IC1−α (yp ) = ŷp − t1−α/2 σ̂Ŷp , ŷp + t1−α/2 h i n−2 n−2 σ̂Ŷp → L’intervalle de prévision le plus étroit, et donc l’estimation la plus précise, est obtenu pour xp = x̄ , auquel cas σ̂Ŷp = su 1/n. Par p conséquent, l’intervalle de confiance pour yp s’élargit au fur et à mesure que xp s’écarte de x̄. Régression et analyse causale Module 1 49 / 56 Prévision et validation du modèle Exemple Statville (5, suite) HEC Lausanne Erreur-type de Ŷ30 : 1 (30 − x̄ )2 1 (−13.1)2 s s σ̂Ŷ30 = su + Pn = 2238.9 · + = 1170 n i=1 (xi − x̄ ) 2 12 904.3 Intervalle de confiance (ou “de prévision”), seuil de confiance 1 − α = 99% : 10 σ̂ IC0.99 (y30 ) = ŷ30 − t0.995 10 Ŷ30 , Ŷ30 + t0.995 σ̂Ŷ30 h i = [48276 − 3.169 · 1170, 48276 + 3.169 · 1170] = [44568, 51984] Régression et analyse causale Module 1 50 / 56 Prévision et validation du modèle Exemple Statville (5, suite) HEC Lausanne 60000 Intervalle de confiance à 99% construit sur les 50000 prévisions E (ŷ |x = xp ), 40000 correspondant à tous les revenu estimé 30000 xp dans l’intervalle couvert par les valeurs 20000 observées xi 10000 0 25 35 âge 45 55 Régression et analyse causale Module 1 51 / 56 Prévision et validation du modèle Analyse des résidus HEC Lausanne L’analyse des résidus ui = yi − ŷi peut servir d’outil pour déterminer si le modèle de régression estimé est approprié. On vérifie ainsi que les hypothèses qui sous-tendent l’inférence sur l’estimateur des moindres carrés sont satisfaites. La validité des hypothèses 2 (indépendance), 3 (non-autocorrélation) et 4 (homoscédasticité) peut être examinée graphiquement dans un “nuage de points” des résidus par rapport à x. Régression et analyse causale Module 1 52 / 56 Prévision et validation du modèle Exemple Statville (6) HEC Lausanne Excel : Outils → Utilitaire d’analyse → Régression linéaire → cocher Courbe des résidus Variable X 1 Graphique des résidus 3000 2000 1000 0 Résidus -1000 0.0 10.0 20.0 30.0 40.0 50.0 60.0 -2000 -3000 -4000 -5000 -6000 Variable X 1 Régression et analyse causale Module 1 53 / 56 Prévision et validation du modèle Analyse des résidus (suite) HEC Lausanne Nuages de points homoscédasticité Régression et analyse causale Module 1 54 / 56 Prévision et validation du modèle Analyse des résidus (suite) HEC Lausanne hétéroscedasticité (violation de la 4e hypothèse) Régression et analyse causale Module 1 55 / 56 Prévision et validation du modèle Analyse des résidus (suite) HEC Lausanne dépendance entre ui et xi (violation de la 2e hypothèse) autocorrélation (violation de la 3e hypothèse) Régression et analyse causale Module 1 56 / 56

Module 1 : Régression Linéaire Simple PDF

Document Details

Tags

Related

Summary

Full Transcript