Module 2 Régression Linéaire Multiple PDF Printemps 2024

HEC Lausanne Module 2 Régression Linéaire Multiple Cours : Régression et analyse causale (“Statistique II”)...

HEC Lausanne Module 2 Régression Linéaire Multiple Cours : Régression et analyse causale (“Statistique II”) Printemps 2024 Bachelor 1ère année, HEC Lausanne, UNIL Marius Brülhart, Jan-Erik Meidell Régression et analyse causale Module 2 1 / 53 HEC Lausanne 1 Equation et Estimation 2 Inférence 3 Coefficients de Détermination 4 Spécifications Régression et analyse causale Module 2 2 / 53 Equation et Estimation L’équation de la régression HEC Lausanne Un modèle de régression multiple contient K (1 < K < n − 1) variables indépendantes: x1 , x2 ,..., xK (on utilisera k comme indice pour une variable particulière). Les paramêtres sont estimables quand K = n − 1, mais l’ajustement est alors parfait et l’inférence est impossible. En pratique, on doit veiller à ce que n >> K. L’équation de la régression linéaire multiple (ou le “modèle de régression”) s’écrit donc de la façon suivante : Y = β0 + β1 x1 + β2 x2 +... + βK xK + , où E () = 0, où βk , ∀k sont les paramêtres du modèle, et le terme d’erreur est une variable aléatoire. Régression et analyse causale Module 2 3 / 53 Equation et Estimation L’équation de la régression (suite) HEC Lausanne Tout comme dans le cas de la régression linéaire simple, β0 représente le point où xk = 0, ∀k (c.-à-d. “constante” du modèle). La valeur d’un paramêtre βk donne le nombre d’unités supplémentaires de Y associées à une augmentation d’une unité de xk lorsque toutes les autres variables indépendantes sont constantes (variation ceteris paribus). E (Y |x1 , x2 ,..., xK ) est l’espérance (i.e., moyenne) conditionnelle de Y pour un vecteur de valeurs des variables indépendantes {x1 , x2 ,..., xK } donné. Régression et analyse causale Module 2 4 / 53 Equation et Estimation L’équation de la régression (suite) HEC Lausanne Si K > 2, on ne peut plus représenter le modèle de régression de façon graphique. Avec K = 2, une représentation graphique est possible, puisqu’il n’y a que trois dimensions : x1 , x2 et y. L’équivalent à la droite de régression en régression linéaire simple est alors appelé surface de réponse (c.f., page suivante). Régression et analyse causale Module 2 5 / 53 Equation et Estimation L’équation de la régression (suite) HEC Lausanne Régression et analyse causale Module 2 6 / 53 Equation et Estimation L’équation de la régression (suite) HEC Lausanne Au niveau d’une observation individuelle i ∈ {1,..., n}, le modèle de régression devient : yi = β0 + β1 x1i + β2 x2i +... + βK xKi + i Pour résumer ce modèle à travers toutes les n observations et K variables, on l’écrit sous forme matricielle :   1 x11 x21 · · · xK 1       y1 β0 1  2  1 x12 x22 · · · xK 2  y    β      1  2  = ...  1........ ·   +  · · · · · ·....  yn 1 x1n x2n · · · xKn βK n n×1 n×(K +1) (K +1)×1 n×1 ⇔ Y = X β + n×1 n × (K + 1)(K + 1) × 1 n×1 Régression et analyse causale Module 2 7 / 53 Equation et Estimation L’équation estimée HEC Lausanne Les statistiques d’échantillon b0 , b1 ,..., bK servent d’estimations de β0 , β1 ,..., βK. Ainsi, l’équation estimée de la régression est donnée par : yb = b0 + b1 x1 + b2 x2 +... + bK xK , où yb est l’estimation ponctuelle de E (Y |x1 , x2 ,..., xK ). Sous forme matricielle, on a : Y b = Xb Régression et analyse causale Module 2 8 / 53 Equation et Estimation Processus d’estimation HEC Lausanne Régression et analyse causale Module 2 9 / 53 Equation et Estimation Estimation par les moindres carrés HEC Lausanne Tout comme pour la régression linéaire simple, la méthode la plus répandue pour calculer b0 , b1 ,..., bK est l’estimateur des moindres carrés. Formellement, la méthode est alors la suivante : n X {b0 , b1 ,..., bK } = argmin (yi − ybi )2 b0 ,b1 ,...,bK i=1 Xn = argmin (yi − b0 − b1 x1i − b2 x2i −... − bK xKi )2 b0 ,b1 ,...,bK i=1 Régression et analyse causale Module 2 10 / 53 Equation et Estimation Estimation par les moindres carrés (suite) HEC Lausanne L’estimateur des moindres carrés pour une régression multiple suit la même logique que celle de la régression linéaire simple, mais sa formulation est plus complexe, nécessitant l’utilisation de l’algèbre matricielle. De plus, l’estimation est trop compliquée pour être faite “à la main” avec un effort raisonnable et est donc toujours effectuée avec l’aide d’un ordinateur. L’estimateur peut être écrit comme suit (l’apostrophe indique la transposée) : β b = b = (X0 X)−1 · (X0 Y) (K + 1) × 1 (K + 1) × 1 (K + 1) × (K + 1) (K + 1) × 1 Régression et analyse causale Module 2 11 / 53 Inférence Hypothèses de l’estimateur MCO HEC Lausanne Tout comme pour la régression linéaire simple, la légitimité des tests d’hypothèse repose sur les cinq hypothèses faites à propos du terme d’erreur () du modèle de régression. Tout comme pour la régression linéaire simple, on peut démontrer que, sous condition que ces hypothèses soient satisfaites, l’estimateur des MCO est l’estimateur avec la variance de la distribution d’échantillonnage la plus petite (c.à d. l’erreur-type la plus faible) de tous les estimateurs linéaires et non-biaisés concevables (théorème de Gauss-Markov). Régression et analyse causale Module 2 12 / 53 Inférence Test du t de Student HEC Lausanne Si les hypothèses sur sont satisfaites, on peut se servir de la loi du t de Student pour tester des hypothèses sur des paramêtres individuels βk. Erreur-type empirique des paramêtres estimés : su su sbk = q Pn =q , 2 (1 − Rxk X−k ) i=1 (xik − x̄k )2 2 (1 − Rxk X−k )sx2k (n − 1) I où Rx2k X−k est le coefficient de détermination d’une régression de xk sur toutes les variables indépendantes x autres que k (représentées par X−k ). Régression et analyse causale Module 2 13 / 53 Inférence Test du t de Student (suite) HEC Lausanne L’erreur-type empirique des paramêtres estimés est d’autant plus faible que: l’erreur-type empirique de la régression (su ) est faible, la variance de xk est grande, n est grand, et (ce qui est nouveau en régression multiple) xk est faiblement corrélé avec X−k (“faible multicolinéarité”). Statistique de test : bk − β0,k tk = ∼ t n−K −1 sbk L’intervalle de confiance autour d’un paramêtre estimé individuel est alors donné par : n−K −1 bk ± t1− α · sbk 2 Régression et analyse causale Module 2 14 / 53 Inférence Test du t de Student (suite) HEC Lausanne Dans la plupart des applications, l’hypothèse la plus importante concerne la signification statistique de xk comme ”facteur explicatif” des variations de y. H0 : βk = 0 contre H1 : βk 6= 0 bk Statistique de test: Tk = ∼ Student(n − K − 1) s bk Ces statistiques de test sont fournies par tous les logiciels statistiques pour chacun des coefficients estimés b0 , b1 ,... , bK. ∞ Puisque t0.975 = 1.96, une façon de tester la significativité statistique à 5% d’un coefficient estimé d’une régression multiple basée sur un grand échantillon est de vérifier si |tk | > 1.96. Pour tester la ∞. significativité à 1%, on vérifie si |tk | > 2.58 = t0.995 Régression et analyse causale Module 2 15 / 53 Inférence Test du F de Fisher HEC Lausanne Si les hypothèses sur sont satisfaites, on peut se servir de la loi du F de Fisher pour déterminer s’il existe une relation significative entre y et l’ensemble des variables indépendantes ; on parle du test de signification globale. H0 : β1 = β2 =... = βK = 0 H1 : au moins un des paramêtres n’est pas égal à zéro SCReg Statistique de test: F = K ∼ F K ,n−K −1 SCRes n−K −1 Régression et analyse causale Module 2 16 / 53 Inférence Multicolinéarité HEC Lausanne Il est possible qu’aucun des coefficients estimés bk ne soit individuellement statistiquement significatif (selon le test du t de Student), mais que le modèle soit quand même globalement statistiquement significatif (selon le test du F de Fisher). L’explication de ce phénomène apparemment paradoxal est la multicolinéarité : le fait que les variables indépendantes xk , tout en étant indépendantes de y , peuvent être corrélées entre elles. Plus les variables indépendantes sont corrélées, plus il devient difficile de déterminer l’effet propre d’une variable indépendante particulière sur la variable dépendante. Autrement dit, quand la multicolinéarité est forte, les erreurs-types des coefficients (sbk ) sont grandes, et le risque peut être fort que les coefficients estimés prennent le signe opposé à celui du vrai paramêtre. Régression et analyse causale Module 2 17 / 53 Inférence Multicolinéarité (suite) HEC Lausanne En pratique, il peut être utile d’inspecter la matrice de corrélation entre les variables indépendantes. Comme valeur pratique (très) approximative, on utilise parfois un seuil de |ρbxk xl | = 0.7 pour déterminer s’il y a un problème potentiel de multicolinéarité entre deux variables xk et xl. Le meilleur moyen pour pallier au problème de multicolinéarité est d’augmenter la taille de l’échantillon n. S’il y a colinéarité parfaite entre deux ou plusieurs variables indépendantes, leurs paramêtres ne peuvent pas être estimés. Régression et analyse causale Module 2 18 / 53 Coefficients de Détermination R-carré HEC Lausanne La définition du R-carré (aussi coefficient de détermination multiple) est identique à celle utilisée pour la régression linéaire simple : Pn (ybi − ȳ )2 SCReg SCReg R 2 = Pi=1 n 2 = = (y i=1 i − ȳ ) SCReg + SCRes SCTot Pn 2 Pn 2 (yi − ybi ) u SCRes = 1 − Pi=1 n 2 = 1 − Pn i=1 i 2 = 1 − i=1 (yi − ȳ ) i=1 (yi − ȳ ) SCTot Régression et analyse causale Module 2 19 / 53 Coefficients de Détermination R-carré (suite) HEC Lausanne Le R-carré exprime le pourcentage de la somme des carrés totaux “expliqué” (dans le sens d’une explication géométrique et non causale) par l’équation estimée de la régression. Le R-carré ne peut pas être décomposé en “contributions explicatives” de chacune des K variables indépendantes. Exception : cas de zéro colinéarité entre les variables indépendantes (qui sont donc “orthogonales”). Exemple : vecteurs de variables binaires par pays et par année dans un modèle des différences de taux de chômage ⇒ décomposition du R-carré en une composante “conjoncturelle” (contribution au R-carré des différences temporelles) et une composante “structurelle” (contribution au R-carré des différences inter-pays). Régression et analyse causale Module 2 20 / 53 Coefficients de Détermination R-carré et test du F de Fisher HEC Lausanne Il existe une relation mathématique entre le R-carré et la statistique de test de signification globale (du F de Fisher) : SCReg K (n − K − 1)R 2 F = = SCRes K (1 − R 2 ) n−K −1 étant donné n et K , un R-carré élevé implique une statistique F élevée. De plus, la statistique F varie en fonction de n et de K. Pour un R-carré donné, plus n − K est grand, plus la statistique F est élevée. Intuitivement, cela représente le fait que plus il y a d’observations par rapport au nombre de variables indépendantes, plus il semble invraisemblable qu’une certaine qualité d’ajustement du modèle (c.-à-d. un certain R-carré) se soit produit aléatoirement. Régression et analyse causale Module 2 21 / 53 Coefficients de Détermination R-carré ajusté HEC Lausanne Puisque la méthode des MCO minimise la somme des carrés des résidus (SCRes), le R-carré augmente si on ajoute des variables indépendantes (ce qui ne change pas SCTot) même si ces variables ne sont pas statistiquement significatives. La valeur du R-carré dépend donc de K , ce qui complique la comparaison de la qualité d’ajustement de différents modèles de régression si le nombre de variables indépendantes n’est pas identique. Pour cette raison, il est courant de calculer le R-carré ajusté : SCRes n−K −1 n−1 R̄ 2 = 1 − = 1 − (1 − R 2 ) , R̄ 2 ≤ 1 SCTot n−K −1 n−1 Régression et analyse causale Module 2 22 / 53 Coefficients de Détermination R-carré ajusté (suite) HEC Lausanne SCRes n−K −1 est la variance estimée des résidus (su2 ) ; et SCTot n−1 est la 2 variance estimée de Y (sy ). On peut donc aussi écrire le R-carré su2 ajusté de la façon suivante: R̄ 2 = 1 − sy2. Si l’ajout d’une variable indépendante diminue SCRes proportionnellement moins qu’il n’augmente K , alors su2 augmente et le R-carré ajusté diminue. Le R-carré ajusté peut donc diminuer ou augmenter quand on ajoute des variables indépendantes. Il est même possible que le R-carré ajusté prenne des valeurs négatives (si K est grand et le R-carré est petit). On peut démontrer que l’ajout d’une variable indépendante augmente le R-carré ajusté si la statistique du t de Student de cette variable est supérieure à 1. Pour augmenter le R-carré ajusté, une variable indépendante supplémentaire n’a donc pas besoin d’être statistiquement significative, même au seuil de 10%. Régression et analyse causale Module 2 23 / 53 Coefficients de Détermination Exemple Statville (1) HEC Lausanne Le syndic cherche à savoir si l’effet de l’âge sur le revenu des habitants de sa commune reste statistiquement significatif si on contrôle aussi pour la durée d’expérience des travailleurs dans leur fonction actuelle. Il recense donc la variable expérience pour les 12 individus de son échantillon aléatoire simple. Régression et analyse causale Module 2 24 / 53 Coefficients de Détermination Exemple Statville (1, suite) HEC Lausanne Excel : Outils → Utilitaire d’analyse → Régression linéaire → cocher Intitulé présent Régression et analyse causale Module 2 25 / 53 Coefficients de Détermination Exemple Statville (1, suite) HEC Lausanne Le syndic conclut que, étant donné l’âge, les années d’expérience dans la fonction ne constituent pas un déterminant statistiquement significatif du salaire. Le modèle prédit donc que deux travailleurs qui ont le même âge mais des durées d’expérience différentes auront le même salaire en moyenne. On note que par rapport à l’estimation de la régression linéaire simple (avec l’âge comme unique variable indépendante), le R-carré a augmenté (de 0.585 à 0.588). Par contre, puisque la valeur de la statistique t de la variable expérience est inférieure à 1, le R-carré ajusté a diminué (de 0.544 à 0.496). Malgré l’augmentation du R-carré, la valeur de la statistique F a diminué (de 14.1 à 6.4) et celle de l’erreur-type de la régression a augmenté (de 2239 à 2353). L’augmentation de K (de 1 à 2) a donc plus que compensé la diminution de SCRes (de 50.1 mn à 49.8 mn). Régression et analyse causale Module 2 26 / 53 Coefficients de Détermination Exemple Statville (1, suite) HEC Lausanne Corrélation entre les variables âge et expérience : ρb12 = 0.77 La multicolinéarité pourrait jouer un rôle (i.e., les variations dans le valeurs de la variable expérience ne sont pas suffisamment indépendantes de l’âge), ainsi qu’avec seulement n = 12 observations, on arrive pas à identifier statistiquement un effet spécifique dû à la variable expérience. Excel : =COEFFICIENT.CORRELATION(âge;expérience) Prédiction du salaire pour une personne de 55 ans avec 15 ans d’expérience : (yb|x1 = 55, x2 = 15) = E (yb|x1 = 55, x2 = 15) = 40034 + 269.9 · 55 + 23.5 · 15 = 55231 La construction d’un intervalle de confiance autour de cette prévision n’est pas possible avec Excel. Régression et analyse causale Module 2 27 / 53 Coefficients de Détermination Exemple Statville (1, suite) HEC Lausanne Dans les tableaux publiés de résultats de la régression (c.f., page suivante), il est utile de présenter les coefficients ainsi que leurs erreurs-types et des symboles indiquant le niveau de signification statistique du test bilatéral de H0 : βk = 0. Une telle présentation des résultats facilite des tests d’hypothèse alternatifs, H0 : βk = z. Le syndic pourrait s’intéresser si la véritable hausse salariale moyenne par année d’âge est égale à 500 francs (α = 5%) : b1 − 500 269.9 − 500 n−K −1 9 tx1 =500 = = = −2.58; t1− α = t0.975 = 2.26 s b1 89.3 2 Intervalle de confiance à 95% approximatif pour n ≥ 60 : b1 ± 2 · sb1 Régression et analyse causale Module 2 28 / 53 Coefficients de Détermination HEC Lausanne Régression et analyse causale Module 2 29 / 53 Coefficients de Détermination Coefficients standardisés HEC Lausanne Une méthode courante d’exprimer les paramêtres estimés de façon à faciliter la comparaison à travers les variables indépendantes ainsi qu’une interprètation de leur signification pratique est de les transformer en coefficients standardisés (ou “coefficients béta”) : sxk bkstand = bk sy La valeur de ce paramêtre transformé peut être interprétée comme le nombre d’écarts-types par lesquels varie y suivant une augmentation d’un écart-type de x. Dans l’exemple Statville (1): stand 9.1 bâge = 269.9 · = 0.74 3314.9 stand 7.8 bexpérience = 23.4 · = 0.06 3314.9 Régression et analyse causale Module 2 30 / 53 Spécifications Bases HEC Lausanne Par “spécification”, on entend la formulation du modèle empirique, c.-à-d. de l’équation de la régression. Comme nous l’avons déjà vu au Module 1, la spécification linéaire est suffisamment flexible pour permettre l’estimation d’une large gamme de modèles théoriques, dont certains sont non-linéaires à la base (mais “intrinsèquement linéaires”). Nous présenterons quelques spécifications particulières très utiles : Spécification polynomiale Variables indépendantes binaires Spécification logarithmique Interactions Il existe des modèles théoriques non-linéaires qui ne peuvent être transformés en une spécification linéaire et nécessitent donc l’utilisation d’un estimateur non-linéaire (pas traité dans ce cours). Exemple: y = β0 + β1 (x + β2 )−1 Régression et analyse causale Module 2 31 / 53 Spécifications Spécification polynomiale HEC Lausanne La spécification de base de la régression linéaire multiple peut être considérée comme un cas particulier d’une classe de fonctions plus large, les fonctions polynomiales : y = β0 + β1 x + β2 x 2 + β3 x 3 +... + βK x K + K est le degré du polynôme Si K = 2, le polynôme est du deuxième degré (“parabole”) Si satisfait les hypothèses du modèle des MCO, cette spécification peut être estimée avec la méthode des moindres carrés : yb = E (Y |x ) = b0 + b1 x + b2 x 2 + b3 x 3 +... + bK x K Régression et analyse causale Module 2 32 / 53 Spécifications Exemple Statville (2) HEC Lausanne Le syndic se rend compte que sa spécification initiale n’est pas satisfaisante. En particulier, l’hypothèse d’une relation linéaire entre l’âge et le revenu des habitants n’est pas plausible. Il décide donc d’estimer un modèle polynomial du deuxième degré pour la variable indépendante âge : Y = β0 + β1 x1 + β2 x12 + β3 x2 + où x1 = âge et x2 = expérience Régression et analyse causale Module 2 33 / 53 Spécifications Exemple Statville (2, suite) HEC Lausanne b1 et b2 sont statistiquement significatifs. expérience devient statistiquement significative (à 10%). ⇒ La spécification parabolique semble justifiée. Régression et analyse causale Module 2 34 / 53 Spécifications Exemple Statville (2, suite) HEC Lausanne Prédictions impliquées par les coefficients estimés pour une personne avec dix ans d’expérience : (yb|x2 = 10) = 3932.6 + 2077.5 · x1 − 22.1 · x12 + 98 · 10 Prédiction de l’âge auquel le revenu est maximal (x1max ) : ∂ yb −b1 −2077.5 = b1 + 2 · b2 · x1max = 0 ⇒ x1max = = = 47 ∂x1 2 · b2 2 · (−22.1) Régression et analyse causale Module 2 35 / 53 Spécifications Variables indépendantes binaires HEC Lausanne Une variable indépendante binaire (aussi appelée variable ”muette”, ”indicatrice” ou ”dummy”) ne prend que deux valeurs : 0 ou 1. Les variables binaires sont utilisées pour distinguer deux niveaux mutuellement exclusifs des valeurs d’une variable quantitative ou qualitative. Quelques exemples : Dimension temporelle: bonne/mauvaise conjoncture ; été/non-été ; avant/après campagne publicitaire... Dimension spatiale: nord/sud ; ville/campagne ; Suisse/étranger... Variables qualitatives: homme/femme ; employé/non-employé... Variables quantitatives groupées : ménages à plus/moins de 50000 francs de revenu ; firmes avec plus/moins de 10 employés... Le niveau pour laquelle la variable binaire est définie comme égale à zéro est appelée le niveau de référence. Régression et analyse causale Module 2 36 / 53 Spécifications Exemple Statville (3) HEC Lausanne Le syndic cherche à savoir si, au-delà de l’âge et de l’expérience (i.e. en contrôlant pour x1 , x12 et x2 ), le sexe des travailleurs influence leur salaire moyen. Il définit alors la variable muette x3 suivante : ( 1 si l’individu i est une femme x3 = 0 si l’individu i est un homme (niveau de référence) Régression et analyse causale Module 2 37 / 53 Spécifications Exemple Statville (3, suite) HEC Lausanne En moyenne, une femme gagne 2054.2 francs de moins qu’un homme du même âge et avec le même nombre d’années d’expérience. Cet effet est statistiquement significatif au seuil de 10% mais non au seuil de 5%. Régression et analyse causale Module 2 38 / 53 Spécifications Exemple Statville (3, suite) HEC Lausanne Prédictions impliquées par les coefficients estimés: Pour une femme avec dix ans d’expérience (droite violette): y |x2 = 10, x3 = 1) = 3468 + 2038.6 · x1 − 20.8 · x12 + 148 · 10 − 2054.2 (b Pour un homme avec dix ans d’expérience (droite bleue): y |x2 = 10, x3 = 0) = 3468 + 2038.6 · x1 − 20.8 · x12 + 148 · 10 (b L’écart salarial moyen dû au sexe est donc de b4 = 2054.2 Régression et analyse causale Module 2 39 / 53 Spécifications Exemple Statville (3, suite) HEC Lausanne A la place d’estimer les paramêtres du modèle de régression (des corrélations conditionnelles), le syndic pourrait s’intéresser aux corrélations “pures” ρbkl entre toutes les paires de variables indépendantes xk et xl (les corrélations inconditionnelles). examiner la matrice de corrélation Excel : Outils → Utilitaire d’analyse → Analyse de corrélation → Intitulés en première ligne Régression et analyse causale Module 2 40 / 53 Spécifications Variables binaires pour niveaux multiples HEC Lausanne Des variables indépendantes binaires peuvent aussi servir pour représenter des variables qualitatives ou des variables quantitatives groupées avec C > 2 niveaux. Dans ce cas on crée C − 1 variables binaires, une pour chaque niveau sauf un, appelé catégorie de référence. Exemple Statville (3): trois tranches d’âge:  0 − 30 : x1 = 0; x2 = 0   31 − 55 : x1 = 1; x2 = 0 E (Y ) = β0 + β1 x1 + β2 x2 56 − 65 : x1 = 0; x2 = 1   β0 est le salaire moyen des jeunes (0 - 30 ans). β1 est la différence entre le salaire moyen du groupe des 31 à 55 ans par rapport à celui des jeunes. β2 est la différence entre le salaire moyen du groupe des 56 à 65 ans par rapport à celui des jeunes. Régression et analyse causale Module 2 41 / 53 Spécifications Spécifications logarithmiques HEC Lausanne Un modèle non-linéaire mais ”intrinsèquement linéaire” est l’équation βk Cobb-Douglas: y = a K Q k=1 xk , souvent utilisée en microéconomie pour représenter l’origine des courbes d’offre (fonction de production) et de demande (fonction d’utilité). Version stochastique (K = 2) : Y = a · x1β1 · x2β2 · e , où satisfait les cinq hypothèses du modèle des MCO Ce modèle devient linéaire quand on le transforme en logarithmes naturels : ln(Y ) = β0 + β1 ln(x1 ) + β2 ln(x2 ) + , où β0 ≡ ln(a) Puisque, pour estimer ce modèle, on transforme la variable dépendante ainsi que les variables indépendantes, on parle de la ”double transformation logarithmique” ou de la spécification log-log. Régression et analyse causale Module 2 42 / 53 Spécifications Spécifications logarithmiques (suite) HEC Lausanne Rappelons-nous du grand atout de la spécification log-log : les coefficients estimés peuvent être interprétés comme des élasticités (“modèle à élasticité constante”). Elasticité de y par rapport à xk : ∂y ∂y xk y ∗ ∂ln(y ) · = ∂xk = = βk ∂xk y xk ∂ln(xk ) Tout comme les coefficients standardisés, les coefficients d’un modèle log-log peuvent être comparés à travers les variables indépendantes k, puisque par définition les élasticités sont toutes exprimées dans les mêmes unités (i.e. en termes de déviations en pourcentage de y et de xk ). ∂ln(y ) ∗ ∂y = 1 y ⇒ ∂y y = ∂ln(y ) Régression et analyse causale Module 2 43 / 53 Spécifications Spécifications logarithmiques (suite) HEC Lausanne Un autre modèle “intrinsèquement linéaire” est donné par la fonction exponentielle y = e β0 +β1 x1 +β2 x2 +...+βK xK. Version stochastique (K = 2) : Y = e β0 +β1 x1 +β2 x2 + , où satisfait les cinq hypothèses du modèle des MCO. Cette fonction devient linéaire quand on la transforme en logarithmes naturels : ln(Y ) = β0 + β1 x1 + β2 x2 + Puisque pour estimer ce modèle on transforme la variable dépendante en logarithmes naturels, on parle d’une spécification log-linéaire. Régression et analyse causale Module 2 44 / 53 Spécifications Spécifications logarithmiques (suite) HEC Lausanne Les paramêtres d’une telle spécification sont des semi-elasticités : ils représentent la variation en pourcentage de la variable dépendante par rapport à une variation d’une unité de la variable indépendante en question. Puisque ces semi-elasticités dépendent des unités de mesure des variables indépendantes, elle ne sont pas directement comparables à travers les différentes variables indépendantes. La spécification log-linéaire est utilisée par exemple en macroéconomie afin de modèliser des taux de croissance stables : Soit Y = e β0 +β1 x1 + , où Y est un agrégat économique (PIB, niveau des prix,...), et x1 est la variable temps (en mois, trimestres, années,...). ∂ln(y ) Alors β1 = ∂x est le taux de croissance moyen de y. Régression et analyse causale Module 2 45 / 53 Spécifications Exemple Statville (4) HEC Lausanne Spécification log-log : ln(revenu) = β0 + β1 ln(âge) + . Par pourcent d’âge supplémentaire, le revenu moyen augmente de 0.25 pourcent. R-carré (0.68) plus élevé que dans la régression avec y et x non-transformés (0.59, c.f,. Module 1) ⇒ spécification log-log (non-linéaire) mieux ajustée aux données. Régression et analyse causale Module 2 46 / 53 Spécifications Exemple Statville (5) HEC Lausanne Spécification log-linéaire : ln(revenu) = β0 + β1 âge + . Par année d’âge supplémentaire, le revenu moyen augmente de 0.57 pourcent. R-carré (0.57) moins élevé que dans la régression avec y et x non-transformés (0.59, c.f., Module 1) ⇒ spécification log-linéaire moins bien ajustée aux données. Régression et analyse causale Module 2 47 / 53 Spécifications Exemple Statville: différentes spécifications HEC Lausanne Régression et analyse causale Module 2 48 / 53 Spécifications Interactions HEC Lausanne L’équation de régression linéaire multiple implique des effets isolés de chaque variable indépendante : ∂y = βk , ∀k ∂xk En ajoutant des produits de variables indépendantes (”termes d’interaction”), on peut modèliser des interdépendances entre les effets des variables indépendantes : Y = β0 + β1 x1 + β2 x2 + β3 x1 x2 + ∂y ⇒ = β1 + β3 x2 x1 ∂y ⇒ = β2 + β3 x1 x2 Régression et analyse causale Module 2 49 / 53 Spécifications Interactions (suite) HEC Lausanne β1 (resp. β2 ) représente l’effet de x1 (resp. x2 ) sur yb quand x2 (resp. x1 ) est égal à zéro. Puisque une valeur de zéro n’est souvent pas très réaliste ou informative (par exemple dans une estimation des déterminants salariaux), on estime souvent une spécification transformée : Y = β0 + β̃1 x1 + β̃2 x2 + β̃3 (x1 − x̄1 )(x2 − x̄2 ) + β̃1 (resp. β̃2 ) est alors l’effet de x1 (resp. x2 ) sur y quand x2 (resp. x1 ) prend sa valeur moyenne. Si x1 est une variable continue et x2 une variable binaire, alors β̃2 représente le déplacement de l’intercept, et β̃3 représente le changement de la pente de yb par rapport à x1 , quand x2 passe de 0 à 1. Régression et analyse causale Module 2 50 / 53 Spécifications Exemple Statville (6) HEC Lausanne Les syndics de Statville et Statdorf cherchent à savoir si les salaires moyens croissent à un rythme différent avec l’âge dans leurs deux communes. Ils collectionnent des données pour des échantillons aléatoires simples dans les deux communes (n = 12). Régression et analyse causale Module 2 51 / 53 Spécifications Exemple Statville (6, suite) HEC Lausanne revenu = β0 + β1 · statdorf + β2 · âge + β3 · âge · statdorf + ( 1 pour Statdorf statdorf = 0 pour Statville ∂revenu ⇒ | statdorf = 1 = 279.7 − 34.7 = 245 ∂âge ⇒ différence non significative du point de vue statistique Régression et analyse causale Module 2 52 / 53 Spécifications Exemple Statville (6, suite) HEC Lausanne Régression et analyse causale Module 2 53 / 53

Module 2 Régression Linéaire Multiple PDF Printemps 2024

Document Details

Tags

Related

Summary

Full Transcript