Module 2: Régression Linéaire Multiple PDF
Document Details
Uploaded by BuoyantComputerArt
HEC Lausanne, UNIL
2024
Marius Brülhart, Jan-Erik Meidell
Tags
Summary
Ce document est un module portant sur la régression linéaire multiple dans le cadre d'un cours de statistique. Le module, intitulé "Régression et analyse causale (Statistique II)", est destiné aux étudiants de premier cycle en économie à HEC Lausanne et UNIL pour le printemps 2024.
Full Transcript
HEC Lausanne Module 2 Régression Linéaire Multiple Cours : Régression et analyse causale (“Statistique II”)...
HEC Lausanne Module 2 Régression Linéaire Multiple Cours : Régression et analyse causale (“Statistique II”) Printemps 2024 Bachelor 1ère année, HEC Lausanne, UNIL Marius Brülhart, Jan-Erik Meidell Régression et analyse causale Module 2 1 / 53 HEC Lausanne 1 Equation et Estimation 2 Inférence 3 Coefficients de Détermination 4 Spécifications Régression et analyse causale Module 2 2 / 53 Equation et Estimation L’équation de la régression HEC Lausanne Un modèle de régression multiple contient K (1 < K < n − 1) variables indépendantes: x1 , x2 ,..., xK (on utilisera k comme indice pour une variable particulière). Les paramêtres sont estimables quand K = n − 1, mais l’ajustement est alors parfait et l’inférence est impossible. En pratique, on doit veiller à ce que n >> K. L’équation de la régression linéaire multiple (ou le “modèle de régression”) s’écrit donc de la façon suivante : Y = β0 + β1 x1 + β2 x2 +... + βK xK + , où E () = 0, où βk , ∀k sont les paramêtres du modèle, et le terme d’erreur est une variable aléatoire. Régression et analyse causale Module 2 3 / 53 Equation et Estimation L’équation de la régression (suite) HEC Lausanne Tout comme dans le cas de la régression linéaire simple, β0 représente le point où xk = 0, ∀k (c.-à-d. “constante” du modèle). La valeur d’un paramêtre βk donne le nombre d’unités supplémentaires de Y associées à une augmentation d’une unité de xk lorsque toutes les autres variables indépendantes sont constantes (variation ceteris paribus). E (Y |x1 , x2 ,..., xK ) est l’espérance (i.e., moyenne) conditionnelle de Y pour un vecteur de valeurs des variables indépendantes {x1 , x2 ,..., xK } donné. Régression et analyse causale Module 2 4 / 53 Equation et Estimation L’équation de la régression (suite) HEC Lausanne Si K > 2, on ne peut plus représenter le modèle de régression de façon graphique. Avec K = 2, une représentation graphique est possible, puisqu’il n’y a que trois dimensions : x1 , x2 et y. L’équivalent à la droite de régression en régression linéaire simple est alors appelé surface de réponse (c.f., page suivante). Régression et analyse causale Module 2 5 / 53 Equation et Estimation L’équation de la régression (suite) HEC Lausanne Régression et analyse causale Module 2 6 / 53 Equation et Estimation L’équation de la régression (suite) HEC Lausanne Au niveau d’une observation individuelle i ∈ {1,..., n}, le modèle de régression devient : yi = β0 + β1 x1i + β2 x2i +... + βK xKi + i Pour résumer ce modèle à travers toutes les n observations et K variables, on l’écrit sous forme matricielle : 1 x11 x21 · · · xK 1 y1 β0 1 2 1 x12 x22 · · · xK 2 y β 1 2 = ... 1........ · + · · · · · ·.... yn 1 x1n x2n · · · xKn βK n n×1 n×(K +1) (K +1)×1 n×1 ⇔ Y = X β + n×1 n × (K + 1)(K + 1) × 1 n×1 Régression et analyse causale Module 2 7 / 53 Equation et Estimation L’équation estimée HEC Lausanne Les statistiques d’échantillon b0 , b1 ,..., bK servent d’estimations de β0 , β1 ,..., βK. Ainsi, l’équation estimée de la régression est donnée par : yb = b0 + b1 x1 + b2 x2 +... + bK xK , où yb est l’estimation ponctuelle de E (Y |x1 , x2 ,..., xK ). Sous forme matricielle, on a : Y b = Xb Régression et analyse causale Module 2 8 / 53 Equation et Estimation Processus d’estimation HEC Lausanne Régression et analyse causale Module 2 9 / 53 Equation et Estimation Estimation par les moindres carrés HEC Lausanne Tout comme pour la régression linéaire simple, la méthode la plus répandue pour calculer b0 , b1 ,..., bK est l’estimateur des moindres carrés. Formellement, la méthode est alors la suivante : n X {b0 , b1 ,..., bK } = argmin (yi − ybi )2 b0 ,b1 ,...,bK i=1 Xn = argmin (yi − b0 − b1 x1i − b2 x2i −... − bK xKi )2 b0 ,b1 ,...,bK i=1 Régression et analyse causale Module 2 10 / 53 Equation et Estimation Estimation par les moindres carrés (suite) HEC Lausanne L’estimateur des moindres carrés pour une régression multiple suit la même logique que celle de la régression linéaire simple, mais sa formulation est plus complexe, nécessitant l’utilisation de l’algèbre matricielle. De plus, l’estimation est trop compliquée pour être faite “à la main” avec un effort raisonnable et est donc toujours effectuée avec l’aide d’un ordinateur. L’estimateur peut être écrit comme suit (l’apostrophe indique la transposée) : β b = b = (X0 X)−1 · (X0 Y) (K + 1) × 1 (K + 1) × 1 (K + 1) × (K + 1) (K + 1) × 1 Régression et analyse causale Module 2 11 / 53 Inférence Hypothèses de l’estimateur MCO HEC Lausanne Tout comme pour la régression linéaire simple, la légitimité des tests d’hypothèse repose sur les cinq hypothèses faites à propos du terme d’erreur () du modèle de régression. Tout comme pour la régression linéaire simple, on peut démontrer que, sous condition que ces hypothèses soient satisfaites, l’estimateur des MCO est l’estimateur avec la variance de la distribution d’échantillonnage la plus petite (c.à d. l’erreur-type la plus faible) de tous les estimateurs linéaires et non-biaisés concevables (théorème de Gauss-Markov). Régression et analyse causale Module 2 12 / 53 Inférence Test du t de Student HEC Lausanne Si les hypothèses sur sont satisfaites, on peut se servir de la loi du t de Student pour tester des hypothèses sur des paramêtres individuels βk. Erreur-type empirique des paramêtres estimés : su su sbk = q Pn =q , 2 (1 − Rxk X−k ) i=1 (xik − x̄k )2 2 (1 − Rxk X−k )sx2k (n − 1) I où Rx2k X−k est le coefficient de détermination d’une régression de xk sur toutes les variables indépendantes x autres que k (représentées par X−k ). Régression et analyse causale Module 2 13 / 53 Inférence Test du t de Student (suite) HEC Lausanne L’erreur-type empirique des paramêtres estimés est d’autant plus faible que: l’erreur-type empirique de la régression (su ) est faible, la variance de xk est grande, n est grand, et (ce qui est nouveau en régression multiple) xk est faiblement corrélé avec X−k (“faible multicolinéarité”). Statistique de test : bk − β0,k tk = ∼ t n−K −1 sbk L’intervalle de confiance autour d’un paramêtre estimé individuel est alors donné par : n−K −1 bk ± t1− α · sbk 2 Régression et analyse causale Module 2 14 / 53 Inférence Test du t de Student (suite) HEC Lausanne Dans la plupart des applications, l’hypothèse la plus importante concerne la signification statistique de xk comme ”facteur explicatif” des variations de y. H0 : βk = 0 contre H1 : βk 6= 0 bk Statistique de test: Tk = ∼ Student(n − K − 1) s bk Ces statistiques de test sont fournies par tous les logiciels statistiques pour chacun des coefficients estimés b0 , b1 ,... , bK. ∞ Puisque t0.975 = 1.96, une façon de tester la significativité statistique à 5% d’un coefficient estimé d’une régression multiple basée sur un grand échantillon est de vérifier si |tk | > 1.96. Pour tester la ∞. significativité à 1%, on vérifie si |tk | > 2.58 = t0.995 Régression et analyse causale Module 2 15 / 53 Inférence Test du F de Fisher HEC Lausanne Si les hypothèses sur sont satisfaites, on peut se servir de la loi du F de Fisher pour déterminer s’il existe une relation significative entre y et l’ensemble des variables indépendantes ; on parle du test de signification globale. H0 : β1 = β2 =... = βK = 0 H1 : au moins un des paramêtres n’est pas égal à zéro SCReg Statistique de test: F = K ∼ F K ,n−K −1 SCRes n−K −1 Régression et analyse causale Module 2 16 / 53 Inférence Multicolinéarité HEC Lausanne Il est possible qu’aucun des coefficients estimés bk ne soit individuellement statistiquement significatif (selon le test du t de Student), mais que le modèle soit quand même globalement statistiquement significatif (selon le test du F de Fisher). L’explication de ce phénomène apparemment paradoxal est la multicolinéarité : le fait que les variables indépendantes xk , tout en étant indépendantes de y , peuvent être corrélées entre elles. Plus les variables indépendantes sont corrélées, plus il devient difficile de déterminer l’effet propre d’une variable indépendante particulière sur la variable dépendante. Autrement dit, quand la multicolinéarité est forte, les erreurs-types des coefficients (sbk ) sont grandes, et le risque peut être fort que les coefficients estimés prennent le signe opposé à celui du vrai paramêtre. Régression et analyse causale Module 2 17 / 53 Inférence Multicolinéarité (suite) HEC Lausanne En pratique, il peut être utile d’inspecter la matrice de corrélation entre les variables indépendantes. Comme valeur pratique (très) approximative, on utilise parfois un seuil de |ρbxk xl | = 0.7 pour déterminer s’il y a un problème potentiel de multicolinéarité entre deux variables xk et xl. Le meilleur moyen pour pallier au problème de multicolinéarité est d’augmenter la taille de l’échantillon n. S’il y a colinéarité parfaite entre deux ou plusieurs variables indépendantes, leurs paramêtres ne peuvent pas être estimés. Régression et analyse causale Module 2 18 / 53 Coefficients de Détermination R-carré HEC Lausanne La définition du R-carré (aussi coefficient de détermination multiple) est identique à celle utilisée pour la régression linéaire simple : Pn (ybi − ȳ )2 SCReg SCReg R 2 = Pi=1 n 2 = = (y i=1 i − ȳ ) SCReg + SCRes SCTot Pn 2 Pn 2 (yi − ybi ) u SCRes = 1 − Pi=1 n 2 = 1 − Pn i=1 i 2 = 1 − i=1 (yi − ȳ ) i=1 (yi − ȳ ) SCTot Régression et analyse causale Module 2 19 / 53 Coefficients de Détermination R-carré (suite) HEC Lausanne Le R-carré exprime le pourcentage de la somme des carrés totaux “expliqué” (dans le sens d’une explication géométrique et non causale) par l’équation estimée de la régression. Le R-carré ne peut pas être décomposé en “contributions explicatives” de chacune des K variables indépendantes. Exception : cas de zéro colinéarité entre les variables indépendantes (qui sont donc “orthogonales”). Exemple : vecteurs de variables binaires par pays et par année dans un modèle des différences de taux de chômage ⇒ décomposition du R-carré en une composante “conjoncturelle” (contribution au R-carré des différences temporelles) et une composante “structurelle” (contribution au R-carré des différences inter-pays). Régression et analyse causale Module 2 20 / 53 Coefficients de Détermination R-carré et test du F de Fisher HEC Lausanne Il existe une relation mathématique entre le R-carré et la statistique de test de signification globale (du F de Fisher) : SCReg K (n − K − 1)R 2 F = = SCRes K (1 − R 2 ) n−K −1 étant donné n et K , un R-carré élevé implique une statistique F élevée. De plus, la statistique F varie en fonction de n et de K. Pour un R-carré donné, plus n − K est grand, plus la statistique F est élevée. Intuitivement, cela représente le fait que plus il y a d’observations par rapport au nombre de variables indépendantes, plus il semble invraisemblable qu’une certaine qualité d’ajustement du modèle (c.-à-d. un certain R-carré) se soit produit aléatoirement. Régression et analyse causale Module 2 21 / 53 Coefficients de Détermination R-carré ajusté HEC Lausanne Puisque la méthode des MCO minimise la somme des carrés des résidus (SCRes), le R-carré augmente si on ajoute des variables indépendantes (ce qui ne change pas SCTot) même si ces variables ne sont pas statistiquement significatives. La valeur du R-carré dépend donc de K , ce qui complique la comparaison de la qualité d’ajustement de différents modèles de régression si le nombre de variables indépendantes n’est pas identique. Pour cette raison, il est courant de calculer le R-carré ajusté : SCRes n−K −1 n−1 R̄ 2 = 1 − = 1 − (1 − R 2 ) , R̄ 2 ≤ 1 SCTot n−K −1 n−1 Régression et analyse causale Module 2 22 / 53 Coefficients de Détermination R-carré ajusté (suite) HEC Lausanne SCRes n−K −1 est la variance estimée des résidus (su2 ) ; et SCTot n−1 est la 2 variance estimée de Y (sy ). On peut donc aussi écrire le R-carré su2 ajusté de la façon suivante: R̄ 2 = 1 − sy2. Si l’ajout d’une variable indépendante diminue SCRes proportionnellement moins qu’il n’augmente K , alors su2 augmente et le R-carré ajusté diminue. Le R-carré ajusté peut donc diminuer ou augmenter quand on ajoute des variables indépendantes. Il est même possible que le R-carré ajusté prenne des valeurs négatives (si K est grand et le R-carré est petit). On peut démontrer que l’ajout d’une variable indépendante augmente le R-carré ajusté si la statistique du t de Student de cette variable est supérieure à 1. Pour augmenter le R-carré ajusté, une variable indépendante supplémentaire n’a donc pas besoin d’être statistiquement significative, même au seuil de 10%. Régression et analyse causale Module 2 23 / 53 Coefficients de Détermination Exemple Statville (1) HEC Lausanne Le syndic cherche à savoir si l’effet de l’âge sur le revenu des habitants de sa commune reste statistiquement significatif si on contrôle aussi pour la durée d’expérience des travailleurs dans leur fonction actuelle. Il recense donc la variable expérience pour les 12 individus de son échantillon aléatoire simple. Régression et analyse causale Module 2 24 / 53 Coefficients de Détermination Exemple Statville (1, suite) HEC Lausanne Excel : Outils → Utilitaire d’analyse → Régression linéaire → cocher Intitulé présent Régression et analyse causale Module 2 25 / 53 Coefficients de Détermination Exemple Statville (1, suite) HEC Lausanne Le syndic conclut que, étant donné l’âge, les années d’expérience dans la fonction ne constituent pas un déterminant statistiquement significatif du salaire. Le modèle prédit donc que deux travailleurs qui ont le même âge mais des durées d’expérience différentes auront le même salaire en moyenne. On note que par rapport à l’estimation de la régression linéaire simple (avec l’âge comme unique variable indépendante), le R-carré a augmenté (de 0.585 à 0.588). Par contre, puisque la valeur de la statistique t de la variable expérience est inférieure à 1, le R-carré ajusté a diminué (de 0.544 à 0.496). Malgré l’augmentation du R-carré, la valeur de la statistique F a diminué (de 14.1 à 6.4) et celle de l’erreur-type de la régression a augmenté (de 2239 à 2353). L’augmentation de K (de 1 à 2) a donc plus que compensé la diminution de SCRes (de 50.1 mn à 49.8 mn). Régression et analyse causale Module 2 26 / 53 Coefficients de Détermination Exemple Statville (1, suite) HEC Lausanne Corrélation entre les variables âge et expérience : ρb12 = 0.77 La multicolinéarité pourrait jouer un rôle (i.e., les variations dans le valeurs de la variable expérience ne sont pas suffisamment indépendantes de l’âge), ainsi qu’avec seulement n = 12 observations, on arrive pas à identifier statistiquement un effet spécifique dû à la variable expérience. Excel : =COEFFICIENT.CORRELATION(âge;expérience) Prédiction du salaire pour une personne de 55 ans avec 15 ans d’expérience : (yb|x1 = 55, x2 = 15) = E (yb|x1 = 55, x2 = 15) = 40034 + 269.9 · 55 + 23.5 · 15 = 55231 La construction d’un intervalle de confiance autour de cette prévision n’est pas possible avec Excel. Régression et analyse causale Module 2 27 / 53 Coefficients de Détermination Exemple Statville (1, suite) HEC Lausanne Dans les tableaux publiés de résultats de la régression (c.f., page suivante), il est utile de présenter les coefficients ainsi que leurs erreurs-types et des symboles indiquant le niveau de signification statistique du test bilatéral de H0 : βk = 0. Une telle présentation des résultats facilite des tests d’hypothèse alternatifs, H0 : βk = z. Le syndic pourrait s’intéresser si la véritable hausse salariale moyenne par année d’âge est égale à 500 francs (α = 5%) : b1 − 500 269.9 − 500 n−K −1 9 tx1 =500 = = = −2.58; t1− α = t0.975 = 2.26 s b1 89.3 2 Intervalle de confiance à 95% approximatif pour n ≥ 60 : b1 ± 2 · sb1 Régression et analyse causale Module 2 28 / 53 Coefficients de Détermination HEC Lausanne Régression et analyse causale Module 2 29 / 53 Coefficients de Détermination Coefficients standardisés HEC Lausanne Une méthode courante d’exprimer les paramêtres estimés de façon à faciliter la comparaison à travers les variables indépendantes ainsi qu’une interprètation de leur signification pratique est de les transformer en coefficients standardisés (ou “coefficients béta”) : sxk bkstand = bk sy La valeur de ce paramêtre transformé peut être interprétée comme le nombre d’écarts-types par lesquels varie y suivant une augmentation d’un écart-type de x. Dans l’exemple Statville (1): stand 9.1 bâge = 269.9 · = 0.74 3314.9 stand 7.8 bexpérience = 23.4 · = 0.06 3314.9 Régression et analyse causale Module 2 30 / 53 Spécifications Bases HEC Lausanne Par “spécification”, on entend la formulation du modèle empirique, c.-à-d. de l’équation de la régression. Comme nous l’avons déjà vu au Module 1, la spécification linéaire est suffisamment flexible pour permettre l’estimation d’une large gamme de modèles théoriques, dont certains sont non-linéaires à la base (mais “intrinsèquement linéaires”). Nous présenterons quelques spécifications particulières très utiles : Spécification polynomiale Variables indépendantes binaires Spécification logarithmique Interactions Il existe des modèles théoriques non-linéaires qui ne peuvent être transformés en une spécification linéaire et nécessitent donc l’utilisation d’un estimateur non-linéaire (pas traité dans ce cours). Exemple: y = β0 + β1 (x + β2 )−1 Régression et analyse causale Module 2 31 / 53 Spécifications Spécification polynomiale HEC Lausanne La spécification de base de la régression linéaire multiple peut être considérée comme un cas particulier d’une classe de fonctions plus large, les fonctions polynomiales : y = β0 + β1 x + β2 x 2 + β3 x 3 +... + βK x K + K est le degré du polynôme Si K = 2, le polynôme est du deuxième degré (“parabole”) Si satisfait les hypothèses du modèle des MCO, cette spécification peut être estimée avec la méthode des moindres carrés : yb = E (Y |x ) = b0 + b1 x + b2 x 2 + b3 x 3 +... + bK x K Régression et analyse causale Module 2 32 / 53 Spécifications Exemple Statville (2) HEC Lausanne Le syndic se rend compte que sa spécification initiale n’est pas satisfaisante. En particulier, l’hypothèse d’une relation linéaire entre l’âge et le revenu des habitants n’est pas plausible. Il décide donc d’estimer un modèle polynomial du deuxième degré pour la variable indépendante âge : Y = β0 + β1 x1 + β2 x12 + β3 x2 + où x1 = âge et x2 = expérience Régression et analyse causale Module 2 33 / 53 Spécifications Exemple Statville (2, suite) HEC Lausanne b1 et b2 sont statistiquement significatifs. expérience devient statistiquement significative (à 10%). ⇒ La spécification parabolique semble justifiée. Régression et analyse causale Module 2 34 / 53 Spécifications Exemple Statville (2, suite) HEC Lausanne Prédictions impliquées par les coefficients estimés pour une personne avec dix ans d’expérience : (yb|x2 = 10) = 3932.6 + 2077.5 · x1 − 22.1 · x12 + 98 · 10 Prédiction de l’âge auquel le revenu est maximal (x1max ) : ∂ yb −b1 −2077.5 = b1 + 2 · b2 · x1max = 0 ⇒ x1max = = = 47 ∂x1 2 · b2 2 · (−22.1) Régression et analyse causale Module 2 35 / 53 Spécifications Variables indépendantes binaires HEC Lausanne Une variable indépendante binaire (aussi appelée variable ”muette”, ”indicatrice” ou ”dummy”) ne prend que deux valeurs : 0 ou 1. Les variables binaires sont utilisées pour distinguer deux niveaux mutuellement exclusifs des valeurs d’une variable quantitative ou qualitative. Quelques exemples : Dimension temporelle: bonne/mauvaise conjoncture ; été/non-été ; avant/après campagne publicitaire... Dimension spatiale: nord/sud ; ville/campagne ; Suisse/étranger... Variables qualitatives: homme/femme ; employé/non-employé... Variables quantitatives groupées : ménages à plus/moins de 50000 francs de revenu ; firmes avec plus/moins de 10 employés... Le niveau pour laquelle la variable binaire est définie comme égale à zéro est appelée le niveau de référence. Régression et analyse causale Module 2 36 / 53 Spécifications Exemple Statville (3) HEC Lausanne Le syndic cherche à savoir si, au-delà de l’âge et de l’expérience (i.e. en contrôlant pour x1 , x12 et x2 ), le sexe des travailleurs influence leur salaire moyen. Il définit alors la variable muette x3 suivante : ( 1 si l’individu i est une femme x3 = 0 si l’individu i est un homme (niveau de référence) Régression et analyse causale Module 2 37 / 53 Spécifications Exemple Statville (3, suite) HEC Lausanne En moyenne, une femme gagne 2054.2 francs de moins qu’un homme du même âge et avec le même nombre d’années d’expérience. Cet effet est statistiquement significatif au seuil de 10% mais non au seuil de 5%. Régression et analyse causale Module 2 38 / 53 Spécifications Exemple Statville (3, suite) HEC Lausanne Prédictions impliquées par les coefficients estimés: Pour une femme avec dix ans d’expérience (droite violette): y |x2 = 10, x3 = 1) = 3468 + 2038.6 · x1 − 20.8 · x12 + 148 · 10 − 2054.2 (b Pour un homme avec dix ans d’expérience (droite bleue): y |x2 = 10, x3 = 0) = 3468 + 2038.6 · x1 − 20.8 · x12 + 148 · 10 (b L’écart salarial moyen dû au sexe est donc de b4 = 2054.2 Régression et analyse causale Module 2 39 / 53 Spécifications Exemple Statville (3, suite) HEC Lausanne A la place d’estimer les paramêtres du modèle de régression (des corrélations conditionnelles), le syndic pourrait s’intéresser aux corrélations “pures” ρbkl entre toutes les paires de variables indépendantes xk et xl (les corrélations inconditionnelles). examiner la matrice de corrélation Excel : Outils → Utilitaire d’analyse → Analyse de corrélation → Intitulés en première ligne Régression et analyse causale Module 2 40 / 53 Spécifications Variables binaires pour niveaux multiples HEC Lausanne Des variables indépendantes binaires peuvent aussi servir pour représenter des variables qualitatives ou des variables quantitatives groupées avec C > 2 niveaux. Dans ce cas on crée C − 1 variables binaires, une pour chaque niveau sauf un, appelé catégorie de référence. Exemple Statville (3): trois tranches d’âge: 0 − 30 : x1 = 0; x2 = 0 31 − 55 : x1 = 1; x2 = 0 E (Y ) = β0 + β1 x1 + β2 x2 56 − 65 : x1 = 0; x2 = 1 β0 est le salaire moyen des jeunes (0 - 30 ans). β1 est la différence entre le salaire moyen du groupe des 31 à 55 ans par rapport à celui des jeunes. β2 est la différence entre le salaire moyen du groupe des 56 à 65 ans par rapport à celui des jeunes. Régression et analyse causale Module 2 41 / 53 Spécifications Spécifications logarithmiques HEC Lausanne Un modèle non-linéaire mais ”intrinsèquement linéaire” est l’équation βk Cobb-Douglas: y = a K Q k=1 xk , souvent utilisée en microéconomie pour représenter l’origine des courbes d’offre (fonction de production) et de demande (fonction d’utilité). Version stochastique (K = 2) : Y = a · x1β1 · x2β2 · e , où satisfait les cinq hypothèses du modèle des MCO Ce modèle devient linéaire quand on le transforme en logarithmes naturels : ln(Y ) = β0 + β1 ln(x1 ) + β2 ln(x2 ) + , où β0 ≡ ln(a) Puisque, pour estimer ce modèle, on transforme la variable dépendante ainsi que les variables indépendantes, on parle de la ”double transformation logarithmique” ou de la spécification log-log. Régression et analyse causale Module 2 42 / 53 Spécifications Spécifications logarithmiques (suite) HEC Lausanne Rappelons-nous du grand atout de la spécification log-log : les coefficients estimés peuvent être interprétés comme des élasticités (“modèle à élasticité constante”). Elasticité de y par rapport à xk : ∂y ∂y xk y ∗ ∂ln(y ) · = ∂xk = = βk ∂xk y xk ∂ln(xk ) Tout comme les coefficients standardisés, les coefficients d’un modèle log-log peuvent être comparés à travers les variables indépendantes k, puisque par définition les élasticités sont toutes exprimées dans les mêmes unités (i.e. en termes de déviations en pourcentage de y et de xk ). ∂ln(y ) ∗ ∂y = 1 y ⇒ ∂y y = ∂ln(y ) Régression et analyse causale Module 2 43 / 53 Spécifications Spécifications logarithmiques (suite) HEC Lausanne Un autre modèle “intrinsèquement linéaire” est donné par la fonction exponentielle y = e β0 +β1 x1 +β2 x2 +...+βK xK. Version stochastique (K = 2) : Y = e β0 +β1 x1 +β2 x2 + , où satisfait les cinq hypothèses du modèle des MCO. Cette fonction devient linéaire quand on la transforme en logarithmes naturels : ln(Y ) = β0 + β1 x1 + β2 x2 + Puisque pour estimer ce modèle on transforme la variable dépendante en logarithmes naturels, on parle d’une spécification log-linéaire. Régression et analyse causale Module 2 44 / 53 Spécifications Spécifications logarithmiques (suite) HEC Lausanne Les paramêtres d’une telle spécification sont des semi-elasticités : ils représentent la variation en pourcentage de la variable dépendante par rapport à une variation d’une unité de la variable indépendante en question. Puisque ces semi-elasticités dépendent des unités de mesure des variables indépendantes, elle ne sont pas directement comparables à travers les différentes variables indépendantes. La spécification log-linéaire est utilisée par exemple en macroéconomie afin de modèliser des taux de croissance stables : Soit Y = e β0 +β1 x1 + , où Y est un agrégat économique (PIB, niveau des prix,...), et x1 est la variable temps (en mois, trimestres, années,...). ∂ln(y ) Alors β1 = ∂x est le taux de croissance moyen de y. Régression et analyse causale Module 2 45 / 53 Spécifications Exemple Statville (4) HEC Lausanne Spécification log-log : ln(revenu) = β0 + β1 ln(âge) + . Par pourcent d’âge supplémentaire, le revenu moyen augmente de 0.25 pourcent. R-carré (0.68) plus élevé que dans la régression avec y et x non-transformés (0.59, c.f,. Module 1) ⇒ spécification log-log (non-linéaire) mieux ajustée aux données. Régression et analyse causale Module 2 46 / 53 Spécifications Exemple Statville (5) HEC Lausanne Spécification log-linéaire : ln(revenu) = β0 + β1 âge + . Par année d’âge supplémentaire, le revenu moyen augmente de 0.57 pourcent. R-carré (0.57) moins élevé que dans la régression avec y et x non-transformés (0.59, c.f., Module 1) ⇒ spécification log-linéaire moins bien ajustée aux données. Régression et analyse causale Module 2 47 / 53 Spécifications Exemple Statville: différentes spécifications HEC Lausanne Régression et analyse causale Module 2 48 / 53 Spécifications Interactions HEC Lausanne L’équation de régression linéaire multiple implique des effets isolés de chaque variable indépendante : ∂y = βk , ∀k ∂xk En ajoutant des produits de variables indépendantes (”termes d’interaction”), on peut modèliser des interdépendances entre les effets des variables indépendantes : Y = β0 + β1 x1 + β2 x2 + β3 x1 x2 + ∂y ⇒ = β1 + β3 x2 x1 ∂y ⇒ = β2 + β3 x1 x2 Régression et analyse causale Module 2 49 / 53 Spécifications Interactions (suite) HEC Lausanne β1 (resp. β2 ) représente l’effet de x1 (resp. x2 ) sur yb quand x2 (resp. x1 ) est égal à zéro. Puisque une valeur de zéro n’est souvent pas très réaliste ou informative (par exemple dans une estimation des déterminants salariaux), on estime souvent une spécification transformée : Y = β0 + β̃1 x1 + β̃2 x2 + β̃3 (x1 − x̄1 )(x2 − x̄2 ) + β̃1 (resp. β̃2 ) est alors l’effet de x1 (resp. x2 ) sur y quand x2 (resp. x1 ) prend sa valeur moyenne. Si x1 est une variable continue et x2 une variable binaire, alors β̃2 représente le déplacement de l’intercept, et β̃3 représente le changement de la pente de yb par rapport à x1 , quand x2 passe de 0 à 1. Régression et analyse causale Module 2 50 / 53 Spécifications Exemple Statville (6) HEC Lausanne Les syndics de Statville et Statdorf cherchent à savoir si les salaires moyens croissent à un rythme différent avec l’âge dans leurs deux communes. Ils collectionnent des données pour des échantillons aléatoires simples dans les deux communes (n = 12). Régression et analyse causale Module 2 51 / 53 Spécifications Exemple Statville (6, suite) HEC Lausanne revenu = β0 + β1 · statdorf + β2 · âge + β3 · âge · statdorf + ( 1 pour Statdorf statdorf = 0 pour Statville ∂revenu ⇒ | statdorf = 1 = 279.7 − 34.7 = 245 ∂âge ⇒ différence non significative du point de vue statistique Régression et analyse causale Module 2 52 / 53 Spécifications Exemple Statville (6, suite) HEC Lausanne Régression et analyse causale Module 2 53 / 53