Économétrie des variables qualitatives PDF
Document Details
Uploaded by GlisteningArtDeco
Ukrayinchuk N.
Tags
Summary
This document presents a course plan and application examples for econometrics, focusing on qualitative variables. The material covers introductory concepts and specific models, including binary and polytomous responses. It details the application of the linear probability model (LPM), including coefficients, standard errors, and a set of questions for analysis of the results.
Full Transcript
Économétrie des variables qualitatives Master 1, FASEST, UdL prof. Ukrayinchuk N....
Économétrie des variables qualitatives Master 1, FASEST, UdL prof. Ukrayinchuk N. 1 Plan du cours Introduction S1. Modèle de probabilité linéaire S2. Modèles logit et probit pour les réponses binaires (PART 1) S2. Modèles logit et probit pour les réponses binaires (PART 2) S3. Modèles polytomiques Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 2 intellectuelle. N.Ukrayinchuk 1 S2. Application MPL Variable Explicative Coef StErr Constante 0,1411 0,0775 Dans une étude sur l’achat de biens durables Revenu disponible de 1957 X1 0,0251 0,0118 (Revenu disponible = X1)² X2 -0,0004 0,0004 Y (Y = 1 si acheté, Y = 0 si non acheté) en Comptes chèques X3 -0,0051 0,0108 fonction de plusieurs variables pour un total Comptes d'épargne X4 0,0013 0,0047 de 762 ménages, J. A. Fisher a obtenu les Obligations d'épargne américaines X5 -0,0079 0,0067 résultats MPL ci-contre. Statut de logement : location (1=oui) X6 -0,0469 0,0937 Statut de logement : propriété (1=oui) X7 0,0136 0,0712 Note : Loyer mensuel X8 -0,7540 1,0983 Toutes les variables financières sont en milliers Paiements hypothécaires mensuels X9 -0,9809 0,5162 de dollars. Dette personnelle X10 -0,0367 0,0326 Âge X11 0,0046 0,0084 Âge au carré X12 -0,0001 0,0001 Source : Janet A. Fisher, «An Analysis of Statut matrimonial (1=married) X13 0,1760 0,0501 Consumer Goods Expenditure», The Review of Nombre d'enfants X14 0,0398 0,0358 Economics and Statistics, vol. 64, no 1,. (Nombre d'enfants = X14)² X15 -0,0036 0,0072 Plans d'achat (1=planned;0 otherwise) X16 0,1760 0,0384 Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 3 intellectuelle. N.Ukrayinchuk S2. Application MPL Variable Explicative Coef StErr Constante 0,1411 0,0775 Questions: Revenu disponible de 1957 X1 0,0251 0,0118 (Revenu disponible = X1)² X2 -0,0004 0,0004 a. Faites un commentaire général sur Comptes chèques X3 -0,0051 0,0108 l'ajustement de l'équation. Comptes d'épargne X4 0,0013 0,0047 Obligations d'épargne américaines X5 -0,0079 0,0067 b. Comment interpréteriez-vous le Statut de logement : location (1=oui) X6 -0,0469 0,0937 coefficient de -0,0051 associé à la variable Statut de logement : propriété (1=oui) X7 0,0136 0,0712 Loyer mensuel X8 -0,7540 1,0983 des comptes chèques ? Comment Paiements hypothécaires mensuels X9 -0,9809 0,5162 justifieriez-vous le signe négatif de cette Dette personnelle X10 -0,0367 0,0326 variable ? Âge X11 0,0046 0,0084 Âge au carré X12 -0,0001 0,0001 c. Quel est le raisonnement derrière Statut matrimonial (1=married) X13 0,1760 0,0501 l'introduction des variables "âge au carré" et Nombre d'enfants X14 0,0398 0,0358 "nombre d'enfants au carré" ? Pourquoi le (Nombre d'enfants = X14)² X15 -0,0036 0,0072 coefficient est-il négatif dans les deux cas ? Plans d'achat (1=planned;0 otherwise) X16 0,1760 0,0384 Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 4 intellectuelle. N.Ukrayinchuk 2 S2. Application MPL Questions: Variable Explicative Coef StErr Constante 0,1411 0,0775 d. En supposant que toutes les variables, à Revenu disponible de 1957 X1 0,0251 0,0118 l'exception du revenu, ont une valeur nulle, (Revenu disponible = X1)² X2 -0,0004 0,0004 déterminez la probabilité conditionnelle Comptes chèques X3 -0,0051 0,0108 qu'un ménage dont le revenu est de 20 000 $ Comptes d'épargne X4 0,0013 0,0047 achète un bien durable Obligations d'épargne américaines X5 -0,0079 0,0067 Statut de logement : location (1=oui) X6 -0,0469 0,0937 e. Estimez la probabilité conditionnelle de Statut de logement : propriété (1=oui) X7 0,0136 0,0712 posséder des biens durables pour Loyer mensuel X8 -0,7540 1,0983 X1=10000, étant donné que: X3=3000; Paiements hypothécaires mensuels X9 -0,9809 0,5162 X4=4000; X6=1; X8=600; X11=25 (Toutes Dette personnelle X10 -0,0367 0,0326 les autres variables étant =0) Âge X11 0,0046 0,0084 Âge au carré X12 -0,0001 0,0001 f. Estimez la probabilité conditionnelle de Statut matrimonial (1=married) X13 0,1760 0,0501 posséder des biens durables pour Nombre d'enfants X14 0,0398 0,0358 X1=10000, étant donné que: X3=3000; (Nombre d'enfants = X14)² X15 -0,0036 0,0072 X4=4000; X7=1; X9=400; X11=25 (Toutes Plans d'achat (1=planned;0 otherwise) X16 0,1760 0,0384 les autres variables étant =0) Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 5 intellectuelle. N.Ukrayinchuk S2. Alternatives au MPL Le modèle de probabilité linéaire (LPM) est confronté à plusieurs défis: la non-normalité du terme d'erreur (ui) l'hétéroscédasticité du terme d'erreur (ui) la possibilité que les valeurs prédites (Ŷi) sortent de l'intervalle 0–1 des valeurs de R² généralement plus faibles. Cependant, ces problèmes sont surmontables: * utiliser les moindres carrés pondérés (MCP) pour résoudre le problème d'hétéroscédasticité * augmenter la taille de l'échantillon pour minimiser l'effet de la non-normalité * utiliser les moindres carrés restreints pour que les probabilités estimées restent dans l'intervalle 0–1. Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 6 intellectuelle. N.Ukrayinchuk 3 S2. Alternatives au MPL Cependant, le problème fondamental du MLP = pas très attrayant sur le plan logique. Pi=E(Y=1∣X) augmente linéairement avec X l'effet marginal X = constant Exemple sur l’accès à la propriété : quand X (revenu) ↑ de 1000 $, la probabilité de posséder une maison ↑ d'un montant constant de 0,10. Cela reste vrai que le revenu soit de 8 000 $, 10 000 $, 18 000 $ ou 22 000 $, ce qui semble peu réaliste. Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 7 intellectuelle. N.Ukrayinchuk S2. Alternatives au MPL Exemple: l’accès à la propriété : Aux deux extrémités ! de la distribution des revenus En réalité, on s'attendrait à ce que: Pour des revenus très faibles (< X°) et pour des revenus très élevés, ( > X*) = peu de variation de proba de posséder une maison avec la variation du revenu pour des revenus entre X° et X* = une proba d'accession à la propriété beaucoup plus sensible à ↑ du revenu. Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 8 intellectuelle. N.Ukrayinchuk 4 S2. Alternatives au MPL Besoin d'un modèle (de probabilité) qui présente les deux caractéristiques suivantes : 1. lorsque Xi ↑ → Pi=E(Y=1∣X) ↑ mais reste toujours dans l'intervalle 0–1 2. la relation entre Pi et Xi est non linéaire : Pi → 0 à un rythme de plus en plus lent lorsque Xi devient très faible Pi → 1 à un rythme de plus en plus lent lorsque Xi devient très grand Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 9 intellectuelle. N.Ukrayinchuk S2. Alternatives au MPL la proba est comprise entre 0 et 1 et varie de manière non linéaire avec X la courbe ressemble fortement à la fonction de répartition cumulative (FRC) d'une VA (rappel : une FRC caractérise la loi de probabilité d’une VA et permet de calculer la probabilité d’un intervalle ) Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 10 intellectuelle. N.Ukrayinchuk 5 S2. Alternatives au MPL Utiliser une FRC pour modéliser des régressions où la variable dépendante est dichotomique, prenant des valeurs de 0 ou 1. Question pratique : quelle FRC utiliser ? Toutes les FRC sont en forme en S, mais chaque VA possède sa propre FRC Pour des raisons historiques et pratiques, les FRC couramment choisies sont : (1) la FRC logistique, qui conduit au modèle logit, (2) la FRC normale, qui donne lieu au modèle probit (ou normit). Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 11 intellectuelle. N.Ukrayinchuk S2. Modèle Logit Exemple: l’accès à la propriété Supposons que la décision d'un individu de posséder ou non une maison dépend d'un indice d'utilité non observable Ii*, qui dépend du revenu Xi (mais on pourra rajouter ensuite d’autres variables explicatives telles que l'âge, le niveau d'éducation, le prix de la maison,...): Ii∗=βXi+ui où i = le i-ème individu, ui = le terme d'erreur L'indice d'utilité est également connu sous le nom de variable latente Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 12 intellectuelle. N.Ukrayinchuk 6 S2. Modèle Logit Exemple: l’accès à la propriété Mais comment l'indice non observable est-il lié à la décision réelle de posséder ou non la maison ? Il est raisonnable de supposer que : Yi = 1 (une personne possède une maison) si Ii* ≥ 0 Yi = 0 (une personne ne possède pas de maison) si Ii* < 0 Si l'indice de utilité I d'une personne (Ii*) dépasse le seuil I*, elle accédera à la propriété, mais si il est inférieur à I*, cette personne ne le fera pas. Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 13 intellectuelle. N.Ukrayinchuk S2. Modèle Logit Exemple: l’accès à la propriété Pour rendre ce choix opérationnel, penser en termes de probabilité de faire un choix (*le choix de posséder une maison) : 𝑃 𝑌 = 1 = 𝑃𝑟 𝐼𝑖 ∗ ≥ 0 Rappel: β est fixe ou non aléatoire et les = 𝑃𝑟 𝛽𝑋 + 𝑢 ≥0 valeurs de X sont données = 𝑃𝑟 𝑢 ≥ −𝛽𝑋 la variation de Yi provient de la variation de ui Maintenant, cette probabilité dépend de la distribution (de probabilité) de Yi, qui dépend à son tour de la distribution de probabilité du terme d'erreur, ui. Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 14 intellectuelle. N.Ukrayinchuk 7 S2. Modèle Logit Exemple: l’accès à la propriété Si cette distribution de probabilité est symétrique autour de sa valeur moyenne (nulle), alors 𝑃𝑟 𝑢 ≥ −𝛽𝑋 = 𝑃𝑟 𝑢 ≤ 𝛽𝑋 la proba qu'une VA prenne une 𝑃 = 𝑃𝑟 𝑌 = 1 = 𝑃𝑟 𝑢 ≤ 𝛽𝑋 valeur < à une certaine valeur spécifiée est donnée par la FRC de cette variable Pi dépend de la distribution de probabilité particulière de ui. Le modèle logit suppose que la distribution de probabilité de ui suit la distribution logistique Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 15 intellectuelle. N.Ukrayinchuk S2. Modèle Logit Exemple: l’accès à la propriété le MPL: où X = revenu, et Pi=E(Yi=1∣Xi) = proba de posséder une maison. Avec la fonction de répartition logistique : où lorsque Zi → +∞, e−Zi → 0, Lorsque Zi varie de −∞ à +∞, Pi se situe entre 0 et 1 lorsque Zi → −∞, e−Zi → +∞ Pi est non-linéairement lié à Zi (c'est-à-dire Xi) Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 16 intellectuelle. N.Ukrayinchuk 8 S2. Modèle Logit Problème d'estimation: Pi est non linéaire non seulement en X mais aussi en β Impossible d’utiliser la procédure OLS classique pour estimer les paramètres. Toutefois, ce problème est plus apparent que réel Solution : linéarisation Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 17 intellectuelle. N.Ukrayinchuk S2. Modèle Logit Si Pi = la proba de posséder une maison, alors (1−Pi) = la proba de ne pas posséder de maison : Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 18 intellectuelle. N.Ukrayinchuk 9 S2. Modèle Logit Si Pi = la proba de posséder une maison, alors (1−Pi) = la proba de ne pas posséder de maison : = le ratio de chances (odds ratio) en faveur de la possession d'une maison - le ratio entre la probabilité qu'une famille possède une maison et la probabilité qu'elle n'en possède pas. * si Pi=0.8 les chances sont de 4 contre 1 en faveur de la possession d’une maison par la famille Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 19 intellectuelle. N.Ukrayinchuk S2. Modèle Logit En prenant le logarithme naturel du ratio de chances Rappel : L'hypothèse de linéarité dans les MCO ne nécessite pas que la variable X soit elle-même linéaire. Ainsi, X2, X3, etc peuvent être inclus comme variables explicatives. Ce qui est crucial pour nos objectifs, c'est la linéarité par rapport aux paramètres. L est non seulement linéaire par rapport à X, mais également par rapport aux paramètres. L, le log du ratio de chances, est appelé le « logit » modèles sont appelés modèles logit. Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 20 intellectuelle. N.Ukrayinchuk 10 S2. Caractéristiques du Modèle Logit 1. Lorsque P se situe entre 0 à 1 (=Z varie entre −∞ et +∞), le logit L varie entre −∞ et +∞. = bien que les proba doivent être comprises entre 0 et 1, les logits ne sont pas contraints par ces limites. 2. Bien que L soit linéaire en X, les probabilités elles-mêmes ne le sont pas. = contraste avec le MPL où les proba ↑ linéairement avec X. Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 21 intellectuelle. N.Ukrayinchuk S2. Caractéristiques du Modèle Logit 2. Bien que L soit linéaire en X, les probabilités elles-mêmes ne le sont pas. Il peut être démontré que Le taux de variation de la probabilité par rapport à X dépend - non seulement de β2, mais aussi - du niveau actuel de la probabilité à partir duquel la variation est mesurée. + L'effet d'un changement unitaire dans Xi sur P est maximal lorsque P=0.5 et minimal lorsque P est proche de 0 ou 1. Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 22 intellectuelle. N.Ukrayinchuk 11 S2. Caractéristiques du Modèle Logit 3. Il est possible d'ajouter autant de régresseurs que dicté par le cadre théorique sous-jacent. 4. Si L > 0 lorsque la valeur du régresseur (ou des régresseurs) ↑, les chances que Y= 1 (la survenance de l'événement d'intérêt) ↑ également. Si L< 0 les chances que Y =1 ↓ à mesure que la valeur de X ↑. En d'autres termes, le logit devient : de plus en plus négatif et de grande ampleur lorsque le ratio de chances diminue de 1 à 0 de plus en plus grand et positif lorsque le ratio de chances augmente de 1 à l'infini. Interprétation des OR par rapport à 1 Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 23 intellectuelle. N.Ukrayinchuk S2. Caractéristiques du Modèle Logit 5. L'interprétation du modèle logit : β2 = la variation du L pour un changement unitaire de X * β2 indique comment les log des chances en faveur de la propriété immobilière varient avec une variation unitaire du revenu (ici 1 000 $ ). β1 = les log des chances de Y=1 lorsque X=0 * β1 = les log des chances de posséder une maison lorsque le revenu est nul Comme pour beaucoup d'interprétations des ordonnées à l'origine, cette valeur peut ne pas avoir de signification concrète dans le monde réel. Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 24 intellectuelle. N.Ukrayinchuk 12 S2. Caractéristiques du Modèle Logit 6. Si l’objectif est d'estimer non pas le rapport des chances mais Pi(Y=1) calculer directement à partir de pour un certain niveau de X* une fois que les estimations de β1 et β2 sont disponibles. 7. Le MPL suppose que Pi est linéairement lié à Xi, Le modèle logit suppose que le logarithme du ratio de chances est linéairement lié à Xi. Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 25 intellectuelle. N.Ukrayinchuk S2. Estimation du modèle Logit À des fins d'estimation, nous écrivons le logit comme Pour estimer l'équation, nous avons besoin, en plus de Xi, des valeurs de Li. Dépend du type de données que nous avons pour l'analyse. les données individuelles les données groupées Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 26 intellectuelle. N.Ukrayinchuk 13 S2. Estimation du modèle Logit – Données Individuelles Avec les données individuelles, l'estimation par MCO de l'équation est impraticable: * Pi = 1 si une famille possède une maison Pi = 0 si elle n’en possède pas ces expressions sont dénuées de sens. Solution : recourir à la méthode du maximum de vraisemblance (MV) pour estimer les paramètres Des logiciels statistiques (STATA, SAS, …) possèdent des routines intégrées pour estimer le modèle logit au niveau individuel Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 27 intellectuelle. N.Ukrayinchuk S2. Estimation du modèle Logit – Données Individuelles - Maximum Likelihood Estimation La probabilité qu'un individu possède une maison, étant donné le revenu de l'individu X: On n’observe pas réellement Pi, mais seulement le résultat Y = 1, si un individu possède une maison, Y = 0, si l'individu ne possède pas de maison. Étant donné que chaque Yi est une variable aléatoire de Bernoulli, nous pouvons écrire Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 28 intellectuelle. N.Ukrayinchuk 14 S2. Estimation du modèle Logit – Données Individuelles - Maximum Likelihood Estimation Avec un échantillon aléatoire de n observations et en notant fi (Yi) la probabilité que Yi = 1 ou 0, la probabilité conjointe d'observer les n valeurs de Y, est donnée par : où Π est l'opérateur de produit. Fonction de densité de probabilité conjointe = un produit de fonctions de densité individuelles parce que ₋ chaque Yi est tiré indépendamment ₋ chaque Yi a la même fonction de densité (logistique). La probabilité conjointe = la fonction de vraisemblance (FV) Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 29 intellectuelle. N.Ukrayinchuk S2. Estimation du modèle Logit – Données Individuelles - Maximum Likelihood Estimation L'équation de FV = difficile à manipuler Prendre son logarithme népérien la fonction de vraisemblance logarithmique (FVL): Rappel: Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 30 intellectuelle. N.Ukrayinchuk 15 S2. Estimation du modèle Logit – Données Individuelles - Maximum Likelihood Estimation Rappel: Avec et La FVL est une fonction des paramètres β1 et β2, étant donné que les Xi sont connus! Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 31 intellectuelle. N.Ukrayinchuk S2. Estimation du modèle Logit – Données Individuelles - Maximum Likelihood Estimation Objectif = maximiser la fonction de vraisemblance (ou la fonction de log-vraisemblance) Obtenir les valeurs des paramètres inconnus (β) de manière à ce que la probabilité d'observer les valeurs données de Y soit aussi élevée (maximale) que possible. Optimisation classique (CPO) : annuler les dérivées partielles par rapport à chaque paramètre inconnu β résoudre le système d’équations Il est possible d’appliquer la condition du second ordre (CSO) pour vérifier que les valeurs des paramètres obtenues maximisent bien la fonction de vraisemblance. Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 32 intellectuelle. N.Ukrayinchuk 16 S2. Estimation du modèle Logit – Données Individuelles - Maximum Likelihood Estimation Une fois les valeurs numériques de β1 et β2 obtenues (le logiciel le fera pour vous ) Il est facile estimer Pi Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 33 intellectuelle. N.Ukrayinchuk S2. Estimation du modèle Logit – Données Individuelles – Exemple: fumer ou ne pas fumer Données: = un échantillon aléatoire de 1196 hommes américains Variables: Smoker = 1 pour les fumeurs et 0 pour les non-fumeurs Age = âge en années Education = nombre d'années de scolarité Income = revenu familial Pcigs = prix des cigarettes dans les États individuels en 1979 Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 34 intellectuelle. N.Ukrayinchuk 17 S2. Estimation du modèle Logit – Données Individuelles – Exemple: fumer ou ne pas fumer age et educ sont hautement significatives et ont les signes attendus Si l'âge ↑ → la valeur du logit ↓ Les personnes plus éduquées fument moins Le prix des cigarettes présente le signe négatif attendu et est significatif au niveau d'environ 7 %. Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 35 intellectuelle. N.Ukrayinchuk S2. Estimation du modèle Logit – Données Individuelles – Exemple: fumer ou ne pas fumer L'interprétation des coefficients: en maintenant les autres variables constantes, si, par exemple, le niveau d'éducation ↑ d'une année, la valeur moyenne du logit ↓ de 0,09 le logarithme des chances en faveur de fumer diminue d'environ 0,09 Difficile de comprendre l’ampleur de l’effet Ce que nous aimerions savoir, c'est la probabilité de fumer, étant donné les valeurs des variables explicatives. Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 36 intellectuelle. N.Ukrayinchuk 18 S2. Estimation du modèle Logit – Données Individuelles – Exemple: fumer ou ne pas fumer L'interprétation des coefficients: Prenons l'exemple du fumeur n°2 : age = 28, educ = 15, income = 12500 et pcigs79 = 60 En insérant ces valeurs dans La proba qu'une personne avec les caractéristiques données soit fumeuse ≈ 38%. D'après les données, elle est effectivement fumeuse Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 37 intellectuelle. N.Ukrayinchuk S2. Estimation du modèle Logit – Données Individuelles – Exemple: fumer ou ne pas fumer L'interprétation des coefficients: Fumeur n°421 : age = 63, educ = 10, income = 20000 et pcigs79 = 60.8 La proba d’être fumeur ≈ 32%. D'après les données, elle est non fumeuse Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 38 intellectuelle. N.Ukrayinchuk 19 S2. Estimation du modèle Logit – Données Individuelles – Exemple: fumer ou ne pas fumer Calcul des effets marginaux: Peut-on calculer l'effet marginal d'une variable explicative sur la probabilité de fumer, en maintenant constantes toutes les autres variables ? * Très simple avec le MPL, mais pas aussi direct avec le modèle logit 𝜕𝑃𝑖 = 𝛽 𝑃𝑖 1 − 𝑃𝑖 𝜕𝑋𝑖 Le changement dans la proba de fumer si l'âge change d'une année dépend du coefficient de la variable âge, mais aussi du niveau de probabilité à partir duquel le changement est mesuré!! Or, ce dernier dépend des valeurs de toutes les variables explicatives. Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 39 intellectuelle. N.Ukrayinchuk S2. Estimation du modèle Logit – Données Individuelles – Exemple: fumer ou ne pas fumer Calcul des effets marginaux (EM): 𝜕𝑃𝑖 = 𝛽 𝑃𝑖 1 − 𝑃𝑖 𝜕𝑋𝑖 = La pente de la tangente à la courbe en un point Pi défini La pente (et donc EM) est la plus élevée lorsque Pi=0,5, la pente = β/4. Au fur et à mesure que l’on se situe à des niveaux plus élevés (ou plus faibles) de Pi, la pente devient de plus en plus faible (et donc EM aussi) Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 40 intellectuelle. N.Ukrayinchuk 20 S2. Estimation du modèle Logit – Données Individuelles – Exemple: fumer ou ne pas fumer Calcul des effets marginaux (EM): En règle générale, on choisit d'estimer l'effet marginal au point de probabilité moyen de la variable réponse. * la probabilité moyenne d’être fumeur est de 0,38 (pour un individu avec un profil moyen). EM de l'âge = -0,0208 × (0,38 × (1 - 0,62)) = -0,0049. Ainsi, au point de probabilité moyen, une année supplémentaire d'âge diminue la probabilité de fumer de 0,49 point de pourcentage. Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 41 intellectuelle. N.Ukrayinchuk S2. Estimation du modèle Logit – Données Individuelles – Calcul des effets marginaux (EM): Attention aux variables dichotomiques ! La dérivée d'une fonction n'est définie que pour les variables continues, donc pas définie pour les variables dichotomiques. Dans la pratique, certains chercheurs utilisent la formule de la dérivée partielle pour obtenir une estimation approximative de l'effet marginal (EF) ; qui est, généralement, surévaluée. Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 42 intellectuelle. N.Ukrayinchuk 21 S2. Estimation du modèle Logit – Données Individuelles – Probabilité d’être en retard scolaire Calcul des effets marginaux (EM): Pi = la proba d’être en retard scolaire Score aux (avoir déjà redoublé une ou plusieurs épreuves fois) en fonction du score d’acquisitions standardisées (bilan CM2). d’acquisitions Afin d’estimer des probabilités, on Origine sociale, choisit des valeurs particulières des var. muettes variables explicatives du modèle. Variables qualitatives : on choisit la catégorie de la population qui nous intéresse. Variables quantitatives : on choisit une valeur arbitraire, le plus souvent la moyenne de manière à estimer une valeur assez « typique » de la probabilité Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 43 intellectuelle. N.Ukrayinchuk S2. Estimation du modèle Logit – Données Individuelles – Probabilité d’être en retard scolaire Calcul des effets marginaux (EM): pour un garçon, fils de cadre supérieur, dont le score est moyen (score = 255,23) L'effet marginal du milieu social ouvriers vs cadres: (calculé par dérivée partielle): 1,295 (0,052(1-0,052) = 0,0638 Au point moyen, pour un garçon, le fait d'avoir des parents ouvriers ↑ la proba d'être en retard scolaire de 6,38 pp Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 44 intellectuelle. N.Ukrayinchuk 22 S2. Estimation du modèle Logit – Données Individuelles – Probabilité d’être en retard scolaire Calcul des effets marginaux (EM): le meilleur effet marginal que l’on puisse calculer la différence de probabilité estimée conditionnellement à chacune des catégories de la variable dichotomique. Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 45 intellectuelle. N.Ukrayinchuk S2. Estimation du modèle Logit – Données Individuelles – Probabilité d’être en retard scolaire Calcul des effets marginaux (EM): pour un garçon, fils de cadre supérieur, dont le score est moyen (score = 255,23) pour un garçon, fils d’ouvrier, dont le score est moyen (score = 255,23) Différence = 0,168-0,052 = 0,116 Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 46 intellectuelle. N.Ukrayinchuk 23 S2. Estimation du modèle Logit – Données Individuelles – Probabilité d’être en retard scolaire Calcul des effets marginaux (EM): Une bonne manière d’indiquer les probabilités estimées consiste à les représenter graphiquement sur tout le continuum de la variable La proba ↓ chute beaucoup quand on passe de scores faibles à des scores moyens, avec une inflexion très nette entre 250-300. Les écarts entre enfants de cadres supérieurs et enfants d’ouvriers s’estompent dès lors que les scores sont élevés (au-dessus de 300) pour devenir insignifiants vers 400 et au-delà. Probabilité d’être en retard scolaire en fonction du score d’acquisitions et de l’origine sociale Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 47 intellectuelle. N.Ukrayinchuk S2. Estimation du modèle Logit – Données Individuelles – Probabilité d’être en retard scolaire L’interprétation en termes d’odds (ratio de chances) = estimer l'effet marginal des variables explicatives sur le ratio de chances (odds). Un aspect très appréciable : la valeur des coefficients de régression est constante pour les odds. Attention: les odds peuvent parfois être un peu trompeuses si P est très proche de 0 ou de 1. * passer d'une probabilité de 0,99 à une probabilité de 0,995 (= changement minime) = un passage d'une odds de 99 à une odds de 199 (=l'impression d'un grand changement) * Dans notre exemple, la proba moyenne =16,8 %, donc pas de problèmes d’interprétation particuliers. Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 48 intellectuelle. N.Ukrayinchuk 24 S2. Estimation du modèle Logit – Données Individuelles – Probabilité d’être en retard scolaire L’interprétation en termes d’odds (ratio de chances) Interpréter les estimations en termes d’odds (et non de logarithme des odds, car nonintuitif) = calculer exp(β) = le changement dans les chances d’occurrence d’un événement, plutôt que sa non-occurrence, résultant d’une variation d’une unité dans la variable explicative. Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 49 intellectuelle. N.Ukrayinchuk S2. Estimation du modèle Logit – Données Individuelles – Probabilité d’être en retard scolaire L’interprétation en termes d’odds (ratio de chances) Donne directement l’odds ratio correspondant : OR = exp(β). Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 50 intellectuelle. N.Ukrayinchuk 25 S2. Estimation du modèle Logit – Données Individuelles – Probabilité d’être en retard scolaire L’interprétation en termes d’odds (ratio de chances) Un point supplémentaire au SCORE d'acquisition réduit la proba d'être en retard scolaire par rapport à celle du nonredoublement (La comparaison se fait par rapport à 1!!: 1 = effet positif = 1 = 50/50 de chances) Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 51 intellectuelle. N.Ukrayinchuk S2. Estimation du modèle Logit – Données Individuelles – Probabilité d’être en retard scolaire L’interprétation en termes d’odds (ratio de chances) Avec un point de plus l’élève a 0,977 fois moins de chances d'être en retard scolaire plutôt que d'être « à l'heure » ≈ avec un point supp la proba relative d’être non redoublant ↑ 1,023 fois (=1/0,977). Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 52 intellectuelle. N.Ukrayinchuk 26 S2. Estimation du modèle Logit – Données Individuelles – Probabilité d’être en retard scolaire L’interprétation en termes d’odds (ratio de chances) Avec un point de plus l’élève a 0,977 fois moins de chances d'être en retard scolaire plutôt que d'être « à l'heure » = très faible impact. MAIS attention à la métrique de la variable: L'écart-type SCORE = 48,81 points. Une variation d'une unité = 1/48,81 = 0,02 écart-type Mesurer pour les variations plus importantes Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 53 intellectuelle. N.Ukrayinchuk S2. Estimation du modèle Logit – Données Individuelles – Probabilité d’être en retard scolaire L’interprétation en termes d’odds (ratio de chances) Important : dès lors qu’on veut calculer l’OR pour une variation ≠ 1: c’est le coefficient β et non exp(β) qui doit être multiplié par la valeur qui nous intéresse 𝑂𝑅 = 𝑒𝑥𝑝 𝑐 ∗ 𝛽 = 𝑒𝑥𝑝 𝛽 Rechercher l’écart sur une valeur typique : *par exemple l’écart type. Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 54 intellectuelle. N.Ukrayinchuk 27 S2. Estimation du modèle Logit – Données Individuelles – Probabilité d’être en retard scolaire L’interprétation en termes d’odds (ratio de chances) Les chances d’être en retard scolaire plutôt que « à l’heure » sont, pour un enfant donné, 0,32 fois (environ un tiers) celles d’un enfant dont le score est inférieur au sien d’un écart-type Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 55 intellectuelle. N.Ukrayinchuk S2. Estimation du modèle Logit – Données Individuelles – Probabilité d’être en retard scolaire L’interprétation en termes d’odds (ratio de chances) les chances des filles d’être en retard scolaire plutôt que « à l’heure » sont 0,771 fois moins élevées que celles des garçons, à origine sociale et score contrôlés inversement, celles des garçons sont environ 1/0,771 ≈ 1,3 fois plus élevées que celles des filles Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 56 intellectuelle. N.Ukrayinchuk 28 S2. Estimation du modèle Logit – Données Individuelles – Probabilité d’être en retard scolaire L’interprétation en termes d’odds (ratio de chances) « cadre supérieur et profession libérale » = référence les chances des enfants d’ouvriers d’être en retard scolaire plutôt que « à l’heure » sont 3,65 fois plus élevées que celles des enfants de cadres supérieurs. les chances d’être en retard scolaire plutôt que « à l’heure » sont d’autant plus fortes que la CSP d’origine est moins favorisé Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 57 intellectuelle. N.Ukrayinchuk S2. Estimation du modèle Logit – Application Dans l'enquête sur le budget des ménages de 1980 de l'ICS néerlandais, J. S. Cramer a obtenu le modèle logit suivant basé sur un échantillon de 2 820 ménages. (Les résultats donnés ici sont basés sur la méthode du maximum de vraisemblance.) Le but du modèle logit était de déterminer la possession d'une voiture en fonction du (logarithme du) revenu. La possession d'une voiture était une variable binaire : Y = 1 si un ménage possède une voiture, zéro sinon. a. Interpréter le modèle logit estimé. b. Donner l'expression pour la probabilité de possession d'une voiture ? c. Quelle est la probabilité qu'un ménage ayant un revenu de 20 000 $ possède une voiture ? Et à un niveau de revenu de 25 000 $ ? Quel est le taux de changement de probabilité au niveau de revenu de 20 000 $ ? d. Commenter la signification statistique du modèle logit estimé. Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 58 intellectuelle. N.Ukrayinchuk 29 S2. Estimation du modèle Logit – Données Individuelles – Inférence statistique Test de significativité globale (ou partielle) MCO Logit Test de F Déviance (ou rapport de vraisemblance) Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 59 intellectuelle. N.Ukrayinchuk S2. Estimation du modèle Logit – Données Individuelles – Inférence statistique Test de significativité globale Déviance ou log de la vrais. max log de la vrais. max du rapport de du modèle estimé modèle dit « saturé » qui vraisemblance s’ajusterait parfaitement aux données empiriques. La multiplication par −2 garantit, d'un point de vue mathématique, que D converge asymptotiquement vers une distribution χ² si l'hypothèse nulle est vraie, (théorème de Wilks) Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 60 intellectuelle. N.Ukrayinchuk 30 S2. Estimation du modèle Logit – Données Individuelles – Inférence statistique Test de significativité globale Dans le cas du modèle saturé qui s’ajusterait parfaitement aux données, Max V =1 et (log 1 =0) Plus la déviance est élevée moins le modèle se révèle bon pour prédire la variable-réponse. Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 61 intellectuelle. N.Ukrayinchuk S2. Estimation du modèle Logit – Données Individuelles – Inférence statistique Test de significativité globale Attention: La valeur –2 log V n'est pas standardisée = pas de signification claire pour elle- même. Elle dépend à la fois des données et de la spécification du modèle. Son interprétation est relative : = comparaison autres valeurs de –2 log V N'est valide que pour des modèles distincts, dont l'un est inclus dans l'autre. Les variables explicatives d'un modèle initial doivent constituer un sous-ensemble de celles d'un modèle considéré comme plus complet. Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 62 intellectuelle. N.Ukrayinchuk 31 S2. Estimation du modèle Logit – Données Individuelles – Inférence statistique Test de significativité globale du modèle complet = test du rapport de vraisemblance = s’intéresser à la décroissance de la déviance (par rapport au modèle saturé) quand on passe d’un modèle initial à un modèle plus complet déviance du déviance du modèle modèle initial A plus complet B La déviance = une statistique du Chi2. Si le modèle initial A contient k variables explicatives et que le modèle plus complet B en contient k+m, alors suit une distribution du Chi2 à m degrés de liberté Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 63 intellectuelle. N.Ukrayinchuk S2. Estimation du modèle Logit – Données Individuelles – Inférence statistique Test de significativité globale du modèle complet = test du rapport de vraisemblance Deux cas : 1. Le modèle initial = un modèle « vide » se limitant ainsi à la constante. La réduction de la déviance permet donc de tester l'hypothèse H0 : β1=β2=⋯=βk=0, remplissant un rôle comparable à celui du test global F dans la régression MCO. Le nb de degrés de liberté, m = le nb de paramètres à estimer dans le modèle complet 2. Le modèle initial n’est pas un modèle vide Permet d’évaluer la significativité des m variables supplémentaires ajoutées dans le modèle plus complet. Joue un rôle analogue à celui du test F incrémentiel dans le MCO Toute reproduction ou diffusion, partielle ou totale, sont interdites et constituent une contrefaçon sanctionnée par les articles L.335-2 et suivants du code de la propriété 64 intellectuelle. N.Ukrayinchuk 32 S2. Estimation du modèle Logit – Données Individuelles – Inférence statistique Test de significativité globale du modèle complet = test du rapport de vraisemblance Probabilité d’être en retard scolaire Modèle complet: On teste l’hypothèse nulle H0 : β1 = β2 = β3 = β4 = β5 = β6 = β7 = β8 = 0 o ∆= 𝐷 −𝐷 = 4487 − 3649 = 838 suit 𝜒 o 𝜒 = 15,51 pour α=0,05 P-value