Econométrie - Professeur Bosonga - Cours PDF

Document Details

RiskFreeTurtle5046

Uploaded by RiskFreeTurtle5046

Université de Kinshasa

Professeur Bosonga

Tags

économétrie modélisation économique variables économiques économie

Summary

Ce document présente une introduction à l'économétrie. Il explore les concepts fondamentaux, tels que la définition, les modèles et les variables endogènes et exogènes. L'importance de la quantification en économie est également soulignée.

Full Transcript

1 Chapitre I. Générale Chapitre I. Introduction Introduction générale I.1. Utilité et définitions de l’économetrie L’analyse des phénomènes économiques vise essentiellement à mettre...

1 Chapitre I. Générale Chapitre I. Introduction Introduction générale I.1. Utilité et définitions de l’économetrie L’analyse des phénomènes économiques vise essentiellement à mettre en évidence les mécanismes qui régissent ces phénomènes afin de mieux comprendre leur nature et leur fonctionnement, d’une part et de prévoir leur évolution d’autre part. L’économiste cherche donc, dans sa démarche à caractériser les liens qui unissent les diverses variables intervenant dans l’explication des phénomènes économiques et, si possible, à dégager des lois de comportement sous – jacentes. Parmi les outils d’analyse quantitative utilisés par les chercheurs et les praticiens dans divers domaines d’application en économie et en gestion, l’économétrie occupe une place de choix. De nombreuses définitions de l’économétrie ont été proposées par divers auteurs. Elles sont vraisemblablement différentes les unes des autres mais l’idée commune que l’on y retient est que l’économétrie est un outil d’analyse qui intègre les instruments mathématiques et statistiques à l’économie politique. - Au sens littéral, l’économétrie signifie « mesure de l’économie ». Bien que la mesure soit une part importante de l’économétrie, le domaine de cette discipline est plus vaste et va au–delà d’une simple mesure des faits économiques. - Dans son acception la plus restreinte, l’économétrie est un ensemble de techniques dans laquelle les outils de la théorie économique, les mathématiques et les déductions statistiques sont appliquées à l’analyse des phénomènes économiques. - Au sens large, l’économétrie est l’art de construire et d’estimer des modèles empiriques adéquats par rapport aux caractéristiques de la réalité, et conformes avec la théorie économique. Comme le suggèrent les définitions précédentes, l’économétrie est un mélange de théorie économique, d’économie mathématique, de statistiques économiques et de statistique mathématique. Il convient de rappeler que : - la théorie économique avance des propositions et des hypothèses qui sont pour la plupart de nature qualitative ; - l’économie mathématique traduit la théorie économique sous forme mathématique sans considérer le caractère mesurable ou la vérification empirique de la théorie ; - la statistique économique est centrée sur la collecte, le traitement et la présentation des données économiques sous la forme de graphique et de tableaux ; 2 - la statistique mathématique fournir de nombreux outils utilisés en économétrie. Conçue comme une méthode d’analyse, l’économétrie n’a pas pour objet de se substituer à la pensée économique mais bien de la quantifier sous l’hypothèse que la quantification d’un problème représente un réel progrès scientifique. Elle apporte la rigueur dans le langage et les concepts, la cohérence dans l’analyse des phénomènes interdépendants, la clarté dans la transmission et l’exposé des théories. En outre, elle facilite la confrontation quantificative des résultats obtenus aux données réelles. Elle constitue donc le complément indispensable de l’analyse économique. Le recours à l’économétrie comme outil d’analyse quantitative nécessite que la théorie économique soit formalisée à l’aide des modèles économiques. I.2. Notions de modèle en économie I.2.1. Définition et objectif d’un modèle Par modèle économique, on entend une représentation simplifiée d’un phénomène sous forme d’équations dont les variables sont des grandeurs économiques. Cette représentation quantitative d’un phénomène économique est fondée sur des hypothèses concernant le comportement des agents impliqués. En effet, à partir d’une réflexion théorique, elle conduit à imaginer des mécanismes d’interaction entre différentes variables économiques. La qualité du modèle retenu pour expliquer un phénomène économique donné dépendra des variables qu’il contient ainsi que de relations liant ces variables. Tout modèle permet de comprendre le phénomène étudié, d’en prévoir et, si possible, d’en contrôler l’évolution future. Le choix du modèle, c'est-à-dire des variables utilisées et dans relations considérées, dépend de l’importance relative accordée à chacun des aspects explicatifs, prédictifs ou de contrôle ainsi que de la précision souhaitée. Donc, il n’y a pas de modèle unique mais autant des modèles que les problèmes à résoudre. En outre, on ne peut juger un modèle indépendamment de ses objectifs. Il n’est pas non plus juste de dire qu’une représentation « trop simpliste » est nécessairement incorrecte. Pour résoudre un problème donné, la première préoccupation du modélisateur est donc de savoir quelle(s) question(s) spécifique(s) il cherche à solutionner. Soulignons enfin qu’un modèle n’est donc qu’un ensemble d’équations mathématiques. Si le modèle comporte une seule équation, il prend le nom de modèle à équation unique ; s’il a plusieurs équations, on parle de modèle à équations multiples ou modèle à équations simultanées. 3 I.2.2. Eléments principaux d’un modèle Tout modèle comprend des variables des relations et des paramètres dont la nature et le rôle doivent être précisés. I.2.2.1. Variables Une variable économique est une quantité qui peut prendre n’importe quelle valeur à l’intérieur d’un certain domaine de variation. Ces valeurs numériques peuvent être discrètes ou continues. Très souvent une variable discrète est considérée comme un cas particulier d’une variable continue. L’usage des variables pose parfois le problème de la capacité à les mesurer. Or, la quantification de la réalité économique peut entraîner des problèmes insolubles. Il arrive souvent que la mesure d’un fait économique soit établie par l’intermédiaire d’une liaison avec un autre fait lui – même plus accessible à la mesure. Ainsi, on peut mesurer le niveau d’activité économique d’un pays par la consommation d’électricité, la quantité de pétrole importé, etc. Faisons remarquer que la construction des modèles sans la possibilité de disposer des mesures statistiques satisfaisantes est un travail purement formel. D’ailleurs, selon Oskar MORGENSTERN : « il est parfaitement inutile d’élaborer un modèle complexe si l’on ne peut le nourrir qu’avec des données statistiques insuffisantes ou de qualité douteuse ». Généralement, on classe les variables économiques en : I.2.2.1.1. Variables endogène et exogène On appelle « variable endogène » (dépendante, expliquée ou régressant) une variable dont la valeur est déterminée au sein du modèle lui – même. Alors que les variables qui sont déterminées en dehors du modèle, c'est-à-dire qui entrent dans le modèle comme des données autonomes sont qualifiées de « variables exogènes » (indépendantes, explicatives ou régresseurs). La nature, endogène ou exogène, des variables est rarement une propriété intrinsèque du modèle. Des variables exogènes d’un modèle économique, on distingue : - les variables réellement externes au phénomène étudié, et sur lesquelles les agents économiques considérés n’ont aucune maîtrise sur elles ; - les variables contrôlées par un agent économique spécifique (Ménages, Entreprises, Institutions financières, Etat, Reste du monde), mais dont on se refuse à modéliser le comportement parce qu’on désire maîtriser leur valeur, pour en mesurer les conséquences sur le phénomène étudié. Ces variables sont parfois appelées « variables de décisions », ou simplement «instruments ». La manipulation des variables exogènes peut permettre au modélisateur de répondre à des questions du type : 4 - Que se passe–t–il si par hasard…. ? - Que se passe–t–il si l’Etat ou un autre agent économique décide de …? Le deuxième type de questions peut, par approximations successives, donner la solution du problème inverse : quelle décision prendre pour obtenir tel ou tel résultat ? On peut également combiner les deux approches, en observant les conséquences d’une évolution incontrôlée, puis en la complétant par la recherche de la politique qui permettra d’y faire face. I.2.2.1.2. Variables de flux et de stock Les variables économiques peuvent regrouper également en deux grandes catégories : les stocks et les flux. - Un stock est une quantité mesurée en un point du temps. Il n’ donc pas de dimension temporelle et peut être être mesuré à n’importe quel moment donné du temps. - Un flux est une quantité mesurée par unité de temps. Mesuré entre deux périodes, le flux représente la variation de stock au cours d’une période donnée. L’exemple le plus cité pour différencier le fux du stock est celui de la baignoire. En effet, la quantité d’eau qu’elle contient est un stock : c’est la quantité d’eau d’eau qui se trouve dans la baignoire à tout moment donné. Tandis que la quantité d’eau qui coule du robinet est un flux : c’est la quantité d’eau d’eau qui s’ajoute dans la baignoire par unité de temps. Lors de l’élaboration des modèles économiques, il s’avère souvent utile de déterminer si les variables en cause sont des stocks ou des flux, et quelles sont les éventuelles relations entre eux. Citons quelques exemples de stocks et des flux liés les uns des autres. - Le capital fixe ou le capital circulant sont les stocks des biens existant à une date fixe. Alors que l’investissement est une variable de flux, car il représente la différence entre le stock du capital de deux périodes données :  −  −  1.1 où : It , est le niveau d’investissement au temps t ; K , le stock du capital au temps t ; Kt-1, le stock du capital au temps t-1. - La richesse ou les créances détenues par un agent économique et la masse monétaire dans une économie constituent des stocks. Tandis que son revenu et ses dépenses sont mesurés sur une période, mois ou année, et constituent des variables de flux. - La dette publique est un stock, alors que le déficit budgétaire est un flux. - Le nombre de chômeurs est un stock ; le nombre de personnes qui perdent leur emploi est un flux. 5 I.2.2.1.3. Variable « ex ante » et « ex post » L’analyse économique se réfère souvent aux valeurs « ex ante » et « ex post » des variables. - La variable est dite « ex ante » si les valeurs du phénomène considéré sont saisies avant que les réactions économiques sous – jacentes se manifestent (analyse prospective). - Elle est dite « ex post » si les valeurs liées au phénomène étudié sont captées après la manifestation des réactions économiques (analyse rétrospective). Signalons ici que la distinction entre la prévision (ex ante) et la réalisation (ex post) permet de mieux interpréter certains équilibres économiques. I.2.2.1.3. Variable spéciale : le temps En général, de nombreux facteurs interviennent dans l’explication d’un phénomène économique. Cependant, le manque des données statistiques, la difficulté de saisir quantitativement certaines variables exogènes le concernant limitent leur prise en compte dans le modèle. Pour contourner cette difficulté, on remplace parfois ces différents facteurs par une variable spéciale : le temps. Le temps intervient donc dans le modèle comme une variable de synthèse. Ainsi, dans l’analyse d’une fonction de demande, il est difficile de saisir les variables qualitatives comme le goût, les habitudes, l’influence des voisins,…. tous ces facteurs peuvent apparaître dans la fonction de demande par l’intermédiaire de la variable « temps ». I.2.2.2. Relations Les variables intervenant dans un modèle économique sont reliées entre elles par des fonctions mathématiques. La représentation mathématique des relations économiques offre de nombreux avantages, d’une part, elle permet de définir les variables d’une manière exacte et d’établir des hypothèses plus explicites, et d’autre part, elle permet d’obtenir à partir des relations complexes (et parfois même confuses) entre plusieurs variables des conclusions que l’on n’aurait pas pu tirer par une analyse littéraire et / ou graphique. Les relations entre les variables économiques d’un modèle peuvent être classées en deux grandes catégories : les relations comptables et de définition, et les relations fonctionnelles. I.2.2.2.1. Relations comptable et de définition - Les relations comptables permettent d’assurer la cohérence du modèle en décrivant les équilibres nécessaires entre les ressources et les emplois pour chaque catégorie d’agent et d’opérations. Exemple : Revenu des ménages = consommation + épargne – impôts (des ménages). 6 - Les relations de définition ou d’identité établissent des égalités vraies à partir des définitions des variables considérées. Exemple : Recette totale (RT) = quantités vendues (Q) x prix unitaire (P) - Les relations d’équilibre expriment « ex post » la nécessaire égalité des ressources et des emplois, de l’offre et de la demande,…. en analyse économique, on dit qu’un système est en équilibre si toutes les variables significatives qu’il contient n’indiquent aucune tendance à se modifier. Exemples : Ex.1 :  = +  + –  (Équilibre du revenu sous l’optique dépenses) Ex. 2 : Qd = Qo (Équilibre du marché) I.2.2.2.2. Relations fonctionnelles Les équations fonctionnelles constituent véritablement le cœur d’un modèle théorique ou quantitatif. Elles énoncent des propositions que l’ont peut tester empiriquement. L’on distingue : a. Relations de comportement qui décrivent la manière dont se fondent les décisions des agents économiques. Le choix des relations de comportement se fonde à la fois sur des considérations théoriques et/ou sur l’exploitation économique directe des données statistiques. Exemple : La consommation privée des ménages (Ct) peut être liée à leur revenu disponible (Ydt) par une formule simple : Ct = a + bYdt avec a et b : paramètres réels. b. Relations techniques schématisent les conditions techniques qui caractérisent un phénomène économique. Exemple : La fonction de production Cobb – Douglas Q = AK α Lβ où : Q est le niveau de production ; K, facteur capital ; L, facteur travail ; A, α , β : paramètres réels. Cette relation décrit la liaison technique qui existe entre les quantités utilisées des différents facteurs de production et la quantité maximale du bien à produire. c. Relations institutionnelles décrivent les règles administratives propres à un pays et concernent principalement les problèmes de fiscalité. C’est ainsi que les impôts sont projetés par l’application des 7 taux d’imposition sur une assiette fiscale qui sert de base à l’imposition : - l’impôt sur le revenu des ménages dépend du taux d’imposition et du revenu des ménages ; - l’impôt sur les sociétés est fonction du taux d’imposition et de l’excédent brut d’exploitation ; - les intérêts versés par l’Etat dépendent du taux d’intérêt et du stock des titres publics émis. Remarques : En général, on désigne toutes les trois relations par l’expression « relations fonctionnelles ». I.2.2.3. Parametres Toute équation exprime une relation pondérée entre les variables. Les facteurs de pondération repris dans une équation sont des paramètres. Ils sont considérés comme des non variables ayant pour rôle de relier entre elles les variables d’une équation. On distingue deux types des paramètres : - les paramètres fixés a priori par le modélisateur ; - les paramètres estimés par référence au passé. En effet, partant d’une relation fonctionnelle connue mais qui comporte des paramètres inconnus, on cherche les valeurs de ceux–ci qui fournissent la formulation la plus proche de la réalité passée. On applique pour ce faire la méthode économétrique. La distinction entre les deux types des paramètres n’est pas très nette, car l’échec des tentatives d’estimation à fournir une valeur cohérente économiquement peut conduire à fixer a priori les valeurs de certains paramètres. Les paramètres fixés a priori ou estimés sur base des observations passées peuvent prendre la forme des propensions, d’élasticités ou des coefficients techniques. I.2.2.3.1. Propensions et productivités a. Propensions On distingue les propension moyennes et marginales. - Par « marginal », on entend « additionnel ». Ainsi, la propension marginale à consommer correspondant à la fraction du revenu  = ∆ ∆ additionnel qui est consommée. Elle se note : où : ∆ représente la variation des quantités consommées ; ∆ , la variation du revenu. 8 Si les variations considérées sont infinitésimales, la formule devient : Pmc =   - Par contre, la propension moyenne à consommer est le ratio de la consommation sur le revenu disponible. Donc : PMC =   b. Productivités Le concept de productivité se réfère principalement aux activités liées à la production. Ainsi, la productivité moyenne du facteur X (capital, travail, …) est le rapport de la production (Q) sur la quantité du facteur X dans le processus de production : PM! = " ! où : PMx désigne la productivité moyenne du facteur X ; Q , le niveau total de la production ; X, le facteur de production considéré. La productivité marginale du facteur X se définit comme la variation de la production due à l’utilisation d’une unité supplémentaire du facteur X. Donc : Pm! = ∆" ∆! où : Pmx : productivité marginale du facteur X ; ∆Q : variation de la production ; ∆X : variation du facteur de production X. Pour des variations infinitésimales, on a : Pm! = " ! ou, d’une manière générale : Pm!# = δ! δ" # où : Pm! est la productivité marginale du ième facteur utilisé dans (i = 1, 2,…,n) le processus de production ; δ, opérateur de la dérivée partielle. I.2.2.3.2. Elasticités Il est parfois intéressant pour un économiste ou un gestionnaire de disposer d’une mesure de la sensibilité d’un phénomène suite à une variation donnée de n’importe quel choc externe. Bien que l’analyse marginale permet aussi de déterminer cette sensibilité, elle présente tout de même le grand défaut d’être influencée par les unités dans lesquelles les grandeurs économiques considérées sont mesurées. 9 En effet, si les quantités demandées (Q) sont exprimées en unités ∆" physiques (litres, kilogrammes, tonnes, …) et les prix (p) en unités ∆! monétaires (Franc, Dollar, Euro,…), alors le rapport aura une dimension du type : Litre/Franc, Kg/Dollar, Tonnes/Euro, etc. Pour remédier à cet inconvénient, on recourt à une mesure qui n’est pas influencée par les unités des grandeurs utilisées, appelée « élasticité». L’élasticité d’une variable Y par rapport à une autre variable X, à laquelle elle est liée par une relation de dépendance quelconque, est le rapport des variations relatives de Y et X : ∆Y ∆Y X ε$⁄% = Y = ∆X ∆X Y X En considérant des variations infinitésimales, la formule devient : δY X ε$⁄% = δX Y ou encore : dlnY ε$⁄% = dlnX où ln représente le symbole du logarithme népérien. I.2.2.3.3. Coefficients techniques Certains modèles macroéconomiques, notamment les modèles input- output, utilisent des paramètres définis sur base des contraintes techniques. Dans le cas des modèles input-output, par exemple, l’hypothèse fondamentale postule que le rapport des consommations intermédiaires à la production totale de la branche considérée est constant. En vertu de cette hypothèse de constance des coefficients techniques, énoncée par W. LEONTIEF, on peut écrire : a-. = "#/ "/ où : les aij représentent les coefficients technologiques ; Qij , la consommation intermédiaire de la branche j en produit i ; Qj , la production de la branche j. I.3. Méthodologie de l’économetrie Pour analyser un problème économique, l’économètre adopte le plus souvent la méthodologie classique qui domine encore la recherche empirique en Economie et dans d’autres Sciences sociales. 10 La méthodologie classique propose les étapes suivantes : - référence à une théorie ; - spécification du modèle mathématique ; - spécification du modèle statistique ou économétrique ; - sélection des variables et des données statistiques ; - estimation des paramètres du modèle économétrique ; - validation ou diagnostic du modèle ; - utilisation du modèle estimé. 1.1.1. Référence à une théorie Le premier pas décisif lorsqu’on cherche à comprendre ou expliquer empiriquement un phénomène économique est de construire un modèle théorique composé d’une ou de plusieurs relations mathématiques définies sous forme générale au travers d’hypothèses théoriques auxquelles le modèle fait référence. En d’autres termes, la réalisation de travaux économétriques suppose la connaissance préalable des disciplines économiques en jeu, puisqu’elles suggèrent le type de relation à vérifier sur les données réelles observées. Dans la pratique, l’étape de construction du modèle théorique n’est pas toujours aussi simple. La question fondamentale est celle de savoir si une théorie économique existante est suffisamment correcte pour être utilisée en tant qu’outil d’analyse. C’est pourquoi, certains modélisateurs ne formulent jamais un modèle théorique de manière définitive, mais préfèrent considérer un ensemble des liaisons en laissant le soin à l’économétrie d’en trancher (économétrie sans théorie). 1.1.2. Spécification du modèle mathématique La spécification consiste à donner une « forme fonctionnelle » au modèle théorique construit dans la première étape. L’objectif est de vérifier l’adéquation d’un modèle à la réalité observée et de mesurer le taux de réaction des phénomènes expliqués aux variations des phénomènes explicatifs. Pour confronter efficacement le modèle et les données observées, il convient d’exprimer ce dernier sous une forme manipulable. Cette partie essentielle de la modélisation exige soit une connaissance approfondie de la théorie économique, soit un recours aux résultats économétriques obtenus par d’autres chercheurs ou enfin un « flair intuitif» pour un meilleur choix de relations fonctionnelles. Les possibilités de spécification sont nombreuses : 11 1.1.2.1. Choix d’une relation linéaire Le choix le plus simple est celui d’une relation linéaire. Il se justifie quand on peut raisonnablement supposer que les dérivées partielles de la variable explicative ne sont pas fonction des niveaux atteints par ces variables explicatives. Cette hypothèse signifie que la variation de la variation dépendante, suite à une variation d’une unité de l’une des variables explicatives, est toujours la même quels que soient les niveaux déjà atteints par celles-ci. Exemple : Considérons le modèle linéaire suivant : Y = α + βX avec 0 et β les paramètres. = β.  ! La dérivée de Y par rapport à X est donc : Le paramètre (coefficient) β mesure l’importance de la variation de Y quand X augmente d’une unité. Donc, si X augmente d’une unité, la variable dépendante Y varie de β unités. 1.1.2.2. Choix d’une relation non linéaire Quoique très commode, la linéarité peut ne pas correspondre de façon adéquate à la relation traitée. Il est parfois irréaliste de supposer que la variation de la variable expliquée est toujours la même, suite à une variation d’une unité de la variable explicative, quels que soient les niveaux déjà atteints par cette dernière. D’où, le recours aux relations formalisées sous la forme d’équations non linéaires. Exemple : Soit le modèle non linéaire : Y = lnα + βlnX =  ! ! β avec. Cette spécification implique une dérivée première de Y par rapport à X qui décroît avec le niveau de X. Autrement dit, au fur et à mesure que X augmente, l’augmentation de Y devient de plus en plus faibles (cf. loi des rendements marginaux non proportionnels). 1.1.3. Spécification du modèle économétrique Le modèle purement mathématique d’un phénomène économique est d’un intérêt limité pour l’économètre parce qu’il suppose une relation précise ou déterministe entre la variable expliquée et les variables explicatives. Mais les relations entre les variables économiques ne sont pas toujours exactes. 12 En économétrie, on suppose généralement que les variables économiques sont aléatoires. En d’autres termes, on considère que la valeur observée d’un phénomène économique est en partie due au hasard. C’est la réalisation d’une variable aléatoire correspondante susceptible de produire d’autres réalisations si l’on répète l’expérience. Le hasard détermine en partie les réalisations effectivement observées des variables économiques et les résultats auraient pu être différents. Les probabilités d’obtenir telle ou telle valeur effectivement réalisée sont déterminées par les distributions statistiques des variables. Les relations économiques supposées par la théorie économique imposent des liaisons entre ces distributions. Pour tenir compte des relations imprécises entre les variables, l’économétrie modifie le modèle purement mathématique de la façon suivante : Y = α + βX + u où u, appelée perturbation ou erreur, est une variable aléatoire (stochastique) possédant des propriétés probabilistes bien définies. L’équation ci-dessus est un exemple de modèle économétrique. 1.1.4. Sélection et mesure des variables Le succès de toute analyse économétrique dépend, en dernier ressort, des données représentatives des pénomènes économiques étudiés. Les principaux types des données sont les suivants : - Les séries temporelles (séries chronologiques, chroniques ou time series) Il s’agit des données observées à des intervalles de temps réguliers (données hebdomadaires, mensuelles, trimestrielles, annuelles, …). A titre d’exemple, la série des dépenses mensuelles en publicité des sociétés de communication de mars 2000 à janvier 2010 en RDC. - Les séries en coupe transversale (coupe instantanée ou cross section) Ce sont des données observées au même moment du temps pour un groupe spécifique d’individus. On peut citer l’exemple de consommation des ménages des cadres politiques à Kinshasa en 2009. - Les données de panel Ce sont des données qui concernent un groupe spécifique d’individus et qui sont observées à des intervalles de temps réguliers. Il s’agit d’un type particulier des séries mixtes dans lesquelles les données représentent les valeurs prises par un même échantillon d’individus sur une période de temps. A titre d’exemple, on peut citer les dépenses de consommation des ménages 13 des parlementaires nationaux à Kinshasa de 2007 à 2009. Comme on peut le constater, les données de panel ont ainsi une double dimension : individuelle et temporelle. 1.1.5. Choix de décalages temporels Les variables sur lesquelles s’appuient les modèles économiques ont généralement une dimension temporelle et sont alors connues de manières discrète, le plus souvent avec une périodicité constantes : séries annuelles, mensuelles, … (séries chronologiques). Soit le modèle de consommmation des ménages kinois : C = a + cY + u où : C représente les dépenses de consommation des ménages kinois ; Y, leur reven disponible ; u, le terme d’erreur ; a et c les paramètres constants. Si l’on suppose que le revenu de la date t explique la consommation à la même date, on a alors : C2 = a + cY2 + u2 où t désigne le temps. Il existe cependant des modèles sans dimension temporelle. Il s’agit le plus souvent des modèles microéconomiques, décrivant des comportements individuels d’entreprises ou des ménages : la dimension sera alors celle des individus dans une population (coupes transversales). Ainsi, la fonction de consommation des ménages des parlementaires nationaux à Kinshasa s’écrit : C- = a + cY- + u- où i désigne l’individu, c’est-à-dire le ième parlementaire national. Dans le cadre des modèles spécifiés en séries temporelles, les relations entre les variables ne sont pas toujours synchrones mais peuvent êtres décalées dans le temps. D’où, l’on distingue deux types des modèles : les modèles statiques et les modèles dynamiques. - Les modèles statiques ne font intervenir, pour la détermination de l’équilibre associé à une période donnée que les variables de cette période. Ils correspondent à la formulation suivante : F4Y2 , A, X 2 , u2 6 = 0 1.2 où : Yt est la variable endogène à la période t ; Xt, la variable exogène à la période t ; ut, le terme d’erreur à la période t ; A, le vecteur des paramètres constants. 14 La fonction de consommation des ménages évoquée plus haut : C2 = a + cY2 + u2 constitue une illustration d’un modèle statique où le revenu à la date t explique le niveau de consommation de la même date. - Au contraire, les modèles dynamiques utilisent, pour déterminer l’équilibre d’une période, des variables d’autres périodes. La justification en pourra être : - Théorique : certains agents seront supposés intégrer dans leur comportement leurs constations passées. Ainsi, les consommateurs tiendront comptes de leur niveau de consommation passé pour déterminer la consommation actuelle ; - Institutionnel : l’impôt sur le revenu payé par les ménages sera basé sur leur revenu de la période précédente ; - Mécanique : pour une variable donnée, le passage du niveau instantané au taux de croissance annuel nécessite la prise en compte du niveau précédent. On constate que chacune de ces justifications suppose, sauf connaissance du futur par les agents, que les influences proviennent des périodes précédentes : on parlera alors d’influences retardées. La formulation devient donc : F8Y2 , Y2 , … , Y2: , X 2 , X 2 , … , X 2; , A, u2 < = 0 1.3 Y2 , … , Y2: représentent les variables endogènes retardées où : Yt est la variable endogène courante ; (décalées ou laggées) ; X 2 , … , X 2; : les variables exogènes décalées (retardées ou Xt, la variable exogène courante ; laggées) ; ut, le terme d’erreur à la période t ; A, le vecteur des paramètres constants. Il convient de souligner ici que, dans les modèles dynamiques, les variables prédéterminées comprennent à la fois les variables endogènes décalées, les variables exogènes courantes et les variables exogènes décalées. Exemple d’un modèle dynamique simple Soit le modèle de consommation dynamique suivant : C2 = a + cY2 + ϕC2 + u2 Dans ce modèle, le niveau de consommation à la date t est expliquée non seulement par le revenu de la même date, mais aussi par le niveau de 15 explicative C2 est donc la variable endogène décalée. Le coefficient ϕ consommation passée (c’est-à-dire la commation à la date t-1). La variable représente le degré d’inertie de la consommation. Notons que ϕ doit être impérativement inférieur à un (ϕ < 1). Plus ϕ est proche de 1, plus le degré d’inertie de la consommation est important. Dans ce cas, la consommation passée exerce une forte influence sur la consommation courante, on parle aussi de la persistance. 1.1.6. Validation ou diagnostic du modèle Cette étape consiste avant tout à déterminer les signes et la grandeur des paramètres théoriquement attendus. Elle permet aussi d’effectuer l’évaluation des résultats des calculs en testant si les estimations des paramètres sont économiquement et statistiquement valides. Elle s’intéresse enfin de la stabilité des coefficients estimés, caractères indispensables pour une meilleure prévision. 1.1.7. Estimation des paramètres du modèle économétrique Puisque le modèle est spécifié et que les données sont disponibles, la tâche suivante consistera à estimer les paramètres de ce modèle. Cette estimation donne un contenu empirique au modèle. 1.1.8. Applications des modèles L’utilisation la plus naturelle d’un modèle est de prévoir l’avenir économique. On va distinguer deux types de prévisions : les scénarios et les variantes. a) Dans un scénario, ou s’intéresse aux résultats dans l’absolu, c’est-à- dire que l’on associe à un ensemble d’hypothèses évaluées dans une évolution future de l’équilibre économique. On cherchera ainsi à obtenir : - Soit des prévisions sur la base des hypothèses le plus probables ; - Soit une évaluation du champ des possibles ; - Soit à déterminer les hypothèses permettant d’atteindre certains résultats économiques. b) Dans une variante, on partira d’une simulation de base (dites souvent « compte de référence »), ou d’une simulation sur période historique, et on mesurera la sensibilité de l’équilibre économique à une modification des hypothèses. il s’agit donc de la comparaison de deux trajectoires économiques. Les modèles économétriques interviennent également à l’analyse des évolutions passées des phénomènes économiques. Enfin, les modèles économétriques estimés peuvent être utilisés à des fins de contrôle ou de politique économique. Ainsi, à l’aide d’un « policy mix », fiscal et monétaire, les pouvoirs publics peuvent avoir en main la variable 16 contrôlée X pour assurer le niveau désiré de la variable objectif Y. 1.2. ROLE DE L’ECONOMETRIE L’économétrie s’articule autour de deux points suivants : validation de la théorie et outil d’investigation. 1.2.1. Econométrie comme validation de la théorie L’économétrie est un outil à la disposition de l’économiste lui permettant d’infirmer ou de confirmer les théories qu’il construit. Le théoricien postule des relations, et l’application des méthodes économétriques fournit des estimations sur la valeur de coefficients ainsi que la précision attendue. Il serait erroné de penser que les modèles économétrique et les théories économiques forment deux mondes séparés. La modélisation théorique est un préalable obligé. La quantification économétrique s’appuie en général sur les modèles théoriques. En effet, les modèles quantitatifs reprennent et spécifient les propositions théoriques en vue de vérifier leur adéquation aux données statistiques disponibles. Le schéma ci-après illustre la démarche de validation de la théorie à l’aide de l’économétrie. Schéma 1 : Processus de modélisation et économétrie Propositions théoriques Hypothèses théoriques (Théorie) Formulation de la théorie : Représentation modélisation mathématique Estimation économétrique Hypothèses stochastiques ou Confrontation du modèle avec les nouvelles données statistiques données Tests statistiques Acceptation Rejet (la théorie est (la théorie n’est pas validée) validée) Remise en cause des hypothèses ou utilisation des nouvelles données Utilisation 17 1.2.2. Econométrie comme outil d’investigation L’économétrie n’est pas seulement un système de validation, mais également un outil d’analyse. En effet, l’économétrie apporter une aide notamment à la modélisation, à la réflexion théorique ou à l’action économique par : - la mise en évidence des relations entre les variables qui n’étaient pas a priori évidentes ou pressenties ; - l’induction statistique ou l’inférence statistique permettant de tester la qualité des paramètres estimés ; - l’analyse des évolutions passées ; - la prévision de l’évolution économique ; - les études en variantes ; - la simulation qui mesure l’impact de la modification d’une variable sur une autre. Schéma n°1 : Anatomie de la modélisation économétrique Théorie économique Modèle mathématique de la théorie Modèle économique de la théorie Données Estimation du modèle économétrique Tests statistiques Prévision Utilisation du modèle à des fins de contrôle ou de politique économique 18 CHAPITRE II ETUDE DE LA CORRELATION 2.1. PRESENTATION GENERALE Face aux phénomènes économiques représentés par des grandeurs statistiques quantitatives, on peut chercher à savoir : - Si les variables considérées sont-elles liées ? - Comment mesurer cette liaison ? Lorsque les variables retenues ont une évolution commune, nous disons qu'elles sont «corrélées». La corrélation simple mesure le degré de liaison existant entre deux phénomènes représentés par des variables X et Y. Pour mesurer la relation entre trois ou plusieurs variables, on utilise la notion de corrélation multiple. On parle de la corrélation linéaire, lorsque tous les points du couple de valeurs des deux variables (X,Y) semblent alignés sur une droite, tandis qu’une corrélation est dite non linéaire lorsque les points du couple de valeurs se trouvent sur une même courbe d'allure quelconque. Deux variables X et Y peuvent être : - en corrélation positive si l’on constate une augmentation (ou diminution, ou constance) simultanée des valeurs des deux variables ; - en corrélation négative, lorsque les valeurs de l'une augmentent (resp. diminuent), les valeurs de l'autre diminuent (resp. augmentent) ; - non corrélées, s’il n'y a aucune relation de dépendance entre les valeurs des deux variables. En combinant les critères de linéarité et de corrélation, on peut dégager le tableau et les graphiques suivants. Tableau 1 - Linéarité et corrélation Corrélation Corrélation Absence de Positive négative corrélation Relation linéaire Graphe1 Graphe2 Graphe5 Relation non linéaire Graphe3 Graphe4 Graphe5 19 y y x x Graphe 1 Graphe 1 y y x x Graphe 3 Graphe 3 2.2. MESURE ET LIMITE DU COEFFICIENT DE CORRELATION 2.2.1. Le coefficient de corrélation linéaire Le coefficient de corrélation linéaire simple entre X et Y, noté r%,$, quantifie la liaison entre les deux variables de manière à mettre en évidence le sens de la liaison et son intensité. Formellement, le coefficient de corrélation linéaire entre les deux variables X et Y, est égal à : Cov4X, Y6 ρ!, = σ! σ D64Y- − Y ∑E-F4X- − X D6 = 2.1 D6H G∑E-F4Y- − Y G∑E-F4X- − X D6H O O KL 4 , 6 = NQR4MN M64N 6 ∑P S Avec : : covariance entre X et Y ; σ! = T D U et σ = ∑V #QR4!# !6 ∑V D U #QR4# 6 E E = écart type de X et écart type de Y ; n : nombre d'observations ; i : est le numéro de l’observation ou l’année. 20 Notons que : - Si i est une date, on parle de données chronologiques ; - Si i représente un individu statistique (un ménage, une entreprise, …), on parle de données transversales. En développant la formule (2.1), il vient : n ∑E-F X- Y- − ∑E-F X- ∑E-F Y- ρ!, = 2.2 Tn ∑E-F X- H − 4∑E-F X- 6H Tn ∑E-F Y- H − 4∑E-F Y- 6H La relation (2.2) peut aussi s’écrire comme : ∑E-F x- y- ρ!, = 2.3 G∑E-F x-H G∑E-F y-H D et y- = Y- − Y où x- = X - − X D (les écarts par rapport à la moyenne). Par construction, ce coefficient reste compris entre −1 et 1 : proche de −1, les variables sont corrélées négativement ; - proche de 1, les variables sont corrélées positivement ; - - proche de 0, les variables ne sont pas corrélées. Dans la pratique, ce coefficient est rarement très proche de l'une de ces trois limites et il est donc difficile de proposer une interprétation fiable à la simple lecture de ce coefficient. Ceci est surtout vrai en économie où les variables sont toutes plus ou moins liées entre elles. De plus, il n'est calculé qu'à partir d'un échantillon (de taille limitée) issu de la population. D’où nécessité d’inférer les résultats obtenus sur la population concernée. La théorie des tests statistiques nous permet de lever cette indétermination. En effet, concernant la population totale, une hypothèse de nullité du coefficient de corrélation est formulée, et l’on se pose la question de savoir dans quelle mesure cette hypothèse est confirmée ou infirmée par des données observées. Soit à tester l'hypothèse : H^ : r!, = 0 \ a H : r!, ≠ 0 Sous l'hypothèse Ho, la statistique du test est donc : eρ!, e t bcd = ~ t α ; 4EH6 2.4 H fg1 − ρH!, h n−2 21 Si |t bcd | ≥ t α ; 4EH6 , valeur lue dans une table de Student au seuil α = 0.05 , (soit α = 5 %) à n − 2 degrés de liberté, nous rejetons l'hypothèse HO. Par U conséquent, le coefficient de corrélation est significativement différent de 0 ; dans le cas contraire, l'hypothèse d'un coefficient de corrélation nul est acceptée. Remarque : Si le nombre d’observations n est supérieur à 30, on peut approximer la loi de Student par une loi normale, soit t α ≈ 1.96. U 2.2.2. Limites de la notion de corrélation 2.2.2.1. La relation testée est linéaire Les formules (2.1),(2.2) ou (2.3) s’appliquent valablement pour des corrélations linéaires entre variables. Leur utilisation doenne des résultats abbérants si les variables considérées ne sont liées par une relation corrélation égal à zéro (ρ!, = 0) si les deux variables sont liées entre elles : foctionnelle linéaire. Ainsi, deux variables X et Y auront un coefficient de - Soit par une fonction circulaire du type : X H + Y H = c (où c est Soit par une fonction non linéaire du type : Y = cos X. costante quelconque) ; - - Il découle de ces deux cas d’exemple qu’une faible corrélation n’implique pas nécessairement l’absence de relation mais parfois simplement l’absence de relation linéaire. Pour pallier cette limite, on est éventuellement amené à réaliser des transformations sur certaines variables avant de calculer des corrélations. On parle alors de linéarisation. 2.2.2.2. Corrélation n'est pas causalité L’existence d’une corrélation même élevée n’implique pas nécessairement l’existence d’une relation de cause à effet entre les deux variables considerées. En d’autres termes, un coefficient de corrélation significativement différent de zéro n’implique pas une liaison d’ordre économique ou autre. Nous appelons corrélation fortuite ce type de corrélation que rien ne peut expliquer. Souvent, en effet, les corrélations observées sont dues au fait que les variables étudiées sont toutes deux soumises à des influences communes, qui peuvent en modifier simultanement les valeurs, soit dans le même sens (corrélation positive), soit en sens opposés (corrélation négative). L'exemple le plus fameux concerne la forte corrélation existante entre le nombre d’entrées à la Fikin et le chiffre d’affaires réalisé par le vendeur de 22 glaces et autres boissons rafraîchissantes. Cela ne signifie pas qu'il existe une relation entre les deux variables, mais qu'une troisième variable, représentée ici par le temps qu’il fait, c’est-à-dire l’état de la météo du jour, influence conjointement les deux phénomènes. Exercice résolu Le tableau ci-après reprend les données statistiques relatives au Produit intérieur brut (PIB) et à la consommation privée de la RDC pour la période allant de 1980 à 19961. Année Consommation PIB 1980 545,0 741,1 1981 559,0 748,1 1982 579,0 744,7 1983 591,0 755,2 1984 610,0 797,1 1985 637,6 800,8 1986 656,0 838,6 1987 678,3 861,0 1988 694,4 865,9 1989 701,9 854,1 1990 749,0 798,0 1991 540,8 730,0 1992 502,8 654,3 1993 425,9 565,8 1994 456,7 543,9 1995 464,1 547,7 1996 460,3 541,8 Calculer le coefficient de corrélation simple entre la consommation privée (X) 1 Notes : 1) Consommation des ménages aux prix de 1987 (en milliards de Zaïres); 2) PIB aux prix de 1987 (en milliards de Zaïres) 3) Taux d'inflation Source : Iyashi Ile Mbula, Estimation d'un modèle de consommation des ménages. Cas de la RDC de 1980 à 1996, Mémoire de Licence, Faculté d'Administration des Affaires et Sciences Economiques (FASE), Université Protestante au Congo, Octrobre 2000. 23 α = 0,05. et le PIB (Y), et tester l’hypothèse de la nullité de ce coefficient au seuil Solution Année Y X Y- − D Y X- − D X 4X- − D X64Y- − D Y6 4Y- − D Y6H 4X- − D X6H 1980 545 741,1 -34,52 12,39 -427,61 1191,47 153,47 1981 559 748,1 -20,52 19,39 -397,80 420,97 375,90 1982 579 744,7 -0,52 15,99 -8,28 0,27 255,62 1983 591 755,2 11,48 26,49 304,15 131,84 701,63 1984 610 797,1 30,48 68,39 2084,63 929,17 4676,95 1985 637,6 800,8 58,08 72,09 4187,05 3373,56 5196,71 1986 656 838,6 76,48 109,89 8404,51 5849,55 12075,42 1987 678,3 861 98,78 132,29 13067,74 9757,95 17500,18 1988 694,4 865,9 114,88 137,19 15760,51 13197,96 18820,61 1989 701,9 854,1 122,38 125,39 15345,31 14977,44 15722,21 1990 749 798 169,48 69,29 11743,13 28724,27 4800,86 1991 540,8 730 -38,72 1,29 -49,88 1499,06 1,66 1992 502,8 654,3 -76,72 -74,41 5708,70 5885,60 5537,11 1993 425,9 565,8 -153,62 -162,91 25026,12 23598,38 26540,24 1994 456,7 543,9 -122,82 -184,81 22698,15 15084,17 34155,39 1995 464,1 547,7 -115,42 -181,01 20891,95 13321,23 32765,26 1996 460,3 541,8 -119,22 -186,91 22283,18 14212,85 34936,01 Somme 9851,8 12388,1 0 0 166621,57 152155,74 214215,24 Moyenne de X = = 728,7118 Htuu, v Moyenne de Y = = 579,5176 yuz,u v Le coefficient de corrélation entre la consommation (Y) et le PIB (X) est égal à: D64Y- − Y ∑E-F4X- − X D6 ρ!, = D6H G∑E-F4Y- − Y G∑E-F4X - − X D6H 166621,57 166621,57 = = = 0,9229. G214215,24G152155,74 4462,83396 × 4390,07156 Donc ρ!, = 92 %. Le t de Student empirique est donc : 24 eρ!, e 0,9229 t bcd = = T1 − 40,92296 H fg1 − ρ!, h H 17 − 2 n−2 0,9229 = = 9,2831. 0,0994 La valeur lue dans la table de Student au seuil α = 0,05 (soit α = 5 %) à 15 degrés de liberté est égale à : t ^,^Hz; z = 2,131. Comme le t calculé est largement supérieur au t de la table de Student, on rejette l’hypothèse nulle H0. Le coefficient de corrélation calculé entre la consommation privée et le PIB en RDC est significativement différent de zéro. Donc, il y a une forte liaison positive entre les deux agrégats. 25 CHAPITRE 3 MODELE DE REGRESSION SIMPLE Le présent chapitre constitue une introduction aux techniques de régression. C’est pourquoi, nous allons commencer un modèle de régression simple où une variable endogène représentant l’évolution du phénomène consideré est expliquée par une seule variable exogène. Une telle démarche, appelée analyse de régression simple ou analyse de régression à deux variables, comporte certes un double avantage. Elle permet avant tout de faire ressortir dans le contexte le plus simple possible, un certain nombre de questions fondamentales. Ensuite, elle facilite le développment des concepts et des outils d’analyse qui serviront des matériaux de construction dans les cas plus complexes. 3.1. PRESENTATION DU MODELE Supposons que, d’après la théorie choisie, le phénomène étudié soit représenté par la relation : Y = f4X6 3.1 où Y désigne la variable dépendante (expliquée) ; X, la variable indépendante (explicative). La théorie peut aussi nous indiquer certaines contraintes que les paramètres du modèle doivent respecter concernant leur signe, ou concernant leur ordre de grandeur. Dans ce chapitre, nous allons nous limiter à l’étude des modèles de type linéaire sans contrainte sur les paramètres. Un modèle de régression est dit linéaire lorsque la variable dépendante Y, ou une transformation de Y, peut être exprimée comme une fonction linéaire de X, ou d’une quelconque transformation de X. Ainsi les équations ci-après : Y = β^ + β X Y=α+X 3.2 β 3.3 Y = exp ~β^ + β  ou Y = e  R β€ βR ‚ ! 3.4 Y = β^ + β  ! 3.5 = β^ + β X 3.6   Sont toutes des spécifications linéaires. Elles sont soit linéaires en X et Y (cas de la relation (3.2), soit linéaires après transformation de Y et/ou de X (cas des relations (3.3) à (3.6)). Par contre, la fonction : 4Y − α 64X − αH 6 = αt 3.7 26 Représentant un e hyperbole ayant pour asymptotes Y = α et X − αH , ne peut être ramenée à une fonction linéaire de transformations de Y et de X. Exemple : Soit la fonction de consommation keynésienne : C = a + cY où C :consommation (variable endogène) ; Y : revenu (variable exogène) ; a : cconsommation autonome ou incompressible ; c : propension marginale à consommer, ( a et c sont les paramètres inconnus du modèle ou encore les coefficients de régression). Cette fonction de consommation peut être spécifiée de deux façons : a) En série temporelle : les variables C et Y représentent des grandeurs économiques observées à intervalles de temps réguliers, par Le modèle s’écrit alors : C2 = a + cY2 exemple la consommation et le revenu de 1990 à 2009 en RDC. où C2 : consommation au temps t ; (t = 1990, …, 2009) Y2 : revenu au temps t. b) En coupe transversale : les variables C et Y représentent des grandeurs économiques au même instant mais concernant plusieurs individus, par exemple la consommation et le revenu donnés sur un Le modèle s’écrit alors : C- = a + cY- 2chantillon de 20 ménages de Kinshasa en 2009. où C- : est la consommation du ménage i en 2009 ; (i = 1, 2, …, 20) Y- : le revenu du ième ménage en 2009. 3.2. ROLE DU TERME ALEATOIRE Le modèle linéaire que nous avons retenu pour l’analyse de la régression simple : Y2 = β^ + β X2 3.8 Ne recouvre que partiellement la réalité. En effet, les relations fonctionnelles strictes, ou exactes, fournissent rarement une description adéquate de la un terme 4u6 qui syntétise l’ensemble des informations omises dans le dépendance entre les grandeurs économiques. C’est pourquoi nous ajoutons modèle mais qui affectent ce dernier. L’écriture principale du modèle de régression simple devient : 27 Y2 = β^ + β X2 + u2 3.9 (avec t = 1, 2, …, n) où Y2 : représente la variable endogène au temps t ; X 2 : la variable exogène au temps t ; u2 : l’erreur ou le terme aléatoire ; β^ et β : les paramètre réels non observable. Plusieurs raison militent pour la prise en compte du terme d’erreur dans le modèle de régresssion : - L’imprecision de la théorie : la théorie, elle existe, peut s’avérer insuffisante pour expliquer le comportement de la variable dépendante. - L’indisponibilité des données statistiques : le manque des données quantifiables comme la mauvaise qualité des observations peuvent limiter l’utilisation de certaines variables dans le modèle. - La nature aléatoire du comportement humain : le terme d’erreur peut fort bien refléter cette nature intrinsèquement aléatoire. - La pauvreté des variables substituts (proxy variables) : le terme d’erreur peut être utilisé pour tenir compte de l’incapacité des variables substituts à remplacer totalement les variables d’origine. - Le principe de parcimonie : dans le but de rendre le modèle aussi simple que possible tout en maintenant son adéquation avec la théorie, l’économétrie est parfois oblmigé de ne pas prendre en compte des variables complementaires. - Une forme fonctionnelle incorrecte : le terme d’erreur peut être utilisé pour prendre en compte la mauvaise spécification de la relation fonctionnelle entre la variable dépendante et le régresseur (variable explicative). 3.3. NOTION MATRICIELLE DU MODELE Les n équations qui comportent le modèle linéaire simple (3.9) peuvent s’écrire comme : Y = β^ + β X + u † „ „ YH = β^ + β XH + uH „ Yt = β^ + β Xt + ut a ⋮ ⋮ ⋮ ⋮ 3.10 „ „ ⋮ ⋮ ⋮ ⋮ „ ƒ YE = β^ + β X E + uE Ce système d’équations linéaire peut être réécrit sous la forme : 28 Y 1 X u Š  Š  Š  ‰ Œ ‰ Œ ‰u Œ ‰YH Œ ‰ 1 XH Œ β0 ‰ HŒ ‰ Œ=‰ Œ Ž + ‰ Œ ‰Yt Œ ‰ 1 Xt Œ β1 ‰ut Œ 3.11 ‰ ⋮Œ ‰ ⋮ ⋮ Œ ‰ ⋮Œ ‰ ⋮Œ ‰ ⋮ ⋮ Œ ‰ ⋮Œ ˆYE ‹ ˆ1 XE ‹ ˆu‹ On obtient la forme matricielle : Y = X B + U 4nx16 4nx2642x16 4nx16 3.12 Y u 1 X où Š  Š  Š  ‰ Œ ‰ Œ ‰ Œ β^ B4H%6 = “ ” ; Y4E%6 = ‰YH Œ ; U4E%6 = ‰uH Œ ; X 4E%H6 = ‰1 XH Œ ‰⋮Œ ‰⋮Œ ‰⋮ ⋮Œ ˆuE ‹ β ˆYE ‹ ˆ1 XE ‹ Faisons remarquer que la première colonne de la matrice X n’est formée que de nombres 1, ce qui est indispensable si on veut tenir compte dans la régression de la constante β^. 3.4. SPECIFICATION DES HYPOTHESES Le modèle linéaire de régression simple s’appuie sur les hypothèses fondamentales suivantes : H : Le modèle est linéaire en X 2 ou en n’importe quelle ttransformation de X2. HH : Les valeurs de X 2 sont observées sans erreur. Donc la variable X 2 est non aléatoire. Tandis que Y2 , observée également sans erreur, est aléatoire par l’intermédiaire de u2. Ht : L’espérance mathématique de l’erreur est nulle. E4u2 6 = 0 3.13 Le terme d’erreur pouvant prendre des valeurs négatives et des valeurs positives, l’hypothèse suppose qu’il n’existe pas de biais en faveur des valeurs positives, ni en faveur des valeurs négatives. La nullité de l’erreur moyenne revient à admettre qu’en moyenne le modèle est correctement spécifié et donc, qu’en moyenne, l’erreur est nulle. Ainsi : E4Y2 6 = E8β^ + β X2 + u2 < = β^ + β X2 + E4u2 6 = β^ + β X2 3.14 29 Cette hypothèse implique, sur le plan économique, que le terme d’erreur u2 regroupe l’ensemble des causes aléatoires diverses qui font dévier Y2 de sa valeur théorique 8Y2 = β^ + β X2 < mais dont aucune n’est de poids à déformer la moyenne de u2 vers une valeur systématique H– : Le terme d’erreur u2 a une variance constante et finie. En effet : différente de zéro. Var4u2 6 = E˜u2 − E4u2 6™H = E4uH2 6 , car E4u2 6 = 0 = σHš = constante, ∀t 3.15 Cette restriction implique que le terme stochastique provient, pour toute la période prise en considération, de la même population ayant la même variabilité. Pour l’économiste, cette restriction l’oblige à accepter que les causes explicatives ignorées dans son modèle influent pratiquement de façon constante sur la variable endogène. Lorsque cette hypothèse est réalisée, on dit qu’il y a homoscédasticité des erreurs (c'est-à-dire même dispersion ou bien variance égale). Dans le cas contraire où cette hypothèse n’est pas vérifiée, on par alors de l’hétéroscédasticité des erreurs. Y2 soit constante et finie. En effet : L’hypothèse de l’hétéroscédasticité implique également que la variancce de Var4Y2 6 = E˜Y2 − E4Y2 6™H = Eœβ^ + β X2 + u2 − β^ − β X2  H = E4uH2 6 = σHš = constante 3.16 Hz : Les erreurs u2 de périodes différentes sont non corrélées, c'est-à-dire indépendantes les une des autres. Donc une erreur à l’instant t n’a pas d’influence sur les erreur d’autres périodes. Cov8u- , u. < = Ež˜u- − E4u- 6™œu. − E8u. F;4,EH6 , on rejette H^ ; la variable x est significative ; si Fb ≤ F;4,EH6 , on accepte H^ et la variable n’est pas significative. - - Remarques Dans le modèle de régression simple, le test F n’est rein d’autre que le test appliqué à β pour juger si la variable exogene x joue un rôle significatif ou non dans l’explication de y. On dispose ainsi de deux façon de tester si x est significatif ou non, l’une basée sur le t de student, l’autre basée sur le F de Fisher. En fait, ces tests sont identiques puisque : t 4E6 H = F4,E6 comparer à la loi appropriée 4t ou F6 pour tester si x est significatif. Ces deux Donc, on peut utiliser indifféremment chacune de ces statistiques et les approches donnent d’ailleurs la même réponse à la question : " X joue-t-il un rôlesignificatif dans la détermination de Y ? 3.8.4. Test de normalité Pour définir la loi de probabilité de coefficients estimés par la méthode des moindres et effectuer les tests de signification sur ces coefficients, il convient de vérifier La normalité des erreurs. Le test de Jarque et Bera, fondé sur la notion de Skewness (asymétrie) et de Kurtosis (aplatissement), permet de vérifier la normalité d’une distribution statistique. Basé sur les résidus de la régression, le test de Jarque et Bera est un test pour les grands échantillons. 3.8.4.1. Les tests du Skewness et du Kurtosis Le coefficient du Skewness est égal à : S= ã0 0/U ãU 3.112 67 Et le coefficient de Kurtosis : K= ã1 ãUU 3.113 où μ: = ∑4x2 − xO6 représente le moment centré d’ordre k.  : E Si la distribution est normale et le nombre d’observations grand 4ù > 306, alors : S~N ä0; T å E 3.114 et K~N ä3; T å H– E 3.115 On construit ainsi les statistiques : L = et LH = |2^| |4t| U1 que l’on compare à 1,96 valeur de la loi normale au T T 3 P P seuil de 5%). Si les hypothèses ^ : L = 0 (symétrie) et ^ : LH = 0 (aplatissement normal) sont vérifiées, alors L < 1,96 et LH < 1,96 ; dans ce cas contraire, l’hypothèse de normalité est rejetée. 3.8.4.2. Le test de JARQUE et BERA Kurtosis. En effet, si + et  obéissent à des lois normales, alors la statistique : Il s’agit d’un test de normalité qui synthétise les tests de Skewness et de JB = S H + H– 4K − 36H E E 3.116 H suit une loi du khi-carré à deux degrés de liberté 4H6. La formulation de l’hypothèse est donc : ^ : les résidus sont normalement distribués ; Contre ^ : les résidus ne sont pas normalement distribués. Et la règle de décision pour un seuil spécifié  est la suivante : - Si 6« < ;4H6 H où accepte l´hypothèse ^ de normalité des résidus au seuil  ; - Si 6« ≥ ;4H6 H où rejette l´hypothèse ^, donc la distribution des résidus n’est pas normale. 68 3.9. LA PREVISION DANS LE MODELE DE REGRESSION SIMPLE L’un des objectifs essentiels de l’économétrie est de fournir des prévisions. Lorsque les coefficients du modèle ont été estimés, il est possible de calculer les prévisions à un horizon h. Soit le modèle estimé sur la prévision Ê = 1,2, … ….. , ù : §2 = β̈^ + β̈ X 2 Y 3.117 Si la valeur de la variable explicative  est supposée connue en la période Ê + ℎ, c'est-à-dire 7 , la prévision ponctuelle est donnée par : §28 = β̈^ + β̈ X28 Y 3.118 La vraie valeur prise par y lors de la période sur laquelle porte la prévision sera : 7 = ­^ + ­ 7 + 97 3.119 Où 97 est le terme d’erreur lors de la période Ê + ℎ. Ainsi, l’erreur de prévision peut être définie par : ¬7 = 7 – ¨7 = 97 − 8­®^ − ­^ < − 8­® − ­ < 7 3.120 En se référant aux hypothèses fondamentales du modèle, on a : 1. Espérance mathématique de l’erreur de prévision 4¬7 6 = 0 3.121 Car 497 6 = 0 et que ­® et ­®^ sont respectivement les estimateurs non biaisés de ­^ et ­. Est une prévision non biaisée de 7. 2. Variance de l’erreur de prévision Var4e28 6 = Eœ8Y28 − Y§28 < − E8Y28 − Y §28 é = + ,/4ù − 26 51959,8120 51959,8120 = = 3505,0971/9 389,45523 = 122,41665 Alors que &^,yz ;4;y6 = 5,12. Donc, nous rejetons ^ ∶ ­ = 0 Le test d’analyse de la variance n’est ici rien d’autre que le appliqué à ­ pour juger si X joue un rôle significatif ou non : c’est le même test sous une autre forme. 4. Prévision En supposant que le chiffre d’affaire en 2000 est de 1772 millions de FC, le nombre des salariés prévu pour cette période est donc : 1 ^− O  = ¨H^^^ ± Ê^.^Hz ± f1 + + ù ∑ ¾H 1 41772 − 9206² = 652 ± 42.2626419.734626f1 + + 11 532852.5450 = 652 ± 70 Donc 582 < H^^^ < 722 Ex – post, on observe H^^^ = 514 (en millions). Il semble que l’on doive douter de l’utilisation en prévision du modèle ainsi ajusté. Exemple 2. Soit la fonction de demande keynésienne : = B^ + B ½C Où = consommation ; ½C = revenu disponible ; B^ = consommation autonome ou disponible ; B = propension marginale à consommer. Les données statistiques sur le niveau de consommation et du revenu disponible pour la période allant de 1993 à 2002 sont reproduites dans le 75 tableau ci – après : Année Consommation Revenu disponible 1993 7.4 8.0 1994 8.2 9.0 1995 8.8 9.5 1996 8.7 9.5 1997 8.8 9.8 1998 9.6 11.0 1999 10.6 12.0 2000 11.2 13.0 2001 12.8 15.0 2002 13.9 16.0 76 Ê   ½ ¾ ¾ ½ ¾H ½H ½± ¬ ¬H ½±H H  1993 7.4 8.0 -2.6 -3.28 8.5280 10.7584 6.76 -2.57109 -0.02891 0.00084 6.61050 64.00 1994 8.2 9.0 -1.8 -2.28 4.1040 5.1984 3.24 -1.78722 -0.01278 0.00016 3.19416 81.00 1995 8.8 9.5 -1.2 -1.78 2.1360 3.1684 1.44 -1.30529 0.19529 0.03814 1.94683 90.25 1996 8.7 9.5 -1.3 -1.78 2.3140 3.1684 1.69 -1.30529 0.09529 0.00908 1.94683 90.25 1997 8.8 9.8 -1.2 -1.48 1.7760 2.1904 1.44 -1.16013 -0.03987 0.00159 1.34590 96.04 1998 9.6 11.0 -0.4 -0.28 0.1120 0.0784 0.16 -0.21948 -0.18052 0.03259 0.04817 121.00 1999 10.6 12.0 0.6 0.72 0.4320 0.5184 0.36 0.56439 0.03561 0.00127 0.13854 144.00 2000 11.2 13.0 1.2 1.72 2.0640 2.9584 1.44 1.34826 -0.14826 0.02198 1.81781 169.00 2001 12.8 15.0 2.8 3.72 10.4160 13.8384 7.84 2.91600 -0.11600 0.01346 8.50306 225.00 2002 13.9 16.0 3.9 4.72 18.4080 22.2784 15.21 3.69987 0.20013 0.04005 13.68904 256.00 ¯ 100.0 112.8 0 0 50.2900 64.1560 39.58 0.00002 -0.00002 0.15916 39.42084 1336.54 ∑ ¾ 112.8 O= = = 11.28 ù 10 ∑ ½ 100.0 O = = = 10.0 ù 10 77 III. Calcul des estimations de ­®^ ¬Ê ­® ∑SF ¾ ½ 50.29 ­® = = = 0.78387 ∑F ¾ S H 64.1560 ­®^ = O − ­® O = 10.0 − 40.783876411; 286 = 10.0 − 8.84205 = 1.15795 Donc : ½± = 0.78387¾ (1) Ou bien : ¨ = 1.15795 + 0.78387¾ (2) IV. Décomposition de la somme des carrées S + - = ¯ ½H = 39.58 F S + = ­®H ¯ ¾H = 40.783876H 464.15606 = 39.4208 F + , = ¯ ¬H = + - − +  = 39.58 − 39.4208 = 0.1592 V. Le coefficient de détermination +  39.4208 ,² = = = 0.99598 + - 39.58 La part de la variation de la consommation expliquée par la régression linéaire est de 99%. VI. Calcul des variances 1. Estimation de la variance de l’erreur ∑ ¬H 0.1592 ±H = = = 0.0199 ù − 2 410 − 26 et son écart – type est égal à : ± = √0.0199 = 0.1411 2. Variance estimée de ­® ±H 0.0199 ±§HR = = = 0.00031 ∑F ¾H S 64.1560 78 et ±§R 0.01761 3. Variance estimée de ­®^ ∑SF H 41336.546 ±§H€ = ±H. = 0.0199 = 0.04146 ù. ∑F ¾ S H 4106464.15606 ou encore : 1 OH 1 411.286² ±§H€ = ±H ÷ + ø = 0.0199 ÷ + ø ù ∑ ¾ H 10 464.15606 = 40.0199642.08336 = 0.04146 Son écart – type est donc : ±§€ = √0.04146 = 0.20362 VII. Intervalles de confiance 1. Intervalle de confiance à 95% pour 0 ­^ ∈ ­®^ ± ±§€. Ê ; 4PU6 U ­^ ∈ 1.15795 ± 40.20362642.30606 ∈ 1.15795 ± 0.46955 Donc  = ˜0.6884 ; 1.6273™ 2. Intervalle de confiance à 95% pour ­ ­ ∈ ­® ± ±§R. Ê^.^Hz ;u ­ ∈ 0.78387 ± 40.01761642.30606 ∈ 0.78387 ± 0.04069 Donc  = ˜0.74318 ; 0.82456™ 3. Intervalle de confiance à 95% pour H H ∈ Ì ; Í 4SH6 ÆU 4SH6 ÆU U €.DEF U €.€UF ;4PU6 ;4PU6 ;u = H D’après la table du  H , avec 8 degrés de liberté, on trouve : ^.^Hz 2.18 et ^.yvz ;4SH6 = 17.53. Ainsi, un intervalle de confiance à 95% pour H H 79  = ˜0.00908 ; 0.7303™ sera donné par les valeurs comprises entre : Remarques H Notons ici que ^.yvz est un nombre dont la probabilité que le  H lui soit supérieur est égale à 0.025. de même, la probabilité pour que le  H depasse H ^.^Hz est é gale à 0.975. VIII. Tests d’hypothèses 1. Pour ­^ ^ ∶ ­^ = 0 \ a  ∶ ­^ ≠ 0 Sous l’hypothèse ^ , le ratio de Student (le t calculé) est donné par : ?­®^ ? 1.15795 ÊGÆ∗ = = = 5.69 ±§€ 0.20362 La table de Student donne : Ê^.^Hz ;u = 2.3060 Décision : ʧ∗ > Ê=@> , il y a donc rejet de l’hypothèse nulle. La constante 0 € du modèle est significativement différente de zéro. 2. Pour ­ ^ ∶ ­ = 0 \ a  ∶ ­ ≠ 0 Sous l’hypothèse ^ , le ratio de Student est égal à : ?­® ? 0.78387 ʧ∗ = = = 44.5128 ±§R 0.01761 Décision : ʧ∗ > Ê=@> , rejet de l’hypothèse nulle. R Donc la propension marginale à consommer est significativement différent de zéro. Ce résultat implique que la variable « revenu disponible » est bien explicativement de la variable « consommation ». IX. Test de Fisher 80 ^ ∶ ­ = 0 \ a  ∶ ­ ≠ 0 Sous l’hypothèse nulle ^, la statistique F de l’échantillon est donc : + /1 39.4208 &∗ = = = 1980.94 + ,/4ù − 26 40.15926/8 Alors que &^.yz ;4,u6 = 5.32 Donc, nous rejetons ^ ∶ ­ = 0. La régression est globalement significative. X. Prévision En 2003 et 2004, on prévoit respectivement 16.8 et 17.0 de revenu par habitant. Déterminer la prévision de consommation pour ces deux années ainsi que l’intervalle de prévision ou seuil de signification de 5%. 1. Prévision ponctuelle Les prévisions ponctuelles sont calculées par l’utilisation du modèle estimé. ¨H^^t = 1.15795 + 0.78387 H^^t = 1.15795 + 40.783876416.86 = 14.3 ¨H^^– = 1.15795 + 0.78387 H^^– = 1.15795 + 40.7838764176 = 14.5 2. Intervalles de prévision L’intervalle de prévision peut alors être calculé à partir de la formule ci – dessous : 1 4 H^^t − O 6² H^^t = ¨H^^t ± Ê^.^Hz ; u. ± f1 + + ù ∑SF ¾H 81 CHAPITRE 4 MODELE DE REGRESSION MULTIPLE Soient X , X H , … , X : : k variables indépendantes et non aléatoires et Y une 4.1. Exposé du problème variable aléatoire dépendant de X , X H , … , X :. On dit qu'on est en présence Y2 = β X2 + βH XH2 + ⋯ + β- X-2 + ⋯ + β: X:2 + u2 d'un modèle linéaire général quand on a la relation : où u2 est une variable aléatoire centrée de variance σš , indépendante des H (4.1) variables X - et β , βH , … , β: des paramètres réels mais inconnus. On dit que la variable à expliquer Y est une variable endogène et que les variables explicatives X , X H , … , X : sont des variables exogènes. La variable aléatoire u On désire estimer les paramètres β , βH , … , β: et la variance σHš de la variable est l'écart ou l'erreur. aléatoire u à partir d'un ensemble de n observations indépendantes : Y2 où t = 1, 2, … , n † „ et a „ ƒX-2 où i = 1, 2, … , k 4.2. Notation matricielle du modèle Y u X ⋯ X: En posant : β Y = á ⋮ â; β = “ ⋮ ” ; U = á ⋮ â ; á ⋮ ⋱ ⋮ â YE βE uE XE ⋯ X:E Y = J X β + U On obtient la forme matricielle : J J J (4.2) 4E×6 4E×:6 4:×6 4E×6 L'introduction d'un terme constant s'obtient en donnant à la valeur X1t la valeur 1 pour tout t = 1,..., n. Exemple : Considérons le modèle linéaire simple (Fonction de consommation C2 = β + βH Y2 + u2 keynésienne) : où : C2 = consommation au temps t ; ( t = 1, 2, … , n ) Y2 = revenu disponible au temps t. C = YJ J β + U Ce modèle peut aussi s’écrire sous forme de matrice comme ci-après : J J 4E×6 4E×H6 4H×6 4E×6 C β u 1 Y C = á ⋮ â ; β = “ ⋮ ” , U = á ⋮ â Y = á ⋮ ⋮ â CE βE uE 1 YE L'écriture sous forme matricielle rend plus aisée la manipulation du modèle linéaire général, c'est pourquoi nous l'adoptons par la suite. 4.3. Estimation et propriétés des estimateurs 82 4.3.1. Hypothèses d'application de la méthode des moindres carrés ordinaires. Deux catégories d'hypothèses doivent être faites pour résoudre le problème hypothèses stochastiques (liées à l'erreur u), d’une part, et des hypothèses des moindres carrés dans le cas d’un modèle linéaire général. Il s’agit des structurelles, de l’autre. A. Hypothèses stochastiques - H1 : X est une matrice non aléatoire, c’est-à-dire les valeurs de X sont observées sans erreur. - H2 : L’espérance mathématique de l’erreur est nulle. E4U6 = 0 (4.3) Cette hypothèse peut s’écrire aussi comme ci-après : E4u 6 Š  Š0 E4uH 6 ‰ Œ ‰0Œ E4U6 = ‰E4ut 6Œ = ‰0Œ ‰ ⋮ Œ ‰⋮Œ (4.4) ˆE4uE 6‹ ˆ0‹ De la relation (4.4), on déduit : E4Y6 = E4Xβ + U6 = E4Xβ6 + E4U6 = Xβ. - H3 : Var4U6 = ¡˜U − E4U6™˜U − E4U6™′¢ = E˜UU′™ = σHš I = ٚ (4.5) où ٚ est la matrice des variantes et covariances de l’erreur U. L’hypothèse H3 s’écrit en détail comme ci-dessous: u Š uH  ‰ Œ ⋯ ⋯ uE ™ E4UU′6 = E ‰ ⋮ Œ ˜u uH ‰⋮Œ ˆuE ‹ E4uH 6 E4u uH 6 ⋯ ⋯ E4u uE 6 Š  ‰E4uH u 6 E4uHH 6 ⋯ ⋯ E4uH uE 6Œ =‰ ⋮ ⋮ ⋱ ⋮ Œ ‰ ⋮ ⋮ ⋱ ⋮ Œ ˆE4uE u 6 E4uE uH 6 ⋯ ⋯ E4uHE 6 ‹ 83 1 0 ⋯ ⋯ 0 Š0 1 ⋯ ⋯ 0 ‰ Œ σHš ‰ ⋮ ⋮ ⋱ ⋮ Œ = σHš I = Ω Kš ‰⋮ ⋮ ⋱ ⋮Œ 4E×E6 ˆ0 0 ⋯ ⋯ 1‹ (4.6) En principe, on fait ici deux hypothèses : Donc E4uH2 6 = σHš , ∀t (variance constante et finie). C’est ce qu’on appelle Les lois de probabilité suivies par les erreurs U ont la même variance. l’homoscédasticité , c’est-à-dire que la dispersion ou variance du terme d’erreur est la même du début à la fin de la période. Lorsque cette hypothèse n’est pas vérifiée, on dit qu’il y a hétéroscédasticité (dispersion ou variance inégale). E8u- u. < = 0 , ∀i ≠ j Les erreurs, prises deux à deux, ne sont pas corrélées. (absence d’autocorrélation ou absence de corrélation sérielle). Si tel n’est pas le cas, on dit que les erreurs sont autocorrélées. - H4 : Le vecteur de perturbations U suit une loi normale à n dimensions. Donc : U~N40, σHš I6 (4.7) Cette hypothèse de normalité des erreurs est indispensable, comme nous l’avons souligné plus haut, si on veut utiliser le principe d’estimation du maximum de vraisemblance mais aussi pour procéder aux tests d’inférences. H5 : Covariance nulle entre U et X , c’est-à-dire : Cov8u- , X -. < = E8u- X-. < = 0 - (4.8) B. Hypothèses structurelles - H5 : absence de colinéarité entre les variables explicatives ; cela 4XX′6 existe. Donc le rang de la matrice des variables explicatives implique que la matrice (X'X) est non singulière et que la matrice doit être égal à k : ρ4X6 = k. - H6 : le nombre d'observations doit être supérieur au nombre de paramètres à estimer (n > k). 4.3.2. Estimateurs des moindres carrés ordinaires Soit le modèle sous forme matricielle à k variables explicatives et n Y = Xβ+U observations : (4.9) Le vecteur des résidus (e) s’obtient en remplaçant le vecteur inconnu des e = Y − Xβ̈ = Y − Y§ paramètres β par son estimateur β̈ dans l’équation (4.9). D’où : (4.10) Pour déterminer l’estimateur de β, on applique le principe de la méthode des ee’, soit : moindres carrés qui consiste à minimiser la somme des carrés des résidus : 84 Min eØ e = Min ∑E2F eH2 = Min ∑E2F ÏY2 − 8β̈ + β̈H X H2 + ⋯ + β̈: X :2 < Ð H (4.11) E En écriture matricielle, on sait que : § 1 (le Produit National Brut augmente plus vite La valeur de RH = 0,99 signifie qu’environ 99 % de la variation du logarithme que les facteurs de production). du Produit National Brut sont expliqués par les logarithmes des quantités de travail et de capital. d) Test d’hypothèse de significativité du coefficient βt 4) Tests statistiques HO : β3 = 0 H1 : β3 ≠ 0 Le facteur travail a-t-il une influence significative sur le Produit National Brut ? β̈t 1,41 La valeur du ratio de Student permet de répondre à cette question. En effet : t bcdbšdé = i i=j j = 15,84. σ ÆÝ0 0,089 Au seuil de 5 %, la lecture de la table de Student donne t (^,^Hz; t^) = 2,042. Le ratio de Student est supérieur à t (^,^Hz; t^) , le coefficient β3 est significativement différent de 0 ; le facteur travail a une influence significative e) Test d’hypothèse sur βH sur le produit national brut. HO : βH = 0,40 H1 : βH ≠ 0,40 β̈H − 0,40 0,41 − 0,40 Sous hypothèse nulle, alors : t bcdbšdé = i i=j j = 0,20. σ ÆÝU 0,050 La valeur de tcal est inférieure à t (^,^Hz; t^) = 2,042 : on accepte l'hypothèse nulle HO que βH = 0,40. HO : βH = βt = 0 f) Test de significativité globale du modèle H1 : ∃ au moins un coefeicient non nul 129 RH ⁄(k − 1) 0,9937/2 Sous hypothèse nulle, la statistique Fisher empirique est égal à : Fbcd = = = 2365,95. (1 − R )⁄(n − k) (1 − 0,9937)/30 H k − 1 = 3 − 1) degrés de liberté au numérateur et 30 (c’est-à- Au seuil de 5 %, la valeur critique fournie par la table de Fisher pour 2 (c’est-à- dire n − k = 33 − 3) degrés de liberté au dénominateur est F(H ; t^) = 3,32. dire Puisque Fbcd > F(H ; t^), nous rejetons l’hypothèse de nullité de tous les coefficients, la régression est globalement significative. 4.13. Tests de stabilité Les tests de stabilité des paramètres estimés du modèle de régression, appelés aussi tests de robustesse du modèle estimé, visent à vérifier si les valeurs des coefficients estimés sont stables sur l’ensemble de la période d’étude considérée. On cherche donc à vérifier s’il n’y a pas eu de changements structurels entre la variable expliquée et les variables explicatives. Notons que l’instabilité des paramètres peut avoir plusieurs sources attribuables soit aux forces externes, aux calamités naturelles ou aux variations de politique économique. Il existe diverses méthodes pour détecter l’instabilité des coefficients estimés d’un modèle de régression. Nous allons exposer deux types de tests de stabilité des coefficients : - le test de Chow ; - les tests Cusum et Cusum Carré de Brown, Durbin et Evans. 4.13.1. Test de Chow Le test de Chow, appelé aussi test de changement structurel, permet d'examiner si les coefficients d'une régression sont stables par rapport aux observations utilisées. Sur des séries temporelles, on compare les estimations effectuées sur deux (ou plusieurs) sous ensembles d'observations qui correspondent à un découpage en périodes de l'échantillon initial. On parle dans ce cas de test de stabilité temporelle de la régression. Sur les données en coupe transversale, on peut comparer les résultats obtenus par exemple sur des individus, des pays, des régions, des secteurs industriels différents. Concernant les individus, on peut s'intéresser à des résultats par classe d'âge, par sexe, etc. Dans ce cas, le test de Chow est utilisé afin de déterminer si des groupes d’individus sont homogènes ou pas. On parle alors de test d'homogénéité des comportements. Y = J X β + U Considérons le modèle linéaire général suivant, pour t=1,2,…,n : J J J (4.1) (E×) (E×:) (:×) (E×) périodes distinctes (n et nH ; n + nH = n6 et que l’on estime les deux Supposons que l’on divise l’échantillon d’observations en deux sous- Y K = X βJ + U modèles suivants : K K (4.2) 4ER ×6 4ER ×:6 4:×6 4ER ×6 et 130 Y KH = X KH β KH + U KH (4.3) (EU ×) (EU ×:) (:×) (EU ×) On se pose le problème de la stabilité des coefficients du modèle dans le temps. Le principe du test est de voir dans quelle mesure le fait de régresser séparément sur les deux sous périodes améliore le résultat de la régression. Ce test portera sur les sommes des carrés des résidus (variances résiduelles). Le test de Chow consiste à tester l’hypothèse nulle : β^ = βH^ = β^ † „ β = βH = β a H^ ∶ ⋮ (4.4) „ ⋮ ƒβ: = βH: = β: H^ ∶ SCR = SCR + SCR H (stabilité) De manière équivalente, ce test peut s’écrire comme suit : H ∶ SCR ≠ SCR + SCR H (instabilité) (4.5) Les étapes de test de Chow sont les suivantes : (SCR) correspondante, avec (n − K) degrés de liberté. - Estimer le modèle (4.1) et calculer la somme des carrés des résidus résidus (SCR ) correspondante, avec (n − K) degrés de liberté. - Estimer ensuite le modèle (4.2) et calculer la somme des carrés des résidus (SCR H ) correspondante, avec (nH − K) degrés de liberté. - Estimer enfin le modèle (4.3) et calculer la somme des carrés des - Calculer SCR t = SCR + SCR H , (n − K) + (nH − K) = (n − 2K) degrés de liberté. - Calculer la statistique de test : ˜SCR − (SCR + SCR H )™⁄K Fbcd = (4.6) (SCR + SCR H )⁄(n − 2K) 131 où K = k + 1 est le nombres des coefficients du modèle. structurel, une loi de Fisher avec respectivement K degrés de liberté pour le Cette statistique suit, sous l'hypothèse nulle d’absence de changement numérateur et (n − 2K) degrés de liberté pour le dénominateur. - Si Fbcd < F(h,EHh) , on accepte l?

Use Quizgecko on...
Browser
Browser