Tema 5: Modelo de Regresión Lineal Clásico - PDF
Document Details
Uploaded by Deleted User
Grado en Administración y Dirección de Empresas
Beatriz García-Carro Peña
Tags
Summary
Este documento presenta el tema 5 sobre el modelo de regresión lineal clásico, incluyendo sus hipótesis, estimación de parámetros, análisis de bondad de ajuste y los estimadores como variables aleatorias. El texto describe el modelo de regresión lineal múltiple y las hipótesis del modelo, incluyendo detalles sobre los regresores y la perturbación aleatoria. Un ejemplo de aplicación sería la explicación de la variable endógena, tal como la variable Y, basada en variables de regresores X.
Full Transcript
Tema 5.-El modelo de regresión lineal clásico Estadística e Introducción a la Econometría (Grado en ADE) Beatriz García-Carro Peña...
Tema 5.-El modelo de regresión lineal clásico Estadística e Introducción a la Econometría (Grado en ADE) Beatriz García-Carro Peña Tema 5: El modelo de regresión lineal clásico (MRLC) Hipótesis Estimación de los parámetros Análisis de la bondad del ajuste Los estimadores como variables aleatorias 5.1.- EL MODELO DE REGRESIÓN LINEAL MÚLTIPLE Y LAS HIPÓTESIS DEL MODELO. 5.1.1.- El modelo de regresión lineal. En el modelo de regresión lineal múltiple, el regresando o variable endógena, es una función lineal de k regresores y una perturbación aleatoria; además, suele incluir un término independiente. La expresión matemática del modelo teórico de regresión lineal viene dada por: 𝑦𝑦t = β0 + β1 𝑥𝑥1t + β2 𝑥𝑥2t + ⋯.. +βk 𝑥𝑥kt + 𝜀𝜀𝑡𝑡 t = 1,2, … … , T que incluye: Y, variable endógena, dependiente o variable que se quiere explicar X1, X2, …., Xk variables explicativas (también llamados regresores, además este modelo incluye el regresor ficticio o regresor constante X0 (toma siempre el mismo valor, uno, para todas las observaciones). β0, β1,…., βk parámetro fijos y desconocidos (también llamados coeficientes de regresión). ε, la perturbación aleatoria que le da carácter estocástico a la expresión. Podemos escribir la ecuación del modelo para cada una de las observaciones de la siguiente manera: 𝑦𝑦 = 𝛽𝛽0 + 𝛽𝛽1 𝑥𝑥11 + 𝛽𝛽2 𝑥𝑥21 + ⋯.. +𝛽𝛽𝑘𝑘 𝑥𝑥𝑘𝑘1 + 𝜀𝜀1 ⎧ 1 ⎪ 𝑦𝑦2 = 𝛽𝛽0 + 𝛽𝛽1 𝑥𝑥12 + 𝛽𝛽2 𝑥𝑥22 + ⋯.. +𝛽𝛽𝑘𝑘 𝑥𝑥𝑘𝑘2 + 𝜀𝜀2 ⋮ ⎨ ⋮ ⎪ ⎩𝑦𝑦𝑇𝑇 = 𝛽𝛽0 + 𝛽𝛽1 𝑥𝑥1𝑇𝑇 + 𝛽𝛽2 𝑥𝑥2𝑇𝑇 + ⋯.. +𝛽𝛽𝑘𝑘 𝑥𝑥𝑘𝑘𝑘𝑘 + 𝜀𝜀𝑇𝑇 También podemos expresar el modelo de forma matricial: 𝑦𝑦1 1 𝑥𝑥11 𝑥𝑥21 … 𝑥𝑥𝑘𝑘1 𝛽𝛽0 𝜀𝜀1 𝑦𝑦 𝑥𝑥12 𝑥𝑥22 … 𝑥𝑥𝑘𝑘2 ⎞ ⎛ 𝛽𝛽1 ⎞ ⎛ 𝜀𝜀2 ⎞ ⎛ ⎞ ⎛1 2 ⎜ ⋮ ⎟ = ⎜⋮ ⋮ ⋮ ⋮ ⋮ ⎟ ⎜𝛽𝛽2 ⎟ + ⎜ ⋮ ⎟ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ 𝑦𝑦 ⎝ ⎠ ⎝ 𝑇𝑇 1 𝑥𝑥1𝑇𝑇 𝑥𝑥2𝑇𝑇 … 𝑥𝑥𝑘𝑘𝑘𝑘 ⎠ ⎝𝛽𝛽𝑘𝑘 ⎠ ⎝𝜀𝜀𝑇𝑇 ⎠ 𝑌𝑌 = 𝑋𝑋𝑋𝑋 + 𝜀𝜀 𝑌𝑌𝑇𝑇×1 = 𝑋𝑋𝑇𝑇×(𝑘𝑘+1) 𝛽𝛽(𝑘𝑘+1)×1 + 𝜀𝜀𝑇𝑇×1 1 Tema 5.-El modelo de regresión lineal clásico Estadística e Introducción a la Econometría (Grado en ADE) Beatriz García-Carro Peña Combinado ambas nomenclaturas podemos escribir una observación concreta, por ejemplo, la segunda observación, de la siguiente manera: 𝛽𝛽0 𝛽𝛽 ⎛ 1⎞ 𝑦𝑦2 = 𝛽𝛽0 + 𝛽𝛽1 𝑥𝑥12 + 𝛽𝛽2 𝑥𝑥22 + ⋯.. +𝛽𝛽𝑘𝑘 𝑥𝑥𝑘𝑘2 + 𝜀𝜀2 → 𝑦𝑦2 = (1 𝑥𝑥12 𝑥𝑥22 …. 𝑥𝑥𝑘𝑘2 ) ⎜𝛽𝛽2 ⎟ + 𝜀𝜀2 ⎜. ⎟ ⋮ ⎝𝛽𝛽𝑘𝑘 ⎠ 𝑦𝑦2 = 𝑋𝑋2́ 𝛽𝛽 + 𝜀𝜀2 , donde 𝑋𝑋2́ es el vector fila 1· (k+1) 5.1.2.- Hipótesis del modelo. La idea básica de la regresión consiste en obtener las mejores estimaciones posibles de los parámetros 𝛽𝛽0 , 𝛽𝛽1 , …. , 𝛽𝛽𝑘𝑘 a partir de una muestra, los estimadores los llamamos b0, b1,…,bk (aunque en algunos libros se denominan 𝛽𝛽̂0 , 𝛽𝛽̂1 , …. , 𝛽𝛽̂𝑘𝑘 ). Partiendo del modelo: 𝑦𝑦t = β0 + β1 𝑥𝑥1t + β2 𝑥𝑥2t + ⋯.. +βk 𝑥𝑥kt + 𝜀𝜀𝑡𝑡 t = 1,2, … … , T El objetivo es estimar los parámetros y obtener: y t = b0 + b1 x1t + b2 x2t + ⋯.. +bk xkt t = 1,2, … … , T Pero necesitamos formular un conjunto de supuestos o requisitos estadísticos para poder obtener las mejores estimaciones de los parámetros (utilizando el método de los mínimos cuadrados ordinarios). Al conjunto de supuestos que vamos a formular se les denomina supuestos del modelo de regresión lineal clásico (MRLC). Es importante destacar que estos supuestos estadísticos o hipótesis son muy simples, y que los estimadores obtenidos por el método de los mínimos cuadrados ordinarios (MCO) tienen, bajo estos supuestos, muy buenas propiedades. Hipótesis sobre la especificación del modelo: - El modelo está correctamente especificado. Esto significa que el modelo incluye todas las variables explicativas relevantes y no incluye ninguna variable explicativa irrelevante; además, no existen errores de medida en las variables. Difícil de creer, muchas veces se omiten variables explicativas porque no se sabe o porque no sabemos cómo medirla. Entonces lo que sucede es que la relación entre las variables explicativas y la variable que queremos explicar viene determinada por otras variables que no se han tenido en cuenta (endogeneidad). - Linealidad: la relación entre la variable endógena y las variables explicativas es lineal. 𝑦𝑦i = β1 + β2 𝑥𝑥2i + β3 𝑥𝑥3i + ε𝑖𝑖 𝑆𝑆𝑆𝑆 𝑙𝑙𝑙𝑙𝑙𝑙i = β1 + β2 𝑙𝑙𝑙𝑙𝑙𝑙2i + β3 𝑥𝑥3i + ε𝑖𝑖 𝑆𝑆𝑆𝑆 𝑦𝑦i = β1 + β2 𝑥𝑥2i + β3 2 𝑥𝑥3i + ε𝑖𝑖 𝑁𝑁𝑁𝑁 2 Tema 5.-El modelo de regresión lineal clásico Estadística e Introducción a la Econometría (Grado en ADE) Beatriz García-Carro Peña - Estabilidad estructural: significa que los parámetros 𝛽𝛽0 , 𝛽𝛽1 , …. , 𝛽𝛽𝑘𝑘 son desconocidos pero constantes, es decir, la relación entre las X´s y la Y es estable para un determinado contexto espacial o temporal. Hipótesis sobre los regresores (o variables explicativas): - Los regresores son no estocásticos, es decir, son constantes. Esto significa que los valores de las variables explicativas se mantienen fijas. Es como si el investigador fija los valores que las variables explicativas tienen en la muestra; de modo que, si se obtiene otra muestra diferente los valores de Y cambian, pero los valores de las variables explicativas no. Normalmente, los valores de X e Y deberían cambiar si se toman muestras diferentes. Si asumimos que, en diferentes muestras del mismo tamaño, la columna X no cambia, sería igual en todas las tablas. Este supuesto es poco realista, pero nos facilita los cálculos matemáticos. - No existen relaciones lineales exactas entre las variables explicativas, esto es lo que se conoce como ausencia de multicolinealidad perfecta. Dicho de otra manera, ninguna variable explicativa puede obtenerse como combinación lineal exacta de otras. Esta hipótesis se conoce también con el nombre de hipótesis de rango pleno (𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟(𝑋𝑋) = 𝑘𝑘 + 1). Si se incumple, el rango de la matriz X no sería el máximo posible y no se podría estimar el modelo. Recuerda que el rango de una matriz es 1 𝑥𝑥11 𝑥𝑥21 … 𝑥𝑥𝑘𝑘1 el número máximo de filas o columnas 𝑥𝑥12 𝑥𝑥22 … 𝑥𝑥𝑘𝑘2 ⎞ linealmente independientes. Una matriz ⎛1 se puede invertir si su determinante es 𝑋𝑋 = ⎜ ⋮ ⋮ ⋮ ⋮ ⋮ ⎟ → 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟(𝑋𝑋) = 𝑘𝑘 + 1 ⋮ distinto de cero. ⋮ ⋮ ⋮ ⋮ ⎝ 1 𝑥𝑥1𝑇𝑇 𝑥𝑥2𝑇𝑇 … 𝑥𝑥𝑘𝑘𝑘𝑘 ⎠ Veamos dos ejemplos donde existe multicolinealidad grave y multicolinealidad: perfecta: Salarioi = β0 + β1 edadi + β2 años experienciai + εi ventasi = β0 + β3 precio €i + β3 precio $i + εi - El tamaño de la muestra “T” debe ser mayor que el número de regresores “k+1”. Esto significa que el modelo tiene “suficientes grados de libertad”, pues el número de observaciones siempre debe ser mayor que el número de parámetros que se desea estimar. Recuerda que hay una perturbación aleatoria para cada observación/individuo 𝜀𝜀𝑖𝑖 Hipótesis sobre la perturbación aleatoria: - La perturbación aleatoria es una variable aleatoria no observable que recoge la influencia de todos los factores que afectan a la Y cuyos efectos individuales son pequeños y que no se introducen de manera explícita en el modelo. 3 Tema 5.-El modelo de regresión lineal clásico Estadística e Introducción a la Econometría (Grado en ADE) Beatriz García-Carro Peña - El valor esperado de la perturbación aleatoria es siempre igual a cero. En concreto para cada elemento 𝐸𝐸(𝜀𝜀𝑡𝑡 ) = 0 𝑡𝑡 = 1, 2, ….. , 𝑇𝑇 - La varianza de la perturbación aleatoria es constante (en este caso se dice que la perturbación aleatoria es homocedástica). En concreto, para cada elemento 𝑉𝑉(𝜀𝜀𝑡𝑡 ) = 𝜎𝜎 2 𝑡𝑡 = 1, 2, ….. , 𝑇𝑇 - Las perturbaciones aleatorias no están correlacionadas entre sí (en este caso se dice que hay ausencia de autocorrelación). En concreto, para dos elementos 𝐶𝐶𝐶𝐶𝐶𝐶(𝜀𝜀𝑡𝑡 , 𝜀𝜀𝑠𝑠 ) = 0 𝑡𝑡 ≠ 𝑠𝑠 Veamos la expresión matricial de estas tres hipótesis: 𝐸𝐸(𝜀𝜀1 ) 0 𝐸𝐸(𝜀𝜀2 ) 0 La matriz de varianzas y covarianzas también se llama matriz de ⎛ ⎞ ⎛ ⎞ varianzas o matriz de covarianzas. Fíjate en los elementos de la - 𝐸𝐸(𝜀𝜀) = ⎜ ⎟=⎜ ⎟=0 diagonal (homocedasticidad) y en los elementos no diagonales ⎜ ⋮ ⎟ ⎜⋮⎟ (ausencia de autocorrelación). ⋮ ⋮ ⎝ 𝐸𝐸(𝜀𝜀𝑇𝑇 )⎠ ⎝ 0 ⎠ 𝑉𝑉𝑉𝑉𝑉𝑉(𝜀𝜀1 ) 𝐶𝐶𝐶𝐶𝐶𝐶(𝜀𝜀1 , 𝜀𝜀2 ) 𝐶𝐶𝐶𝐶𝐶𝐶(𝜀𝜀1 , 𝜀𝜀3 ) ⋯ ⋯ 𝐶𝐶𝐶𝐶𝐶𝐶(𝜀𝜀1 , 𝜀𝜀𝑇𝑇 ) ⎛ 𝑉𝑉𝑉𝑉𝑉𝑉(𝜀𝜀2 ) 𝐶𝐶𝐶𝐶𝐶𝐶(𝜀𝜀2 , 𝜀𝜀3 ) ⋯ ⋯ 𝐶𝐶𝐶𝐶𝐶𝐶(𝜀𝜀2 , 𝜀𝜀𝑇𝑇 ) ⎞ ⋯ … 𝑉𝑉𝑉𝑉𝑉𝑉(𝜀𝜀3 ) ⋯ ⋯ 𝐶𝐶𝐶𝐶𝐶𝐶(𝜀𝜀3 , 𝜀𝜀𝑇𝑇 )⎟ = - 𝑉𝑉(𝜀𝜀) = ⎜ ⎜ ⋯ ⋯ ⋯ ⎟ … ⋯ ⎝ 𝑉𝑉𝑉𝑉𝑉𝑉(𝜀𝜀𝑇𝑇 ) ⎠ 𝜎𝜎 2 0 0 ⋯ ⋯ 0 1 0 0 ⋯ ⋯ 0 𝜎𝜎 2 0 ⋯ ⋯ 0 1 0 ⋯ ⋯ 0 ⎛⋯ ⎞ … 𝜎𝜎 2 ⋯ ⋯ 0 = 𝜎𝜎 2 ⎛⋯ … 1 ⋯ ⋯ 0⎞ 2 ⎜ ⎜ ⋯ ⋯ ⋯⎟ ⎟ ⎜ ⎜ ⋯ ⋯ ⋯⎟⎟ = 𝜎𝜎 𝐼𝐼𝑇𝑇∗𝑇𝑇 … ⋯ … ⋯ ⎝ 𝜎𝜎 2 ⎠ ⎝ 1⎠ - La perturbación aleatoria de todas las observaciones tiene valor esperado cero, en algunas observaciones hay errores por exceso y por defecto. - La varianza de la perturbación aleatoria es constante e igual para todas las observaciones (difícil de creer en datos de corte transversal). Ejemplo: La varianza del tiempo que una persona tarda en llegar a la facultad si vive a 1 km es más pequeña de la que vive a 30 km (retrasos, atascos, accidentes), son datos de corte transversal en los que no hay homocedasticidad. - Ausencia de correlación lineal entre la perturbación aleatoria de dos observaciones, no hay relación entre lo que no explica el modelo en una observación y lo que no explica el modelo en otra observación (difícil de creer en datos temporales). Ejemplos: Si Alfonso llega un día a la facultad más tarde de lo normal no significa que Marta también llegue más tarde, son datos de corte transversal donde no hay autocorrelación. En datos temporales, suele haber autocorrelación, si ayer Alfonso tarda más en llegar por estar cansado hoy también puede tardar más pues sigue cansado o tardar menos pues ha descansado mucho. 4 Tema 5.-El modelo de regresión lineal clásico Estadística e Introducción a la Econometría (Grado en ADE) Beatriz García-Carro Peña Resumen de los supuestos del MRLC: Sobre la especificación del modelo: la selección de las variables explicativas es correcta, no hay errores de medida y la relación entre la variable a explicar y las explicativas es lineal. Sobre las variables explicativas: los regresores no son variables aleatorias (no son estocásticos), no existe ninguna relación lineal exacta entre las variables explicativas (ausencia de multicolinealidad perfecta) y el tamaño de la muestra es mayor que el número de regresores T>k+1. Sobre la perturbación aleatoria: es una variable aleatoria no observable, cuya media es nula, su varianza constante (homocedasticidad) y no están correlacionadas entre si (no autocorrelación). Una vez establecidas las hipótesis del modelo de regresión lineal clásico (MRLC) se derivan algunas características del regresando(Y): 𝑦𝑦t = β0 + β1 𝑥𝑥1t + β2 𝑥𝑥2t + ⋯.. +βk 𝑥𝑥kt + 𝜀𝜀𝑡𝑡 t = 1,2, … … , T El regresando es una variable aleatoria y sus características dependerán solo de las características de la perturbación aleatoria, que por hipótesis es un ruido blando. Por tanto: 𝑦𝑦𝑡𝑡 → 𝑣𝑣. 𝑎𝑎. 𝑡𝑡 = 1, 2, ….. , 𝑇𝑇 𝐸𝐸(𝑦𝑦t ) = β0 + β1 x1t + β2 x2t + ⋯.. +βk xkt 𝑉𝑉(𝑦𝑦t ) = V(𝜀𝜀𝑡𝑡 ) = 𝜎𝜎 2 ∀𝑡𝑡 𝑐𝑐𝑐𝑐𝑐𝑐(𝑦𝑦t , 𝑦𝑦𝑠𝑠 ) = E[ (𝑦𝑦t − 𝐸𝐸𝑦𝑦𝑡𝑡 )(𝑦𝑦s − 𝐸𝐸𝑦𝑦𝑠𝑠 )] = 𝐸𝐸(𝜀𝜀𝑡𝑡 ∙ 𝜀𝜀𝑠𝑠 ) = 0 ∀𝑡𝑡 ≠ 𝑠𝑠 Expresión matricial: 𝐸𝐸(𝑌𝑌) = 𝐸𝐸( 𝑋𝑋𝑋𝑋 + 𝜀𝜀) = 𝑋𝑋𝑋𝑋 𝑉𝑉(𝑌𝑌) = 𝑉𝑉(𝜀𝜀) = 𝜎𝜎 2 𝐼𝐼 Generalmente un modelo econométrico tiene problemas: Heterocedasticidad (cuando la variabilidad de la Y no es constante), autocorrelación (cuando Y en una observación tiene relación con la Y en otra observación), esperanza no nula (cuando el modelo no tiene término constante), exogeneidad (cuando no incluyes una variable explicativa importante y entonces la perturbación tiene relación con una X), multicolinealidad grave (variables X con mucha relación), insestabilidad estructural (cuando las circunstancias cambian), … Todo esto es muy difícil de entender pero debe quedar claro que 𝜀𝜀 es una variable aleatoria que no se observa; X1, X2, …., Xk son variables explicativas y no son aleatorias; β0, β1,…., βk no son aleatorios son parámetros que queremos estimar, Y es la variable endógena y es una variable aleatoria. 5 Tema 5.-El modelo de regresión lineal clásico Estadística e Introducción a la Econometría (Grado en ADE) Beatriz García-Carro Peña 5.2.- OBTENCIÓN DE ESTIMACIONES POR MÍNIMOS CUADRADOS ORDINARIOS (MCO). Un estimador es una función de las observaciones muestrales que permite obtener valores numéricos que se consideran representativos de un parámetro. A los valores numéricos que se obtienen al sustituir en el estimador una muestra concreta, se le denomina estimación. Si tuviéramos infinitas muestras distintas obtendríamos infinitas estimaciones distintas, aunque usáramos el mismo estimador. Pero, en la práctica, solo tenemos una muestra, por tanto, solo tenemos una estimación; una sola de los infinitos valores que puede tomar el estimador. 5.2.1.- Estimadores MCO de los parámetros β. La idea básica de la regresión consiste en obtener las mejores estimaciones b0, b1,…,bk posibles de los parámetros 𝛽𝛽0 , 𝛽𝛽1 , …. , 𝛽𝛽𝑘𝑘 a partir de una muestra. Partiendo del modelo: 𝑦𝑦t = β0 + β1 x1t + β2 x2t + ⋯.. +βk xkt + ε𝑡𝑡 t = 1,2, … … , T El objetivo es estimar los parámetros y obtener: y t = b0 + b1 x1t + b2 x2t + ⋯.. +bk xkt t = 1,2, … … , T 𝛽𝛽𝑖𝑖 son parámetros desconocidos, 𝛽𝛽̂𝑖𝑖 = 𝑏𝑏𝑖𝑖 son estimadores v.a y el valor concreto 𝑏𝑏𝑖𝑖 = 1.3 es la estimación de los parámetros (una aproximación a su valor) El modelo escrito matricialmente: 𝑌𝑌 = 𝑋𝑋𝑋𝑋 + 𝜀𝜀 b1 b2 El objetivo es obtener: = 𝑏𝑏 = 𝛽𝛽̂ ⋮ bk Si denominamos errores a la diferencia entre los valores observados y estimados del regresando: 𝑒𝑒𝑡𝑡 = 𝑦𝑦𝑡𝑡 − 𝑦𝑦 𝑡𝑡 𝑡𝑡 = 1, … … , 𝑇𝑇 e1 e2 𝑒𝑒 = 𝑌𝑌 − 𝑌𝑌 = ⋮ eT Hay que tener cuidado y no confundir el error o residuo “e” con la perturbación aleatoria “ε”. El error se puede calcular, pues es la diferencia entre el Y observado y el Y estimado (es una variable aleatoria observable); pero “ε”, es una variable aleatoria inobservada. El error se puede entender como un estimador de la perturbación aleatoria El método de estimación MCO trata de obtener los estimadores de tal forma que se minimice la suma de los cuadrados de los errores. De esta forma cuanto más pequeño sea el error mejor será la estimación. 6 Tema 5.-El modelo de regresión lineal clásico Estadística e Introducción a la Econometría (Grado en ADE) Beatriz García-Carro Peña 𝑇𝑇 𝑇𝑇 𝑇𝑇 𝑆𝑆𝑆𝑆𝑆𝑆 = 𝑒𝑒𝑡𝑡2 = (𝑦𝑦𝑡𝑡 − 𝑦𝑦 𝑡𝑡 )2 = (𝑦𝑦t − b0 − b1 x1t − b2 x2t − ⋯.. −bk xkt )2 𝑡𝑡=1 𝑡𝑡=1 𝑡𝑡=1 El vector que minimiza la SCE y, por tanto, el vector de los parámetros estimados por MCO es: 𝑏𝑏0 𝑏𝑏 ⎛ 1⎞ 𝑏𝑏 ⎜ 2 ⎟ = 𝑏𝑏 = (𝑋𝑋´𝑋𝑋)−1 𝑋𝑋´𝑌𝑌 ⎜⋮⎟ ⋮ ⎝𝑏𝑏𝑘𝑘 ⎠ Donde: ∑ 𝑥𝑥1𝑡𝑡 ∑ 𝑥𝑥2𝑡𝑡 … ….. … ∑ 𝑥𝑥𝑘𝑘𝑘𝑘 ∑ 𝑦𝑦𝑡𝑡 𝑇𝑇 2 ∑ 𝑥𝑥1𝑡𝑡 𝑦𝑦𝑡𝑡 ⎛ ⋮ ∑ 𝑥𝑥1𝑡𝑡 ∑ 𝑥𝑥1𝑡𝑡 𝑥𝑥2𝑡𝑡 ∑ 𝑥𝑥1𝑡𝑡 𝑥𝑥𝑘𝑘𝑘𝑘 ⎞ ⎛ ⎞ 𝑋𝑋´𝑋𝑋 = ⎜ ⋮ 2 ∑ 𝑥𝑥2𝑡𝑡 ∑ 𝑥𝑥2𝑡𝑡 𝑥𝑥𝑘𝑘𝑘𝑘 ⎟ 𝑋𝑋´𝑌𝑌 = ⎜ ⎟ ⎜ ⋮ ⎟ ⋮ 2 ⋮ ⎝ ⋮ ⋮ ∑ 𝑥𝑥𝑘𝑘𝑘𝑘 ⎠ ⎝∑ 𝑥𝑥𝑘𝑘𝑘𝑘 𝑦𝑦𝑡𝑡 ⎠ Un caso particular es el modelo con una variable explicativa: 𝑦𝑦t = β0 + β1 𝑥𝑥t + ε𝑡𝑡 t = 1,2, … … , T El objetivo es estimar los parámetros y obtener: y t = b0 + b1 xt t = 1,2, … … , T 𝑐𝑐𝑐𝑐𝑐𝑐(𝑋𝑋, 𝑌𝑌) b b = 0 = 𝑏𝑏 = (𝑋𝑋´𝑋𝑋)−1 𝑋𝑋´𝑌𝑌 → 1 𝑆𝑆𝑥𝑥2 b1 b0 = 𝑌𝑌 − b1 𝑋𝑋 5.2.2.- Interpretación de los estimadores MCO de los parámetros β. b0 es la estimación de la ordenada en el origen, indica el valor estimado que toma la variable explicada o regresando cuando todas las variables explicativas se anulan. No suele proporcionar desde el punto de vista económico información relevante, porque lo más frecuente es que algunas de las variables explicativas no pueden anularse. bi para i=1, 2, …,k es la estimación de los coeficientes angulares, indica la variación estimada que se produce en el regresando ante una variación unitaria en la i-ésima variable explicativa, suponiendo que todas las demás permanecen constantes. Es muy importante en la interpretación de los coeficientes angulares tener en cuenta la cláusula céteris paribus. 5.2.3.- Estimador MCO de la varianza de la perturbación aleatoria. La varianza de la perturbación aleatoria (𝜎𝜎 2 ) es otro parámetro desconocido del modelo que también necesitamos estimar. Como “e” es un estimador de “ε”, parece razonable estimar la varianza de la perturbación aleatoria con la varianza muestral de error: 7 Tema 5.-El modelo de regresión lineal clásico Estadística e Introducción a la Econometría (Grado en ADE) Beatriz García-Carro Peña ∑𝑇𝑇𝑡𝑡=1(𝑒𝑒𝑡𝑡 − 𝑒𝑒̅ )2 ∑𝑇𝑇𝑡𝑡=1 𝑒𝑒𝑡𝑡2 𝑆𝑆𝑆𝑆𝑆𝑆 𝜎𝜎 2 = = = (ya que: e = 0 si el modelo tiene ordenada en el origen) 𝑇𝑇 𝑇𝑇 𝑇𝑇 Este estimador es la varianza muestral del error, pero cuando calculamos SCE, de los T datos iniciales se han usado k+1 para obtener las estimaciones de los parámetros β, de manera que observaciones libres o grados de libertad solo tenemos T-(k+1). Por eso, para estimar la varianza de la perturbación se usa el siguiente estimador: La ventaja de este estimador es ser un ∑𝑇𝑇𝑡𝑡=1 𝑒𝑒𝑡𝑡2 𝑆𝑆𝑆𝑆𝑆𝑆 estimador insesgado de la varianza de la 𝑆𝑆 2 = = perturbación aleatoria: 𝑇𝑇 − 𝑘𝑘 − 1 𝑇𝑇 − 𝑘𝑘 − 1 𝐸𝐸(𝑆𝑆 2 ) = 𝜎𝜎 2 A la raíz cuadrada, S, se le denomina error estándar de la regresión y es un estimador insesgado de σ. En los programas informáticos a S se le llama (SE of regression o D.T. de la regresión) Estimar la varianza de la perturbación aleatoria en un modelo econométrico es importante por varias razones: la varianza de la perturbación nos ayuda a entender la cantidad de variabilidad en los datos que no se puede explicar por las variables explicativas del modelo. Esto es crucial porque nos permite evaluar la precisión de nuestras estimaciones y la fiabilidad de las predicciones que hacemos. Además, conocer la varianza de la perturbación es fundamental para realizar inferencias estadísticas, como calcular intervalos de confianza y realizar pruebas de hipótesis. Sin una estimación adecuada de esta varianza, podríamos llegar a conclusiones erróneas sobre la relación entre las variables. En la práctica, para calcular la SCE se pueden utilizar los errores, pero el proceso es tedioso, así que resulta más cómodo utilizar la expresión matricial de la SCE: 𝑇𝑇 𝑆𝑆𝑆𝑆𝐸𝐸 = 𝑒𝑒𝑡𝑡2 = 𝑒𝑒´𝑒𝑒 = 𝑌𝑌 − 𝑌𝑌 ´ 𝑌𝑌 − 𝑌𝑌 = (𝑌𝑌 − 𝑋𝑋𝑋𝑋)´(𝑌𝑌 − 𝑋𝑋𝑋𝑋) = 𝑇𝑇=1 (𝑌𝑌´ − 𝑏𝑏´𝑋𝑋´) (𝑌𝑌 − 𝑋𝑋𝑋𝑋) = 𝑌𝑌´𝑌𝑌 − 𝑌𝑌´𝑋𝑋𝑋𝑋 − 𝑏𝑏´𝑋𝑋´𝑌𝑌 + 𝑏𝑏´𝑋𝑋´𝑋𝑋𝑋𝑋 = 𝑌𝑌´𝑌𝑌 − 2 𝑏𝑏´𝑋𝑋´𝑌𝑌 + 𝑏𝑏´𝑋𝑋´𝑋𝑋𝑋𝑋 = 𝑌𝑌´𝑌𝑌 − 2 𝑏𝑏´𝑋𝑋´𝑌𝑌 + 𝑏𝑏´𝑋𝑋´𝑋𝑋(𝑋𝑋´𝑋𝑋)−1 𝑋𝑋´𝑌𝑌 = 𝑌𝑌´𝑌𝑌 − 2 𝑏𝑏´𝑋𝑋´𝑌𝑌 + 𝑏𝑏´𝑋𝑋´𝑌𝑌 = 𝑌𝑌´𝑌𝑌 − 𝑏𝑏´𝑋𝑋´𝑌𝑌 Veamos un ejemplo: y 𝑖𝑖 = −0.5 + 0.75X1i + 0.25X2i e𝑖𝑖 = 𝑦𝑦𝑖𝑖 − y 𝑖𝑖 8 Tema 5.-El modelo de regresión lineal clásico Estadística e Introducción a la Econometría (Grado en ADE) Beatriz García-Carro Peña Yi X1i X2i Y estimado ei ei*ei 8 10 2 7,5 0,5 0,25 8 12 1 8,75 -0,75 0,5625 13 16 3 12,25 0,75 0,5625 10 13 2 9,75 0,25 0,0625 11 15 4 11,75 -0,75 0,5625 5.2.4.- Interpretación de los estimadores MCO en distintos modelos de regresión. Modelo en niveles: 𝑦𝑦 t = b0 + b1 𝑥𝑥1t + b2 𝑥𝑥2t + ε Efectos marginales ∂ 𝑦𝑦 ∂ 𝑦𝑦 𝑏𝑏1 = 𝜕𝜕𝑥𝑥1 𝑏𝑏2 = 𝜕𝜕𝑥𝑥2 - b0 indica el valor estimado de la variable y cuando se anulan las variables explicativas, es decir, cuando las variables x1 y x2 toman valores cero. - b1 indica, la variación estimada que se produce en el Y ante una variación unitaria en variable explicativa X1, suponiendo que todas las demás permanecen constantes. - b2 indica, la variación estimada que se produce en el Y ante una variación unitaria en variable explicativa X2, suponiendo que todas las demás permanecen constantes. Analizamos las ventas de teléfonos móviles en miles de unidades (Y) en función del salario en miles de € (X1) y del precio medio de los teléfonos móviles en cientos de € (X2): 𝑦𝑦 i = 3.1 + 1.3𝑥𝑥1i − 0.4𝑥𝑥2i b1=1.3: si salario aumenta en mil euros, se estima, por término medio, que las ventas de teléfonos móviles aumenten en 1300 unidades, manteniendo constante el precio medio de los teléfonos móviles. b2=-0.4: si el precio medio de los teléfonos móviles aumenta en cien euros, se estima, por término medio, que las ventas de teléfonos móviles disminuyan en 400 unidades, manteniendo constante el salario. Modelo con logaritmos. A veces es necesario tomar las variables en logaritmos (en verdad son neperianos, aunque se escriba como logaritmos), por ejemplo: cuando el recorrido de la variable es muy grande, cuando la distribución de frecuencias de la variable presente asimetría a la derecha, cuando los cambios relativos son más importantes en que los absolutos. 9 Tema 5.-El modelo de regresión lineal clásico Estadística e Introducción a la Econometría (Grado en ADE) Beatriz García-Carro Peña ln 𝑦𝑦t = β0 + β1 ln x1t + β2 ln x2t + ε𝑡𝑡 Elasticidades ln 𝑦𝑦t = 𝑏𝑏0 + 𝑏𝑏1 ln x1t + 𝑏𝑏2 ln 𝑥𝑥2t t ∂ 𝑦𝑦 t ∂ 𝑦𝑦 t ∂ 𝑦𝑦 𝑦𝑦t ∂ ln ∗100 𝑦𝑦t ∂ ln ∗100 𝑦𝑦t 𝑦𝑦t 𝑦𝑦t 𝑏𝑏1 = 𝜕𝜕ln x = 𝜕𝜕 x1t = 𝜕𝜕 x1t 𝑏𝑏2 = 𝜕𝜕ln x == 𝜕𝜕 x2t 1t ∗100 2t ∗100 x1t x1t x2t - b0 indica el valor estimado del logaritmo neperiano de la variable y cuando se anulan los logaritmos neperianos de las variables explicativas, es decir, cuando las variables x1 y x2 toman valores unitarios. - b1 indica, manteniendo constantes la variable x2, el porcentaje de variación estimado de la variable y cuando se produce un incremento de un 1% en la variable x1 - b2 indica, manteniendo constantes la variable x1, el porcentaje de variación estimado de la variable y cuando se produce un incremento de un 1% en la variable x2. Analizamos el logaritmo neperiano de las ventas de teléfonos móviles en miles de unidades (lnY) en función del ln del salario en miles de € (lnX1) y del ln del precio medio de los teléfonos móviles en cientos de € (lnX2): 𝑙𝑙𝑙𝑙𝑦𝑦 i = 3.1 + 1.3𝑙𝑙𝑙𝑙𝑙𝑙1i − 0.4ln𝑥𝑥2i b1=1.3: si el salario aumenta un 1% se estima, por término medio, que las ventas de teléfonos móviles aumenten un 1.3%, manteniendo constante el precio medio de los teléfonos móviles. b2= -0.4: si el precio medio de los teléfonos móviles aumenta un 1%, se estima, por término medio, que las ventas de teléfonos móviles disminuyan un 0.4%, manteniendo constante el salario. 𝑦𝑦t = β0 + β1 ln x1t + β2 ln x2t + ε𝑡𝑡 𝑦𝑦 t = 𝑏𝑏0 + 𝑏𝑏1 ln x1t + 𝑏𝑏2 ln x2t ∂ 𝑦𝑦 ∂ 𝑦𝑦 t ∂ 𝑦𝑦 ∂ 𝑦𝑦 t 𝑏𝑏1 = 𝜕𝜕ln xt = 𝜕𝜕 x1t 𝑏𝑏2 = 𝜕𝜕ln xt = 𝜕𝜕 x2t 1t 2t x1t x2t - b0 indica el valor estimado de la variable y cuando se anulan los logaritmos neperianos de las variables explicativas, es decir, cuando las variables x1 y x2 toman valores unitarios. - b1 indica, manteniendo constantes la variable x2, la variación estimada de la variable y cuando se produce un incremento en la tasa de variación de la variable x1 en una unidad. - b2 indica, manteniendo constantes la variable x1, la variación estimada de la variable y cuando se produce un incremento en la tasa de variación de la variable x2 en una unidad. Analizamos el valor añadido bruto de una industria en miles de euros (Y) en función del ln del número de empleados en cientos de personas (lnX1) y el ln de los gastos en I+D en miles de euros (lnX2): 𝑦𝑦 i = 5.54 + 344.3lnx1t + 692.01ln x2t b1=344.3, si el número de empleados aumenta un 1%, se estima, por término medio, que el VAB aumente 3443 euros, manteniendo constante los gastos en I+D. b2=692.01, si los gastos en I+D aumentan un 1%, se estima, por término medio, que el VAB aumente 6920.1 euros, manteniendo constante el número de empleados. 10 Tema 5.-El modelo de regresión lineal clásico Estadística e Introducción a la Econometría (Grado en ADE) Beatriz García-Carro Peña ln 𝑦𝑦t = β0 + β1 x1t + β2 x2t + ε𝑡𝑡 𝑦𝑦t = 𝑏𝑏0 + 𝑏𝑏1 x1t + 𝑏𝑏2 x2t ln t ∂ 𝑦𝑦 t ∂ 𝑦𝑦 𝑦𝑦t ∂ ln 𝑦𝑦t 𝑦𝑦t ∂ ln 𝑦𝑦t 𝑏𝑏1 = 𝜕𝜕x1t = 𝜕𝜕 x1t 𝑏𝑏2 = 𝜕𝜕x2t = 𝜕𝜕 x2t - b0 indica el valor estimado del logaritmo neperiano de la variable y cuando se anulan las variables explicativas. - b1 indica, manteniendo constantes la variable x2, la tasa de variación estimada de la variable y, cuando se produce un incremento unitario en la variable x1. - b2 indica, manteniendo constantes la variable x1, la tasa de variación estimada de la variable y, cuando se produce un incremento unitario en la variable x2. Analizamos el logaritmo neperiano del valor añadido bruto de una industria en miles de euros (LnY) en función del número de empleados en cientos de persona (X1) y los gastos en I+D en miles de euros (X2): i = 5.54 + 0.0048x1t + 0.0127 x2t 𝑙𝑙𝑙𝑙𝑙𝑙 b1=0.0048, si el número de empleados aumenta en cien personas, se estima, por término medio, que el VAB aumente un 0.48%, manteniendo constante los gastos en I+D. b2=0.0127, si los gastos en I+D aumentan mil euros, se estima, por término medio, que el VAB aumente un 1.27%, manteniendo constante el número de empleados. 5.3.- BONDAD DEL AJUSTE. Una vez que se ha estimado el modelo por MCO, es conveniente tener alguna medida de la bondad del ajuste. En el caso de que se hayan estimado varios modelos alternativos, las medidas de la bondad del ajuste podrían ser utilizadas para seleccionar el modelo más apropiado. En la literatura econométrica existen numerosas, la más popular es el coeficiente de determinación, que se designa por R2 o R-cuadrado, y el coeficiente de determinación ajustado, que se designa por 𝑅𝑅 2o R-cuadrado ajustado. Otras medidas (que no estudiaremos en esta asignatura) son: el porcentaje de la raíz del error cuadrático medio (%RECM) y al porcentaje del error estándar (%ES), el criterio de información de Akaike (AIC) y al criterio de Schwarz (SC). 11 Tema 5.-El modelo de regresión lineal clásico Estadística e Introducción a la Econometría (Grado en ADE) Beatriz García-Carro Peña La calidad del ajuste puede valorarse descomponiendo la variación total del regresando de la siguiente forma (siempre que los estimadores sean los MCO y el modelo tenga ordenada en el origen): 𝑆𝑆𝑦𝑦2 = 𝑆𝑆𝑦𝑦2 + 𝑆𝑆𝑒𝑒2 𝑛𝑛 𝑛𝑛 2 𝑛𝑛 (𝑦𝑦𝑖𝑖 − 𝑦𝑦 )2 𝑦𝑦 𝑖𝑖 − 𝑦𝑦 𝑒𝑒𝑖𝑖2 = + 𝑛𝑛 𝑛𝑛 𝑛𝑛 𝑖𝑖=1 𝑖𝑖=1 𝑖𝑖=1 𝑆𝑆𝑆𝑆𝑆𝑆 = 𝑆𝑆𝑆𝑆𝑆𝑆 + 𝑆𝑆𝑆𝑆𝑆𝑆 Donde: 𝑆𝑆𝑦𝑦2 es la varianza total o varianza muestral del regresando o variabilidad de la Y 𝑆𝑆𝑦𝑦2 es la varianza explicada o varianza muestral del regresando estimado o variabilidad explicada por el modelo 𝑆𝑆𝑒𝑒2 es la varianza residual o varianza muestral de los errores o variabilidad no explicada por el modelo - SCT = Suma de los Cuadrados Totales: desviaciones del regresando respecto de su media muestral, 𝑆𝑆𝑆𝑆𝑆𝑆 = ∑𝑇𝑇𝑡𝑡=1(𝑦𝑦𝑡𝑡 − 𝑦𝑦 )2 - SCR = Suma de Cuadrados de la Regresión: desviaciones del regresando estimado respecto a su media muestral, 𝑆𝑆𝑆𝑆𝑆𝑆 = ∑𝑇𝑇𝑡𝑡=1(𝑦𝑦 𝑡𝑡 − 𝑦𝑦 )2 - SCE = Suma de Cuadrados de los Errores, 𝑆𝑆𝑆𝑆𝑆𝑆 = ∑𝑇𝑇𝑡𝑡=1(𝑦𝑦𝑡𝑡 − 𝑦𝑦 𝑡𝑡 )2 = ∑𝑇𝑇𝑡𝑡=1 𝑒𝑒𝑡𝑡2 Basándonos en esta ecuación, el coeficiente de determinación se define: 𝑆𝑆𝑦𝑦2 𝑆𝑆𝑆𝑆𝑆𝑆 𝑅𝑅 2 = = 𝑆𝑆𝑦𝑦2 𝑆𝑆𝑆𝑆𝑆𝑆 O de forma alternativa: 𝑆𝑆𝑒𝑒2 𝑆𝑆𝑆𝑆𝑆𝑆 𝑅𝑅 2 = 2 =1− 𝑆𝑆𝑦𝑦 𝑆𝑆𝑆𝑆𝑆𝑆 Interpretación: nos indica la proporción de variabilidad de Y está explicada por la variabilidad de las X´s. Si lo expresamos en % nos indica el porcentaje de variabilidad de Y que queda explicado con la regresión. Por tanto, cuanto menor es el peso de la SCE en la SCT o cuanto más similares son los valores de la SCR y SCT mejor será el ajuste. Valores: Los valores extremos del coeficiente de determinación son: 0, cuando la varianza explicada en la regresión es cero y por tanto el ajuste es nulo; y 1, cuando la varianza de los errores es cero y por tanto el ajuste es perfecto. Un ajuste es bueno cuando el 𝑅𝑅 2es próximo a 1. En la práctica si el 𝑅𝑅2 tiene un valor pequeño, probablemente se haya cometido un error en la especificación del modelo o bien en la forma funcional o bien en la selección de los regresores. En modelos de corte transversal no es habitual obtener 𝑅𝑅 2 altos, pero sí lo es en los modelos de datos temporales. Si la finalidad del modelo es explicativa (causas por las que varía Y) nos interesa más estimar correctamente el valor de los 𝛽𝛽´𝑠𝑠 que el valor del 𝑅𝑅2 ; pero si la finalidad del modelo es predecir si debemos tener un 𝑅𝑅2 alto. Del coeficiente de determinación, R2 se debe tener en cuenta que: 12 Tema 5.-El modelo de regresión lineal clásico Estadística e Introducción a la Econometría (Grado en ADE) Beatriz García-Carro Peña Es un coeficiente adimensional. Si el modelo no tiene término independiente el R2 no tiene una interpretación clara. Se debe utilizar con cautela para comparar modelos y saber qué modelo es mejor (siempre que tengan la misma variable Y, es decir, no podemos comprar un modelo en niveles con otro expresado en logaritmos). Pero, si a un modelo se le añade una nueva variable explicativa (sea o no relevante para explicar Y) la SCR siempre disminuye y el 𝑅𝑅 2 siempre aumenta, hasta llegar al extremo de que si aumentamos hasta tener “n” variables explicativas (igual al número de datos) el 𝑅𝑅 2 = 1 y esto no significa que las variables expliquen a la perfección a la variable Y. En la práctica calcular el valor de estas sumas de cuadrados es tedioso, pero se facilitan los cálculos con las expresiones matriciales: 𝑇𝑇 𝑆𝑆𝑆𝑆𝑆𝑆 = 𝑒𝑒𝑡𝑡2 = 𝑒𝑒´𝑒𝑒 = 𝑌𝑌 − 𝑌𝑌 ´ 𝑌𝑌 − 𝑌𝑌 = (𝑌𝑌 − 𝑋𝑋𝑋𝑋)´(𝑌𝑌 − 𝑋𝑋𝑋𝑋) = 𝑌𝑌´𝑌𝑌 − 𝑌𝑌´𝑋𝑋𝑋𝑋 − 𝑏𝑏´𝑋𝑋´𝑌𝑌 + 𝑏𝑏´𝑋𝑋´𝑋𝑋𝑋𝑋 = 𝑡𝑡=1 𝑌𝑌´𝑌𝑌 − 2𝑌𝑌´𝑋𝑋𝑋𝑋 + 𝑏𝑏´𝑋𝑋´𝑋𝑋(𝑋𝑋´𝑋𝑋)−1 𝑋𝑋´𝑌𝑌 = 𝑌𝑌´𝑌𝑌 − 𝑏𝑏´𝑋𝑋´𝑌𝑌 𝑇𝑇 𝑇𝑇 𝑇𝑇 𝑆𝑆𝑆𝑆𝑆𝑆 = (𝑦𝑦𝑡𝑡 − 𝑦𝑦 )2 = (𝑦𝑦𝑡𝑡2 + 𝑦𝑦 2 − 2𝑦𝑦𝑡𝑡 𝑦𝑦 ) = 𝑦𝑦𝑡𝑡2 + 𝑇𝑇𝑦𝑦 2 − 2𝑇𝑇𝑦𝑦 2 = 𝑌𝑌´𝑌𝑌 − 𝑇𝑇𝑦𝑦 2 𝑡𝑡=1 𝑡𝑡=1 𝑡𝑡=1 𝑆𝑆𝑆𝑆𝑆𝑆 = 𝑆𝑆𝑆𝑆𝑆𝑆 − 𝑆𝑆𝑆𝑆𝑆𝑆 = 𝑌𝑌´𝑌𝑌 − 𝑇𝑇𝑦𝑦 2 − ( 𝑌𝑌´𝑌𝑌 − 𝑏𝑏´𝑋𝑋´𝑌𝑌) = 𝑏𝑏´𝑋𝑋´𝑌𝑌 − 𝑇𝑇𝑦𝑦 2 𝟐𝟐 5.3.2.- El coeficiente de determinación ajustado, 𝑹𝑹 Para comparar modelos anidados, es decir, modelos con variables explicativas adicionales, R2 no es una buena medida, pues su valor siempre aumenta. En este caso debemos utilizar el coeficiente R2 corregido: 𝑆𝑆𝑆𝑆𝑆𝑆 𝑅𝑅 2 = 1 − 𝑇𝑇 − 𝑘𝑘 − 1 = 1 − 𝑇𝑇 − 1 𝑆𝑆𝑆𝑆𝑆𝑆 = 1 − 𝑇𝑇 − 1 (1 − 𝑅𝑅 2 ) 𝑆𝑆𝑆𝑆𝑆𝑆 𝑇𝑇 − 𝑘𝑘 − 1 𝑆𝑆𝑆𝑆𝑆𝑆 𝑇𝑇 − 𝑘𝑘 − 1 𝑇𝑇 − 1 Su gran ventaja es que penaliza la inclusión de variables explicativas no relevantes. Si se añade una nueva variable al modelo, el 𝑅𝑅 2 puede aumentar o disminuir, ello dependerá de si la variable incluida mejora o no el modelo. 𝑅𝑅 2 tiene como mucho el valor 1 pero no tiene cota inferior, incluso puede tomar valores negativos, aunque cercanos a cero. 𝑅𝑅 2 < 𝑅𝑅 2 5.4.- Los estimadores como variables aleatorias. A lo largo de este tema vimos que un modelo econométrico tiene unos parámetros desconocidos 𝛽𝛽0 , 𝛽𝛽1 , …. , 𝛽𝛽𝑘𝑘 , para estimar estos parámetros utilizamos el método de los MCO y el resultado son unos estimadores, b0, b1,…,bk (aproximan el verdadero valor del parámetro). Con una muestra concreta 13 Tema 5.-El modelo de regresión lineal clásico Estadística e Introducción a la Econometría (Grado en ADE) Beatriz García-Carro Peña obtenemos una estimación (un número concreto), pero si tengo muchas muestras diferentes podría tener muchas estimaciones, es decir, los estimadores son variables aleatorias. β0 b0 b0 = 1.2 β b1 b = 0.7 𝛽𝛽 = 1 ? ? ? 𝑏𝑏 = → 1 ⋮ ⋮ ⋮ βk bk bk = 3.4 Debes recordar que toda variable aleatoria está caracterizada por su esperanza y su varianza. Los estimadores “b” son variables aleatorias entonces debemos conocer su esperanza y su varianza (que se escriben con matrices por comodidad). E(b0 ) 𝐸𝐸(b1 ) 𝐸𝐸(𝑏𝑏) = ⋮ 𝐸𝐸(bk) 𝑉𝑉𝑉𝑉𝑉𝑉(𝑏𝑏0 ) 𝐶𝐶𝐶𝐶𝐶𝐶(𝑏𝑏0 , 𝑏𝑏2 ) 𝐶𝐶𝐶𝐶𝐶𝐶(𝑏𝑏0 , 𝑏𝑏3 ) ⋯ ⋯ 𝐶𝐶𝐶𝐶𝐶𝐶(𝑏𝑏0 , 𝑏𝑏𝑘𝑘 ) ⎛ 𝑉𝑉𝑉𝑉𝑉𝑉(𝑏𝑏1 ) 𝐶𝐶𝐶𝐶𝐶𝐶(𝑏𝑏1 , 𝑏𝑏2 ) ⋯ ⋯ 𝐶𝐶𝐶𝐶𝐶𝐶(𝑏𝑏1 , 𝑏𝑏𝑘𝑘 )⎞ ⋯ … 𝑉𝑉𝑉𝑉𝑉𝑉(𝑏𝑏2 ) ⋯ ⋯ 𝐶𝐶𝐶𝐶𝐶𝐶(𝑏𝑏2 , 𝑏𝑏𝑘𝑘 )⎟ 𝑉𝑉(𝑏𝑏) = ⎜ ⎜ ⋯ ⋯ ⋯ ⎟ … ⋯ ⎝ 𝑉𝑉𝑉𝑉𝑉𝑉(𝑏𝑏𝑘𝑘 ) ⎠ Matriz de varianzas y covarianzas de los estimadores. Matriz de orden k*k, simétrica. En la diagonal principal están las varianzas de los estimadores y fuera de ella las covarianzas. 𝑉𝑉𝑉𝑉𝑉𝑉(𝑏𝑏1 ) Indica la precisión en la estimación del parámetro uno, es decir, cuanto podría fluctuar la estimación de una muestra a otra. 𝐶𝐶𝐶𝐶𝐶𝐶(𝑏𝑏1 , 𝑏𝑏2 ) miden la repercusión de la estimación del parámetro uno sobre la estimación del parámetro dos. Es decir, indica que ocurre al estimar 𝑏𝑏1 si nos equivocamos al estimar 𝑏𝑏2 Respecto a la esperanza podemos decir que los estimadores son insesgados (recuerda: la esperanza del estimador coincide con el verdadero valor del parámetro) lo que significa que en media son buenos, es decir, los estimadores insesgados garantizan que, aunque nos equivoquemos en el proceso de estimación, “en media” estimamos correctamente. E(b0 ) E(b0 ) = β0 𝐸𝐸(b1 ) 𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 𝐸𝐸(b1 ) = β1 𝐸𝐸(𝑏𝑏) = ⋮ ⋮ 𝐸𝐸(bk) 𝐸𝐸(bk ) = βk Respecto a la matriz de varianzas y covarianzas de los estimadores, si se cumplen las hipótesis básicas, se calcula así: En la práctica, esta matriz no se puede calcular. Aunque la matriz (𝑋𝑋´𝑋𝑋)−1 si se puede calcular con los datos de 𝑉𝑉(𝑏𝑏) = 𝜎𝜎 2 (𝑋𝑋´𝑋𝑋)−1 las variables explicativas, 𝜎𝜎 2 que es la varianza de la perturbación aleatoria, es un parámetro desconocido que tenemos que estimar. 14 Tema 5.-El modelo de regresión lineal clásico Estadística e Introducción a la Econometría (Grado en ADE) Beatriz García-Carro Peña En el epígrafe anterior, estimamos la varianza de la perturbación aleatoria (𝜎𝜎 2 ) utilizando un estimador insesgado: 2 2 ∑𝑇𝑇𝑡𝑡=1(𝑒𝑒𝑖𝑖 − 𝑒𝑒̅ )2 ∑𝑇𝑇𝑡𝑡=1 𝑒𝑒𝑖𝑖2 𝑆𝑆𝑆𝑆𝑆𝑆 𝜎𝜎 = 𝑆𝑆 = = = 𝑇𝑇 − 𝑘𝑘 − 1 𝑇𝑇 − 𝑘𝑘 − 1 𝑇𝑇 − 𝑘𝑘 − 1 Por lo tanto, la matriz de varianzas y covarianzas estimada de los estimadores es: = 𝑆𝑆 2 (𝑋𝑋´𝑋𝑋)−1 𝑉𝑉(𝑏𝑏) 0 ) 𝐶𝐶𝐶𝐶𝐶𝐶(𝑏𝑏 𝑉𝑉𝑎𝑎𝑎𝑎(𝑏𝑏 0 , 𝑏𝑏1 ) 𝐶𝐶𝐶𝐶𝐶𝐶(𝑏𝑏0 , 𝑏𝑏2 ) ⋯ ⋯ 𝐶𝐶𝐶𝐶𝐶𝐶(𝑏𝑏0 , 𝑏𝑏𝑘𝑘 ) 𝑆𝑆𝑏𝑏20 𝑆𝑆𝑏𝑏0 𝑏𝑏1 𝑆𝑆𝑏𝑏0 𝑏𝑏2 ⋯ ⋯ 𝑆𝑆𝑏𝑏0 𝑏𝑏𝑘𝑘 ⎛ 1 ) 𝑉𝑉𝑉𝑉𝑉𝑉(𝑏𝑏 𝐶𝐶𝐶𝐶𝐶𝐶(𝑏𝑏1 , 𝑏𝑏2 ) ⋯ ⋯ 𝐶𝐶𝐶𝐶𝐶𝐶(𝑏𝑏1 , 𝑏𝑏𝑘𝑘 )⎞ ⎛ 𝑆𝑆𝑏𝑏21 𝑆𝑆𝑏𝑏1 𝑏𝑏2 ⋯ ⋯ 𝑆𝑆𝑏𝑏1 𝑏𝑏𝑘𝑘 ⎞ ⎜ ⋯ … ⎟ ⎜ 𝑆𝑆𝑏𝑏22 ⎟ ⎜ 𝑉𝑉𝑎𝑎𝑎𝑎(𝑏𝑏2 ) ⋯ ⋯ 𝐶𝐶𝐶𝐶𝐶𝐶(𝑏𝑏2 , 𝑏𝑏𝑘𝑘 )⎟ = ⎜ ⋯ … ⋯ ⋯ 𝑆𝑆𝑏𝑏 𝑏𝑏 ⎟ 2 𝑘𝑘 ⎜ ⋯ ⋯ ⋯ ⎟ ⎜ ⋯ ⋯ ⋯ ⎟ … ⋯ … ⋯ ⎝ 𝑘𝑘 ) ⎠ 𝑉𝑉𝑉𝑉𝑉𝑉(𝑏𝑏 𝑆𝑆𝑏𝑏2𝑘𝑘 ⎠ ⎝ Por lo tanto: 𝑆𝑆𝑏𝑏20 = 𝑆𝑆 2 𝑥𝑥 00 𝑆𝑆𝑏𝑏21 = 𝑆𝑆 2 𝑥𝑥11……… 𝑆𝑆𝑏𝑏2𝑘𝑘 = 𝑆𝑆 2 𝑥𝑥 𝑘𝑘𝑘𝑘 𝑆𝑆𝑏𝑏0 = 𝑆𝑆√𝑥𝑥 00 𝑆𝑆𝑏𝑏1 = 𝑆𝑆√𝑥𝑥 11 ……… 𝑆𝑆𝑏𝑏𝑘𝑘 = 𝑆𝑆√𝑥𝑥 𝑘𝑘𝑘𝑘 Esto es terrible, pero no te preocupes, el ordenador te da esta matriz y tu solo necesitas saber que en la diagonal principal te está dando una medida de la precisión de tus estimadores. 𝑆𝑆𝑏𝑏21 es la varianza estimada de un estimador, si es pequeña estas estimando con precisión. 𝑆𝑆𝑏𝑏1 es la desviación típica estimada de un estimador o error estándar del estimador. Resumiendo: obtenemos unos estimadores 𝑏𝑏0 , 𝑏𝑏1 , … , 𝑏𝑏𝑘𝑘 y tenemos la desviación típica estimada de estos estimadores 𝑆𝑆𝑏𝑏1 , …. , 𝑆𝑆𝑏𝑏𝑘𝑘 sólo nos queda saber ¿cuándo son precisos estos estimadores? 𝑆𝑆𝑏𝑏𝑖𝑖 Ten mucho cuidado: si 𝑆𝑆𝑏𝑏𝑖𝑖 es pequeño NO indica → pequeño → estimador preciso estimación fiable, depende del valor del parámetro. 𝑏𝑏𝑖𝑖 Necesitamos una medida relativa (cociente). bi ti = → grande → estimador preciso Sbi ¿Recuerdas este cociente? es el coeficiente de variación de Pearson, 𝑆𝑆 𝑥𝑥̅ , pero en el mundo de la econometría. Este cociente es una medida relativa y no tiene unidades de medida. 𝑆𝑆𝑏𝑏𝑖𝑖 = 0.2 indica que el estimador tiene una dispersión del 20% respecto a su media. Cuanto menor sea la dispersión 𝑏𝑏𝑖𝑖 del estimador mejor. Por comodidad se utiliza su inversa que se llama estadístico “t” ¿te suena? hemos visto algo parecido en inferencia estadística 15 Tema 5.-El modelo de regresión lineal clásico Estadística e Introducción a la Econometría (Grado en ADE) Beatriz García-Carro Peña Veamos un ejemplo. Obs. Y X2 X3 29.1793 𝑏𝑏0 (𝑋𝑋´𝑋𝑋) −1 𝑏𝑏 𝑏𝑏 = 𝑋𝑋´𝑌𝑌 = −0.131034 = 0 −1.86207 𝑏𝑏2 𝑇𝑇 𝑆𝑆𝑆𝑆𝑆𝑆 = 𝑌𝑌´𝑌𝑌 − 𝑏𝑏´𝑋𝑋´𝑌𝑌 = 𝑦𝑦𝑡𝑡2 − 𝑏𝑏´𝑋𝑋´𝑌𝑌 = 38.63448 𝑡𝑡=1 ∑𝑇𝑇𝑡𝑡=1 𝑒𝑒𝑡𝑡2 𝑆𝑆 2 = = 19.3172 → 𝑆𝑆 = 4.3951 𝑇𝑇 − 𝑘𝑘 − 1 𝑆𝑆𝑏𝑏20 𝑆𝑆𝑏𝑏0 𝑏𝑏1 𝑆𝑆𝑏𝑏0 𝑏𝑏2 156.3590 −15.9423 −16.4308 = 𝑆𝑆 2 (𝑋𝑋´𝑋𝑋)−1 = 𝑉𝑉(𝑏𝑏) 𝑆𝑆𝑏𝑏21 𝑆𝑆𝑏𝑏1 𝑏𝑏2 = 2.4868 1.1102 𝑆𝑆𝑏𝑏22 2.2204 𝑆𝑆𝑏𝑏0 = 𝑆𝑆𝑏𝑏20 = √156.3590 = 12.5044 𝑆𝑆𝑏𝑏1 = 𝑆𝑆𝑏𝑏21 = √2.4868 = 1.5770 𝑆𝑆𝑏𝑏2 = 𝑆𝑆𝑏𝑏22 = √2.2204 = 1.4901 Comparando los resultados, el estimador más preciso es b1, luego b3 y por último b2. 𝑆𝑆𝑏𝑏0 𝑆𝑆𝑏𝑏1 𝑆𝑆𝑏𝑏2 = 0.4285 = 12.0348 = 0.8002 𝑏𝑏0 𝑏𝑏1 𝑏𝑏2 Las columnas dan: las estimaciones de los parámetros, las desviaciones típicas estimadas de los estimadores, los estadísticos t. Salida con Gretel: También figura la media de Y, la SCE, S, R2 Coeficiente Desv. Típica Estadístico t valor p const 29.1793 12.5043 2.334 0.1448 X1 −0.131034 1.57696 −0.08309 0.9413 X2 −1.86207 1.49009 −1.250 0.3378 Media de la vble. dep. 18.60000 D.T. de la vble. dep. 4.335897 Suma de cuad. residuos 38.63448 D.T. de la regresión 4.395138 R-cuadrado 0.486244 R-cuadrado corregido -0.027513 ESTE TEMA HA SIDO ELEBORADO EN BASE A: Ramil, M.; Rey, C.; Lodeiro, M. y Arranz, M. (2012). Introducción a la econometría. Teoría y práctica. Reprografía Noroeste, S.L. Uriel, E. (2019). Introducción a la econometría. Universidad de Valencia. Stock, J.H. y Watson M. M. (2012). Introducción a la Econometría. Pearson. 16 Tema 5.-El modelo de regresión lineal clásico Estadística e Introducción a la Econometría (Grado en ADE) Beatriz García-Carro Peña Repaso tema 5. MRLC El modelo de regresión lineal. 𝑦𝑦t = β0 + β1 𝑥𝑥1t + β2 𝑥𝑥2t + ⋯.. +βk 𝑥𝑥kt + 𝜀𝜀𝑡𝑡 t = 1,2, … … , T 𝑌𝑌 = 𝑋𝑋𝑋𝑋 + 𝜀𝜀 𝑌𝑌𝑇𝑇×1 = 𝑋𝑋𝑇𝑇×(𝑘𝑘+1) 𝛽𝛽(𝑘𝑘+1)×1 + 𝜀𝜀𝑇𝑇×1 Hipótesis o supuestos del MRLC: Sobre la especificación del modelo: la selección de las variables explicativas es correcta, no hay errores de medida y la relación entre la variable a explicar y las explicativas es lineal. Sobre las variables explicativas: los regresores no son variables aleatorias (no son estocásticos), no existe ninguna relación lineal exacta entre las variables explicativas (ausencia de multicolinealidad perfecta) y el tamaño de la muestra es mayor que el número de regresores T>k+1. Sobre la perturbación aleatoria: es una variable aleatoria no observable, cuya media es nula, su varianza constante (homocedasticidad) y no están correlacionadas entre si (no autocorrelación). Estimación de los parámetros por MCO ∑ 𝑥𝑥1𝑡𝑡 ∑ 𝑥𝑥2𝑡𝑡 … ….. … ∑ 𝑥𝑥𝑘𝑘𝑘𝑘 −1 ∑ 𝑦𝑦𝑡𝑡 𝑇𝑇 2 ∑ 𝑥𝑥1𝑡𝑡 𝑦𝑦𝑡𝑡 ⎛ ⋮ ∑ 𝑥𝑥1𝑡𝑡 ∑ 𝑥𝑥1𝑡𝑡 𝑥𝑥2𝑡𝑡 ∑ 𝑥𝑥1𝑡𝑡 𝑥𝑥𝑘𝑘𝑘𝑘 ⎞ ⎛ ⎞ b=(X´X)-1 X´Y (𝑋𝑋´𝑋𝑋)−1 =⎜ ⋮ 2 ∑ 𝑥𝑥2𝑡𝑡 ∑ 𝑥𝑥2𝑡𝑡 𝑥𝑥𝑘𝑘𝑘𝑘 ⎟ 𝑋𝑋´𝑌𝑌 = ⎜ ⎟ ⎜ ⋮ ⎟ ⋮ 2 ⋮ ⎝ ⋮ ⋮ ∑ 𝑥𝑥𝑘𝑘𝑘𝑘 ⎠ ⎝∑ 𝑥𝑥𝑘𝑘𝑘𝑘 𝑦𝑦𝑡𝑡 ⎠ Interpretación de los coeficientes estimados Modelo Estimación Interpretación 𝑦𝑦t = β0 + β1 x1t + ε𝑡𝑡 𝑦𝑦 t = b0 + b1 x1t ∂ 𝑦𝑦 t si x ↑una unidad, 𝑏𝑏1 = 𝜕𝜕X1t entonces 𝑦𝑦 t se ↑ó ↓en 𝑏𝑏1 unidades 𝑙𝑙𝑙𝑙𝑦𝑦t = β0 + β1 𝑙𝑙𝑙𝑙x1t + ε𝑡𝑡 𝑙𝑙𝑙𝑙𝑦𝑦 t = b0 + b1 𝑙𝑙𝑙𝑙x1t ∂ ln 𝑦𝑦t si x ↑un 1%, entonces 𝑏𝑏1 = = 𝑦𝑦 t ↑ó ↓ un 𝑏𝑏1 %. 𝜕𝜕ln x1t ∂ 𝑦𝑦 t ∂ 𝑦𝑦 t 𝑦𝑦t 𝑦𝑦 ∗ 100 = t 𝜕𝜕 x1t 𝜕𝜕 x1t x1t 𝑥𝑥1t ∗ 100 𝑦𝑦t = β0 + β1 𝑙𝑙𝑙𝑙x1t + ε𝑡𝑡 𝑦𝑦 t = b0 + b1 lnx1t ∂ 𝑦𝑦 t ∂ 𝑦𝑦 t si x ↑ un 1%, entonces 𝑏𝑏1 = = 𝑏𝑏 𝜕𝜕ln x1t 𝜕𝜕 x1t 𝑦𝑦 t ↑ó ↓en 1 100 x1t unidades 𝑙𝑙𝑙𝑙𝑦𝑦t = β0 + β1 x1t + ε𝑡𝑡 𝑙𝑙𝑙𝑙𝑦𝑦 t = b0 + b1 x1t ∂ 𝑦𝑦 t si x ↑una unidad, ∂ ln 𝑦𝑦t 𝑦𝑦 entonces, la tasa de 𝑏𝑏1 = = t 𝜕𝜕x1t 𝜕𝜕 x1t variación de 𝑦𝑦 t ↑ó ↓en 𝑏𝑏1 , es decir, 𝑦𝑦 t ↑ó ↓un 100 ∗ 𝑏𝑏1 % 17 Tema 5.-El modelo de regresión lineal clásico Estadística e Introducción a la Econometría (Grado en ADE) Beatriz García-Carro Peña Estimador de la varianza de la perturbación aleatoria 𝜎𝜎 2 ∑𝑇𝑇𝑡𝑡=1 𝑒𝑒𝑡𝑡2 𝑆𝑆𝑆𝑆𝑆𝑆 𝜎𝜎 2 = 𝑆𝑆 2 = = 𝑇𝑇 − 𝑘𝑘 − 1 𝑇𝑇 − 𝑘𝑘 − 1 Insesgado Por término medio 𝐸𝐸(𝑆𝑆 2 ) = 𝜎𝜎 2 proporciona una estimación exacta de σ2 Estimador de la varianza de los estimadores: 𝑉𝑉(𝑏𝑏) = 𝜎𝜎 2 (𝑋𝑋´𝑋𝑋)−1 → 𝜎𝜎𝑏𝑏2𝑖𝑖 = 𝜎𝜎 2 𝑥𝑥 𝑖𝑖𝑖𝑖 = 𝑆𝑆 2 (𝑋𝑋´𝑋𝑋)−1 → 𝑆𝑆𝑏𝑏2 = 𝑆𝑆 2 𝑥𝑥 𝑖𝑖𝑖𝑖 𝑉𝑉(𝑏𝑏) 𝑖𝑖 Como desconocemos las varianzas teóricas de los estimadores 𝑉𝑉(𝑏𝑏) = 𝜎𝜎 2 (𝑋𝑋´𝑋𝑋)−1 → 𝜎𝜎𝑏𝑏20 , 𝜎𝜎𝑏𝑏21 , … … , 𝜎𝜎𝑏𝑏2𝑘𝑘 debemos estimarlas y lo hacemos utilizando un estimador insesgado de 𝜎𝜎 2 que sabemos que es 𝑆𝑆 2. Por tanto, las varianzas estimadas de los estimadores son = 𝑆𝑆 2 (𝑋𝑋´𝑋𝑋)−1 → 𝑆𝑆𝑏𝑏2 , 𝑆𝑆𝑏𝑏2 , … …. , 𝑆𝑆𝑏𝑏2. 𝑉𝑉(𝑏𝑏) 0 1 𝑘𝑘 𝑉𝑉𝑉𝑉𝑉𝑉(𝑏𝑏1 ) Indica la precisión en la estimación del parámetro 𝛽𝛽1 , es decir, cuanto podría fluctuar la estimación de una muestra a otra. (𝑏𝑏1 ) = 𝑆𝑆𝑏𝑏2 Estima la precisión en la estimación del parámetro 𝛽𝛽1 𝑉𝑉𝑉𝑉𝑉𝑉 1 𝑆𝑆𝑏𝑏 𝑏𝑏𝑖𝑖 Las desviaciones típicas estimadas de los estimadores son pequeñas si : 𝑏𝑏𝑖𝑖 𝑖𝑖 < 0.5 ⇔ >2 𝑆𝑆𝑏𝑏 𝑖𝑖 Análisis de la bondad del ajuste. ∑𝑇𝑇 )2 𝑡𝑡=1(𝑦𝑦𝑡𝑡 −𝑦𝑦 𝑆𝑆𝑆𝑆𝑆𝑆 = ∑𝑇𝑇𝑡𝑡=1(𝑦𝑦𝑡𝑡 − 𝑦𝑦 )2 → 𝑆𝑆𝑦𝑦2 = varianza muestral del regresando 𝑇𝑇 2 2 ∑𝑇𝑇 𝑡𝑡 −𝑦𝑦 𝑡𝑡=1 𝑦𝑦 𝑆𝑆𝑆𝑆𝑆𝑆 = ∑𝑇𝑇𝑡𝑡=1 𝑦𝑦 𝑡𝑡 − 𝑦𝑦 → 𝑆𝑆𝑦𝑦2 = 𝑇𝑇 varianza muestral del regresando estimado ∑𝑇𝑇 2 𝑡𝑡=1 𝑒𝑒𝑡𝑡 𝑆𝑆𝑆𝑆𝑆𝑆 = ∑𝑇𝑇𝑡𝑡=1(𝑦𝑦𝑡𝑡 − 𝑦𝑦 𝑡𝑡 )2 = ∑𝑇𝑇𝑡𝑡=1 𝑒𝑒𝑡𝑡2 𝑆𝑆𝑒𝑒2 = 𝑇𝑇 varianza muestral del error Siempre que los estimadores sean los MCO y el modelo tenga ordenada en el origen: 𝑆𝑆𝑆𝑆𝑆𝑆 = 𝑆𝑆𝑆𝑆𝑆𝑆 + 𝑆𝑆𝑆𝑆𝑆𝑆 Coeficiente de 𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆 𝑅𝑅 2 ∈ [0 , 1] 𝑅𝑅 2 = 1 − = determinación, R2 𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆 R2*100 indica el porcentaje de variabilidad muestral del regresando 𝑆𝑆𝑆𝑆𝑆𝑆 = 𝑌𝑌´𝑌𝑌 − 𝑏𝑏´𝑋𝑋´𝑌𝑌 que queda explicada con la regresión. 𝑆𝑆𝑆𝑆𝑇𝑇 = 𝑌𝑌´𝑌𝑌 − 𝑇𝑇𝑦𝑦 2 𝑆𝑆𝑆𝑆𝑆𝑆 = 𝑏𝑏´𝑋𝑋´𝑌𝑌 − 𝑇𝑇𝑦𝑦 2 El ajuste es bueno si es > 0.95. Adimensional. 18 Tema 5.-El modelo de regresión lineal clásico Estadística e Introducción a la Econometría (Grado en ADE) Beatriz García-Carro Peña R2 es un indicador del grado de corrección en la especificación del modelo, si está próximo a cero una parte importante de las variaciones del regresando quedan sin explicar (existe algún error en la especificación, bien por la forma funcional del modelo o bien porque la selección de los regresores), si está próxima a uno ocurre lo contrario. Coeficiente de determinación 𝑆𝑆𝑆𝑆𝑆𝑆 𝑅𝑅 2 ∈ (−∞ , 1] 𝑅𝑅 = 1 − 2 𝑇𝑇 − 𝑘𝑘 − 1 ajustado, 𝑅𝑅 2 𝑆𝑆𝑆𝑆𝑆𝑆 𝑇𝑇 − 1 𝑅𝑅 2 < 𝑅𝑅 2 𝑇𝑇 − 1 = 1− (1 − 𝑅𝑅 2 ) 𝑇𝑇 − 𝑘𝑘 − 1 𝑅𝑅 2 se utiliza para comparar modelos con variables explicativas adicionales, si se introducen nuevas variables en el modelo SCE↓, R2 ↑ 19