Proyección Econometrica Compendio PDF
Document Details
Uploaded by WondrousMermaid9618
Universidad Técnica de Manabí
Tags
Related
Summary
This document discusses time series analysis, focusing on definitions, components, and stochastic processes, exploring concepts such as stationarity and non-stationarity. It includes different types of time series analysis, such as univariate and multivariate models. Importantly, the document includes practical examples of how to use time series models, such as economic forecasting.
Full Transcript
Proyección econométrica UNIDAD 1: SERIES DE TIEMPO DEFINICIONES, COMPONENTES PROCESO ESTOCÁSTICO, RUIDO BLANCO, PASEO ALEATORIO, ESTACIONARIEDAD Introducción Perguntas a responder por el analista (Maravall, 1999) ¿Dónde estamos? ¿Hacia dónde vamos? Introducción Perguntas a responder por el...
Proyección econométrica UNIDAD 1: SERIES DE TIEMPO DEFINICIONES, COMPONENTES PROCESO ESTOCÁSTICO, RUIDO BLANCO, PASEO ALEATORIO, ESTACIONARIEDAD Introducción Perguntas a responder por el analista (Maravall, 1999) ¿Dónde estamos? ¿Hacia dónde vamos? Introducción Perguntas a responder por el analista (Maravall, 1999) ¿Dónde estamos? Métodos de ajuste estacional Extraer una señal clara ¿Hacia dónde vamos? Técnicas de pronóstico Concepto y definiciones de las series de tiempo Yt-p…, Yt-2, Y t-1, Yt , Yt+1, Yt+2, … Yt+q REZAGOS (p) ADELANTOS (q) Concepto y definiciones de las series de tiempo Yt-p…, Yt-2, Y t-1, Yt , Yt+1, Yt+2, … Yt+q REZAGOS (p) ADELANTOS (q) Serie estocástica Serie determinística una parte conocida (sistemática) el futuro se puede predecir sin error susceptible de predecir y de una Es una variable que está parte totalmente desconocida determinada o fija y que no cambia (aleatoria) de una muestra a otra Series continuas y discretas Una serie cronológica es continua si sus valores se obtienen continuamente en el tiempo. Ejemplo: registro continuo de la temperatura en un laboratorio. Una serie es discreta si sus observaciones son tomadas tan sólo en intervalos específicos del tiempo. Ejemplo: número diario de accidentes de tránsito; peso semanal de una persona. Estas pueden observarse en intervalos: Iguales: Series de tiempo regulares Desiguales: Serie de tiempo irregular Características de una serie de tiempo Una característica que distingue los datos de series temporales de los datos de corte transversal (sección cruzada), es que los datos temporales están ordenados de una forma natural cronológicamente (si fueran datos diarios, primera iría lunes de una semana, después martes de esa semana, y así sucesivamente). Debido a esto, los valores son dependientes con respecto al índice t, por lo que es razonable suponer que existe correlación serial. Por ejemplo, el PIB de un trimestre de un año, puede estar correlacionado con el PIB del trimestre anterior. Con los datos temporales podemos suponer causalidad. Es decir, una variable X causa a Y, si los valores pasados de la X están correlacionados con los valores presentes de la Y. Características de una serie de tiempo Baja frecuencia Alta frecuencia Mensuales, trimestrales, semestrales, etc. Horarios, diarios, etc. Características de una serie de tiempo Baja frecuencia Alta frecuencia Media estable ncia d e Ten La media crece con el tiempo, debido a la Al no haber tendencia, la media estable con el tendencia tiempo Características de una serie de tiempo Baja frecuencia Alta frecuencia No Estacionalidad d l i da n a a c io t Es Se marcan picos donde un comportamiento se No se identifican picos que reflejen un repite frecuentemente. comportamiento Características de una serie de tiempo Baja frecuencia Alta frecuencia Varianza que cambia con el tiempo edia m la con r ece c que a i anz r Va Cambia por tramos de t, alternando períodos Dispersión alrededor de la media crece. de alta volatilidad con periodos de baja volatilidad. Cambio no sistemático. Definiciones según varios autores: Una serie de tiempo es una secuencia de datos numéricos cada uno de los cuales se asocia con un instante especifico de tiempo (Maddala, 1996) Una serie de tiempo es una colección de datos reunidos sobre la misma variable a lo largo del tiempo (Hildebrand, 1998). Es un conjunto de mediciones de cierto fenómeno o experimento registrado secuencialmente en el tiempo (Chatfield, 2003). Es un registro metódico de la medición u observación numérica, efectuada a intervalos de tiempo fijos, de las características o variables del área de interés (Guerrero, 2003). Una sucesión cronológica de observaciones de una variable en particular (Bowerman, 2009). Propósito de las series de tiempo: Entender el comportamiento histórico de una variable. Pronosticar valores futuros de una variable para la toma de decisiones. Descubrir la tendencia de una variable y el comportamiento estacional observado. Estudiar la dinámica o estructura temporal de la información para modelizar la autocorrelación serial. Es decir, encontrar un modelo estadístico capaz de reproducir la “inercia” o autocorrelación que tienen muchas variables económicas temporales. Otros ejemplos donde se puede utilizar series temporales: Análisis del crecimiento de una economía. Pronósticos del clima. Elaboración de presupuestos (nacionales, empresas, etc.) Proyecciones del mercado laboral. Evolución de las variables macroeconómicas. Apuestas deportivas. Adquisición de acciones en la bolsa de valores. Objetivos del análisis de series de tiempo Describir una serie (Conocer su comportamiento y sus componentes) Elaborar un modelo estadístico Pronosticar los valores futuros Propósito de las series de tiempo: Para lograr los objetivos, las series de tiempo se pueden dividir según el número de variables se observen o según su variabilidad. Por ello, se usan distintos enfoques, como son: Modelos univariantes: Intentamos explicar la correlación de una serie de tiempo haciendo uso de su propia historia pasada y reciente. Modelos multivariantes: Buscamos ver la interrelación existente entre la variable objeto de estudio con otras variables relevantes, explicando la correlación contemporánea y dinámica de estas sobre la variable de interés. Componentes de una serie de tiempo Si bien el comportamiento de cualquier serie de tiempo puede observarse gráficamente, no en todos los casos es posible distinguir las particularidades que posee cada una. La evidencia ha demostrado que existen ciertos movimientos o variaciones características, que pueden medirse y observarse por separado. Los componentes son: tendencia, cíclico, estacionalidad y aleatoriedad (o irregular). Componentes de una serie de tiempo Tendencia (T): Es un movimiento de largo plazo que persiste por un periodo largo de tiempo, se produce en la relación al nivel medio, o el cambio a largo plazo de la media. Esta puede, en el largo plazo, aumentar o disminuir (tendencia creciente o decreciente). Movimientos cíclicos (C): Son oscilaciones alrededor de la tendencia producidos por periodos alternativos de prosperidad y depresión (no estrictamente periódicos). Tiene una duración de 2 a 10 años, medido de máximo a máximo o de mínimo a mínimo. Pueden ser periódicos o no. Estacionalidad (E): La fluctuación periódica en las series de tiempo dentro de un período determinado, inferior o igual a 1 año. Estas fluctuaciones forman un patrón que tiende a repetirse de un período estacional al siguiente. Por ejemplo, el consumo de energía durante los meses de frío y calor intensos. Las ventas de útiles escolares. Las ventas de flores en San Valentín. Aleatoriedad (A): No responde a ningún patrón de comportamiento, sino que es el resultado de factores fortuitos que inciden de forma aislada en una serie de tiempo. El movimiento que queda después de explicar los movimientos de tendencia, estacionales y cíclicos; ruido aleatorio o error en una serie de tiempo. Movimiento irregular. Tipos de descomposiciones de una serie de tiempo Tipos de descomposiciones de una serie de tiempo Para conocer que tipo se adapta mejor a la serie, se pueden seguir los siguientes pasos: De manera visual: La tendencia y la estacionalidad se mantienen relativamente constantes -> Modelo aditivo La tendencia y la estacionalidad varian creciendo o decreciendo -> Modelo multiplicativo De forma matemática: Calcular la diferencia de la serie (D) y su cociente (C). Calcular el Coeficiente de Variación de las series D y C: CVD y CVC. Comparar la senda de los coeficientes: CVC < CVD -> Modelo multiplicativo CVC > CVD -> Modelo aditivo Yt-p…, Yt-2, Y t-1, Yt , Yt+1, Yt+2, … Yt+q REZAGOS (p) ADELANTOS (q) Serie estocástica Serie determinística una parte conocida (sistemática) el futuro se puede predecir sin error susceptible de predecir y de una Es una variable que está parte totalmente desconocida determinada o fija y que no cambia (aleatoria) de una muestra a otra Proceso estocástico Es un conjunto de variables aleatorias que depende de un parámetro o de un argumento. En el análisis de series temporales, ese parámetro es el tiempo. Formalmente, se define como una familia de variables aleatorias Y indiciadas por el tiempo, t. Tales que, para cada valor de t, Y tiene una distribución de probabilidad dada. No se pueden predecir. Se mueven al azar. Dos tipos: estacionarios y no estacionarios. Ejemplos clásicos de procesos estocásticos: Terremotos, electrocardiogramas, cotización de acciones en la bolsa de valores, retornos monetarios. Proceso estocástico estacionario Proceso estocástico no estacionario Aquel proceso cuya distribución de probabilidad varía de forma no constante. Dicho de otra forma, si una serie de números se comporta de forma totalmente caótica, podríamos decir que es un proceso aleatorio no estacionario y no se puede predecir. Se da cuando el valor medio de la variable crece o decrece sistemáticamente en el tiempo. Las variables que tienen una tendencia temporal no definida son "no estacionarias". La mayoría de las variables económicas son no estacionarias. En resumen, si una variable es no estacionaria y tiene raíz unitaria de orden 1, 2, 3… puede ser difícil de predecir y no es muy fiable para realizar modelos de pronósticos. Las series de tiempo económicas pueden ser: estacionarias en tendencia (ET)--- tendencia determinista (causa-consecuencia); estacionarias en diferencias (ED) --- tendencia variable o estocástica (intrínseco) Las pruebas Dickey Fuller (DF) y Dickey Fuller Aumentado (ADF) se aplican para determinar si una serie de tiempo es ET o ED. En resumen, un proceso estocástico es: Casos de procesos estocásticos: RUIDO BLANCO Leer Econometría, Quinta Edición de Damodar N. Gujarati y Dawn C. Porter. McGraw-Hill, 2010. Capítulo 21. Econometría, Segunda Edición de Alfonso Novales. Capítulo 13 Libros disponibles en el aula virtual, carpeta Recursos de Unidad 1 PROYECCIÓN ECONOMÉTRICA UNIDAD 1: SERIES DE TIEMPO MODELOS DE REGRESIÓN CON SERIES TEMPORALES Modelos de análisis de las series de tiempo Modelos causales (regresiones) Cointegración y Método de Corrección de Errores Modelos univariados (ARIMA) Modelos de vectores autorregresivos (VAR) Modelos causales Requieren la identificación de una o más variables que se relacionan tipo “causa-efecto” con la variable que se desea predecir. Una vez identificadas estas variables relacionadas, se construye un modelo que pretende describir la relación (lineal o no lineal) entre estas variables y la variable que se desea pronosticar. Los modelos de regresión son los más conocidos de este grupo y el método de los Mínimos Cuadrados Ordinarios (MCO) puede ser utilizado en estos casos. Al efectuar la regresión de series de tiempo es posible obtener una R^2 muy elevada (0.90 – 0.99), lo que puede sugerir una relación espuria o disparatada entre las variables. Muchas series de tiempo económicas y financieras muestran comportamientos conocidos como caminata aleatoria, es decir, son no estacionarias. Es necesario volver estacionarias las series para tener una mejor predicción del modelo. En el análisis de regresión, los residuos del modelo no solo deben cumplir los supuestos del modelo de regresión (normalidad, no correlación serial, homoscedasticidad), también deben cumplir el supuesto de estacionariedad y ruido blanco. Tomado del capítulo 21 del libro Econometría de D. Gujarati y D. Porter, 5ta. Edición. PROYECCIÓN ECONOMÉTRIC AUNIDAD 2: SERIES DE TIEMPO: PRONÓSTICOS MODELOS AUTORREGRESIV OS (AR) ▪ ▪ ▪ ▪ ▪ ▪ ▪ ▪ ▪ ▪ ▪ CONDICIÓN DE ESTACIONARIEDAD DE LOS PROCESOS AR(P) ▪ CORRELOGRAMAS El segundo valor de la facp mide la relación lineal entre la variable de interés con su segundo retardo, considerando el efecto que puede generar el primero retardo: Por lo tanto, el coeficiente j-ésimo de la facp se calcularía a través de la regresión: Por lo tanto, la facp mide la correlación entre observaciones (series temporales) separadas k periodos y mantiene constantes las correlaciones en los rezagos intermedios. CORRELOGRAMAS La función de autocorrelación simple, aunque no de manera concluyente, nos permite visualmente saber si una serie de tiempo tiene un comportamiento estacionario, si esta converge muy rápidamente a cero con el tiempo. Si esta se mantiene constante, genera una alerta, indicando que la serie posiblemente sea explosiva o no estacionaria. ¿Cómo luce el correlograma de una serie estacionario vs no estacionaria? CORRELOGRAMAS Serie estacionaria Serie no estacionaria CORRELOGRAMAS La función de autocorrelación simple, además se utiliza mucho para sugerir el número de rezagos que se ajustaría posiblemente mejor para una modelo de Medias Móviles (MA, por sus siglas en inglés). La función de autocorrelación parcial, se utiliza para sugerir el número de rezagos que se ajustaría posiblemente mejor para una modelo de Autoregresivo (AR). Para ello, se observan los coeficientes no nulos que se encuentran fuera los intervalos de confianza establecidos. La cantidad de coeficientes no nulos fuera nos dan una idea del número de rezagos que podríamos empezar a estimar para nuestro modelo predictivo. CASOS DE PROCESOS ESTOCÁSTICOS: PASEO ALEATORIO ▪ CASOS DE PROCESOS ESTOCÁSTICOS: PASEO ALEATORIO ▪ Al no ser de varianza constante, sino que depente de t, el proceso es no estacionario RAÍZ UNITARIA ▪ ▪ ▪ ▪ ▪ ▪ Hipótesis nula es: δ=0, es decir, existe raíz unitaria, la serie de tiempo es no estacionaria o tiene tendencia estocástica. Hipótesis alternativa: δ0, entonces ρ>1, y si es así, la serie sería explosiva. Si el valor calculado del estadístico t, en términos absolutos, es menor al valor critico establecido a niveles 0.01, 0.05 y 0.10, se concluye que la serie es no estacionaria Si no puede rechazarse la H0 (p-valor > 0.05) la serie es “No Estacionaria y tiene Raíz Unitaria” ---> I(1). Si se rechaza la H0 (p-valor < 0.05) la serie “Es Estacionaria y tiene una raíz 0” ---> I(0). Por tanto, ***ES IMPORTANTE RECHAZAR LA H0. Las series son "no estacionarias" de orden distinto: --Formalmente se dice que la serie de tiempo Yt tiene raíz de orden d(yt~I(d)) cuando Yt se transforma en una serie estacionaria al ser diferenciada d veces. Es decir, si no existe relación entre el incremento de cada valor y el inmediato anterior, la serie es estacionaria (I(0)). Si existe dicha relación y esta es proporcional a lo largo de la serie, se dice que la serie tiene raíz unitaria de orden (I(1)). Si la relación no es constante a lo largo de la serie la raíz será de orden 2, 3 o más. EJEMPLO DE PROCESO ESTOCÁSTICO: PIB DE EEUU ▪ ▪ ▪ DIFERENCIACIÓN ▪ ALGUNAS CONSIDERACIONES Uno de los supuestos de las series de tiempo es que estas son estacionarias, es decir, son estables a lo largo del tiempo, con una media y varianza constantes. Sin embargo, muchas de las series de tiempo son no estacionarias, es decir, la tendencia y/o variabilidad no se mantienen constantes en el tiempo. La autocorrelación en este tipo de datos es más frecuente cuando los datos son no estacionarios. En caso de que la serie sea no estacionaria, con raíz unitaria, es posible pasar la prueba de Dickey-Fuller aumentada (ADF), que permite “aumentar” las ecuaciones anteriores con la adición de valores rezagados de la serie de tiempo. Esta prueba considera una posible correlación serial en los términos del error. Un problema de este tipo de pruebas es que pueden encontrar raíz unitaria en una serie temporal, aunque esta no exista. Por último, debido al problema de correlación serial en el análisis de regresión con series de tiempo mediante MCO, no solo se tienen que verificar los supuestos del método aplicado, sino que también se debe verificar si los residuos del modelo son estacionarios o no estacionarios. ¡ADVERTENCIA! Estacionalidad y Estacionariedad son dos conceptos diferentes. La estacionalidad es una variación periódica y predecible de una serie de tiempo (alojamiento en hoteles en la costa en épocas de playa, venta de flores en el día del amor y la amistad, etc.). La estacionariedad es el regreso a su media de una serie de tiempo. Además, se caracteriza por tener una varianza finita y constante; el correlograma disminuye a medida que se aumentan los rezagos (los choques son transitorios). ▪ Tomado del capítulo 21 del libro Econometría de D. Gujarati y D. Porter, 5ta. Edición, 2010. PROYECCIÓN ECONOMÉTRICA UNIDAD 2: SERIES DE TIEMPO: PRONÓSTICOS CASOS DE PROCESOS ESTOCÁSTICOS: PASEO ALEATORIO CASOS DE PROCESOS ESTOCÁSTICOS: PASEO ALEATORIO Al no ser de varianza constante, sino que depente de t, el proceso es no estacionario MODELOS DE AUTOCORRELACIÓN MODELOS DE AUTOCORRELACIÓN MODELOS DE AUTOCORRELACIÓN CORRELOGRAMAS Unos estadísticos fundamentales en la especificación de modelos univariantes son las funciones de autocovarianza (fa), de autocorrelación simple (fac) y de autocorrelación parcial (facp). Las cuales se denotan de la siguiente forma: fa fac La facp, el primero es el estimador de MCO del coeficiente que relaciona el valor de la variable de interés con su primer retardo, es decir: CORRELOGRAMAS Unos estadísticos fundamentales en la especificación de modelos univariantes son las funciones de autocovarianza (fa), de autocorrelación simple (fac) y de autocorrelación parcial (facp). Las cuales se denotan de la siguiente forma: fa fac La facp, el primero es el estimador de MCO del coeficiente que relaciona el valor de la variable de interés con su primer retardo, es decir: CORRELOGRAMAS El segundo valor de la facp mide la relación lineal entre la variable de interés con su segundo retardo, considerando el efecto que puede generar el primero retardo: Por lo tanto, el coeficiente j-ésimo de la facp se calcularía a través de la regresión: Por lo tanto, la facp mide la correlación entre observaciones (series temporales) separadas k periodos y mantiene constantes las correlaciones en los rezagos intermedios. CORRELOGRAMAS La función de autocorrelación simple, aunque no de manera concluyente, nos permite visualmente saber si una serie de tiempo tiene un comportamiento estacionario, si esta converge muy rápidamente a cero con el tiempo. Si esta se mantiene constante, genera una alerta, indicando que la serie posiblemente sea explosiva o no estacionaria. CORRELOGRAMAS La función de autocorrelación simple, además se utiliza mucho para sugerir el número de rezagos que se ajustaría posiblemente mejor para una modelo de Medias Móviles (MA, por sus siglas en inglés). La función de autocorrelación parcial, se utiliza para sugerir el número de rezagos que se ajustaría posiblemente mejor para una modelo de Autoregresivo (AR). Para ello, se observan los coeficientes no nulos que se encuentran fuera los intervalos de confianza establecidos. La cantidad de coeficientes no nulos fuera nos dan una idea del número de rezagos que podríamos empezar a estimar para nuestro modelo predictivo. TEMA 1: RAÍZ UNITARIA Hipótesis nula es: δ=0, es decir, existe raíz unitaria, la serie de tiempo es no estacionaria o tiene tendencia estocástica. Hipótesis alternativa: δ0, entonces ρ>1, y si es así, la serie sería explosiva. Si no puede rechazarse la H0 (p-valor > 0.05) la serie es “No Estacionaria y tiene Raíz Unitaria” ---> I(1). Si se rechaza la H0 (p-valor < 0.05) la serie “Es Estacionaria y tiene una raíz 0” ---> I(0). Por tanto, ***ES IMPORTANTE RECHAZAR LA H0. Las series son "no estacionarias" de orden distinto: --Formalmente se dice que la serie de tiempo Yt tiene raíz de orden d(yt~I(d)) cuando Yt se transforma en una serie estacionaria al ser diferenciada d veces. Es decir, si no existe relación entre el incremento de cada valor y el inmediato anterior, la serie es estacionaria (I(0)). Si existe dicha relación y esta es proporcional a lo largo de la serie, se dice que la serie tiene raíz unitaria de orden (I(1)). Si la relación no es constante a lo largo de la serie la raíz será de orden 2, 3 o más. Tomado del capítulo 21 del libro Econometría de D. Gujarati y D. Porter, 5ta. Edición, 2010. PROYECCIÓN ECONOMÉTRICA UNIDAD 2: SERIES DE TIEMPO: PRONÓSTICOS MODELOS ARIMA Son modelos dinámicos de series temporales o modelos autorregresivos integrados de promedio móvil. Su nombre viene del acrónimo inglés “AutoRegressive Integrated Moving Average” Este modelo utiliza variaciones y regresiones de datos estadísticos de la serie de tiempo con el fin de encontrar patrones para una predicción hacia el futuro. Al ser un modelo dinámico, las estimaciones futuras vienen explicadas por los datos del pasado y no por variables externas o independientes. Fue desarrollado a finales de los sesenta del siglo XX y Box y Jenkins lo sistematizaron. Por tanto, también son conocidos como modelos de metodología Box-Jenkins. TEMA 2: PRONÓSTICOS CON ENFOQUE DE BOX-JENKINS El pronóstico de las series de tiempo significa que extendemos los valores históricos al futuro, donde aún no hay mediciones disponibles. El pronóstico o predicción se realiza generalmente para prever el comportamiento de la economía nacional en los próximos años, saber si es bueno invertir en un producto o servicio en los próximos seis meses, optimizar los niveles de inventario o la capacidad de producción de una empresa, cuánto va a crecer una población. Cuando se observan los valores de una serie, se pretende normalmente no sólo explicar el pasado, sino también predecir el futuro. METODOLOGÍA BOX-JENKINS Dicho esto, la metodología Box-Jinekins es un conjuntos de pasos a seguir para el diseño y construcción de modelos econométricos para pronósticos, que definiremos a continuación: 1. Identificación: A través de graficar la serie 2. Estimación: Evaluando la estacionariedad con los distintos métodos como son: ADF, Phiplip-Perron (PP), Kwiatkowski-Phillips-Schmidt-Shin (KPSS), Elliott Rothenberg Stock (ERS) y Zivot-Andrews para quiebre estructural; y, determinando el proceso a través de la FAS – FAP si debemos seguir un proceso ARIMA o ARMA. 3. Examen de diagnóstico: Evaluando el modelo construido 4. Pronóstico CARACTERÍSTICAS: La serie Yt debe ser estacionaria; Si es no estacionaria, tomar un número determinado de diferencias de la variable Yt; Necesita identificar los coeficientes y número de regresiones que se utilizarán. Es sensible a la precisión con que se determinen dichos coeficientes. Los parámetros p, d y q son números enteros no negativos p, d y q indican el orden de los distintas componentes del modelo: autorregresivo –AR– (p); integrado –I– (d) y de media móvil –MA– (q), respectivamente. Es decir, el parámetro p denota el número de términos autorregresivos; d el número de veces que la serie debe ser diferenciada para ser estacionaria; q es el número de términos de promedios móviles. Ej.: Una serie de tiempo es: ARIMA(2,1,2)---- ARIMA(p,d,q) La serie tiene dos términos autorregresivos, tiene que diferenciarse una vez y tiene dos términos de media móvil. Una vez que sea diferenciada una vez, la serie es estacionaria y puede modelarse como un proceso ARMA (2,2). Cuando alguno de los tres parámetros es cero, es común omitir la letra correspondiente del acrónimo: ARIMA(0,1,0) se puede expresar como I(1)--- serie no estacionaria. ARIMA(0,0,1) como MA(1)--- serie estacionaria pura. ARIMA(1,0,0) como AR(1)--- serie estacionaria pura. Estos modelos se construyen de forma iterativa mediante un proceso de cuatro etapas: ***Identificación: con los datos ordenados de forma cronológica se sugiere un modelo, con el fin de determinar valores que sean apropiados para reproducir la serie de tiempo.Ver la forma del correlograma (AFC) y del correlograma parcial (PAFC). ***Estimación: para estimar los parámetros de los términos autorregresivos y medias móviles. Se puede usar el método de mínimos cuadrados simples si una regresión lineal; aunque también puede estimarse una regresión no lineal. ***Ajuste de un modelo ARIMA. Seleccionar el mejor modelo posible mediante una prueba de ruido blanco en los residuos. ***Predicción: una vez seleccionado el mejor modelo se pueden hacer pronósticos en términos probabilísticos de los valores futuros. Para realizar estos modelos es necesario contar con una cantidad importante de observaciones. Es posible que series de tiempo diarias presenten más problemas de volatilidad. Si bien aplicando rezagos en la serie puede solucionar problemas de no estacionariedad, también es posible que se pierdan observaciones disponibles. EJEMPLO: La base de datos AirPassenger (disponible en algunos paquetes de software estadístico) es una base de datos sobre la cantidad mensual de pasajeros de una aerolínea estadounidense, desde 1949 hasta 1961. Tiene 144 observaciones. Una vez aplicado el test de Dickey-Fuller aumentado (ADF) nos encontramos con que la serie es estacionaria y tiene raíz unitaria de orden I(0) con tendencia determinista. Se estima un modelo ARIMA y nos da el siguiente resultado: Los parámetros del modelo ARIMA(2,1,1)(0,1,0) tienen 1 rezago de diferencia (d), un término autorregresivo con segundo rezago (p) y una media movil de orden 1 (q). Entonces, el modelo estacional tiene un término autorregresivo de primer rezago (D) para un modelo de 12 periodos (mes). Una vez que se há determinado el tipo de modelo a utilizar, es importante evaluar: La capacidade predictiva del modelo Comprobar que los residuos con ruido blanco La capacidad predictiva del modelo la puedo evaluar observando los indicadores: MAPE: Error de pronóstico en términos porcentuales MAE: Error de prónostico en valores absolutos Estos se conocen como indicadores de predictividad y lo que deseamos es que estos sean lo más pequenos posibles En la práctica, dependiendo del sector de estudiado, se puede aceptar un MAPE de alrededor del 8% en el ámbito académico, y del 5% si este fuera en el sector financeiro. Sobre el MAE, espero que la relación del indicador con el valor promedio de la serie original, sea pequena. Ya que el modelo ARIMA es un buen ajuste de la serie, se puede realizar una predicción a futuro de la serie. Para más información leer el capítulo 22 del libro Econometría de D. Gujarati y D. Porter, 5ta. Edición. PROYECCIÓN ECONOMÉTRICA UNIDAD 2: SERIES DE TIEMPO: PRONÓSTICOS EJEMPLO Las cifras muestran la serie anual (1936-1972) de: EE.UU. PNB en miles de millones de US$ corrientes, y La incidencia de melanoma en la población masculina de Connecticut (datos ajustados para la edad) Ambas series tienen aparentemente una fuerte relación lineal, pero relacionarlas es obviamente absurdo EJEMPLO EJEMPLO TEMA 3: CORRELACIÓN ESPURIA Una correlación espuria es una relación empírica entre dos acontecimientos sin conexión lógica. Las correlaciones espurias pueden producirse con datos de corte transversal o series temporales. Ejemplo: En 1952 J. Neyman analizó la relación entre la tasa de nacimientos y la población de cigüeñas en varias regiones, encontrando una elevada correlación entre ambas variables Ejemplo: Utilizando datos anuales para el período 1866-1911, G. Udny Yule encontró que el coeficiente de correlación entre la tasa de mortalidad en Inglaterra-Gales y el porcentaje de matrimonios en la iglesia de Inglaterra era de 0.95 En series temporales las correlaciones espurias son frecuentes, simplemente porque muchas series tienen tendencia. La pregunta es: ¿cómo podemos distinguir las relaciones reales de las espurias? La respuesta será: una relación espuria es la que desaparece al darle a la tendencia un tratamiento adecuado. TEMA 4: PRONÓSTICOS: ENFOQUE DE VAR Los modelos VAR sirven para realizar pronósticos de series temporales. Son modelos de Vectores Autorregresivos (VAR). Su metodología se asemeja a los modelos de ecuaciones simultáneas. Considera varias variables endógenas de manera conjunta. Cada variable endógena se explica por sus valores rezagados (o pasados) y los valores rezagados de las otras variables endógenas en el modelo. Generalmente, no existen variables exógenas en este tipo de modelos. Modelo desarrollado por Christopher Sims. Para Sims, no debe haber ninguna distinción a priori entre variables endógenas y exógenas, algo que sucede con los modelos de ecuaciones simultáneas. La prueba de causalidad de Granger es un antecedente de este tipo de método. El término “autorregresivo” se refiere a la aparición del valor rezagado de la variable dependiente en el lado derecho. El término “vector” se atribuye a que tratamos con un vector de dos o más variables. MODELIZACIÓN CON VAR Donde las u son los términos de error estocástico, llamados impulsos, innovaciones o choques en el lenguaje de VAR. Es necesario definir la longitud máxima del rezago k. La inclusión de muchos términos rezagados consumirá grados de libertad y puede generar problemas de multicolinealidad. La inclusión de pocos rezagos puede generar errores de especificación. Por ejemplo, si se tienen 40 observaciones, se puede trabajar con 4 rezagos (k = 4). Los criterios de Akaike o de Schwarz pueden ayudar a decidir los términos de rezago. Se elige el modelo que proporcione los valores más bajos de dichos criterios. No se puede evitar cierto grado de ensayo y error. Es necesario utilizar programas estadísticos (R, Stata, Eviews, etc.) para trabajar este tipo de modelos. Ya que se trabaja con método MCO, los resultados se interpretan de la forma usual. Cada coeficiente puede no ser estadísticamente significativo, quizá debido a la multicolinealidad. Pero, en general, quizá sean significativos respecto de la prueba F estándar. MODELO 1 k=4 M1 R M1 (-1) 1.0767 (0.2017) [5.3373] 0.0013 (0.0007) [1.9008] M1 (-2) 0.1734 (0.3144) [0.5516] -0.0021 (0.0011) [-2.0358] M1 (-3) -0.3665 (0.3469) [-1.0565] 0.0022 (0.0012) [1.8770] M1 (-4) 0.0776 (0.2079) [0.3733] -0.0015 (0.0007) [-2.1286] R (-1) -275.03 (57.22) [-4.8068] 1.1393 (0.1913) [5.9567] R (-2) 227.18 (95.39) [2.3814] -0.3091 (0.3189) [-0.9692] R (-3) 8.5119 (96.92) [0.0878] 0.0524 (0.3240) [0.1616] R (-4) -50.199 (64.755) [-0.7752] 0.0011 (0.2165) [0.0050] C 2413.827 (1622.65) [1.4876) 4.9190 (5.4242) [0.9069] Pruebas R^2 0.9882 0.8529 R^2 ajustada 0.9840 0.8017 Suma de cuadrados residual 4820241 53.8623 Ecuación del ee 457.7944 1.5303 Estadístico F 239.8315 16.6682 Log verosimilitud -236.1676 -53.7372 Akaike A/C 15.3230 3.9211 Schwarz SC 15.7352 4.3333 Media de la variable dependiente 28514.53 11.6729 DE de la variable dependiente 3623058 3.4367 Determinante de covarianza residual 490782.3 Log verosimilitud (gl ajustados) -300.4722 Criterio de información de Akaike 19.9045 Criterio de Schwarz 20.7290 Sobre los resultados obtenidos, solo M1 en su primer rezago (-1) y R en sus dos primeros rezagos (-1 y -2) son estadísticamente significativas. La prueba F es tan alto que no se puede rechazar la hipótesis de que de manera colectiva todos los términos de rezago son estadísticamente significativos. MODELO 2 K=2 M1 R M1 (-1) 1.0375 (0.1605) [6.4651] 0.0011 (0.0006) [1.8583] M2 (-2) -0.0447 (0.1559) [-0.2865] -0.0013 (0.0006) [-2.1987] R (-1) -234.8850 (45.5224) [-5.1598] 1.0691 (0.1666) [6.4171] R (-2) 160.1560 (48.5283) [3.3003] -0.2234 (0.1776) [-1.2577] C 1451.977 (1185.59) [1.2247] 5.7964 (4.3390) [1.3359] Pruebas R^2 0.9882 0.8067 R^2 ajustada 0.9866 0.7800 Suma de cuadrados residual 5373510 71.9705 Ecuación del ee 430.4573 1.5754 Estadístico F 607.0720 30.2488 Log verosimilitud -251.7446 -60.9922 Akaike A/C 15.1026 3.8819 Schwarz SC 15.3271 4.1065 Media de la variable dependiente 28216.26 11.7505 DE de la variable dependiente 3714506 3.3586 Determinante de covarianza residual 458485.4 Log verosimilitud (gl ajustados) -318.0944 Criterio de información de Akaike 19.2997 Criterio de Schwarz 19.7486 Si hay que elegir entre el Modelo 1 y el Modelo 2, ¿cuál escoger? Vemos los valores de información Akaike y Schwarz. Recordad que mientras más bajos sean los valores de estos criterios, mejor será el modelo. PRONÓSTICOS CON EL MODELO VAR Una vez que se ha elegido el mejor modelo, se puede predecir los valores de las variables. En el ejemplo, supongamos que se escoge el Modelo 2 como bueno. Recordad que la información es sobre el Dinero y la tasa de interés para Canadá. El periodo de tiempo es desde el primer periodo de 1979 al cuarto trimestre de 1988. En el Modelo 2 con metodología VAR no se utilizan los valores del último trimestre (1988). Se quiere estimar, por ejemplo, el valor de M para el primer trimestre de 1988. PROS DE LOS MODELOS VAR El método es simple; no hay preocupación de determinar cuáles variables son endógenas y cuáles son exógenas. Todas las variables en modelos VAR son endógenas. La estimación es simple. El modelo usa MCO a cada modelo por separado. Las predicciones obtenidas mediante este método son mejores que las obtenidas con modelos de ecuaciones simultáneas complejos, en su mayoría. CONTRAS DE LOS MODELOS VAR Son ateóricos, ya que utiliza poca información previa. Debido a su acento en el pronóstico, son menos apropiados para el análisis de políticas. Es difícil decidir la longitud apropiada del rezago. A mayor número de rezagos a querer aplicar, mayo número de observaciones en la muestra debe existir. Un modelo VAR de m variables, todas las m variables deber ser estacionarias (en forma conjunta). De no ser estacionarias, deberán ser transformadas a estacionarias de forma apropiada. Al ser transformadas a estacionarias, las variables pueden presentar resultados poco satisfactorios. Es importante reconocer el efecto de las raíces unitarias en las distribución de los estimadores. La función de impulso-respuesta es una técnica utilizada para interpretar los coeficientes individuales en los modelos VAR. Para más información leer el capítulo 22 del libro Econometría de D. Gujarati y D. Porter, 5ta. Edición. Proyección econométrica UNIDAD 3: MODELOS ECONOMÉTRICOS CON DATOS DE PANEL ¿Qué son los datos de panel? Combinación de datos longitudinales y de corte transversal. Son observaciones sobre las mismas unidades de corte transversal, o individuales, a lo largo de varios periodos. Otros nombres pueden ser: datos agrupados; datos de micropanel; datos longitudinales; análisis de historia de sucesos; análisis de generaciones. Se usan para analizar: comportamiento social y económico de un grupo de individuos (i) que pueden ser personas, familias, comunidades, empresas, ciudades, países. Ejemplos de datos de panel: Las notas de un grupo de estudiantes a lo largo de toda su carrera universitaria. La producción mensual de camarón en Manabí, Guayas y El Oro. La precipitación diaria de lluvia en los cantones de Manabí. La inversión en educación y salud durante el periodo 2010 – 2020 de los países de la OCDE. VENTAJAS: Más cantidad de observaciones; Más variabilidad; Menos colinealidad entre las variables; Más grados de libertad; Mayor eficiencia en la estimación. Los datos de panel son apropiados para - Analizar las dinámicas de cambio; - Considerar la heterogeneidad individual al incluir variables específicas para cada individuo. Datos de panel más numerosos reducen el sesgo posible si se agregan individuos en conjuntos numerosos. NOTA: El objetivo principal de los datos de panel es capturar la heterogeneidad no observable de los individuos, así como también en el tiempo, dado que esta heterogeneidad no se puede detectar ni con estudios de series temporales ni tampoco con los de corte transversal. La aplicación de esta metodología permite analizar dos aspectos de suma importancia cuando se trabaja con este tipo de información y que forman parte de la heterogeneidad no observable: efectos individuales específicos; y efectos temporales. Los efectos individuales específicos son aquellos que afectan de manera desigual a cada uno de los individuos que forman parte de la muestra (personas, empresas, países) los cuales son invariables en el tiempo y que afectan de manera directa las decisiones que tomen dichas unidades. Los efectos temporales afectan por igual a todas las unidades individuales del estudio. Este tipo de efectos pueden asociarse, por ejemplo, a los shocks macroeconómicos que pueden afectar por igual a todas las empresas o unidades de estudio. Tipos de datos de panel: Balanceados --- todas las variables de la muestra para todos los individuos tienen el mismo número de observaciones. No balanceados --- no todas las variables tienen el mismo número de observaciones. Panel largo --- el número de periodos T es más grande que el número de individuos N T>N Panel corto --- el número de individuos de la muestra es más grande que el número de periodos N>T Un panel de datos luce de esta forma: Cantón Año Y X1 X2 Manta 2017 1823,01 5,8 21,2 Manta 2018 1905,78 5,4 19,7 Montecristi 2017 874,59 7,9 21,5 Montecristi 2018 868,21 7,8 23,23 Portoviejo 2017 1416,12 4,1 1,1 Portoviejo 2018 1525,16 5,0 1,3 Santa Ana 2017 590,45 3,6 7,8 Santa Ana 2018 592,08 2,2 6,2 Existen cuatro métodos para la estimación de un modelo para panel de datos: Método de mínimos cuadrados ordinarios agrupados (pooled OLS). Método de mínimos cuadrados ordinarios con variable dicótoma (MCVD). Método de efectos fijos (fixed effects). Método de efectos aleatorios (random effects). Bibliografía utilizada Capítulo 16 del libro Econometría de D. Gujarati y D. Porter, 5ta. Edición. 2010. Proyección econométrica UNIDAD 3: MODELOS ECONOMÉTRICOS CON DATOS DE PANEL MCO AGRUPADOS Y MCVD Ejemplo El coeficiente de X1 indica cuánto cambia Y cuando X aumenta en una unidad. La variable independiente X1 tiene una relación positiva con la variable dependiente, sin embargo, al no ser estadísticamente significativa, no existe una relación de dependencia de Y sobre X. La bondad de ajuste del modelo señala que el modelo no está bien ajustado (0,006). Grados de libertad: 68. 🡪 Problema del método MCO con datos de panel: no distingue entre los individuos de la muestra ya que oculta la heterogeneidad o singularidad de los sujetos de estudio. No considera la diversidad entre grupos y tiempo. 🡪 El coeficiente de determinación puede ser muy alto, o muy bajo. 🡪 Es posible que el término del error este autocorrelacionado (Durbin-Watson muy bajo), aunque esto se deba más que a una autocorrelación a un error de especificación. El coeficiente X1 indica cuánto Y cambia en el tiempo, controlando por diferencias entre individuos, cuando X aumenta en una unidad. Nótese que en el modelo con MCO agrupado, X1 no era estadísticamente significativa. Con MCVD X1 es estadísticamente significativa y la relación es positiva. La bondad de ajuste del modelo aumenta (0,44). Los grados de libertad caen a 62. Gráfico de los residuos del modelo con MCVD Bibliografía utilizada Capítulo 16 del libro Econometría de D. Gujarati y D. Porter, 5ta. Edición. 2010. Proyección econométrica UNIDAD 3: MODELOS ECONOMÉTRICOS CON DATOS DE PANEL EFECTOS FIJOS Método de efectos fijos dentro del grupo (fixed effects “within”) Considera que las variables explicativas afectan por igual a las unidades de corte transversal y que éstas se diferencian por características propias de cada una de ellas, medidas por medio del intercepto. Es por ello que los n interceptos se asocian con variables “dummy” con coeficientes específicos para cada unidad, los cuales se deben estimar. El coeficiente X1 indica cuánto cambia Y en el tiempo, en promedio por individuo, cuando X aumenta en una unidad. El p-valor indica que la variable independiente es estadísticamente significativa al 0.05 de confianza. Es decir, X1 tiene una influencia significante en la variable Y. Prueba F Para determinar si los resultados del modelo con método de MCO agrupados son más eficientes que los obtenidos con efectos fijos se aplica la prueba F. La hipótesis nula indica que el método MCO es el adecuado (>0,05) La hipótesis alternativa indica que el método de efectos fijo es mejor ( T) puede ocasionar que los coeficientes estimados con el método de efectos fijos pueden ser poco confiables y la estimación resulta ineficiente, porque la estructura de los datos es muy pequeña si se tienen que agregar parámetros de efectos fijos. 🡪 El método de efectos fijos presenta el problema de que el uso de variables “dummies” no identifica directamente qué causa que la regresión lineal cambie en el tiempo y en los individuos. Además, esto implica la pérdida de grados de libertad. Algunas investigaciones han demostrado que el emplear modelos con método de efectos fijos produce resultados significativamente diferentes al de efectos aleatorios cuando se tiene una muestra de muchas unidades de corte transversal con pocos periodos de tiempo (629 individuos para 6 periodos, por ejemplo). Con efectos fijos, el/la investigador/a hace inferencia condicionada a los efectos que ve en la muestra. Con efectos aleatorios, el/la investigador/a hace inferencia condicional o marginal respecto a una población. Se deja al investigador/a decidir si hace inferencia con respecto a las características de una población o solo respecto a los efectos que están en la muestra. Prueba de Hausman Para decidir entre un método de efectos fijos o aleatorios se puede ejecutar la prueba de Hausman. La hipótesis nula es que el método adecuado es el de efectos aleatorios (> 0,05); La hipótesis alternativa favorece los efectos fijos (< 0,05). Básicamente prueba si los errores únicos (ui) están correlacionados con los regresores, la hipótesis nula es que no lo están. Efectos fijos y aleatorios, ejemplos Prueba de Hausman, ejemplos phtest(fixed, random) Hausman Test data: y ~ x1 chisq= 3.674, df= 1, p-value = 0.05527 0.06 > 0.05 El modelo con efectos aleatorios es el más adecuado. Bibliografía utilizada Capítulo 16 del libro Econometría de D. Gujarati y D. Porter, 5ta. Edición. 2010. PROYECCIÓN ECONOMÉTRICA UNIDAD 4: OTROS MODELOS ECONOMÉTRICOS TEMA 1: MODELOS DE REGRESIÓN NO LINEALES En el análisis econométrico se trata de encontrar una relación lineal entre variables. Esta linealidad se refiere a los parámetros del modelo estimado, con el fin de tener una mejor comprensión y lectura de las relaciones entre variables. Se ha visto que, si bien un modelo puede ser no lineal en teoría, aplicando el método logarítmico se puede linealizar. Pero no todos los modelos son linealizables. Cuando se habla de un modelo no lineal se refiere a que es no lineal en los parámetros. En un modelo de regresión no lineal (MRNL) en los parámetros es posible que exista linealidad entre las variables, pero es un modelo de regresión no lineal. Este tipo de modelos puede prestarse a confusiones, pues existen modelos que pueden parecer no lineales en los parámetros, pero ser internamente lineales, debido a que con una transformación adecuada pueden convertirse en modelos de regresión lineal en los parámetros. Una regresión no lineal describe una relación no lineal entre una variable de respuesta continua y una o más variables predictoras y predice nuevas observaciones. NOTA: Cuando los parámetros son lineales el modelo es aditivo en cada uno de sus términos y contiene un solo parámetro que multiplica el término. Ejemplos de relaciones no lineales son el crecimiento de la población, el Producto Interno Bruto, la oferta monetaria, la demanda de un nuevo producto, las elecciones en un país, la función de costos. EJEMPLOS Modelo matemático Es un modelo lineal cuando se aplican logaritmos. Es un modelo no lineal. Es un modelo no lineal. Es un modelo lineal cuando se aplican logaritmos Es un modelo no lineal. COMPARACIÓN LINEAL – NO LINEAL Similitudes: - Los dos tipos de modelos describen matemáticamente la relación entre una variable de respuesta y una o más variables predictoras. - Pueden modelar una relación curva. - Minimizan la suma de los cuadrados del error residual. - Trabajan los mismos supuestos que el método de MCO. COMPARACIÓN LINEAL – NO LINEAL Diferencias - La forma funcional del modelo. - Los modelos no lineales pueden adoptar muchas formas diferentes. - Tener un conocimiento previo de la forma de la curva. - Las curvas pueden ser cóncavas, convexas, crecimiento y descenso exponencial, curvas asintóticas. - Pueden llegar a requerir un mayor esfuerzo para determinar la función que proporcione un ajuste óptimo para los datos. Ya que no existe una solución directa para minimizar la suma de los errores al cuadrado residual, un algoritmo iterativo calcula los parámetros ajustando sistemáticamente las estimaciones de los parámetros para reducir la suma de los errores al cuadrado. Una vez que se escoge el modelo, se escoge el algoritmo y se suministra un valor inicial para cada parámetro. El algoritmo utiliza estos valores iniciales para calcular la suma inicial de los errores al cuadrado. ESTIMACIÓN DE UN MODELO DE REGRESIÓN NO LINEAL Ya que el parámetro β está en ambos lados de la ecuación, no se puede obtener soluciones explícitas de las incógnitas en términos de las cantidades conocidas. En este sentido, el método de los mínimos cuadrados ordinarios se conoce como mínimos cuadrados no lineales (MCNL). Para estimar estos modelos no lineales se puede aplicar estos métodos o algoritmos: 1) Método de ensayo y error (búsqueda directa); 2) Optimización directa; 3) Linealización iterativa. Método de ensayo y error: también conocido como de libre derivación o búsqueda directa. Se basa más en la intuición y no requiere cálculo, pero es poco común. Si el MRNL contiene varios parámetros, el cálculo de este método puede ser bastante pesado. Y no garantiza que con el conjunto final de los valores de los parámetros seleccionados se obtenga la minimización de la suma de los errores al cuadrado. Optimización directa: se diferencia la suma de los errores al cuadrado respecto de cada coeficiente o parámetro desconocido, se iguala la ecuación resultante a cero y se resuelven las ecuaciones normales obtenidas de forma simultánea. Como mediante este método no se puede resolver analíticamente se requiere una rutina iterativa. Una de esta rutinas es la llamada método de pasos descendentes. Un poco parecido al método de ensayo y error, ya que implica la selección de valores iniciales de prueba para los parámetros desconocidos, pero luego procede de forma más sistemática que el de error y acierto. Su desventaja es que puede converger a los valores finales de los parámetros de forma muy lenta. Linealización iterativa: se linealiza la ecuación alrededor de algunos valores iniciales de los parámetros para proceder a calcular esa ecuación con el método de MCO y se ajustan los valores elegidos al principio. Con estos valores ajustados se vuelve a linealizar el modelo y se estima mediante MCO nuevamente y se reajustan los valores estimados. Este proceso continúa hasta que no haya un cambio sustancial en los valores estimados respecto del último par de iteraciones. La técnica principal para linealizar este tipo de ecuaciones es la expansión de series de Taylor. FUNCIÓN DE PRODUCCIÓN COBB-DOUGLAS EJEMPLO ILUSTRATIVO Consideremos el siguiente ejemplo: Se tiene información sobre las comisiones administrativas que un fondo mutualista líder en Estados Unidos paga a sus consultores de inversión por el manejo de sus bienes. Las comisiones dependen del valor neto de los bienes del fondo. Pero, ¿cómo saber si ésta es la menor suma de errores al cuadrado que podemos obtener? ¿Qué sucede si elegimos otros valores para Bi y B2? Para ello se requiere de algoritmos que indiquen la forma de ir de un conjunto de valores a otros de las incógnitas, antes de finalizar. Para ello, los métodos anteriormente mencionados son aplicables. Si bien el procedimiento manual resulta bastante tedioso, existen programas estadísticos con rutinas incorporadas para la estimación de este tipo de modelos. Para más información leer el capítulo 14 del libro Econometría 5ta. Edición de Damodar N. Gujarati y Dawn C. Porter. PROYECCIÓN ECONOMÉTRICA UNIDAD 4: OTROS MODELOS ECONOMÉTRICOS ESTRUCTURA DE UN MODELO ECONOMÉTRICO 2 TEMA 2: MODELOS DINÁMICOS Un modelo econométrico dinámico es un en el que las variables explicativas (algunas o todas) presentan retardos. Son aplicados en el ámbito de las series temporales. Cuando se habla de retardos se refiere a algo ‘retardado’ o que contiene datos de periodos anteriores. Por tanto, solo tiene sentido hablar de modelos dinámicos cuando, al menos, alguna de las variables explicativas se presente en forma de serie temporal. Es habitual, no obstante, que todas o casi todas las variables sean de serie temporal. Beta uno: Es el coeficiente cuyo valor explica la relación que tiene la variable explicativa x1 sobre la variable explicada Y en el momento t. X1: Es una de las variables que pretende explicar el comportamiento de la variable Y. Beta dos: Es el coeficiente cuyo valor explica la relación que existe entre la variable explicativa x1 hace un periodo y las fluctuaciones de la variable Y. X2: Es la segunda variable que intenta explicar el comportamiento de Y. Beta tres: Es el coeficiente cuyo valor explica la relación que existe entre la variable explicativa x2 y la variable Y. Subíndice ‘t’: hace referencia al tiempo. Ese subíndice bien podría tomar valores de un año determinado o de un mes determinado. Aunque en este modelo base solo hemos incluido un retardo en la variable explicativa x1, podríamos haber incluido más variables explicativas con más retardos. PIB: Es la variable explicada, representa un índice sobre el Producto Interior Bruto. Desempleo: Es la primera variable explicativa, hace referencia a un índice sobre el desempleo del país. Prod: Es la segunda variable explicativa, y es un índice sobre la producción industrial de dicho país. t: Representa el año de referencia Una vez calculado el modelo, imaginemos que los coeficientes quedan tal que Un ejemplo claro de esto se encuentra en la política monetaria. Los modelos econométricos que pretenden estimar el crecimiento económico de los países tienen en cuenta la política monetaria como variable explicativa, pero con retardos. Es decir, saben que la política monetaria no tiene efectos inmediatos en la economía. La política monetaria tiene efecto sobre la economía real pasados varios periodos. Puede que la política monetaria aplicada el año anterior tenga más efecto sobre el crecimiento económico de un país, que la política monetaria aplicada el mismo año. OTROS EJEMPLOS DE ECUACIONES DINÁMICAS BIBLIOGRAFÍA UTILIZADA Capítulo 17 del libro Econometría Quinta Edición de Damodar N. Gujarati y Dawn C. Porter. PROYECCIÓN ECONOMÉTRICA UNIDAD 4: OTROS MODELOS ECONOMÉTRICOS TEMA 3: MODELOS DE RESPUESTA CUALITATIVA Hasta ahora se ha trabajado con modelos de regresión donde la variable dependiente o la variable respuesta Y es cuantitativa, es decir, son datos estadísticos, numéricos, mientras que las variables explicativas podían ser cuantitativas y/o cualitativas. Sin embargo, también existen modelos de regresión donde la variable dependiente es cualitativa. Ejemplos aplicables: Participación de la fuerza laboral (PFL) de los hombres (o mujeres): donde se requiere identificar si un hombre adulto es parte de la fuerza laboral, por la PFL es una decisión de sí o no, donde 1 es si la persona está en la fuerza laboral y 0 si no lo está. En economía, la PFL es una función de la tasa de desempleo, tasa del salario promedio, escolaridad, ingreso familiar. Otros ejemplos son las elecciones presidenciales de un país. Por ejemplo, en Estados Unidos donde hay dos partidos políticos (Demócratas y Republicanos). La variable dependiente en este caso es la elección de voto entre los dos partidos políticos. Suponiendo que Y = 1 si el voto es para el candidato demócrata y Y = 0 si el voto es para el republicano. Algunas variables en la elección del voto son la tasa de crecimiento del PIB, las tasas de desempleo, de inflación, si el candidato se va a reelegir. Comprar o no comprar una propiedad. Determinar si un tratamiento es eficaz contra una enfermedad o dolencia. Pero estos modelos no solo están restringidos a respuestas de Sí o No, o categorías dicótomas. De hecho, la variable dependiente también puede ser tricótoma (tres categorías) y policótoma (múltiples categorías). Por ejemplo, considere el ejemplo de las elecciones en Estados Unidos donde teníamos dos partidos políticos. Se puede añadir un tercer partido político. En estos modelos, la variable regresada también puede ser ordinal, es decir,Y es una variable categórica ordenada, como la escolaridad (menos de ocho años, de ocho a once años, 12 años, 13 años o más). La regresada también puede ser nominal, en la que no existe un orden inherente, tal como el origen étnico (blanco, negro, hispano, asiático, otros) o la religión. En un modelo de regresión donde Y es una variable cuantitativa, el objetivo es estimar su valor esperado o su valor medio esperado, dados los valores de las regresoras (Xs). Pero en los modelos donde Y es cualitativa, el objetivo es encontrar la probabilidad de que un acontecimiento suceda, como votar por el candidato demócrata, tener una casa, adquirir un seguro, pertenecer a un sindicato. Algunos de estos modelos pueden llegar a ser muy complejos en su formulación matemática y estadística. Solo se abordará los modelos de respuesta binaria en este documento. En resumen: Estos tipos de modelos son llamados Modelos de probabilidad. Y, la variable endógena, es una variable cualitativa, es una característica o un atributo. Y es una variable dicótoma o binaria. Toma un valor de 0 y 1. Y también puede ser policótoma, continua o discreta, o puede ser un factor con varias clases o niveles. La finalidad de estos modelos es encontrar la probabilidad de que un acontecimiento suceda. Son aplicables en las ciencias sociales y en las ciencias médicas. No se restringe solo a modelos de respuesta Si o No. Existen cuatro métodos para trabajar con este tipo de modelos: 1) Modelo lineal de probabilidad (MLP); 2) Modelo LOGIT 3) Modelo PROBIT 4) Modelo TOBIT MODELO LINEAL DE PROBABILIDAD (MLP) Yi Probabilidad 0 1 - Pi 1 Pi Total 1 Yi sigue la distribución de probabilidades de Bernoulli. El uso del método de Mínimos Cuadrados Ordinarios (MCO) parece que puede extenderse sin dificultad a modelos de regresión con variable dependiente binaria. Sin embargo, este tipo de modelos lineales de probabilidad (MLP) plantea diversos problemas, tales como la no normalidad de las perturbaciones, varianzas heteroscedásticas, entre otros. La distribución de probabilidad del error es: ui Probabilidad Cuando Yi = 1, 1-B1-B2Xi Pi Cuando Yi = 0, -B1-B2Xi (1 – Pi) Se sabe que el método de MCO puede ser ineficiente para este tipo de modelos, pues, aunque sea insesgado puede ser heteroscedástico, o sea no tienen varianza mínima. Sin embargo, también se sabe que los problemas de heteroscedasticidad y no normalidad son superables, se recomienda transformar el modelo. PROBLEMAS DEL MODELO LINEAL DE PROBABILIDAD (MLP) MODELO LOGIT En un modelo LOGIT, la variable dependiente es el logaritmo de la razón de probabilidades, la cual es una función lineal de sus regresores. La función de probabilidad del modelo es la distribución logística. Si se cuenta con datos agrupados, se utiliza un MCO para calcular los parámetros del modelo LOGIT, siempre y cuando se tome en cuenta de manera explícita la heteroscedasticidad del término del error. La regresión logística se aplica cuando el interés se centra en conocer alguna estimación de riesgo o de probabilidad sobre la variable respuesta Y, en relación con la variable independiente X. Se puede añadir tantas regresores como se pida. ESTIMACIÓN DE UN MODELO LOGIT EJEMPLO MODELO PROBIT MODELOS TOBIT Son modelos para describir la relación entre una variable dependiente no negativa y una variable independiente. En el modelo sobre el ingreso familiar y la propiedad de una vivienda, estos modelos averiguan la cantidad de dinero que un individuo o familia gasta en una casa en relación con las variables socioeconómicas. Pasos: 1) Los consumidores se dividen en dos grupos: uno que consiste en n1 consumidores de quienes se posee información sobre los regresores, al igual que sobre la variable regresada (cantidad de gasto en vivienda); 2) n2 es otro grupo, de consumidores de los que solo se tiene información sobre los regresores, pero no sobre la variable regresada. Tomado del capítulo 15 del libro Econometría Quinta Edición de Damodar N. Gujarati y Dawn C. Porter. PROYECCIÓN ECONOMÉTRICA UNIDAD 4: OTROS MODELOS ECONOMÉTRICOS TEMA 4: MODELOS DE ECUACIONES SIMULTÁNEAS Hasta ahora se ha trabajado en modelos uniecuacionales, donde se modeliza la relación entre una variable dependiente Y, con una o más variables independientes Xi y un término de error. Por tanto, la relación causa-efecto en esos modelos iba de las X a Y. Sin embargo, una relación unidireccional a veces resulta poco relevante o real, ya que hay situaciones en las que, Y está determinada por las X, pero algunas X, a su vez, están determinadas por Y. Este tipo de relaciones simultáneas, o de dos sentidos, entre Y y X puede llegar a plantear una duda sobre cuál de las variables es la dependiente y cuál la(s) independiente(s). Para sortear esta duda, se hace uso de un conjunto de variables que se determinen simultáneamente mediante el conjunto restante de variables, es decir, ecuaciones simultaneas. Un modelo de ecuaciones simultáneas (MES) es un conjunto de ecuaciones de regresión donde existe una influencia simultánea entre variables y ecuaciones. En este tipo de ecuaciones no es posible estimar los parámetros de una ecuación aisladamente sin tener en cuenta la información proporcionada por las demás ecuaciones en el sistema. Tipos de variables: - Endógenas: influyen en el modelo y se ven afectadas por él. El total de variables endógenas coincide con el total de ecuaciones. - Exógenas: influyen en el modelo, pero no se ven influidas por él. - Ruido blanco: variables de error. DOS FORMAS DE ECUACIONES SIMULTÁNEAS SESGO E INCONSISTENCIA DEL ESTIMADOR MCO Generalmente, para estimar los parámetros de un modelo uniecuacional, se utiliza el método de MCO. Uno de los supuestos cruciales de este método es que las variables explicativas X son no estocásticas o, si los son (aleatorias), están distribuidas independientemente del término de perturbación estocástica del modelo. Pero la aplicación del método de MCO en este tipo de ecuaciones puede generar estimaciones no consistentes, es decir, no convergen hacia sus verdaderos valores poblacionales sin importar qué tan grande sea la muestra. El problema de la inconsistencia se da cuando la muestra es muy grande, es decir, los estimadores no convergen hacia sus verdaderos valores poblacionales. El problema del sesgo se da cuando la muestra es pequeña. Por tanto, se han desarrollado otras técnicas para la estimación de estos MES. EL PROBLEMA DE IDENTIFICACIÓN Suponga que en un modelo de oferta y demanda se tiene información de series de tiempo para el Precio (P) y la Cantidad (Q), pero no hay datos adicionales tal como el ingreso de los consumidores, el precio prevaleciente en el periodo anterior, etc. El problema de la identificación consiste en buscar una respuesta a la siguiente pregunta: dada solamente la información sobre P y Q, ¿cómo se sabe si se está estimando la función de demanda o la función de oferta? De modo que, el problema de identificación se trata de saber cuál función se está estimando según las variables. El problema de la identificación surge porque el mismo conjunto de información puede ser compatible con diferentes conjuntos de coeficientes estructurales, es decir, diferentes modelos. Para establecer si una ecuación estructural esta identificada, se puede aplicar la técnica de las ecuaciones en forma reducida, que expresan una variable endógena únicamente como función de variables predeterminadas. Una ecuación estructural esta identificada si existen valores únicos de sus parámetros que corresponden a la forma reducida dada y que satisfacen además las restricciones impuestas a priori. Una ecuación esta no identificada cuando las combinaciones lineales de las ecuaciones estructurales contienen exactamente las mismas variables que la ecuación estructural. La combinación lineal implica que no agrega información y por tanto existen menos ecuaciones que variables endógenas. En pocas palabras… Una ecuación identificada implica que el modelo puede estimarse. Esta puede ser: - Exactamente identificada: ocurre porque pueden obtenerse valores únicos de los coeficientes estructurales a partir de la ecuación en su forma reducida. - Sobreidentificada: ocurre porque pueden haber más de un valor de los coeficientes estructurales a partir de la ecuación en forma reducida. Una ecuación no identificada implica que el modelo no puede estimarse. Puede ser: - No identificada o subidentificada: ocurre porque no existe la posibilidad de obtener estimaciones numéricas únicas de los coeficientes estructurales a partir de los coeficientes de la forma reducida. Para establecer si una ecuación estructural está identificada, se puede aplicar la técnica de ecuaciones en su forma reducida, que expresa una variable endógena únicamente como función de variables predeterminadas (variables exógenas y endógena rezagada). Sin embargo, esta técnica es un poco laboriosa. No es preciso que todas y cada una de las variables aparezcan en cada ecuación. Ya que la técnica de ecuaciones reducidas es complicada, se recurre a otras técnicas, como la condición de orden o la de rango de identificación. La condición de orden aligera un poco el procedimiento de identificación, es decir, es adecuada para asegurar la identificabilidad. Con orden se refiere al orden de la matriz, es decir, el número de filas y columnas que contiene. La condición de orden asegura que existe al menos una solución, pero no asegura que la solución es única. La condición de rango en un modelo lineal con G ecuaciones se da cuando una ecuación esta identificada si y solo si existe al menos una matriz de dimensión (G-1) * (G-1) no singular, que está contenida en una matriz de coeficientes correspondientes a las variables eliminadas de la ecuación. La condición de rango puede ser fácil de aplicar, pero proporciona solo una condición necesaria para la identificación. Si la condición de rango se satisface, la de orden también se satisface, aunque lo contrario no es cierto. PRUEBA DE SIMULTANEIDAD Recordando que, en presencia de simultaneidad, el método de MCO no es aplicable pues es no consistente. Por tanto, antes de descartar el uso de MCO se recomienda hacer una prueba de simultaneidad. Esta prueba intenta averiguar si una regresora (endógena) está correlacionada con el término de error. En caso de que lo esté, existe problema de simultaneidad. Si no lo está, se estima un modelo mediante MCO. Prueba de Hausman para determinar la simultaneidad Pasos: - Primero: se realiza la regresión normal de MCO con la variable endógena Y1. - Segundo: Se realiza otra regresión con la otra variable endógena Y2 sobre la otra variable endógena Y1 más los residuos obtenidos en el paso 1. - Tercero: Bajo la hipótesis nula de que “No hay simultaneidad”, si se encuentra que el coeficiente del residuo estimado en el segundo paso es estadísticamente igual a cero, se puede concluir que no hay problema de simultaneidad. Prueba de exogeneidad Es responsabilidad del investigador especificar las variables endógenas y exógenas de un modelo para lograr una mejor estimación de los modelos. Pero en caso de dudas, se puede recurrir al test de causalidad de Granger. MÉTODO DE ECUACIONES SIMULTÁNEAS Hay dos métodos: uniecuacionales y de sistemas. Los de métodos uniecuacionales son los más comunes: - mínimos cuadrados ordinarios (MCO); - mínimos cuadrados indirectos (MCI), y - mínimos cuadrados en dos etapas (MC2E) El método MCI es apropiado para ecuaciones precisas o exactamente identificadas. Se aplica un MCO a la ecuación en forma reducida y a partir de sus coeficientes se estiman los coeficientes estructurales originales. El método de MC2E funciona mejor para ecuaciones sobreidentificadas, aunque también puede usarse con ecuaciones exactamente identificadas. La idea básica del MC2E es reemplazar la variable explicativa endógena (estocástica) por una combinación lineal de variables predeterminadas en el modelo y utilizar esta combinación como variables explicativa en lugar de la variable endógena original. **Este método es muy parecido al método de variables instrumentales. Los modelos recursivos, en donde hay una relación causa y efecto definida pero unidireccional entre las variables endógenas, puede ser aplicado en los métodos de ecuaciones simultáneas o de sistemas. En donde Ad= gasto en publicidad S = valor de los embarques C= razón de concentración de cuatro empresas CD= demanda del consumidor MES=escala mínima de eficiencia M = margen precio-costo Gr = tasa de crecimiento anual de la producción industrial Dur = variable dicótoma para la industria de bienes duraderos K = existencias de capital GD = medida de la dispersión geográfica de la producción Según las condiciones de orden para la identificación, la ecuación de Función de concentración esta sobreidentificada, mientras que las otras dos están exactamente identificadas. Tomado de los capítulos 18, 19 y 20 del libro Econometría, Quinta edición, de Damodar Guajarati y Dawn Porter.