Econometría Básica: Regresión No Lineal - PDF
Document Details
Universidad Nacional de Loja
2024
Alex Guerrero
Tags
Related
- Advanced Statistical Analysis Lecture Notes (University of Groningen)
- Applied Econometrics Probit and Logit Regression Lecture Handout 11 Autumn 2022 PDF
- Econométria Básica - Unidad 4: Análisis de Regresión Múltiple
- Économetrie 3S PDF
- Econométrie appliquée Master 1 - PDF
- FBA1018 - Introductory Econometrics Autumn 2024 PDF
Summary
This document is a presentation on Econometría Básica, focusing on non-linear regression methods. It examines models like Logit and Probit, contrasting them with ordinary least squares (OLS) methodology.
Full Transcript
Econometría Básica Regresión no lineal Noviembre 2024 Slide # 1 Variable dependiente limitada Si F(·) es una función de distribución, estrictamente creciente, con lím...
Econometría Básica Regresión no lineal Noviembre 2024 Slide # 1 Variable dependiente limitada Si F(·) es una función de distribución, estrictamente creciente, con lím lím 𝑧→∞ 𝐹 𝑧 =0 y 𝑧→−∞ 𝐹 𝑧 =1 Entonces podemos tratar de ajustar un modelo tipo 𝑃 𝑌 = 1|𝒙 = 𝐹 𝒙𝜷 ∈ (0,1) Las funciones de distribución más comunes son la logística (modelos Logit) y la normal gaussiana (modelos Probit) En ambos casos F(·) ya no es una función lineal de 𝜷 Logit: 1 𝑃 𝑌=1 = = Λ 𝒙𝜷 1 + exp −𝒙𝜷 Probit: 𝒙𝜷 1 −𝑧 2 𝑃 𝑌=1 = න exp 𝑑𝑧 = Φ 𝒙𝜷 2𝜋 2 −∞ Así que ya no vale MCO…se estiman por máxima verosimilitud Los parámetros 𝛽𝑗 tampoco representarán variaciones marginales de la probabilidad respecto de las variables explicativas. Función logística Conceptualización y lógica Se usa cuando tenemos: Al menos, una variable independiente (de cualquier tipo). Una variable dependiente dicotómica o politómica. Cuando la variable dependiente es: Dicotómica: Regresión logística binaria. Politómica: Regresión logística nominal. Ordinal: Regresión logística ordinal. Utilidad: estudiar respuestas dicotómicas (frecuentes en Ciencias Sociales) Transformación Logit: Es posible simplificar la función logística usando el estadístico odds o ventaja. Se demuestra que: Y usando el logaritmo de la ecuación de la odds, se obtiene una ecuación lineal: Más sencilla y fácil de interpretar que una función logística. Las estimaciones de los coeficientes se hacen con el método de Máxima Verosimilitud. ODDS: Siendo P la probabilidad de un suceso cualquiera (crédito otorgado, impago, etc.): 𝑃 𝑜𝑑𝑑 = 1−𝑃 0,75 𝑆𝑖 𝑃 𝑋 = 1 = 0,75 → 𝑜𝑑𝑑𝑠 = =3 1 − 0,75 Interpretación: la probabilidad de que X=1 es 3 veces la de X=0. Características: Solo toman valores positivos. Si odds > 1, la probabilidad de un suceso es mayor que la de su complementario. Si odds 0, el signo del efecto coincide con el signo de 𝛽𝑗 El efecto marginal de 𝑥𝑗 depende de todas las variables: 𝒙𝜷 𝛽𝑖 El efecto relativo de dos variables continuas 𝑥𝑖 y 𝑥𝑗 es: 𝛽𝑗 Estimación por Máxima Verosimilitud Para estimar los modelos de variables dependientes limitadas, los métodos de máxima verosimilitud son indispensables. Como la estimación de máxima verosimilitud está basada en la distribución de y dada x, la heterocedasticidad en Var(y|x) automáticamente se toma en cuenta. Suponga que se tiene una muestra aleatoria de tamaño n. Para obtener el estimador de máxima verosimilitud, condicional sobre las variables explicativas, se necesita la densidad de 𝑦𝑖 dada 𝐱 𝑖. Esto se puede escribir como 𝑓 𝑦|𝐱𝑖 ; 𝛃 = 𝐺 𝐱𝑖 𝛃 𝑦 1 − 𝐺 𝐱𝑖 𝛃 1−𝑦 , 𝑦 = 0, 1, La función de log-verosimilitud para la observación i es una función de los parámetros y los datos (𝐱 𝑖 , 𝑦𝑖 ), y se obtiene al aplicar el log a la ecuación anterior: ℓ𝑖 𝛃 = 𝑦𝑖 log 𝐺 𝐱 𝑖 𝛃 + 1 − 𝑦𝑖 log 1 − 𝐺 𝐱𝑖 𝛃 La log-verosimilitud para un tamaño de muestra de n se obtiene al sumar la ecuación anterior a través de todas las observaciones:ℒ 𝛃 = σ𝑛𝑖=1 ℓ𝑖 𝛃. La EMV de 𝛃, denotada como 𝛃 , maximiza esta log-verosimilitud Prueba de hipótesis múltiples Existen tres formas de probar las restricciones de exclusión para modelos logit y probit. El multiplicador de Lagrange o el estadístico de puntuación solo requieren estimar el modelo bajo la hipótesis nula, tal como en el caso lineal. La prueba de Wald requiere la estimación solo del modelo no restringido. En el caso del modelo lineal, el estadístico de Wald, después de una simple transformación, es esencialmente el estadístico F. Si tanto el modelo restringido como el no restringido son fáciles de estimar, como suele ser el caso con las restricciones de exclusión, entonces la prueba de la razón de verosimilitudes (RV) es la mejor opción. La prueba RV está basada en la diferencia en las funciones de log-verosimilitud para los modelos restringido y no restringido. La idea es que la EMV maximiza la función de log-verosimilitud, omitir variables por lo general ocasiona una log-verosimilitud menor, o al menos no mayor. Estadístico de razón de verosimilitudes 𝑅𝑉 = 2 ℒ𝑛𝑟 − ℒ𝑟 Donde ℒ𝑛𝑟 es el valor de la log-verosimilitud para el modelo no restringido y ℒ𝑟 es el valor de la log-verosimilitud para el modelo restringido La función de log-verosimilitud siempre es un número negativo Si se están probando q restricciones de exclusión se tiene: a 2 𝑅𝑉 ෩ 𝜒𝑞 Bondad de ajuste una medida de la bondad de ajuste es la llamada porcentaje correctamente predicho se define un predictor binario de 𝑦𝑖 como uno si la probabilidad predicha es de al menos 0.5, y cero en caso contrario Hay cuatro resultados posibles en cada par, (𝑦𝑖 , 𝑦𝑖 ); cuando ambos son cero o ambos son uno, se hace la predicción correcta. En los dos casos en que un componente del par es cero y el otro es uno, la predicción es incorrecta. El porcentaje predicho correctamente es el porcentaje de veces en que 𝑦𝑖 = 𝑦𝑖. Aunque el porcentaje predicho correctamente es útil como una medida de la bondad de ajuste, puede ser confuso. En particular, es posible obtener porcentajes muy altos predichos con precisión aun cuando el resultado menos probable esté predicho de manera muy deficiente. Algunos han criticado la regla de predicción que se acaba de describir por usar un valor umbral de 0.5, en especial cuando uno de los resultados es improbable. Una alternativa es usar la fracción de éxitos en la muestra como el umbral: 0.8. Mediante esta regla seguramente se incrementa el número de éxitos predichos, pero no sin costo: necesariamente se cometerán más errores, quizá muchos más, en predecir ceros (“fallas”). En términos del porcentaje general predicho correctamente, el desempeño puede ser peor que si se usara el umbral de 0.5. Una tercera posibilidad es elegir el umbral de tal manera que la fracción de 𝑦𝑖 = 1 en la muestra sea la misma que (o muy cercana a) 𝑦ത. En otras palabras, buscar a través de valores umbral 𝜏. Finalmente, la tercera opción es realizar un Receiver operating characteristic (ROC) Receiver operating characteristic (ROC) El análisis ROC cuantifica la precisión de las pruebas de diagnóstico utilizadas para discriminar entre dos estados o condiciones. La precisión discriminatoria de una prueba diagnóstica se mide por su capacidad para clasificar correctamente sujetos normales y anormales conocidos. Por esta razón, a menudo nos referimos a la prueba diagnóstica como un clasificador. El análisis utiliza la curva ROC, un gráfico de la sensibilidad frente a (1-la especificidad) de la prueba de diagnóstico. La sensibilidad es la fracción de casos positivos que la prueba diagnóstica clasifica correctamente. La especificidad es la fracción de casos negativos que clasifica correctamente. Matriz de confusión binaria Por lo tanto, la sensibilidad es la tasa de verdaderos positivos y la especificidad es la tasa de verdaderos negativos (véase matriz de confusión) La curva ROC La curva comienza en (0; 0), correpondiente a c = 1, y continua a (1; 1), correpondiente a c = 0. Un modelo sin poder predictivo sería una línea de 45º. Cuanto mayor sea el poder predictivo, más arqueada será la curva y, por lo tanto, el área debajo de la curva se usa a menudo como una medida del poder predictivo. Un modelo sin poder predictivo tiene un área de 0.5; un modelo perfecto tiene área 1. Modelos Multinomiales La variable dependiente puede tomar valores: 𝑦𝑖 = 0,1,2, … , 𝐽 Representando J+1 alternativas no ordenadas mutuamente excluyentes Ejemplos: - Ahorros: en bancos, cooperativas de ahorro, en casa… Modelo Dado un vector de variables explicativas x, estamos interesados en: P( yi = j | xi ) = P( y = 1| x1 , x2 ,..., xk ), para j =0,1,...,J exp ( xi' j ) pij =P( yi = j | xi ) = 1 + exp ( xi' h ) J h =1 Ratios y OddRatios La ratio entre probabilidades asociadas con pares de alternativas: exp ( xi' j ) 1 + exp ( xi' h ) J = exp ( xi' j ) para j 0 pij h =1 = pi 0 1 1 + exp ( xi' h ) J h =1 Los Odds Ratio y los log-odd ratio vienen dados por: pij = exp ( x j ) pij = xi j ' ' i log pi 0 pi 0 Solo dependen de la alternativa j, no dependen del resto de alternativas de alternativas Desde el punto de vista de la estimación, es muy conveniente que el odds-ratio de dos alternativas no dependa del resto de alternativas. Sin embargo, desde el punto de vista del comportamiento, esta es una limitación impuesta por el modelo logit multinomial. Esta limitación se conoce como IIA (Independencia de alternativas irrelevantes): agregar una nueva alternativa no afecta la razón de probabilidad de dos alternativas dadas. Modelos de elección ordenados La variable dependiente puede tomar valores: 𝑦𝑖 = 0,1,2, … , 𝐽 Representando J+1 alternativas ordenadas mutuamente excluyentes Ejemplo: - Satisfacción con el salario: 𝑦 = 0,1,2,3,4,5 donde 1 representa un nivel muy bajo y 5 un nivel muy alto (escalas Likert) Modelo: Las elecciones ordenadas pueden ser interpretadas en términos de una variable latente 𝑦𝑖∗ que representa las preferencias individuales. Se especifica un modelo lineal para esta variable latente: 𝑦𝑖∗ = X 𝑖′ 𝛽 + 𝑢𝑖 Implica un supuesto sobre la distribución para 𝑢𝑖 |X 𝑖 (Logit/ probit ordenado) La variable observada puede ser escrita en términos de la variable latente 𝑦𝑖∗ : 0 if 𝑦𝑖∗ ≤ 𝜇1 1 if 𝜇1 ≤ 𝑦𝑖∗ ≤ 𝜇2 ⋮ if ⋮ 𝑦𝑖 = 𝑗 𝜇𝑗 ≤ 𝑦𝑖∗ ≤ 𝜇𝑗+1 if ⋮ if ⋮ 𝐽 if 𝑦𝑖∗ > 𝜇𝐽 Donde 𝜇1 , 𝜇2 , 𝜇𝐽 son los parámetros límite que deberían ser estimados conjuntamente con el vector de parámetros 𝛽 Dado el modelo lineal para la variable latente: 𝑦𝑖∗ = X𝑖′ 𝛽 + 𝑢𝑖 La variable observada puede ser escrita de la siguiente forma: 0 𝑢𝑖 ≤ 𝜇1 − X𝑖′ 𝛽 if 1 if 𝜇1 − X𝑖′ 𝛽 ≤ 𝑢𝑖 ≤ 𝜇2 − X𝑖′ 𝛽 ⋮ if ⋮ 𝑦𝑖 = 𝑗 if 𝜇𝑗 − X𝑖′ 𝛽 ≤ 𝑢𝑖 ≤ 𝜇𝑗+1 − X𝑖′ 𝛽 ⋮ if ⋮ 𝐽 if 𝑢𝑖 > 𝜇𝐽 − X𝑖′ 𝛽 Representación gráfica Adaptada de la Figura 18.4 (Green, 2018) La probabilidad de cada alternativa viene dada como sigue: P 𝑦𝑖 = 0|X𝑖 = P 𝑢𝑖 ≤ 𝜇1 − X 𝑖′ 𝛽 P 𝑦𝑖 = 𝑗|X 𝑖 = P 𝜇𝑗 − X𝑖′ 𝛽 ≤ 𝑢𝑖 ≤ 𝜇𝑗+1 − X𝑖′ 𝛽 P 𝑦𝑖 = 𝐽|X𝑖 = P 𝑢𝑖 > 𝜇𝐽 − X 𝑖′ 𝛽 Siendo F(·) la función de distribución de 𝑢𝑖 |X𝑖 , entonces: P 𝑦𝑖 = 0|X 𝑖 = 𝐹 𝜇1 − X 𝑖′ 𝛽 P 𝑦𝑖 = 𝑗|X 𝑖 = 𝐹 𝜇𝑗+1 − X 𝑖′ − 𝐹 𝜇𝑗 − X𝑖′ 𝛽 para 𝑗 = 1, … , 𝐽 − 1 P 𝑦𝑖 = 𝐽|X𝑖 = 1 − 𝐹 𝜇𝐽 − X 𝑖′ 𝛽 Los efectos parciales no son constantes, varian según las observaciones, debido a que dependen de las variables explicativas El signo de los efectos parciales de 𝑋1 en la probabilidad de elección: Para j=0, el efecto parcial y 𝛽1 tienen el signo contrario Para j=J, el efecto parcial tienen el mismo signo que 𝛽1 Para j=1,2,…,J-1, el efecto parcial y 𝛽1 pueden tener el mismo signo o el signo contrario Los efectos parciales para todas las observaciones pueden ser resumidos en diferentes modos: Average partial effects: Promedio muestral de los efectos parciales para todas las observaciones Conditional partial effects: en valores específicos de las variables explicativas. Alex Guerrero ([email protected]) Universidad Nacional de Loja y GRIPICO-UCM Facultad Jurídica, Social y Administrativa Carrera de Economía