Análisis Sistema Retributivo Teoría PDF

Document Details

PamperedPerception3131

Uploaded by PamperedPerception3131

Mondragon Unibertsitatea

Tags

data analysis regression analysis python compensation systems

Summary

This document analyzes the retributive system. It covers topics such as data analysis, relationships between variables, and using Python for analysis. The document is part of a course or training material provided by Mondragon Unibertsitatea.

Full Transcript

Sistema retributivo Análisis descriptivo 1 Introducción Storytelling Interpretar y tomar Recoger decisiones Análisis de datos Relacionar...

Sistema retributivo Análisis descriptivo 1 Introducción Storytelling Interpretar y tomar Recoger decisiones Análisis de datos Relacionar Describir Visualizar Mondragon Unibertsitatea 3 Storytelling Interpretar y tomar Recoger decisiones Análisis de datos RELACIONAR Describir Visualizar Mondragon Unibertsitatea 4 Objetivos de hoy ❑ Objetivo 1: Analizar la brecha salarial en una empresa. ❑ Objetivo 2: Recordar conocimientos sobre regresión, aplicados a la gestión de personas. ❑ Objetivo 3: Recordar conocimientos matemáticos aplicados en el ámbito de la gestión de personas. ❑ Objetivo 4: Seguir conociendo la herramienta Python. Mondragon Unibertsitatea 5 2 Relación entre dos variables ¿Qué necesitamos saber? Interpretar y tomar Recoger Análisis gráfico de la relación: decisiones Gráfico de dispersión Análisi s de Tipos de relación Relacionar datos Describir Medir la fuerza de la relación: Covarianza Visualizar Coeficiente de correlación Definir matemáticamente la relación entre variables: Ajustar el modelo Bondad de ajuste del modelo Coeficiente de determinación Coeficiente de determinación ajustado Mondragon Unibertsitatea 7 Relación entre dos variables ¿Para qué nos interesa analizar o conocer la relación entre dos variables? Gracias a determinar la relación entre dos variables, conociendo el valor de una de ellas, podemos calcular y/o deducir información sobre la segunda. Relación funcional vs relación estadística Relación determinista: Es una relación exacta entre dos variables. Partiendo del valor conocido de una variable, se puede calcular el valor exacto de la otra variable. Ejemplo: Fórmula para calcular la velocidad: v (velocidad) = d (distancia recorrida) / t (tiempo) Relación estadística: Es una relación que es en parte determinista y en parte aleatoria. Partiendo del valor conocido de una variable, se puede calcular el valor aproximado de la otra variable. Ejemplo: Existe relación estadística entre el nº de calorías consumidas y el aumento de peso. Pero la relación no es exacta: influyen otros muchos factores. Mondragon Unibertsitatea 8 Relación entre dos variables ¿Para qué nos interesa analizar o conocer la relación entre dos variables? Gracias a determinar la relación entre dos variables, conociendo el valor de una de ellas, podemos calcular y/o deducir información sobre la segunda. Relación funcional vs relación estadística Relación determinista: Es una relación exacta entre dos variables. Partiendo del valor conocido de una variable, se puede calcular el valor exacto de la otra variable. Ejemplo: Fórmula para calcular la velocidad: v (velocidad) = d (distancia recorrida) / t (tiempo) Relación estadística: Es una relación que es en parte determinista y en parte aleatoria. Partiendo del valor conocido de una variable, se puede calcular el valor aproximado de la otra variable. Ejemplo: Existe relación estadística entre el nº de calorías consumidas y el aumento de peso. Pero la relación no es exacta: influyen otros muchos factores. Mondragon Unibertsitatea 9 ¿Qué necesitamos saber? Interpretar y tomar Recoger Análisis gráfico de la relación: decisiones Gráfico de dispersión Análisi s de Tipos de relación Relacionar datos Describir Medir la fuerza de la relación: Covarianza Visualizar Coeficiente de correlación Definir matemáticamente la relación entre variables: Ajustar el modelo Bondad de ajuste del modelo Coeficiente de determinación Coeficiente de determinación ajustado Mondragon Unibertsitatea 10 Gráfico de dispersión El gráfico de dispersión representa los elementos bajo dos variables cuantitativas (variables numéricas). Indicamos una variable en el eje X, la otra en el eje Y >> Vemos cómo se reparten los datos en función de estas dos variables Esto permite visualizar cuál es la relación entre ambas variables cuantitativas (variables numéricas). Existe relación entre ambas variables NO existe relación entre ambas variables Mondragon Unibertsitatea 11 Ahora os toca a vosotros… ¿Existe relación entre las dos variables, en los siguientes casos? a) d) b) d) c) f) Mondragon Unibertsitatea 12 Ahora os toca a vosotros… ¿Existe relación entre las dos variables, en los siguientes casos? a) d) b) d) c) f) Mondragon Unibertsitatea 13 Gráfico de dispersión Dependiendo de la tendencia de los datos, pueden existir diferentes tipos de relaciones entre dos variables: Puede que a medida que aumenta una variable, aumente también la otra Puede ocurrir que a medida que uno disminuye, el otro aumente Tal vez a medida que aumenta una variable, la otra disminuye al principio y después aumenta … Existen muchos tipos de relaciones entre variables. Mondragon Unibertsitatea 14 ¿Qué necesitamos saber? Interpretar y tomar Recoger Análisis gráfico de la relación: decisiones Gráfico de dispersión Análisi s de Tipos de relación Relacionar datos Describir Medir la fuerza de la relación: Covarianza Visualizar Coeficiente de correlación Definir matemáticamente la relación entre variables: Ajustar el modelo Bondad de ajuste del modelo Coeficiente de determinación Coeficiente de determinación ajustado Mondragon Unibertsitatea 15 Tipos de relación Relación parabólica: La tendencia de los datos se expresa mediante una ecuación de segundo grado. Relación exponencial: Cuando las tendencias de los datos se asemejan a una función exponencial. Relación logarítmica: Cuando la tendencia de los datos se asemeja a una función logarítmica. Relación lineal: Cuando los datos se asemejan a una línea recta. Mondragon Unibertsitatea 16 Tipos de relación Relación parabólica: La tendencia de los datos se expresa mediante una ecuación de segundo grado. Relación exponencial: Cuando las tendencias de los datos se asemejan a una función exponencial. Relación logarítmica: Cuando la tendencia de los datos se asemeja a una función logarítmica. Relación lineal: Cuando los datos se asemejan a una línea recta. Mondragon Unibertsitatea 17 Relación LINEAL entre dos variables Nosotros nos centraremos en la relación lineal entre variables Nos encontraremos ante las siguientes casuísticas: CASUÍSTICA GRÁFICO Relación lineal positiva Relación lineal negativa No hay relación Mondragon Unibertsitatea 18 Ahora os toca a vosotros… ¿Existe alguna diferencia entre las siguientes relaciones lineales positivas? Mondragon Unibertsitatea 19 Ahora os toca a vosotros… ¿Existe alguna diferencia entre las siguientes relaciones lineales positivas? Relación lineal Relación lineal Relación lineal positiva débil positiva fuerte positiva perfecta Mondragon Unibertsitatea 20 Ahora os toca a vosotros… ¿Existe alguna diferencia entre las siguientes relaciones lineales positivas? ¿Cómo podemos medir matemáticamente la fuerza de una relación lineal? Relación lineal Relación lineal Relación lineal positiva débil positiva fuerte positiva perfecta Mondragon Unibertsitatea 21 ¿Qué necesitamos saber? Interpretar y tomar Recoger Análisis gráfico de la relación: decisiones Gráfico de dispersión Análisi s de Tipos de relación Relacionar datos Describir Medir la fuerza de la relación: Covarianza Visualizar Coeficiente de correlación Definir matemáticamente la relación entre variables: Ajustar el modelo Bondad de ajuste del modelo Coeficiente de determinación Coeficiente de determinación ajustado Mondragon Unibertsitatea 22 Medir la fuerza de la relación Correlación: Medida estadística que proporciona información sobre: 1. Fuerza de la relación: mide la exactitud de la relación de ambas variables. Fuerte: La relación entre ambas variables es muy precisa. Débil: Aunque la relación entre ambas variables tiene una tendencia lineal no es muy precisa. 2. Dirección: Indica si la relación lineal es creciente o decreciente. Creciente: A medida que aumenta una variable aumenta la otra variable. Decreciente: a medida que aumenta una variable disminuye la otra variable. También es posible calcular una correlación múltiple si hay tres o más variables. Mondragon Unibertsitatea 23 ¿Qué necesitamos saber? Interpretar y tomar Recoger Análisis gráfico de la relación: decisiones Gráfico de dispersión Análisi s de Tipos de relación Relacionar datos Describir Medir la fuerza de la relación: Covarianza Visualizar Coeficiente de correlación Definir matemáticamente la relación entre variables: Ajustar el modelo Bondad de ajuste del modelo Coeficiente de determinación Coeficiente de determinación ajustado Mondragon Unibertsitatea 24 Covarianza: 𝑺𝑺𝒙𝒙𝒙𝒙 CONCEPTO: La covarianza refleja en qué medida dos variables (X e Y) varían de forma conjunta respecto a sus medias aritméticas. Por lo tanto, es una de las medidas utilizadas para medir la correlación lineal entre X e Y. Se calcula de la siguiente manera: ∑𝑛𝑛𝑖𝑖=1(𝑥𝑥𝑖𝑖 − 𝑥𝑥)(𝑦𝑦 ̅ 𝑖𝑖 − 𝑦𝑦) ∑𝑛𝑛𝑖𝑖=1 𝑥𝑥𝑖𝑖 𝑦𝑦𝑖𝑖 𝑆𝑆𝑥𝑥𝑥𝑥 = = − 𝑥𝑥̅ 𝑦𝑦 𝑛𝑛 𝑛𝑛 𝑥𝑥1 +𝑥𝑥2 +⋯+𝑥𝑥𝑛𝑛 Siendo 𝑛𝑛 el número de elementos, individuos, filas…, 𝑥𝑥̅ la media de la variable 𝑋𝑋 𝑥𝑥̅ = ,e 𝑛𝑛 𝑦𝑦1 +𝑦𝑦2 +⋯+𝑦𝑦𝑛𝑛 𝑦𝑦 la media de la variable 𝑌𝑌 𝑦𝑦 =. 𝑛𝑛 Interpretación de la dirección: Si 𝑺𝑺𝒙𝒙𝒙𝒙 > 𝟎𝟎 → la covarianza es positiva → la correlación lineal será positiva entre ambas variables. Si 𝑺𝑺𝒙𝒙𝒙𝒙 < 𝟎𝟎 → la covarianza es negativa → la correlación lineal será negativa entre ambas variables. Interpretación de la fuerza de la relación: La covarianza es un estadístico que depende de las unidades. Por lo tanto, no podemos determinar con exactitud cuál es la consistencia de la relación entre ambas variables. Mondragon Unibertsitatea 25 Covarianza: Ejemplo En la siguiente tabla se recogen el sueldo (en €) y la experiencia en la empresa (años trabajados en la empresa), para 10 trabajadores: Sueldo (€) 1000 1125 1245 1324 1474 1760 2459 2650 2670 2900 Experiencia (años) 0 1 1 2 4 4 6 8 9 10 a) Calcula la covarianza. b) Dibuja el gráfico de dispersión. Indicaciones: Eje X: Experiencia (años) Eje Y: Sueldo (€) Mondragon Unibertsitatea 26 Covarianza: Ejemplo Sueldo (€) 1000 1125 1245 1324 1474 1760 2459 2650 2670 2900 Experiencia (años) 0 1 1 2 4 4 6 8 9 10 Calcula la covarianza:  Para calcular la covarianza debemos tener en cuenta las medias y el número de elementos de cada variable:  𝑛𝑛 = 𝑛𝑛𝑛 𝑑𝑑𝑑𝑑 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 = 10 𝑥𝑥1 +𝑥𝑥2 +⋯+𝑥𝑥10 0+1+1+2+4+4+6+8+9+10  𝑥𝑥̅ = 𝑛𝑛 = 10 = 4,5 𝑦𝑦1 +𝑦𝑦2 +⋯+𝑦𝑦10 1000+1125+1245+1324+1474+1760+2459+2650+2670+2900  𝑦𝑦 = 𝑛𝑛 = 10 = 1860,7  Aplicando la fórmula: ∑𝑛𝑛 𝑖𝑖=1 𝑥𝑥𝑖𝑖 𝑦𝑦𝑖𝑖 1000·0+1125·1+1245·1+1324·2+1474·4+1760·4+2459·6+2650·8+2670·9+2900·10  𝑺𝑺𝒙𝒙𝒙𝒙 = 𝑛𝑛 − 𝑥𝑥̅ 𝑦𝑦 = 10 − 1860,7 · 4,5 = 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐,65  Conclusión: 𝑺𝑺𝒙𝒙𝒙𝒙 = 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐, 𝟔𝟔𝟔𝟔 > 𝟎𝟎 ⇒ Como la covarianza es positiva, habrá una relación lineal positiva entre el sueldo y la experiencia de los trabajadores. Pero, sobre la fuerza de la relación, no podemos concluir nada. Mondragon Unibertsitatea 27 Covarianza en Python Supongamos que en Python, tenemos una base de datos con el nombre datos, y queremos calcular la covarianza entre dos variables, variable_X y variable_Y: El código general para hacerlo en Python es el siguiente x1 = datos[‘variable_X’] y1 = datos[‘variable_Y'] x1.cov(y1) Aplicándolo al ejemplo que acabamos de resolver: y1 = datos[‘Sueldo'] x1 = datos[‘Experiencia'] x1.cov(y1) Mondragon Unibertsitatea 28 Covarianza: Ejemplo Sueldo (€) 1000 1125 1245 1324 1474 1760 2459 2650 2670 2900 Experiencia (años) 0 1 1 2 4 4 6 8 9 10 Dibuja el gráfico de dispersión: R E L AC I Ó N E N T R E L A E X P E R I E N C I A Y E L S U E L D O 3500 3000 2500 Sueldo (€) 2000 1500 1000 500 0 0 2 4 6 8 10 12 Experiencia (años)  Conclusión: Probablemente tenga una fuerte correlación lineal positiva. Pero: ¿Cómo podríamos medir exactamente la fuerza de la relación de estas dos variables? Mondragon Unibertsitatea 29 Gráfico de dispersión en Python Supongamos que tenemos en Python una base de datos llamada datos y que queremos calcular la matriz de dispersión de las variables variable_independiente y variable_dependiente. Entonces: Código básico en Python import plotly.express as px fig = px.scatter(datos, x=‘variable_independiente’, y=‘variable_dependiente’) fig.show() 30 Gráfico de dispersión en Python Supongamos que tenemos en Python una base de datos llamada datos y que queremos calcular la matriz de dispersión de las variables variable_independiente y variable_dependiente. Además, se pretende mostrar la línea de tendencia de los datos y diferenciar por colores las categorías de la variable categórica variable_categórica: Código Python import plotly.express as px fig = px.scatter(datos, x=‘variable_independiente’, y=‘variable_dependiente’, trendline=‘ols’, # Para mostrar la línea de tendencia color_discrete_sequence=[‘salomon’], # Cambiar de color color=‘variable_categórica’, # Diferenciar por colores las categorías de la variable categórica title=‘Título’, labels = {‘x’: ‘X-axis’, ‘y’: ‘Y-axis’}) fig.show() 31 Matriz de dispersión Supongamos que tenemos en Python una base de datos llamada datos y que queremos calcular la matriz de dispersión de las variables variable_1, variable_2 y variable_3. Además, se pretende diferenciar por colores las categorías de la variable categórica variable_grupos: Python-eko kodigo orokorra import plotly.express as px fig = px.scatter_matrix(datos, dimensions=[“variable_1", “Variable_2", “Variable_3"], color=“Variable_grupos", title=“dispertsio matrizea”) fig.update_traces(diagonal_visible=False)#Para que no aparezcan los gráficos #de la diagonal fig.show() 32 ¿Qué necesitamos saber? Interpretar y tomar Recoger Análisis gráfico de la relación: decisiones Gráfico de dispersión Análisi s de Tipos de relación Relacionar datos Describir Medir la fuerza de la relación: Covarianza Visualizar Coeficiente de correlación Definir matemáticamente la relación entre variables: Ajustar el modelo Bondad de ajuste del modelo Coeficiente de determinación Coeficiente de determinación ajustado Mondragon Unibertsitatea 33 Coeficiente de correlación: 𝑟𝑟 Coeficiente de correlación: Es una medida específica que cuantifica la intensidad o la fuerza de la relación lineal entre dos variables (X eY). Se calcula de la siguiente manera: 𝑺𝑺𝒙𝒙𝒙𝒙 es la covarianza de X e Y 𝑆𝑆𝑥𝑥𝑥𝑥 𝑺𝑺𝒙𝒙 , la desviación típica de X 𝑆𝑆𝑥𝑥 = 1 ∑𝑛𝑛𝑖𝑖=1 𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ 2 𝑟𝑟 = 𝑛𝑛−1 𝑆𝑆𝑥𝑥 · 𝑆𝑆𝑦𝑦 𝑺𝑺𝒚𝒚 , la desviación típica de Y 𝑆𝑆𝑦𝑦 = 1 𝑛𝑛−1 ∑𝑛𝑛𝑖𝑖=1 𝑦𝑦𝑖𝑖 − 𝑦𝑦 2 El coeficiente de correlación 𝒓𝒓 puede tomar cualquier valor en el rango entre −1 y 1. Pero, ¿cómo podemos interpretar el este valor? Mondragon Unibertsitatea 34 Coeficiente de correlación: 𝑟𝑟 𝑆𝑆𝑥𝑥𝑥𝑥 𝑟𝑟 = 𝑆𝑆𝑥𝑥 · 𝑆𝑆𝑦𝑦 Si 𝒓𝒓 < 𝟎𝟎 ⇒ La correlación lineal será negativa Si 𝒓𝒓 > 𝟎𝟎 ⇒ La correlación lineal será positiva 𝒓𝒓 = −𝟏𝟏 Correlación lineal negativa 𝒓𝒓 = 𝟏𝟏 Correlación lineal positiva perfecta perfecta −𝟏𝟏 < 𝒓𝒓 < −𝟎𝟎, 𝟓𝟓 Correlación lineal negativa fuerte 𝟎𝟎, 𝟓𝟓 < 𝒓𝒓 < 𝟏𝟏 Correlación lineal positiva fuerte −𝟎𝟎, 𝟓𝟓 < 𝒓𝒓 < −𝟎𝟎, 𝟏𝟏 Correlación lineal negativa débil 𝟎𝟎, 𝟏𝟏 < 𝒓𝒓 < 𝟎𝟎, 𝟓𝟓 Correlación lineal positiva débil −𝟎𝟎, 𝟏𝟏 < 𝒓𝒓 < 𝟎𝟎 Correlación lineal negativa 𝟎𝟎 < 𝒓𝒓 < 𝟎𝟎, 𝟏𝟏 Correlación lineal positiva inexistente inexistente Mondragon Unibertsitatea 35 Coeficiente de correlación: 𝑟𝑟 𝑆𝑆𝑥𝑥𝑥𝑥 𝑟𝑟 = 𝑆𝑆𝑥𝑥 · 𝑆𝑆𝑦𝑦 Correlación lineal negativa Correlación lineal positiva Perfecta Fuerte Débil No hay Débil Fuerte Perfecta r=-1 r=0 r=1 Mondragon Unibertsitatea 36 36 Coeficiente de correlación: Ejemplo En la siguiente tabla se recogen el sueldo (en €) y la experiencia en la empresa (años trabajados en la empresa), para 10 trabajadores: Sueldo (€) 1000 1125 1245 1324 1474 1760 2459 2650 2670 2900 Experiencia (años) 0 1 1 2 4 4 6 8 9 10 a) Calcula el coeficiente de correlación. Mondragon Unibertsitatea 37 Coeficiente de correlación: Ejemplo Sueldo (€) 1000 1125 1245 1324 1474 1760 2459 2650 2670 2900 Experiencia (años) 0 1 1 2 4 4 6 8 9 10 Calcula el coeficiente de correlación:  Necesitamos conocer la desviación típica de cada variable y la covarianza:  𝑺𝑺𝒙𝒙𝒙𝒙 = 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐, 65 1 1  𝑺𝑺𝒙𝒙 = ∑𝑛𝑛 𝑛𝑛−1 𝑖𝑖=1 𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ 2 =3,41 𝑺𝑺𝒚𝒚 = ∑𝑛𝑛 𝑛𝑛−1 𝑖𝑖=1 𝑦𝑦𝑖𝑖 − 𝑦𝑦 2 = 𝟔𝟔𝟔𝟔𝟔𝟔, 𝟔𝟔𝟔𝟔  Aplicando la fórmula: 𝑆𝑆𝑥𝑥𝑥𝑥 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐,𝟔𝟔𝟔𝟔  𝑟𝑟 = 𝑆𝑆 = = 𝟎𝟎, 𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗 𝑥𝑥 ·𝑆𝑆𝑦𝑦 𝟗𝟗𝟗𝟗,𝟒𝟒𝟒𝟒·𝟔𝟔𝟔𝟔𝟔𝟔,𝟔𝟔𝟔𝟔  Conclusión: Como 𝑟𝑟 = 0,9788 > 0, la correlación lineal entre el sueldo y la experiencia es positiva y además fuerte (casi perfecta). Mondragon Unibertsitatea 38 Coeficiente de correlación en Python Supongamos que en Python, tenemos una base de datos con el nombre datos, y queremos calcular el coeficiente de correlación entre dos variables, variable_X y variable_Y: El código general para hacerlo en Python es el siguiente x1 = datos[‘variable_X’] y1 = datos[‘variable_Y'] x1.corr(y1) Aplicándolo al ejemplo que acabamos de resolver: y1 = datos[‘Sueldo'] x1 = datos[‘Experiencia'] x1.corr(y1) Mondragon Unibertsitatea 39 Matriz de correlación Supongamos que en Python tenemos una base de datos llamada datos y que se quiere dibujar gráficamente la matriz de correlación de variables numéricas: Python-eko kodigo orokorra import plotly.express as px corr_matrix = datos.corr() # Cálculo de la matriz de correlación (tabla) # Dibujar gráfico de calor de matriz de correlación fig = px.imshow(corr_matrix, labels=dict(x="Variables", y="Variables", color="Correlación"), x=corr_matrix.columns, y=corr_matrix.index, color_continuous_scale='Spectral', zmin=-1, zmax=1, text_auto=True) fig.update_layout(title='Matriz de Correlación') fig.show() 40 ¿Qué necesitamos saber? Interpretar y tomar Recoger Análisis gráfico de la relación: decisiones Gráfico de dispersión Análisi s de Tipos de relación Relacionar datos Describir Medir la fuerza de la relación: Covarianza Visualizar Coeficiente de correlación Definir matemáticamente la relación entre variables: Ajustar el modelo Bondad de ajuste del modelo Coeficiente de determinación Coeficiente de determinación ajustado Mondragon Unibertsitatea 41 Regresión lineal Predecir los valores de Objetivo una variable (Y) a partir de variables explicativas (X) Variables Todas Numéricas y explicativas numéricas categóricas Cuántas variables 1 única Las explicativas 2 o más variable deseadas Modelo de Regresión Regresión Regresión regresión que lineal simple lineal lineal ajustaremos: múltiple múltiple 42 Mondragon Unibertsitatea Regresión lineal Predecir los valores de Objetivo una variable (Y) a partir de variables explicativas (X) Variables Todas Numéricas y explicativas numéricas categóricas Cuántas variables 1 única Las explicativas 2 o más variable deseadas Modelo de Regresión Regresión Regresión regresión que lineal simple lineal lineal ajustaremos: múltiple múltiple 43 Mondragon Unibertsitatea Regresión lineal simple: Contexto Tenemos dos variables continuas: X e Y. Llamaremos siempre: X: Variable predictora o explicativa >> la variable que utilizaremos para predecir los valores de otra variable Y: Variable dependiente ¿Para qué queremos una regresión lineal? Para predecir el comportamiento de una variable (dependiente) a partir de otra (predictora o explicativa) De esta forma, podemos predecir el valor de datos desconocidos mediante el uso de otro valor de datos relacionado o conocido Mediante una regresión, buscamos escribir matemáticamente la relación entre las dos variables (X e Y) ¿Qué queremos conseguir? Sustituir todos los datos por una función >> Definir la relación entre las dos variables mediante una ecuación. En nuestro caso, al centrarnos únicamente en las relaciones estadísticas lineales entre variables, queremos que todos los datos sean sustituidos por una función lineal. Expresión matemática de la ecuación de una recta: 𝑓𝑓 𝑥𝑥 = 𝑚𝑚𝑚𝑚 + 𝑛𝑛 o 𝑦𝑦 = 𝑚𝑚𝑚𝑚 + 𝑛𝑛 𝑚𝑚 pendiente de la recta 𝑛𝑛 indica el punto en el que la recta corta el eje y A 𝑦𝑦 es la variable dependiente (de la que querremos predecir valores) 𝑥𝑥 es la variable independiente o explicativa 44 Regresión lineal simple: Contexto ¿Qué límites tenemos? En una situación ideal, todos los puntos del diagrama de dispersión estarían sobre una sola recta y no habría problema en determinar cuál es la correcta. Pero en los casos reales, esto no ocurre en general. Nos encontraremos con relaciones estadísticas, pero no habrá una única recta exacta que represente todos los puntos de datos que tengamos. ¿Cómo decidiremos qué recta representa más adecuadamente todos nuestros puntos? 45 Ahora os toca a vosotros… ¿Cuál es la recta que representa de forma más exacta los puntos del gráfico? 46 Regresión lineal: Ajuste del modelo ¿Cómo seleccionamos la recta que representa de forma más exacta los puntos del gráfico? Lo que miraremos es es: Cuánto se aleja cada punto de la gráfica de dispersión de nuestra recta. Lo que nos interesa: que todos los puntos se alejen lo menos posible de la recta. ¿Cómo lo medimos? Para ello, se calculan las distancias de cada punto a la recta: 𝑼𝑼𝒊𝒊. Por lo tanto, cada valor indicará el error de cada elemento respecto a la recta: 𝑈𝑈𝑖𝑖 = 𝑦𝑦𝑖𝑖 − 𝑚𝑚𝑥𝑥𝑖𝑖 + 𝑛𝑛. R E L AC I Ó N E N T R E L A E X P E R I E N C I A Y E L S U E L D O 3500 3000 Sueldo (€) 2500 𝑈𝑈7 𝑈𝑈6 2000 1500 𝑈𝑈5 1000 -1 1 3 5 7 9 11 Experiencia (años) Regresión lineal: Ajuste del modelo ¿Cómo decidiremos qué recta representa más adecuadamente todos nuestros puntos? Lo que nos interesa: asumiendo que esa diferencia se va a dar (es decir, que no todos los puntos se encontrarán sobre la recta), que el error (𝑼𝑼𝒊𝒊 ) entre los puntos del diagrama de dispersión y la recta sea el mínimo posible Es decir, que la suma de todos los errores 𝑈𝑈𝑖𝑖 = 𝑦𝑦𝑖𝑖 − 𝑚𝑚𝑥𝑥𝑖𝑖 + 𝑛𝑛 sea el mínimo posible. Para medir esto bien, buscamos: Que los errores negativos no se compensen con los positivos Dar mayor importancia a los errores más grandes Por lo tanto, nos interesa minimizar la suma del cuadrado de los errores; es decir, buscamos minimizar la suma de los 𝑈𝑈𝑖𝑖2 = (𝑦𝑦𝑖𝑖 −(𝑚𝑚𝑥𝑥𝑖𝑖 + 𝑛𝑛))2 : Û4 𝑛𝑛 𝑛𝑛 𝑛𝑛 Û2 Û3 𝑚𝑚𝑚𝑚𝑚𝑚 𝑈𝑈𝑖𝑖 𝑚𝑚𝑚𝑚𝑚𝑚 𝑈𝑈𝑖𝑖 𝑚𝑚𝑚𝑚𝑚𝑚 𝑈𝑈𝑖𝑖2 Ŷ1 𝑖𝑖=1 𝑖𝑖=1 𝑖𝑖=1 Û1 Y1 X1 X2 X3 X4 48 Regresión lineal: Ajuste del modelo Sabiendo que queremos minimizar el cuadrado de los errores….. 𝑛𝑛 𝑛𝑛 𝑚𝑚𝑚𝑚𝑚𝑚 𝑈𝑈𝑖𝑖2 = 𝑚𝑚𝑚𝑚𝑚𝑚 𝑦𝑦𝑖𝑖 − (𝑚𝑚𝑥𝑥𝑖𝑖 + 𝑛𝑛) 2 𝑖𝑖=1 𝑖𝑖=1 ¿Cómo decidiremos qué recta representa más adecuadamente todos nuestros puntos? Para obtener el mínimo de una función, hay que jugar con las derivadas. A continuación desarrollaremos el procedimiento para especificar la recta más adecuada, minimizando la función de arriba. 49 Regresión lineal: Ajuste del modelo Se busca minimizar 𝑓𝑓 𝑚𝑚, 𝑛𝑛 = ∑𝑛𝑛𝑖𝑖=1(𝑦𝑦𝑖𝑖 − 𝑚𝑚𝑥𝑥𝑖𝑖 + 𝑛𝑛 )2. Para ello, se calculan las derivadas parciales, y cada una de ellas se iguala a 0: 𝑛𝑛 𝜕𝜕𝜕𝜕 = 2 𝑦𝑦𝑖𝑖 − 𝑚𝑚𝑥𝑥𝑖𝑖 − 𝑛𝑛 · −𝑥𝑥𝑖𝑖 = 0 𝜕𝜕𝜕𝜕 𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅 𝑒𝑒𝑒𝑒 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 ∑(𝑥𝑥𝑖𝑖 −𝑥𝑥)(𝑦𝑦 ̅ 𝑖𝑖 − 𝑦𝑦) 𝑖𝑖=1 𝑛𝑛 𝑚𝑚 = , 𝑛𝑛 = 𝑦𝑦 − 𝑚𝑚𝑥𝑥̅ 𝜕𝜕𝜕𝜕 ∑(𝑥𝑥𝑖𝑖 − 𝑥𝑥)̅ 2 = 2 𝑦𝑦𝑖𝑖 − 𝑚𝑚𝑥𝑥𝑖𝑖 − 𝑛𝑛 · −1 = 0 𝜕𝜕𝑛𝑛 𝑖𝑖=1 Por lo tanto, para calcular directamente los valores de m y n: ∑(𝑥𝑥𝑖𝑖 −𝑥𝑥)(𝑦𝑦 ̅ 𝑖𝑖 − 𝑦𝑦) 𝑺𝑺𝒙𝒙𝒙𝒙 cov(𝑋𝑋, 𝑌𝑌) 𝒎𝒎 = = 𝟐𝟐 = 𝒚𝒚 − 𝒎𝒎 𝒏𝒏 = 𝒚𝒚 𝒙𝒙 ∑(𝑥𝑥𝑖𝑖 − 𝑥𝑥)̅ 2 𝑺𝑺𝒙𝒙 var(𝑋𝑋) 50 Ajuste del modelo: Ejemplo En la siguiente tabla se recogen el sueldo (en €) y la experiencia en la empresa (años trabajados en la empresa), para 10 trabajadores: Sueldo (€) 1000 1125 1245 1324 1474 1760 2459 2650 2670 2900 Experiencia (años) 0 1 1 2 4 4 6 8 9 10 a) Calcula la ecuación del modelo lineal, siendo el sueldo la variable dependiente (la que vamos a predecir) y la experiencia la variable explicativa. Mondragon Unibertsitatea 51 Ajuste del modelo: Ejemplo Sueldo (€) 1000 1125 1245 1324 1474 1760 2459 2650 2670 2900 Experiencia (años) 0 1 1 2 4 4 6 8 9 10 Calcula la ecuación del modelo lineal.  En este caso, 𝑌𝑌 = 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆, y 𝑋𝑋 = 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸. Conocemos de antes:  𝑺𝑺𝒙𝒙𝒙𝒙 = 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐, 65 , 𝑺𝑺𝟐𝟐𝒙𝒙 = 3,412 = 11,65  𝑦𝑦 = 1860,7, 𝑥𝑥̅ = 4,5  Aplicando las fórmulas (la ecuación final será 𝒚𝒚 = 𝒎𝒎𝒎𝒎 + 𝒏𝒏): 𝑆𝑆𝑥𝑥𝑥𝑥 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐,𝟔𝟔𝟔𝟔  𝑚𝑚 = 𝑆𝑆𝑥𝑥2 = 𝟏𝟏𝟏𝟏,𝟔𝟔𝟔𝟔 = 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏𝟏𝟏  n = 𝑦𝑦 − 𝑚𝑚𝑥𝑥̅ = 1860,7 − 199,197 ∗ 4,5 = 964,3  La ecuación del modelo lineal: 𝒚𝒚 = 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟐𝟐 ⋅ 𝒙𝒙 + 𝟗𝟗𝟗𝟗𝟗𝟗, 𝟑𝟑 52 Ajuste del modelo: Ejemplo Sueldo (€) 1000 1125 1245 1324 1474 1760 2459 2650 2670 2900 Experiencia (años) 0 1 1 2 4 4 6 8 9 10 Calcula la ecuación del modelo lineal.  En este caso, 𝑌𝑌 = 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆, y 𝑋𝑋 = 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸. Conocemos de antes:  𝑺𝑺𝒙𝒙𝒙𝒙 = 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐, 65 , 𝑺𝑺𝟐𝟐𝒙𝒙 = 3,412 = 11,65  𝑦𝑦 = 1860,7, 𝑥𝑥̅ = 4,5  Aplicando las fórmulas (la ecuación final será 𝒚𝒚 = 𝒎𝒎𝒎𝒎 + 𝒏𝒏): 𝑆𝑆𝑥𝑥𝑥𝑥 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐,𝟔𝟔𝟔𝟔 El sueldo de una  𝑚𝑚 = 𝑆𝑆𝑥𝑥2 = 𝟏𝟏𝟏𝟏,𝟔𝟔𝟔𝟔 = 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏𝟏𝟏 persona con 0 años de experiencia será de  n = 𝑦𝑦 − 𝑚𝑚𝑥𝑥̅ = 1860,7 − 199,197 ∗ 4,5 = 964,3 964,3€  La ecuación del modelo lineal: 𝒚𝒚 = 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟐𝟐𝟐𝟐 + 𝟗𝟗𝟗𝟗𝟗𝟗, 𝟑𝟑 Por el aumento de 1 unidad (año) en la variable de experiencia, el sueldo aumentará 199,197€ 53 Modelo lineal simple en Python Supongamos que en Python, tenemos una base de datos con el nombre datos, y queremos calcular el modelo lineal para predecir los valores de la variable_Y en función de la variable explicativa variable_X : El código general para hacerlo en Python es el siguiente X = datos[‘variable_X’] Y = datos[‘variable_Y’] import statsmodels.api as sm X = sm.add_constant(X) import statsmodels.api as sm model = sm.OLS(Y, X) results = model.fit() print(results.summary()) Mondragon Unibertsitatea 54 Modelo lineal simple en Python coeficientes 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦 = 964,31 + 199,2 ∗ 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸(𝑥𝑥) 55 Modelo lineal simple en Python coeficientes S𝑢𝑢𝑢𝑢𝑢𝑢𝑢𝑢𝑢𝑢 𝑦𝑦 = 964,31 + 199,2 ∗ 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸(𝑥𝑥) Si la experiencia es de 0 años, el Por cada aumento de una unidad (un año) en la sueldo será de 964,31€ experiencia, el sueldo aumentará 199,197€. 56 Modelo lineal simple en Python p-valor Como el 𝒑𝒑 − 𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗𝒗 < 𝟎𝟎, 𝟎𝟎𝟎𝟎: El impacto de la variable explicativa (en este caso la Experiencia) es estadísticamente significativo, a la hora de explicar la variación de la variable dependiente (Sueldo). 57 Regresión lineal Predecir los valores de una variable (y) a partir de Objetivo otra(s) variable(s) explicativa(s) Variables Todas Numéricas y explicativas numéricas categóricas Cuántas variables 1 única Las explicativas 2 o más variable deseadas Modelo de Regresión Regresión Regresión regresión que lineal simple lineal lineal ajustaremos: múltiple múltiple 58 Mondragon Unibertsitatea Regresión lineal múltiple La utilizaremos cuando haya dos o más variables explicativas. Generalizando, supongamos que tenemos k variables explicativas. Entonces, la ecuación de la regresión lineal múltiple será la siguiente: 𝑦𝑦 = 𝛽𝛽0 + 𝛽𝛽1 𝑋𝑋1 + 𝛽𝛽2 𝑋𝑋2 + ⋯ + 𝛽𝛽𝑘𝑘 𝑋𝑋𝑘𝑘 El modelo de regresión lineal múltiple, lo trabajaremos en Python. 59 Regresión lineal múltiple en Python Supongamos que en Python, tenemos una base de datos con el nombre datos, y queremos calcular el modelo lineal para predecir los valores de la variable_Y en función de las variables explicativas variable_X1 y variable_X2 : Código Python X = datos[[‘variable_X1’, ‘variable_X2’]] Y = datos[‘variable_Y’] import statsmodels.api as sm X = sm.add_constant(X) import statsmodels.api as sm model = sm.OLS(Y, X) results = model.fit() print(results.summary()) Mondragon Unibertsitatea 60 Regresión lineal múltiple en Python coeficientes 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 (𝑦𝑦) = 1050,2 + 201,81 ∗ 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 − 2,83 ∗ 𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃 61 Regresión lineal múltiple en Python coeficientes 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 (𝑦𝑦) = 1050,2 + 201,81 ∗ 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 − 2,83 ∗ 𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃 Cuando Experiencia=0 y Manteniendo la Manteniendo la Experiencia Productividad=0, el sueldo productividad constante, constante, cada vez que la sería de 1050,2€. Es decir, el cada vez que la Experiencia productividad aumente una salario base de un empleado aumente una unidad, el unidad, el sueldo disminuirá nuevo sería 1050,2€. sueldo aumentará 201,81€. 2,83€. 62 Regresión lineal múltiple en Python p-valor ¿Es significativo el impacto de estas variables, a la hora de explicar la variación del sueldo? 63 Regresión lineal múltiple en Python p-valor p>0,05 ⇒ La variable p0,05, no habría diferencias significativas en el aumento de sueldo respecto a alos hombres y las mujeres. En ese caso, se podría asumir que ganan lo mismo. Regresión lineal Predecir los valores de una variable (y) a partir de Objetivo otra(s) variable(s) explicativa(s) Variables Todas Numéricas y explicativas numéricas categóricas Cuántas variables 1 única Las explicativas 2 o más variable deseadas Modelo de Regresión Regresión Regresión regresión que lineal simple lineal lineal ajustaremos: múltiple múltiple 74 Mondragon Unibertsitatea Regresión lineal Predecir los valores de una variable (y) a partir de Objetivo otra(s) variable(s) explicativa(s) Variables Todas Numéricas y explicativas numéricas categóricas Cuántas variables 1 única Las explicativas 2 o más variable deseadas Modelo de Regresión Regresión El siguiente Regresión regresión que lineal simple lineal lineal ejemplo: con ajustaremos: múltiple múltiple dos variables categóricas 75 Mondragon Unibertsitatea Regresión lineal múltiple – Código Python e interpretación Sueldo=1478,1+112,3∗Exp−3,6∗Prod−310,2∗Sex𝑜𝑜 =𝑀𝑀 −8,1∗𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 =𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 +398,96∗Estudios(=Máster) 76 Regresión lineal múltiple – Código Python e interpretación Sueldo=1478,1+112,3∗Exp−3,6∗Prod−310,2∗Sex𝑜𝑜 =𝑀𝑀 −8,1∗𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 =𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 +398,96∗Estudios(=Máster) Tenemos 2 variables categóricas >> Cada variable, una categoría de referencia. En este caso, las categorías de referencia son: Sexo=HOMBRE y Estudios=CICLO (los que no salen en la ecuación, para cada variable). 77 Regresión lineal múltiple – Código Python e interpretación Manteniendo el resto de variables constantes, una persona con Cuando la ESTUDIOS=MÁST Experiencia y la ER cobrará 398,96€ Productividad más comparando son 0 la con la categoría persona de de referencia. Es referencía (en decir, en las mismas este caso condiciones para el HOMBRE con resto de variables, un estudios de trabajador con un CICLO) tendrá MÁSTER cobrará un sueldo de 398,96€ más que un 1478,1€ trabajador con CICLO. Sueldo=1478,1+112,3∗Exp−3,6∗Prod−310,2∗Sex𝑜𝑜 =𝑀𝑀 −8,1∗Estudios =𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 +398,96∗Estudios(=Máster) Por cada aumento de Por cada aumento Manteniendo el resto de variables Manteniendo el resto de variables una unidad de de una unidad en constantes, una persona con constantes una persona con experiencia, el sueldo la Productividad, el SEXO=Mujer cobrará 310,2€ menos ESTUDIOS=GRADO cobrará 8,1€ aumentará 112,3€ sueldo bajará 3,6€, comparando con la categoría de menos comparando con la manteniendo el resto manteniendo el referencia. Es decir, en las mismas categoría de referencia. Es decir, de variables resto de variables condiciones para el resto de variables, una trabajador en mismas condiciones constantes constantes. mujer cobrará 310,2€ menos que un hombre. pero con ESTUDIOS=CICLO.78 Regresión lineal múltiple – Código Python e interpretación Estudios MÁSTER vs CICLO (referencia): Estudios GRADO vs CICLO (referencia): Como el p−valor < 0,05, la diferencia entre Como el p−valor >0,05, la diferencia de los empleados con ciclos y máster es estudiar un grado o un ciclo NO es significativa a la hora de explicar la variación significativa a la hora de explicar la del salario. Es decir, en este caso, no ganarán variación salarial. Es decir, la diferencia igual los que han estudiado un ciclo que los salarial no es significativa entre los que han estudiado un máster. trabajadores que tienen ciclo o grado (no se puede decir que uno gane más que otro). 79 Interacciones Regresión lineal 80 Interacciones En el contexto de la regresión lineal, una interacción representa el efecto combinado de dos (o más) variables independientes en la variable dependiente. Cuando se sospecha que el efecto de una variable independiente no es constante, es decir, que puede variar en función del nivel de otra variable independiente, es importante insertar interacciones en modelos de regresión. Esto puede ayudar a comprender con más precisión las relaciones entre las variables presentes en el estudio. 81 Interacciones – Ejemplo I Interacciones entre dos variables continuas Se considera que el salario depende de la experiencia y de la productividad. Pero... ¿Cada vez tenemos más experiencia nos lleva a ser más productivos? O al contrario, ¿tener cada vez más experiencia nos lleva a tener menos productividad? Veamos a través de las interacciones 82 Interacciones – Ejemplo I en Python Dos variables continuas 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦 = 789,3 + 163,2 ∗ 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 + 3,5 ∗ 𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃 + 1,2 ∗ 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 ∗ 𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃 ¿Cada vez que un trabajador/a tenga más experiencia es más productivo/a? Al ser 1,2 positivo habría una correlación positiva entre la experiencia y la productividad. Es decir, cada vez que haya más experiencia habrá más productividad. Pero como en este caso el p-valor es superior a 0,05 (0.709), la interacción NO es estadísticamente significativa. Dicho de otro modo, en este caso, tener más experiencia no garantiza que esa persona sea más productiva. 83 Regresión lineal múltiple en Python (con 2 variables continuas) Supongamos que tenemos una base de datos llamada datos y se quiere calcular el modelo lineal para predecir los valores de variable_Y respecto a variable_X1, variable_X2 (variables continuas) y la interacción variable_X1* variable_X2. Entonces: Código Python: Interacciones # Para crear la interacción datos[‘int_X1_X2’]=datos[‘Variable_X1’]*datos[‘Variable_X2'] Código Python: Modelo X = datos[[‘variable_X1’, ‘variable_X2’,’int_X1_X2’]] Y = datos_dummy[‘variable_Y’] import statsmodels.api as sm X = sm.add_constant(X) import statsmodels.api as sm model = sm.OLS(Y, X) results = model.fit() print(results.summary()) Mondragon Unibertsitatea 84 Interacciones – Ejemplo II Interacciones entre una variable continua y otra categórica Se considera que el salario depende de la experiencia y del género. Pero... ¿Los trabajadores de un género concreto tiene más experiencia? ¿O no hay diferencias entre ambas categorías? Veamos a través de las interacciones 85 Interacciones – Ejemplo II en Python Variable categórica y continua 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦 = 1126,6 + 191,8 ∗ 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 − 81,3 ∗ 𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 = 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 − 99,7 ∗ 𝐸𝐸𝐸𝐸𝐸𝐸.∗ (𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 = 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀) ¿Existe relación entre género y experiencia? Al ser - 99,7 negativo, cada año de experiencia de las mujeres tiene un impacto diferencial negativo sobre el sueldo de 99,7, es decir, el impacto de cada año de experiencia es menor que 191,8. Además, el p-valor es inferior a 0,05 (0.03), por lo que la interacción es estadísticamente significativa. Es decir, hay una relación entre las variables de género y experiencia que afecta al sueldo. 86 Interacciones – Ejemplo II en Python Variable categórica y continua 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦 = 1126,6 + 191,8 ∗ 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 − 81,3 ∗ 𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 = 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 − 99,7 ∗ 𝐸𝐸𝐸𝐸𝐸𝐸.∗ (𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 = 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀) 87 Regresión lineal múltiple con interacciones en Python (1 variable continua y 1 variable categórica) Supongamos que tenemos una base de datos llamada datos y se quiere calcular el modelo lineal para predecir los valores de variable_Y respecto a variable_X1 (variable continua) variable_grupo (variables categórica) y las posibles interacciones entre las categorías y la variable continua. Entonces: Código Python: Crear interacciones # Crear las variables dummy datos_dummy = pd.get_dummies(datos, drop_first=True).astype(int) # Crear las interacciones ¡Con las variable dummy! datos_dummy[‘int_X1_g1’] = datos_dummy[‘Variable_X1’]*datos_dummy[‘Variable_grupo_1’] datos_dummy[‘int_X1_g2’] = datos_dummy[‘Variable_X1’]*datos_dummy[‘Variable_grupo_2’]... Código Python: Modelo X = datos_dummy[[‘variable_X1’, ‘variable_grupo’,’int_X1_g1’,’int_X1_g2’,...]] Y = datos_dummy[‘variable_Y’] import statsmodels.api as sm X = sm.add_constant(X) model = sm.OLS(Y, X) results = model.fit() print(results.summary()) Mondragon Unibertsitatea 88 Interacciones – Ejemplo III Interacciones entre dos variables categóricas Se considera que el salario depende del género y del nivel de estudios. Pero... ¿Se aprecia diferencia salarial entre la combinación de diferentes géneros y niveles de estudios? ¿O no se garantiza una variación significativa en el salario respecto a los niveles de género y estudios? Veamos a través de las interacciones 89 Interacciones – Ejemplo III en Python Variables categóricas 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦 = 1570,9 + 189,1 ∗ 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 = 𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 + 1171,3 ∗ 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 = 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 − 480,9 ∗ 𝐺𝐺𝐺𝐺𝐺. = 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 + 69,9 ∗ 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 = 𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 ∗ 𝐺𝐺𝐺𝐺𝐺. = 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 − 761,3 ∗ 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 = 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 ∗ (𝐺𝐺𝐺𝐺𝐺. = 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀) ¿Existe alguna relación entre género y nivel de estudios?  El incremento salarial será de 69,9 puntos más en el caso de las mujeres que tengan estudios de grado (al ser el p-valor superior a 0,05 no es significativa la variación del sueldo para esta combinación de categorías).  El salario variará - 761,3€ por ser mujer con estudios de máster (con un p-valor inferior a 0,05 es un cambio significativo de sueldo para los que tengan esa combinación). 90 Interacciones – Ejemplo III en Python Variables categóricas 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦 = 1570,9 + 189,1 ∗ 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 = 𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 + 1171,3 ∗ 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 = 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 − 480,9 ∗ 𝐺𝐺𝐺𝐺𝐺. = 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 + 69,9 ∗ 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 = 𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 ∗ 𝐺𝐺𝐺𝐺𝐺. = 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 − 761,3 ∗ 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 = 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 ∗ (𝐺𝐺𝐺𝐺𝐺. = 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀) ¿Existe alguna relación entre género y nivel de estudios?  El incremento salarial será de 69,9 puntos más en el caso de las mujeres que tengan estudios de grado (al ser el p-valor superior a 0,05 no es significativa la variación del sueldo para esta combinación de categorías).  El salario variará - 761,3€ por ser mujer con estudios de máster (con un p-valor inferior a 0,05 es un cambio significativo de sueldo para los que tengan esa combinación). 91 Regresión lineal múltiple con interacciones en Python (2 variables categóricas) Supongamos que tenemos una base de datos llamada datos y se quiere calcular el modelo lineal para predecir los valores de la variable variable_Y respecto a las variables variable_grupo1, variable_grupo2 (variables categóricas) y todas las interacciones posibles entre ambas variables. Entonces: Código Python: Interacciones # Crear variables Dummy datos_dummy = pd.get_dummies(datos, drop_first=True).astype(int) # Crear interacciones  ¡Con las variables Dummy! datos_dummy[‘int_g11_g21’] = datos_dummy[‘Variable_grupo1_1’]*datos_dummy[‘Variable_grupo_2_1’] datos_dummy[‘int_g11_g22’] = datos_dummy[‘Variable_grupo1_1’]*datos_dummy[‘Variable_grupo_2_2’]... Código Python: Modelo X = datos_dummy[[‘variable_X1’, ‘variable_grupo’,’int_X1_g1’,’int_X1_g2’,...]] Y = datos_dummy[‘variable_Y’] import statsmodels.api as sm X = sm.add_constant(X) model = sm.OLS(Y, X) results = model.fit() print(results.summary()) Mondragon Unibertsitatea 92 ¿Qué necesitamos saber? Interpretar y tomar Recoger Análisis gráfico de la relación: decisiones Gráfico de dispersión Análisi s de Tipos de relación Relacionar datos Describir Medir la fuerza de la relación: Covarianza Visualizar Coeficiente de correlación Definir matemáticamente la relación entre variables: Ajustar el modelo Bondad de ajuste del modelo Coeficiente de determinación Coeficiente de determinación ajustado Mondragon Unibertsitatea 94 ¿Cómo sabemos si un modelo de regresión es bueno/adecuado o no? Hemos creado modelos de regresión lineal para tratar de explicar y predecir los valores de una variable dependiente. Sin embargo, no todas las variables del modelo han sido significativas a la hora de explicar la variación de la variable que predecíamos (en el ejemplo, el sueldo). Entonces… ¿El modelo se ajusta a la variable que estoy intentando explicar? ¿Cómo podemos medir la bondad de ajuste del modelo? 95 ¿Qué necesitamos saber? Interpretar y tomar Recoger Análisis gráfico de la relación: decisiones Gráfico de dispersión Análisi s de Tipos de relación Relacionar datos Describir Medir la fuerza de la relación: Covarianza Visualizar Coeficiente de correlación Definir matemáticamente la relación entre variables: Ajustar el modelo Bondad de ajuste del modelo Coeficiente de determinación Coeficiente de determinación ajustado Mondragon Unibertsitatea 96 Bondad de ajuste: Contexto Hemos ajustado un modelo lineal que, basándose en nuestros datos, predice el valor de una variable mediante una ecuación lineal. Pero: ¿Cómo sabemos si la recta ajustada es buena o no? ¿Cómo medimos si se corresponde adecuadamente a nuestros datos y realmente predice bien la variable que nos interesa? Para responder a todas estas preguntas, debemos analizar la bondad de ajuste del modelo. Gracias a ello, podremos definir y cuantificar si el modelo se ajusta bien a los datos o no. Para ello, calcularemos dos coeficientes, relacionados entre sí: el coeficiente de determinación y el coeficiente de determinación corregido. 97 Coeficiente de determinación (𝑹𝑹𝟐𝟐 ) ¿Qué es el coeficiente de determinación? El coeficiente de determinación es un estadístico que nos dice hasta qué punto somos capaces de explicar la variable dependiente (y) mediante la regresión, conociendo las variable explicativa (x). Se calcula con la siguiente fórmula: 𝑛𝑛 2 ∑ 𝑖𝑖=1( 𝑦𝑦 𝑖𝑖 − 𝑦𝑦) 𝑅𝑅 2 = 𝑛𝑛 2 ∑𝑖𝑖=1(𝑦𝑦𝑖𝑖 − 𝑦𝑦) 𝑦𝑦 𝑖𝑖 : Valor estimado en la variable dependiente. Es decir, para cada valor en la variable x, el valor que obtenemos en la variable y utilizando la regresión. Media de la variable dependiente 𝑦𝑦: 𝑦𝑦𝑖𝑖 : Valor real en la variable dependiente 98 Coeficiente de determinación (𝑹𝑹𝟐𝟐 ) ∑𝒏𝒏 𝟐𝟐 𝒊𝒊=𝟏𝟏( 𝒚𝒚 𝒊𝒊 − 𝒚𝒚 ) 𝑹𝑹𝟐𝟐 = 𝒏𝒏 ∑𝒊𝒊=𝟏𝟏(𝒚𝒚𝒊𝒊 − 𝒚𝒚 )𝟐𝟐 Distancia entre los valores estimados y la media de la variable dependiente: 𝒚𝒚 𝒊𝒊 : Valor estimado en la variable dependiente. Es decir, para cada valor en la variable x, el valor que obtenemos en la variable y utilizando la regresión. : Media de la variable dependiente (1860,7) 𝒚𝒚 𝒚𝒚𝒊𝒊 : Valor real en la variable dependiente R E L AC I Ó N E N T R C E L A E X P E R I E N C I A Y E L S U E L D O 3500 3000 2500 SUeldo (€) 2000 1500 1000 500 0 0 2 4 6 8 10 12 Experiencia (años) 99 Coeficiente de determinación (𝑹𝑹𝟐𝟐 ) ∑𝒏𝒏 𝟐𝟐 𝒊𝒊=𝟏𝟏( 𝒚𝒚 𝒊𝒊 − 𝒚𝒚 ) 𝑹𝑹𝟐𝟐 = 𝒏𝒏 ∑𝒊𝒊=𝟏𝟏(𝒚𝒚𝒊𝒊 − 𝒚𝒚 )𝟐𝟐 Distancia entre los valores reales y la media de la variable dependiente: 𝒚𝒚 𝒊𝒊 : Valor estimado en la variable dependiente. Es decir, para cada valor en la variable x, el valor que obtenemos en la variable y utilizando la regresión. : Media de la variable dependiente (1860,7) 𝒚𝒚 𝒚𝒚𝒊𝒊 : Valor real en la variable dependiente R E L AC I Ó N E N T R E L A E X P E R I E N C I A Y E L S U E L D O 3500 3000 2500 Sueldo (€) 2000 1500 1000 500 0 0 2 4 6 8 10 12 Experiencia (años) 100 Coeficiente de determinación (𝑹𝑹𝟐𝟐 ) El coeficiente de determinación es un valor que oscila entre 0 y 1. Indica qué porcentaje de varianza de la variable dependiente es capaz de explicar el modelo. Si 𝑹𝑹𝟐𝟐 =1, el modelo es capaz de explicar el 100% de la varianza de la variable dependiente; es decir, el modelo es perfecto, y predice a la perfección los valores de la variable dependiente. Si 𝑹𝑹𝟐𝟐 =0, el modelo es capaz de explicar el 0% (NADA) de la varianza de la variable dependiente; es decir, el modelo no sirve para predecir los valores de la variable dependiente. Por ejemplo, si 𝑹𝑹𝟐𝟐 =0,8 el modelo explica el 80% de la varianza de la variable dependiente, con lo cual sería un modelo bastante adecuado. 101 𝑹𝑹𝟐𝟐 : Ejemplo En la siguiente tabla se recogen el sueldo (en €) y la experiencia en la empresa (años trabajados en la empresa), para 10 trabajadores: Sueldo (€) 1000 1125 1245 1324 1474 1760 2459 2650 2670 2900 Experiencia (años) 0 1 1 2 4 4 6 8 9 10 a) Calcula el coeficiente de determinación. Mondragon Unibertsitatea 102 𝑹𝑹𝟐𝟐 : Ejemplo Sueldo (€) 1000 1125 1245 1324 1474 1760 2459 2650 2670 2900 Experiencia (años) 0 1 1 2 4 4 6 8 9 10 Calcular el coeficiente de determinación. (Recordad, 𝑦𝑦 = 1860,7) Calculamos los valores necesarios para utilizar en la fórmula: 𝒙𝒙𝒊𝒊 𝒚𝒚𝒊𝒊 𝒚𝒚 𝒊𝒊 = 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟐𝟐𝒙𝒙𝒊𝒊 + 𝟗𝟗𝟗𝟗𝟗𝟗, 𝟑𝟑 )𝟐𝟐 (𝒚𝒚 𝒊𝒊 − 𝒚𝒚 )𝟐𝟐 (𝒚𝒚𝒊𝒊 − 𝒚𝒚 2 ∑𝑛𝑛𝑖𝑖=1(𝑦𝑦 𝑖𝑖 − 𝑦𝑦) 2 4622794,56 𝑅𝑅 = 𝑛𝑛 = = 0,9581 0 1000 964,3 803532,96 740804,49 ∑𝑖𝑖=1(𝑦𝑦𝑖𝑖 − 𝑦𝑦) 2 4824938,1 1 1125 1163,5 486087,84 541254,49 1 1245 1163,5 486087,84 379086,49 2 1324 1362,7 248004 288046,89  Conclusión: Solo con la variable 4 1474 1761,1 9920,16 149536,89 4 1760 1761,1 9920,16 10140,49 Experiencia, el modelo es capaz 6 2459 2159,5 89281,44 357962,89 de explicar el 95,8% de la 8 2650 2557,9 486087,84 622994,49 9 2670 2757,1 803532,96 654966,49 varianza de la variable Sueldo. 10 2900 2956,3 1200339,36 1080144,49 GUZTIRA 4622794,56 4824938,1 103 Coeficiente de determinación (𝑹𝑹𝟐𝟐 ) en Python 104 Coeficiente de determinación (𝑹𝑹𝟐𝟐 ) Limitaciones: El coeficiente de determinación 𝑅𝑅2 tiende a valorar positivamente el ajuste de la regresión lineal (es decir, suele aportar valores “sobreajustados”, optimistas). Además, cada vez que añadimos una nueva variable explicativa al modelo, el 𝑅𝑅2 aumenta, aunque la variable no sea significativa. En las regresiones lineales múltiples, no tiene en cuenta la cantidad de variables explicativas que utilizamos para predecir la variable dependiente. ¿Qué podemos hacer para abordar estas limitaciones? 105 ¿Qué necesitamos saber? Interpretar y tomar Recoger Análisis gráfico de la relación: decisiones Gráfico de dispersión Análisi s de Tipos de relación Relacionar datos Describir Medir la fuerza de la relación: Covarianza Visualizar Coeficiente de correlación Definir matemáticamente la relación entre variables: Ajustar el modelo Bondad de ajuste del modelo Coeficiente de determinación Coeficiente de determinación ajustado Mondragon Unibertsitatea 106 Coeficiente de determinación 𝟐𝟐 ) ajustado (𝑹𝑹 El coeficiente de determinación ajustado (𝑹𝑹 𝟐𝟐 ) tiene en cuenta el número de variables explicativas con las que predecimos o explicamos la variable dependiente. Representa el mismo concepto que el 𝑹𝑹𝟐𝟐 : qué porcentaje de la varianza de la variable dependiente es explicado por el modelo que ajustamos. Pero comparando con las limitaciones del 𝑅𝑅2 : Tiene en cuenta el número de variables explicativas. De esta forma, el ajuste en los múltiples modelos lineales no se valorará de forma optimista. Si alguna variable independiente no tiene una relación directa o no mejora el modelo, el 𝑅𝑅 2 reduce. Por lo tanto, no “premia” que variables que no aportan información participen en el modelo. 107 Coeficiente de determinación 𝟐𝟐 ) ajustado (𝑹𝑹 Se calcula mediante la siguiente fórmula: 𝑛𝑛 − 1 𝑅𝑅 2 = 1 − 1 − 𝑅𝑅2 𝑛𝑛 − 𝑘𝑘 𝑅𝑅2 : Coeficiente de determinación 𝑛𝑛: Nº de observaciones (datos) 𝑘𝑘: Nº de variables en total (variable dependiente + explicativas) 108 𝟐𝟐 : Ejemplo 𝑹𝑹 En la siguiente tabla se recogen el sueldo (en €) y la experiencia en la empresa (años trabajados en la empresa), para 10 trabajadores: Sueldo (€) 1000 1125 1245 1324 1474 1760 2459 2650 2670 2900 Experiencia (años) 0 1 1 2 4 4 6 8 9 10 a) Calcula el coeficiente de determinación ajustado. Mondragon Unibertsitatea 109 𝟐𝟐 : Ejemplo 𝑹𝑹 Sueldo (€) 1000 1125 1245 1324 1474 1760 2459 2650 2670 2900 Experiencia (años) 0 1 1 2 4 4 6 8 9 10 Calcular el coeficiente de determinación ajustado. 1. En el ejemplo anterior que hemos resuelto, obteníamos que: 𝑅𝑅2 = 0,9581 2. En este ejemplo contamos con 𝑛𝑛 = 10 observaciones y 𝑘𝑘 = 2 variables en la base de datos (una dependiente y otra explicativa). 3. Por lo tanto, aplicando la fórmula, podemos obtenerlo directamente: 𝑛𝑛 − 1 10 − 1 𝑅𝑅 2 = 1 − 1 − 𝑅𝑅 2 = 1 − 1 − 0,9581 = 0,95286 𝑛𝑛 − 𝑘𝑘 10 − 2  Conclusión: Solo con la variable Experiencia, el modelo es capaz de explicar el 95,28% de la varianza de la variable Sueldo, teniendo en cuenta los grados de libertad (es decir, cuántas variables participan en el modelo) 110 Coeficiente de determinación 𝟐𝟐 ) en Rstudio ajustado (𝑹𝑹 111 4 TRABAJO GRUPAL Resumen de la tarea OBJETIVO El objetivo de este trabajo es determinar si existe o no brecha salarial de género en una hipotética empresa. Para ello tendréis acceso a la base de datos de Glassdor. Utilizando esta base de datos, y realizando los análisis estadísticos pertinentes, tendréis que redactar un informe que recoja todo el estudio realizado para analizar la situación de la empresa. 113 VARIABLES DE LA BASE DE DATOS VARIABLE SIGNIFICADO jobTitle Nombre del trabajo que desempeña (perfil profesional) gender Género age Edad Nivel de rendimiento de cada empleado, en una escala del 1 al 5 (1 es el perfEval nivel más bajo, y 5 el nivel más alto) education Nivel de estudios dept Departamento de la empresa en la que trabaja Seniority Cuantos años lleva trabajando en la empresa basePay Salario base anual de cada trabajador Cuantía de las pagas extraordinarias recibidas durante el año, al margen bonus del salario base 114 ESTRUCTURA DEL INFORME 1. Portada 2. Índice 3. Introducción 4. Desarrollo 5. Conclusiones 6. Reflexión ENTREGABLES 1. Informe (máximo 15 páginas, portada incluida) 2. Notebook de Python 115 DEFENSA DEL INFORME Recordad que tendréis que realizar la defensa oral del informe, después del examen de Talent Analytics. Podéis encontrar todos los detalles sobre la entrega en el documento de MUdle. 116 Eskerrik asko Muchas gracias Thank you

Use Quizgecko on...
Browser
Browser