Unidad 5. PDF
Document Details
Uploaded by Pantarinto
Instituto Politécnico Nacional, Escuela Superior de Cómputo
Tags
Summary
This document is about data mining and linear regression. It provides information about the concept of linear regression, and discusses the importance of linear regression in data mining. It also discusses how to interpret the results obtained from linear regression.
Full Transcript
04/12/2024 Instituto Politécnico Nacional Escuela Superior de Cómputo Secretaría Académica Departamento de Ingeniería en Sistemas Computacionales Minería de datos (Data Mining) R...
04/12/2024 Instituto Politécnico Nacional Escuela Superior de Cómputo Secretaría Académica Departamento de Ingeniería en Sistemas Computacionales Minería de datos (Data Mining) Regresión lineal (1ª Parte) 1 Profesora: Dra. Fabiola Ocampo Botello 1 Levín, Rubín, Balderas, Del Valle y Gómez (2004:510) establecen que el término de regresión fue utilizado por primera vez por Sir Francis Galton en el año de 1877 como un término estadístico. Sir Francis Galtón desarrolló un estudio que mostró que los niños nacidos de padres altos tienden a regresar a la estatura media de la población. Utilizó el término regresión para designar el proceso general de predecir una variable (en este caso la estatura de los niños) a partir de otra variable (la estatura de los padres). 2 Las variables conocidas se llaman variables independientes y la variable desconocida a predecir se llama variable dependiente. Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 2 1 04/12/2024 Levín y otros (2004) establecen que la correlación y la regresión muestran tanto la naturaleza como la fuerza de la relación entre dos variables. Definición de correlación: Una correlación existe entre dos variables cuando valores mayores de una variable van con valores consistentes de otra variable o cuando valores grandes de una variable 3 corresponden de manera consistentes con valores menores de otra variable. (Bennet, Briggs & Triola, Fuente de la imagen: Coeficiente de correlación en R 2011:286). https://vivaelsoftwarelibre.com/coeficiente-de-correlacion-en-r/ Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 3 Según Aguayo y Lora (2007), la correlación es una técnica matemática que evalúa el grado de asociación o relación entre dos variables cuantitativas, tanto en términos de direccionalidad como de fuerza o intensidad proporcionadas por un coeficiente. El coeficiente de correlación puede tener valores que oscilan entre -1 y +1, considerando el cero. Cuando el valor se acerca a +1, ambas variables (X y Y) se relacionan de manera muy estrecha. Existe una correlación positiva si cuando se incrementa el valor de X también se incrementa el de Y o cuando hay un decremento en el valor de X también hay un decremento en el valor de Y. 4 Del mismo modo, cuando el valor se acerca a -1 refleja que existe una relación de forma inversa, esto es, cuando aumenta el valor de X existe un decremento en el valor de Y y cuando X obtiene puntajes bajos Y alcanza puntajes altos. Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 4 2 04/12/2024 Regresión Lineal La correlación sólo expresa la relación existente entre dos variables numéricas, no expresa causalidad. La regresión es una modelo de predicción. Carollo (2012) establece que “El objetivo de un modelo de regresión es tratar de explicar la relación que existe entre una variable dependiente (variable respuesta) Y y un conjunto de variables independientes (variables explicativas) X1,..., Xn. En un modelo de regresión 5 lineal simple tratamos de explicar la relación que existe entre la variable respuesta Y y una única variable explicativa X.” Fuente de la imagen: Revista Chilena de Anestesia https://revistachilenadeanestesia.cl/regresion-lineal Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 5 Imágenes y ejemplo tomados de Levin, et. al (2004). 6 Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 6 3 04/12/2024 Se usa el método de mínimos cuadrados para encontrar los valores a y b, 7 Imágenes y ejemplo tomados de Levin, et. Al (2004) Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 7 La a se denomina la “ordenada de Y”, por que cruza el eje Y. La b es la “pendiente” de la recta. 8 Imágenes tomadas de Levin, et. Al (2004) Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 8 4 04/12/2024 Debido al comportamiento que tienen los datos, se puede modelar mediante una ecuación de regresión simple. Lo cual es: 𝑦ො = 𝑏0 + 𝑏1 𝑥𝑖 Donde: ŷi Valor estimado de las ventas trimestrales del restaurant i 9 b0 Intersección de la recta de regresión con el eje y b1 Pendiente de la recta de regresión xi Tamaño de la población de estudiantes del restaurante i Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 9 10 Imagen tomada de Anderson, Sweeney & Williams (2008). Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 10 5 04/12/2024 Imagen Creative Commons En: http://www.sthda.com /english/articles/40- regression- analysis/167-simple- linear-regression-in-r/ 11 Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 11 12 Imagen tomada de Anderson, Sweeney & Williams (2008) Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 12 6 04/12/2024 Ejemplo Número 1: (Adaptado de Levin, et. al (2004:522-523) Suponga que la directora del Departamento de Salubridad de Chapel Hill está interesada en la relación que existe entre la antigüedad de un camión de basura y los gastos de reparación que hay que esperar. 13 Imagen y ejemplo tomados de Levin, et. al (2004) Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 13 Primer paso. Organizar los datos ത para calcular 𝑥ҧ y 𝑌. Imágenes y ejemplo tomados de Levin, et. al (2004) Ecuación 12.4 14 Ecuación 12.5 Tabla 12-7. Cálculo de los datos para las ecuaciones 12-4 y 12-5. Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 14 7 04/12/2024 Segundo paso. Calcular 𝑥ҧ y 𝑌. ത 15 Con esta ecuación, la directora del Departamento de Salubridad puede estimar los gastos anuales de reparación. Si se tiene un camión de 4 años de antigüedad, se estima: Imágenes y ejemplo tomados de Levin, et. al (2004) Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 15 Ejemplo Número 2: (tomado de Levin, et. al (2004:523-) El vicepresidente de una compañía química y de fabricación de fibras cree que las ganancias anuales de la empresa dependen de la cantidad gastada en investigación y Desarrollo (ID), pero el nuevo presidente de la compañía no está de acuerdo, por lo que ha solicitado una ecuación para pronosticar los beneficios anuales derivados de la cantidad presupuestada para ID. Imagen y ejemplo tomados de Levin, et. al (2004) 16 Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 16 8 04/12/2024 Primer paso. Organizar los datos como se muestran en la siguiente figura. Imagen y ejemplo tomados de Levin, et. al (2004) 17 Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 17 Segundo paso. Calcular 𝑥ҧ y 𝑌. ത 18 Si la compañía gastó 8 millones de dólares para ID en el año de 1996, entonces debió ganar aproximadamente 36 millones de dólares en ese año. Imágenes y ejemplo tomados de Levin, et. al (2004). Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 18 9 04/12/2024 19 Referencias bibliográficas Anderson, Sweeney & Williams. (2008). Estadística para administración y economía, 10ª edición. Cengage Learning. Bennet, Briggs & Triola (2011). Razonamiento estadístico. Pearson. México. Carollo Limeres, M. Carmen. (2012). Regresión lineal simple. Apuntes del departamento de estadística e investigación operativa. Disponible en: http://eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP- DPTO/MATERIALES/Mat_50140116_Regr_%20simple_2011_12.pdf Kerlinger, F. N. & Lee, H. B. (2002). Investigación del comportamiento. Métodos de investigación en ciencias sociales. 4ª ed. México: Mc. Graw Hill. Levín, Rubín, Balderas, Del Valle y Gómez. (2004). Estadística para administración y economía. Séptima Edición. Prentice-Hall. Mason, Lind & Marshal. (2000). Estadística para administración y economía. Alfaomega. 10ª edición. Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 19 10 04/12/2024 Instituto Politécnico Nacional Escuela Superior de Cómputo Secretaría Académica Departamento de Ingeniería en Sistemas Computacionales Minería de datos (Data Mining) ejemplo Pizzería “Polito” 1 Regresión lineal Profesora: Dra. Fabiola Ocampo Botello 1 Ejemplo adaptado de Anderson, Sweeney & Williams (2008). Se tienen los datos de 10 pizzerías (Pizzerías “Polito”) ubicadas cerca de los campus universitarios. Tanto la cantidad de alumnos y las ganancias se expresan en 2 miles, como se muestra en la siguiente tabla. Fuente de la imagen: La Cocinika de Ana https://ana-lacocinikadeana.blogspot.com/2012/10/dominos-pizza.html Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 2 1 04/12/2024 Tabla No. 1. Ventas de la pizzería “Polito” NoEstud Ventas No x y 1 2 58 2 6 105 3 8 88 4 8 118 5 12 117 6 16 137 7 20 157 8 20 169 9 22 149 10 26 202 Fuente de la imagen: Pizzeria 5 tapas. https://pizzeria5tapas.blogspot.com/ 3 La pizzería número 1: x1 = 2 y y1 = 58 (2, 58) significa que está cerca de un campus con 2,000 estudiantes y reporta ventas de 58,000 pesos. La pizzería número 2: x2 = 6 y y2 = 105 (6, 105) significa que está cerca de un campus con 6,000 estudiantes y reporta ventas de 105,000 pesos. Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 3 La variable independiente se coloca en el eje horizontal x (número de estudiantes). La variable dependiente se coloca en el eje vertical y (ganancia). 4 Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 4 2 04/12/2024 5 Imagen tomada de Anderson, Sweeney & Williams (2008) Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 5 Imágenes tomadas de Anderson, Sweeney & Williams (2008) 6 Ecuación de regresión Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 6 3 04/12/2024 7 Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 7 Suponga que se desean predecir las ventas de un restaurant que se encuentra cerca de un campus que tiene 16,000 estudiantes. x = 16 ŷ = 60 + 5x ŷ = 60 + 5(16) = 140 Se pronostica una venta de 140,000 pesos. 8 Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 8 4 04/12/2024 Verificación de la ecuación de estimación Levin, et. al (2004) establecen que un método para verificar la ecuación de estimación se fundamenta en una de las propiedades de la recta ajustada por el método de mínimos cuadrados, esto es, los errores individuales positivos y negativos deben sumar cero. Del ejemplo de la pizzería “Polito”. La suma de errores sería: Imagen tomada de Anderson, Sweeney & Williams (2008) 9 Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 9 10 Referencias bibliográficas Anderson, Sweeney & Williams. (2008). Estadística para administración y economía, 10ª edición. Cengage Learning. Bennet, Briggs & Triola (2011). Razonamiento estadístico. Pearson. México. Carollo Limeres, M. Carmen. (2012). Regresión lineal simple. Apuntes del departamento de estadística e investigación operativa. Disponible en: http://eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP- DPTO/MATERIALES/Mat_50140116_Regr_%20simple_2011_12.pdf Kerlinger, F. N. & Lee, H. B. (2002). Investigación del comportamiento. Métodos de investigación en ciencias sociales. 4ª ed. México: Mc. Graw Hill. Levín, Rubín, Balderas, Del Valle y Gómez. (2004). Estadística para administración y economía. Séptima Edición. Prentice-Hall. Mason, Lind & Marshal. (2000). Estadística para administración y economía. Alfaomega. 10ª edición. Dra. Fabiola Ocampo Botello 10 5 04/12/2024 Instituto Politécnico Nacional Escuela Superior de Cómputo Secretaría Académica Departamento de Ingeniería en Sistemas Computacionales Minería de datos (Data Mining) Regresión lineal (2ª Parte) 1 Profesora: Dra. Fabiola Ocampo Botello 1 Verificación de la ecuación de estimación Levin, et. al (2004) establecen que un método para verificar la ecuación de estimación se fundamenta en una de las propiedades de la recta ajustada por el método de mínimos cuadrados, esto es, los errores individuales positivos y negativos deben sumar cero. Un ejemplo de lo anterior se muestra en la siguiente figura: 2 Imágenes y ejemplo tomados de Levin, et. al (2004) Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 2 1 04/12/2024 Del ejemplo de la pizzería “Polito”. La suma de errores sería: ෝ 𝒚 = 60 + 5x 3 𝑦ො1 = 60 + 5(2) = 70. Diferencia = 58 - 70 = -12 𝑦ො2 = 60 + 5(6) = 90. Diferencia = 105 – 90 = 15 Imagen tomada de Anderson, Sweeney & Williams (2008) Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 3 Anderson, Sweeney & Williams (2008) establece que a la diferencia que existe en la observación i, entre el valor observado de la variable dependiente yi, y el valor estimado de la variable dependiente 𝑦ොi , se llama residual i. El residual i representa el error que existe al usar 𝑦ොi para estimar yi. SUMA DE CUADRADOS DEBIDA AL ERROR 2 𝑆𝐶𝐸 = 𝑦𝑖 − 𝑦ො𝑖 4 Imagen Creative Commons Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello En: http://www.sthda.com/english/articles/40-regression- analysis/167-simple-linear-regression-in-r/ 4 2 04/12/2024 Tabla 14.3 tomada de Anderson, Sweeney & Williams (2008) 5 En el caso de la Pizzería “Polito”, por ejemplo para x1 = 2 y y1 = 58 (valor real), el valor estimado para la pizzería número 1 es 70, el error al usar 𝑦ො del restaurant número 1 es -12 𝑦ො1 = 60 + 5(2) = 70 Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 5 Se desea tener una estimación de las ventas trimestrales sin saber cuál es el tamaño de la población de estudiantes. La estimación de la media de la pizzería “Polito” es 𝑦𝑖 𝑦ത = = 1300/10 = 130 𝑛 6 Tabla 14.3 tomada de Anderson, Sweeney & Williams (2008) 2 SUMA TOTAL DE CUADRADOS STC = 𝑦𝑖 − 𝑦ത Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 6 3 04/12/2024 - Los puntos se encuentran más agrupados en torno a la recta de regresión estimada. - Considerando el punto y10 el error es más grande cuando se utiliza la media ( 𝑦ത = 130) que cuando se utiliza le ecuación de estimación (𝑦 ො10 = 60 + 5(26) = 190). 7 Figura 14.5. Desviación respecto a la línea de regresión estimada y la línea 𝑦 = 𝑦ത Imagen tomada de Anderson, Sweeney & Williams (2008) Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 7 STC (SUMA TOTAL DE CUADRADOS) como una medida de qué tanto se agrupan las observaciones en torno a la recta 𝑦ത 2 STC = 𝑦𝑖 − 𝑦ത SCE (SUMA DE CUADRADOS DEBIDA AL ERROR) como una medida de qué tanto se agrupan las observaciones en torno de la recta 𝑦ො 8 2 𝑆𝐶𝐸 = 𝑦𝑖 − 𝑦ො𝑖 Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 8 4 04/12/2024 Para medir qué tanto se desvían de 𝑦ത los valores 𝑦ො , de la recta de regresión, se calcula otra suma de cuadrados. A esta suma se le llama suma de cuadrados debida a la regresión y se denota SCR. SUMA DE CUADRADOS DEBIDA A LA REGRESIÓN 2 SCR = 𝑦ො𝑖ሶ − 𝑦ത 9 Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 9 STC = SCR + SCE SCE STC = Suma total de cuadrados SCR = Suma de cuadrados debida a la regresión SCE = Suma de cuadrados debida al error STC SCR 10 Porción de Imagen 14.5 tomada y modificada de Anderson, Sweeney & Williams (2008) Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 10 5 04/12/2024 Consideraciones 1) La ecuación de regresión estimada se ajustaría perfectamente a los datos si cada uno de los valores de la variable independiente yi se encontraran sobre la recta de regresión. En este caso para todas las observaciones se tendría que yi - 𝑦ො𝑖 sería igual a cero, con lo que SCE = 0. Porción de Imagen 14.5 tomada y modificada de Anderson, Sweeney & Williams (2008) 11 2) Como STC = SCR + SCE es necesario que para que haya un ajuste perfecto SCR debe ser igual a STC, y el cociente (SCR/STC) debe ser igual a uno. Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 11 Consideraciones (Continuación): 3) El cociente SCR/STC, que toma valores entre cero y uno, se usa para evaluar la bondad de ajuste de la ecuación de regresión estimada. A este cociente se le llama coeficiente de determinación y se denota r2. Porción de Imagen 14.5 tomada y modificada de Anderson, Sweeney & Williams (2008) 12 4) Cuando los ajustes son malos, se tendrán valores altos para SCE (residuales grandes). Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 12 6 04/12/2024 El COEFICIENTE DE DETERMINACIÓN se denota con la letra r2. 𝑆𝐶𝑅 𝑟2 = 𝑆𝑇𝐶 El coeficiente de determinación de la pizzería es: 𝑆𝐶𝑅 14200 𝑟2 = = = 0.9027 𝑆𝑇𝐶 15730 r2 se puede interpretar como el porcentaje de la suma total de cuadrados que se explica mediante el uso de la ecuación de regresión estimada. 13 En el ejemplo de la pizzería se concluye que 90.27% de la variabilidad en las ventas se explica por la relación lineal que existe entre el tamaño de la población de estudiantes y las ventas. Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 13 Coeficiente de correlación (r) Anderson, Sweeney & Williams (2008) establece lo siguiente, Se tiene el coeficiente de correlación como una medida descriptiva de la intensidad de la relación entre dos variables x y y. Cuyos valores van desde -1 hasta +1. El coeficiente de correlación muestral se calcula mediante la fórmula: COEFICIENTE DE CORRELACIÓN MUESTRAL 𝑟𝑥𝑦 = 𝑠𝑖𝑔𝑛𝑜 𝑑𝑒 𝑏1 𝐶𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑑𝑒𝑡𝑒𝑟𝑚𝑖𝑛𝑎𝑐𝑖ó𝑛 = 𝑠𝑖𝑔𝑛𝑜 𝑑𝑒 𝑏1 𝑟2 14 Donde b1 = pendiente de la ecuación de regresión estimada 𝑦ො = b0 + bix Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 14 7 04/12/2024 En el ejemplo de la Pizzería Polito, el valor del coeficiente de determinación correspondiente a la ecuación de regresión estimada: 60 + 5x es 0.9027 Como la pendiente de la ecuación de regresión estimada es positiva, la ecuación anterior indica que el coeficiente de correlación muestral es + 0.9027 = +0.9501. 15 Con este coeficiente de correlación muestral, rxy = +0.9501, se concluye que existe una relación lineal fuerte entre x y y. Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 15 16 Referencias bibliográficas Anderson, Sweeney & Williams. (2008). Estadística para administración y economía, 10ª edición. Cengage Learning. Bennet, Briggs & Triola (2011). Razonamiento estadístico. Pearson. México. Carollo Limeres, M. Carmen. (2012). Regresión lineal simple. Apuntes del departamento de estadística e investigación operativa. Disponible en: http://eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP- DPTO/MATERIALES/Mat_50140116_Regr_%20simple_2011_12.pdf Kerlinger, F. N. & Lee, H. B. (2002). Investigación del comportamiento. Métodos de investigación en ciencias sociales. 4ª ed. México: Mc. Graw Hill. Levín, Rubín, Balderas, Del Valle y Gómez. (2004). Estadística para administración y economía. Séptima Edición. Prentice-Hall. Mason, Lind & Marshal. (2000). Estadística para administración y economía. Alfaomega. 10ª edición. Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 16 8 04/12/2024 Instituto Politécnico Nacional Escuela Superior de Cómputo Secretaría Académica Departamento de Ingeniería en Sistemas Computacionales Minería de datos (Data Mining) Regresión lineal (3ª Parte) 1 Profesora: Dra. Fabiola Ocampo Botello 1 El error estándar de la estimación ¿Cómo evaluar la confiabilidad de una ecuación de estimación de regresión encontrada? Levin et al (2004) establecen que el error estándar de la estimación (Se) mide la variabilidad o dispersión de los valores observados alrededor de la recta de regresión. 2 Imagen tomada de Levin, et. al (2004) Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 2 1 04/12/2024 Levin et al (2004) establecen que una forma de calcular el error Є es mediante el error estándar de la estimación, mide la variabilidad o dispersión de los valores observados alrededor de la recta de regresión. El cual tiene la siguiente fórmula: Ecuación 12-6. 3 Imágenes tomadas de Levin, et. al (2004) Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 3 Imagen tomada de Levin, et. al (2004) 4 Los valores observados para Y deben tener una distribución normal alrededor de cada valor estimado de Ŷ (Levin et al 2004:528, Anderson, Sweeney & Williams, 2008:567). Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 4 2 04/12/2024 Los intervalos de confianza de la distribución normal, la regla 68-95-99.7 significa el porcentaje de la cantidad de datos que se encuentran en 1, 2 ó 3 desviaciones estándar en la gráfica de la campana). Lo cual significa lo siguiente: - Alrededor del 68% (o de forma más precisa, el 68.3%), o un poco más de dos tercios de los datos se encuentran dentro de una desviación estándar de la media. Figura tomada de Bennet, Briggs & Triola (2011). 5 - Alrededor del 95% (o de forma más precisa, el 95.4%) de los datos caen dentro de dos desviaciones estándar de la media. - Alrededor del 99.7% de los datos caen dentro de tres desviaciones estándar de la media. Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 5 Para analizar el cálculo del error estándar de medición, consideremos nuevamente el ejemplo de la directora del Departamento de Salubridad que deseaba conocer la relación entre la antigüedad de los camiones y la cantidad de reparaciones anuales presentado por Levin et al (2004). El primer paso para conocer el error estándar de medición es calcular el numerador de la ecuación, esto es: 6 Imágenes tomadas de Levin, et. al (2004) Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 6 3 04/12/2024 Una vez calculado se procede a aplicar la ecuación 12-6. 7 Imagen tomada de Levin, et. al (2004) Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 7 Intervalos de confianza para la estimación (o el valor esperado) Los intervalos de confianza para la estimación se refieren a la posibilidad de realizar afirmaciones de probabilidad acerca del intervalo alrededor del valor estimado de Ŷ. Regresando al ejemplo de la directora del Departamento de Salubridad, la ecuación encontrada fue: Si se considera un camión con cuatro años de antigüedad, el gasto calculado es: 8 El error estándar calculado fue de 0.866 ($86.60). Imágenes tomadas de Levin, et. al (2004) Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 8 4 04/12/2024 Suponga que en el caso de la directora del Departamento de Salubridad desea tener una confianza del 68% de que el gasto real de reparaciones está dentro de ±1 desviación estándar de la desviación de Ŷ. Los intervalos de confianza son: Si deseara tener una confianza del 95.5%, lo cual representa el valor de ±2 desviaciones estándar de la desviación de Ŷ. Se tiene: 9 Imágenes tomadas de Levin, et. al (2004) Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 9 Levin, et. al (2004:528) establecen que los estadísticos aplicados para los intervalos de confianza se basan en la normalidad de los datos sólo para muestras grandes (n > 30). Para evitar el cálculo de valores inexactos, es necesario aplicar la distribución t, ya que es adecuada para muestra de tamaño n < 30. Debido a que en el ejemplo de la directora del Departamento de Salubridad la muestra es de tamaño n = 4. 10 Mason, Lind & Marshal (2000:286) indican que cuando el tamaño de la muestra n, es al menos igual a 30 se acepta que el teorema de límite central asegurará una distribución normal de las medias muestrales. Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 10 5 04/12/2024 Ahora suponga que la directora del Departamento de Salubridad desea tener una seguridad aproximada del 95% de que los gastos anuales de reparación caerán en el intervalo de la estimación. Tabla t 11 La directora puede estar 95% segura de que los gastos anuales de reparación de un camión de cuatro años de antigüedad estarán entre $422.13 y $927.87. Imágenes y ejemplo tomados de Levin, et. al (2004) Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 11 ¿Qué son los grados de libertad? Levin et al (2004:297) define los grados de libertad como el número de valores que se pueden escoger libremente. Ejemplos: Suponga que se tienen siete valores Suponga que se tienen dos valores de muestra de muestra y la media muestral es a y b y tienen una media de 18. Suponga que 16. el valor de a = 10. Los valores que se pueden especificar libremente es: 7 – 1 = 6 12 Como se tiene el valor de la media muestral, entonces se tiene un grado de Imágenes y ejemplo tomados de libertad. Levin, et. al (2004) Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 12 6 04/12/2024 Consideraciones de la aplicación de la regresión lineal Levin, et. al (2004) mencionan algunos errores que es común cometer cuando se utilizan los métodos de correlación y regresión. Extrapolación más allá del rango de los datos observados Un error común es suponer que la línea de estimación puede aplicarse en cualquier intervalo de valores. Una ecuación de estimación es válida sólo para el mismo rango dentro del cual se tomó la muestra inicialmente. Causa y efecto Los análisis de regresión y correlación no pueden, de ninguna manera, 13 determinar la causa y el efecto. Pueden existir más variables que produzcan la variación de los datos. Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 13 Uso de tendencias anteriores para estimar tendencias futuras Se debe reevaluar los datos históricos que se usarán para estimar la ecuación de regresión. Las condiciones pueden cambiar y violar una o más de las suposiciones de las cuales depende el análisis de regresión. Interpretación errónea de los coeficientes de correlación y determinación Si r = 0.6 y r2 = 0.6 X 0.6 = 0.36, entonces significa que el 36% de la variación total se explica por la recta de regresión, r2 es una medida sólo de qué tan bien una variable describe a la otra, no de qué tanto cambio en una variable es originado por la otra variable. 14 Descubrimiento de relaciones cuando no existen Al aplicar el análisis de regresión, algunas veces se encuentra una relación entre dos variables que no están vinculadas. Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 14 7 04/12/2024 GRÁFICAS DE LOS RESIDUALES CORRESPONDIENTES A TRES ESTUDIOS DE REGRESIÓN 15 Figura 14.12 de Anderson, Sweeney & Williams (2008) Dra. Fabiola Ocampo Botello 15 16 Referencias bibliográficas Anderson, Sweeney & Williams. (2008). Estadística para administración y economía, 10ª edición. Cengage Learning. Bennet, Briggs & Triola (2011). Razonamiento estadístico. Pearson. México. Carollo Limeres, M. Carmen. (2012). Regresión lineal simple. Apuntes del departamento de estadística e investigación operativa. Disponible en: http://eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP- DPTO/MATERIALES/Mat_50140116_Regr_%20simple_2011_12.pdf Kerlinger, F. N. & Lee, H. B. (2002). Investigación del comportamiento. Métodos de investigación en ciencias sociales. 4ª ed. México: Mc. Graw Hill. Levín, Rubín, Balderas, Del Valle y Gómez. (2004). Estadística para administración y economía. Séptima Edición. Prentice-Hall. Mason, Lind & Marshal. (2000). Estadística para administración y economía. Alfaomega. 10ª edición. Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 16 8 04/12/2024 Instituto Politécnico Nacional Escuela Superior de Cómputo Secretaría Académica Departamento de Ingeniería en Sistemas Computacionales Minería de datos (Data Mining) Regresión lineal (4ª Parte) 1 Significancia estadística Profesora: Dra. Fabiola Ocampo Botello 1 Verificación de la ecuación de estimación La ecuación de regresión estimada no debe ser usada hasta que se realice un análisis para determinar si el modelo empleado es adecuado, es decir, conocer su significancia estadística. 2 Esta foto de Autor desconocido está bajo licencia CC BY-SA-NC Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 2 1 04/12/2024 Definición de significancia estadística Un conjunto de medidas u observaciones en una investigación estadística es estadísticamente significativa si es poco probable que haya ocurrido por el azar (Bennet, 3 Briggs & Triola, 2011:234). Esta foto de Autor desconocido está bajo licencia CC BY Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 3 Anderson, Sweeney & Williams (2008) establecen lo siguiente: En una ecuación de regresión lineal simple, la media o valor esperado de y es la función lineal de x, de la forma: E(y) = β0 + β1x Si β1 = 0, indica que no existe relación lineal entre x y y. (Hipótesis nula) E(y) = β0 + β1(0) = β0 x y y no están relacionados linealmente 4 Si β1 0, indica que x y y están relacionadas linealmente. (Hipótesis alterna) Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 4 2 04/12/2024 Para probar si una ecuación de regresión es significativa, se debe realizar una prueba de hipótesis para determinar si el valor de β1 es distinto de cero. Hay dos pruebas que son las más usadas. En ambas, se requiere una estimación de σ2, la 5 varianza de є en el modelo de regresión. Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 5 Estimación de σ2 σ2, la varianza de є, representa también la varianza de los valores de y respecto a la recta de regresión 6 Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 6 3 04/12/2024 A las desviaciones de los valores de y de la recta de regresión estimada se les conoce como residuales. SCE (Suma de cuadrados debida al error), la suma de los cuadrados de los residuales, es una medida de la variabilidad de las observaciones reales respecto a la línea de regresión estimada. 7 El error cuadrado medio (ECM) proporciona una estimación de σ2; esta estimación es SCE Imagen Creative Commons En: http://www.sthda.com/english/articles/40-regression- dividida entre sus grados de analysis/167-simple-linear-regression-in-r/ libertad. Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 7 ERROR CUADRADO MEDIO (ESTIMACIÓN DE σ2) 𝑆𝐶𝐸 s2 = ECM = 𝑛−2 ERROR ESTÁNDAR DE ESTIMACIÓN 𝑆𝐶𝐸 8 s = 𝐸𝐶𝑀 = 𝑛−2 Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 8 4 04/12/2024 Se calcula el error estándar de la estimación: Para el caso de la Pizzería “Polito”, se tiene: 1530 s2 = ECM = = 191.25 8 s = 191.25 = 13.82 9 Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 9 Prueba t En el modelo de regresión lineal E(y) = β0 + β1x + є Si x y y están relacionados linealmente, entonces β1 ≠ 0 PRUEBA DE t DE SIGNIFICANCIA PARA LA REGRESIÓN LINEAL Se generan las hipótesis considerando el parámetro β1 H0: β1 = 0 10 Ha: β1 ≠ 0 Data Mining. ESCOM-IPN. Dra. Fabiola Ocampo Botello 10 5 04/12/2024 ESTADÍSTICO DE PRUEBA 𝑏1 𝑡= 𝑠𝑏1 REGLA DE RECHAZO Método de valor-p: Rechazar H0 si valor-p