Principios de Estadística PDF - Universidad Espíritu Santo 2023

Document Details

BrightSphene

Uploaded by BrightSphene

Universidad de Especialidades Espíritu Santo

2023

Manuel Zambrano Monserrate

Tags

statistics probability data analysis statistical methods

Summary

Este libro, "Principios de Estadística", escrito por Manuel Zambrano Monserrate, Alexia Berrús Zhumi y Giuliana Goncalves Guillén, fue publicado por la Universidad Espíritu Santo en 2023. Cubre conceptos básicos de estadística, incluyendo definiciones, métodos descriptivos, y el análisis de variables. También incluye ejercicios.

Full Transcript

Principios de Estadística PRINCIPIOS DE ESTADÍSTICA Manuel Zambrano Monserrate Alexia Berrús Zhumi Giuliana Goncalves Guillén 2023 1 Manuel Zambrano Monserrate, Alexia Berrús Zhumi, Giuliana Goncalves Guillén UNIVERSIDAD ESPÍRITU S...

Principios de Estadística PRINCIPIOS DE ESTADÍSTICA Manuel Zambrano Monserrate Alexia Berrús Zhumi Giuliana Goncalves Guillén 2023 1 Manuel Zambrano Monserrate, Alexia Berrús Zhumi, Giuliana Goncalves Guillén UNIVERSIDAD ESPÍRITU SANTO Km. 2,5 Vía a Samborondón - Ecuador Teléfono: (593-4) 5000950 [email protected] www.uees.edu.ec Autores: Manuel Zambrano Monserrate Alexia Berrús Zhumi Giuliana Goncalves Guillén Editor: Fernando Espinoza Fuentes Coordinadora editorial: Natascha Ortiz Yánez Cita: (Zambrano Monserrate, Berrús Zhumi & Goncalves Guillén, 2023) Referencia Bibliográfica: Zambrano Monserrate, M., Berrús Zhumi, A. & Goncalves Guillén, G. (2023). Principios de Estadística. Universidad Espíritu Santo - Ecuador. Portada: Universidad Espíritu Santo Diseño e Impresión: TRIBU Soluciones Integrales Urdesa Norte Av. 2da. #315 Teléfono: (593-4) 2383926 [email protected] Edición: Primera, Octubre 2023 ISBN-E: 978-9978-25-238-3 Derechos reservados. Prohibida la reproducción parcial o total de esta obra, por cualquier medio, sin la autorización escrita de los editores. 2 Principios de Estadística DEDICATORIA A mis padres Manuel A mi familia Alexia A mi familia Giuliana 3 Manuel Zambrano Monserrate, Alexia Berrús Zhumi, Giuliana Goncalves Guillén 4 Principios de Estadística TABLA DE CONTENIDO I. EL PAPEL DE LA ESTADÍSTICA...................................................... 13 1.1 Definición de estadística.................................................................. 13 1.2 Tipos de estadística.......................................................................... 13 1.3 Definiciones básicas de estadística.................................................. 15 1.3.1 Población y parámetros........................................................... 15 1.3.2 Muestras y estadísticos............................................................ 15 1.3.3 Variables.................................................................................. 16 1.4 Tipo de relación entre variables....................................................... 18 1.5 La importancia del muestreo............................................................ 19 Ejercicios propuestos del capítulo............................................................... 21 II. DESCRIPCIÓN DE UN CONJUNTO DE DATOS.......................... 25 2.1 Introducción..................................................................................... 25 2.2 Métodos de agrupación de datos..................................................... 26 2.3 Tablas de frecuencias....................................................................... 27 2.3.1 Elementos de una tabla de frecuencias................................... 27 2.4 Tablas de contingencias................................................................... 32 2.5 Método gráfico para variables continuas......................................... 35 2.5.1 Histograma.............................................................................. 35 2.5.2 Diagrama de tallo y hoja......................................................... 37 2.6 Gráficos para variables Categóricas................................................. 38 2.6.1 Diagrama de barras................................................................. 38 2.6.2 Diagrama circular o de pastel.................................................. 39 2.7 Gráfico de máximos, mínimos y cierre............................................ 40 Ejercicios propuestos del capítulo............................................................... 42 III. MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN.......... 51 3.1 Introducción..................................................................................... 51 5 Manuel Zambrano Monserrate, Alexia Berrús Zhumi, Giuliana Goncalves Guillén 3.2 Medidas de tendencia central a partir de datos no agrupados......... 52 3.2.1 La Media.................................................................................. 52 3.2.2 La mediana.............................................................................. 53 3.2.3 La moda.................................................................................. 54 3.2.4 La media ponderada................................................................ 55 3.3 Medidas de dispersión..................................................................... 57 3.3.1 Rango...................................................................................... 58 3.3.2 Varianza y desviación estándar de una población................... 59 3.3.3 Varianza y desviación estándar para una muestra................... 61 3.4 Medidas de tendencia central y dispersión para datos agrupados... 61 3.4.1 La media.................................................................................. 62 3.4.2 La mediana.............................................................................. 63 3.4.3 La moda.................................................................................. 64 3.4.4 Varianza y desviación estándar................................................ 65 3.5 Otras medidas de dispersión............................................................ 66 3.5.1 Cuartiles.................................................................................. 66 3.5.2 Quintiles.................................................................................. 67 3.5.3 Deciles..................................................................................... 67 3.5.4 Percentiles............................................................................... 68 3.5.5 Rango intercuartílico............................................................... 60 3.5.6 Diagrama de cajas................................................................... 60 3.6 Usos frecuentes de la desviación estándar....................................... 73 3.6.1 La distribución normal y la regla empírica............................. 73 3.6.2 Curtosis.................................................................................... 75 3.6.3 Sesgo....................................................................................... 76 3.6.4 Coeficiente de variación.......................................................... 77 Ejercicios propuestos del capítulo.............................................................. 78 6 Principios de Estadística IV. PRINCIPIOS DE PROBABILIDAD................................................ 85 4.1 Introducción..................................................................................... 85 4.2 ¿Qué es la probabilidad?................................................................. 85 4.3 Enfoques para asignar probabilidades............................................. 86 4.4 Regla de adición para calcular probabilidades................................ 90 4.4.1 Regla especial de la adición.................................................... 90 4.4.2 Regla general de la adición..................................................... 93 4.5 Regla de la multiplicación............................................................... 96 4.5.1 Regla especial de la multiplicación......................................... 96 4.5.2 Regla general de la multiplicación.......................................... 97 4.6 Diagramas de árbol.......................................................................... 98 4.7 Teorema de Bayes............................................................................ 101 4.8 Principios de conteo........................................................................ 102 Ejercicios propuestos del capítulo.............................................................. 106 V. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD............... 111 5.1 Introducción..................................................................................... 111 5.2 Espacio muestral y puntos muestrales............................................. 111 5.3 Variables aleatorias.......................................................................... 111 5.3.1 Variables aleatorias discretas................................................... 112 5.3.2 Variables aleatorias continuas................................................. 113 5.4 Distribución de probabilidad........................................................... 113 5.5 Tipos de distribución de probabilidad............................................. 115 5.6 Media, varianza y desviación estándar de una distribución de probabilidad discreta....................................................................... 116 5.6.1 Media de una distribución de probabilidad discreta............... 116 5.6.2 Varianza y desviación estándar de una distribución de probabilidad discreta........................................................................ 116 5.7 Distribución de probabilidad binomial............................................ 118 7 Manuel Zambrano Monserrate, Alexia Berrús Zhumi, Giuliana Goncalves Guillén 5.7.1 Media y varianza de una distribución binomial...................... 120 5.8 Distribución de probabilidad binomial acumulada.......................... 120 5.9 Distribución de probabilidad hipergeométrica................................ 121 5.10 Distribución de probabilidad de Poisson....................................... 123 Ejercicios propuestos del capítulo.............................................................. 126 VI. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD............ 131 6.1 Introducción..................................................................................... 131 6.2 Distribución de probabilidad uniforme............................................ 131 6.3 Distribución de probabilidad normal............................................... 133 6.3.1 Distribución de probabilidad normal estándar........................ 134 6.3.2 Determinación de áreas bajo la curva normal......................... 136 6.4 Distribución de probabilidad exponencial....................................... 140 Ejercicios propuestos del capítulo.............................................................. 143 Referencias................................................................................................. 145 Apéndice..................................................................................................... 147 8 Principios de Estadística PRÓLOGO La estadística es la ciencia que se ocupa de recopilar, analizar e interpretar datos cuantitativos y cualitativos para obtener información significativa. Es una disciplina útil para comprender y describir el mundo que nos rodea, desde la investigación científica, hasta la toma de decisiones empresariales. En estadística, se utilizan técnicas matemáticas y computacionales para recopilar y analizar datos que luego se interpretan para obtener conclusiones y tomar decisiones informadas. La estadística se utiliza en una amplia variedad de campos, incluyendo la medicina, la economía, la psicología, la ingeniería, la ciencia política, entre otros. En este sentido, la presente obra pretende brindar las herramientas estadísticas básicas para la comprensión adecuada de distintos fenómenos. Analizamos diversas técnicas descriptivas como tabla de frecuencias y contingencia, así como medidas tendencia central y dispersión. Además, abordamos también la parte inferencial estudiando conceptos de probabilidad; acá, analizamos el teorema de Bayes y las distintas distribuciones de probabilidad. En todos los capítulos presentamos las definiciones conceptuales de cada tema y ejercicios resueltos para su mejor comprensión. En el capítulo 2, inclusive, recomendamos algunas herramientas de Excel relacionadas a los conceptos analizados. Al final de los capítulos proponemos ejercicios complementarios para ser resueltos. Este libro está dirigido a estudiantes, profesionales y demás personas interesadas en aprender las herramientas básicas de estadística para una mejor toma de decisiones. 9 Manuel Zambrano Monserrate, Alexia Berrús Zhumi, Giuliana Goncalves Guillén 10 Principios de Estadística Capítulo I EL PAPEL DE LA ESTADÍSTICA 11 Manuel Zambrano Monserrate, Alexia Berrús Zhumi, Giuliana Goncalves Guillén 12 Principios de Estadística I. EL PAPEL DE LA ESTADÍSTICA 1.1 Definición de estadística La estadística es una disciplina científica que tiene como objetivo principal mejorar la comprensión de los hechos a partir de información disponible. La estadística facilita la toma de decisiones y la solución de problemas en distintos ámbitos. Por ejemplo, a partir de datos de contagio de algún tipo virus, organismos competentes podrían establecer medidas de contención contra la enfermedad. También, al gobierno le puede interesar conocer la evolución de la tasa de desempleo en los últimos meses para determinar si las políticas empleadas han sido efectivas o no. Los directivos de una empresa pueden estar interesados en conocer el promedio (la media) de ventas de los últimos meses, lo cual facilitaría el análisis sobre el cumplimiento de metas propuestas. En resumen, la estadística es la «ciencia de los datos», pues a partir de ellos se pueden analizar y pronosticar fenómenos observados. El alcance de aquello depende del tipo de estadística que se utilice. 1.2 Tipos de estadística Dentro de la estadística existen dos grandes divisiones: estadística descriptiva y estadística inferencial; esta última se divide a su vez en paramétrica y no paramétrica. Descriptiva Tipos de estadística Paramétrica Inferencial No Paramétrica Gráfico 1.1 Tipos de estadística. 13 Manuel Zambrano Monserrate, Alexia Berrús Zhumi, Giuliana Goncalves Guillén La estadística descriptiva es aquella que hace referencia a la recopilación, organización, síntesis y presentación de un conjunto de datos (Lind, Marchal, & Wathen, 2012). La estadística descriptiva se auxilia en gráficos, cuadros e indicadores para poder describir los aspectos más relevantes de los datos recolectados como su posición y dispersión. Algunas herramientas utilizadas por la estadística descriptiva incluyen la moda, la media, la mediana, tablas de frecuencias y contingencia, diagrama de barras (gráfico 1.2), diagrama circular, entre otros. Gráfico 1.2 Salarios de hombres y mujeres por edades. Por otro lado, la estadística inferencial va un paso más allá de la estadística descriptiva. Tiene como objetivo llegar a conclusiones sobre una población a partir de datos muestrales, usualmente. Permite obtener estimadores y probar hipótesis sobre ellos, es decir, mide la realidad de forma objetiva. La estadística inferencial implica todos aquellos métodos usados para estudiar las diferentes relaciones entre variables: diferencias entre grupos, asociación/ regresión y causalidad. Entre las subdivisiones de la estadística inferencial se encuentra la estadística inferencial paramétrica y la no paramétrica. La estadística paramétrica asume que los datos siguen una distribución específica y conocida. Por ejemplo, al realizar un análisis paramétrico se puede tomar el supuesto de que la población 14 Principios de Estadística de análisis se distribuye de forma normal. En este caso habría que probar dicho supuesto y posteriormente obtener conclusiones bajo el cumplimiento de dicha premisa. Por otro lado, la estadística no paramétrica no asume a priori una distribución específica para los datos. En este sentido, es menos «exigente» que la estadística paramétrica, y normalmente se la toma como alternativa cuando los supuestos paramétricos no se cumplen. No obstante, y dependiendo del método no paramétrico, también se deben verificar ciertos supuestos para su aplicación. 1.3 Definiciones básicas de estadística Al igual que en cualquier otra área de estudio o disciplina científica, la estadística cuenta con un propio vocabulario. Algunos de los términos más comúnmente utilizados en el análisis estadístico incluyen: Población y parámetros Muestras y estadísticos Variables 1.3.1 Población y parámetros La población, en estadística, se refiere a la recolección completa de todas las observaciones de interés para el investigador. Por ejemplo, si se desea analizar datos sobre los fumadores en Ecuador, la población sería todos los fumadores del país. Por otro lado, los parámetros son medidas que ofrecen información sobre el centro de un conjunto de datos (medidas de tendencia central), sobre la dispersión o variabilidad (medidas de dispersión) o sobre la posición de un valor (medidas de posición como los percentiles). Lo esencial es comprender que un «parámetro es una característica numérica de una población» (Anderson, Sweeney, & Williams, 2008). Algunos ejemplos de parámetros son la mediana del salario de todos los trabajadores del sector privado en un determinado país o, la desviación típica entre los sueldos de los empleados del sector privado en Ecuador. 1.3.2 Muestras y estadísticos En estadística la muestra es una porción o parte representativa de la población que es escogida para ser estudiada debido a que la población es 15 Manuel Zambrano Monserrate, Alexia Berrús Zhumi, Giuliana Goncalves Guillén demasiado grande, lo que dificulta estudiarla en su totalidad. Población Muestra Gráfico 1.3 Muestra y población. Un estadístico es aquel valor que describe alguna característica de la muestra de estudio y sirve como una estimación del parámetro de la población correspondiente. En términos simples, el estadístico es a la muestra lo que el parámetro es a la población. 1.3.3 Variables Las variables son aquellas características o cualidades de una muestra o población a la cual se le puede aginar un valor. Existen algunas clasificaciones de variables. a. Variables cuantitativas y variables cualitativas Existen dos categorías principales de variables: cuantitativas y cualitativas. Las variables cuantitativas son aquellas que se pueden expresar en términos numéricos, y pueden ser de dos tipos: continuas o discretas. Una variable continua tiene un número infinito de valores o valores que son difíciles de contar, como la cantidad de granos de azúcar en una bolsa de 300 gramos. En cambio, una variable discreta tiene un número finito de valores, como la cantidad de estudiantes en una clase de estadística. Es importante destacar que, el concepto de variables continuas o discretas no debe asociarse a si la variable se representa por valores enteros o decimales. Las variables cualitativas, por otro lado, no se pueden expresar en términos numéricos y se dividen en dos tipos: dicótomas y policótomas. Las variables 16 Principios de Estadística dicótomas solo tienen dos valores, como el sexo de una persona (hombre o mujer); mientras que las variables politómicas pueden tener tres o más valores, como el nivel de educación de una persona (primaria, secundaria, universitaria, posgrado). En el grafico 1.4 se resume esta clasificación. Continuas Presentan un número Cuantitativas incontable de valores. Se pueden expresar numéricamente. Discretas Tipos de variable Presentan un número contable de valores. Dicótomas o binarias Cualitativas Solo toman dos valores. No se pueden expresar numéricamente. Policótomas Toman de tres valores en adelante. Gráfico 1.4 Variables cuantitativas vs variables cualitativas. b. Variables nominales, ordinales, intervalo y de razón A las variables también se las puede clasificar por su naturaleza. Primero, están las variables nominales. Estas son variables de carácter cualitativo y su categorización no obedece a un orden específico. Por ejemplo, el sexo o la nacionalidad de una persona. Por otro lado, las variables ordinales son cuasi cuantitativas y se caracterizan porque sus valores representan categorías que siguen algún orden, por ejemplo, el nivel de educación o nivel socioeconómico de una persona. Finalmente, las variables de intervalo y razón, ambas cuantitativas, se expresan numéricamente. Por un lado, en las variables de intervalo, el cero no indica la presencia o ausencia de un atributo (simplemente es un punto de referencia), por ejemplo, la medición de temperatura. En otros casos, el cero no se incluye, como en la medición del cociente intelectual. Contrariamente, en las variables de razón, el cero tiene relevancia y toma un valor absoluto, por ejemplo, la edad, estatura o peso de un individuo. 17 Manuel Zambrano Monserrate, Alexia Berrús Zhumi, Giuliana Goncalves Guillén Cualitativas Cuasi cuantitativas Cuantitativas CARACTERÍTICAS Nominal Ordinal Intervalo Razón Categorizar Ordenar Medir por Todas las Para qué sirve intervalos anteriores iguales De De ordenamiento De medición Todas las Propiedades clasificación sin cero anteriores, numéricas absoluto pero con cero absoluto. Sexo, Nivel Temperatura, Edad, Nacionalidad, socioeconómico, nivel de estatura, Ejemplos preferencia nivel de ansiedad, peso. política educación, etapa autoestima, del desarrollo. cociente intelectual. Tabla 1.1 Clasificación y ejemplos de variables. 1.4 Tipo de relación entre variables Como se mencionó previamente, la estadística inferencial abarca, en forma general, el estudio de tres tipos de relación entre variables: diferencias entre grupos, asociación/regresión y causalidad. La diferencia entre grupos se refiere a determinar si existe o no una diferencia estadísticamente significativa entre dos grupos o más, en relación a una variable de interés. Por ejemplo, se puede determinar si existen diferencias entre hombres y mujeres en relación a los promedios obtenidos en un curso de estadística. En este caso, los grupos son los «hombres» y las «mujeres» y, la variable de interés, los «promedios». Se pueden tener «n» grupos y la variable de interés puede ser cuantitativa o cualitativa. Las pruebas para determinar las diferencias entre los grupos pueden ser paramétricas y no paramétricas. Por otro lado, los estudios de asociación/regresión representan un nivel más alto que el análisis de diferencias entre grupos. Por un lado, en los estudios de asociación o correlación se busca determinar si dos o más variables se relacionan significativamente. Por ejemplo, se puede estar interesado en determinar el grado de correlación entre las calificaciones de estadística 1 y estadística 2. Se esperaría que la correlación sea positiva (los que obtuvieron calificaciones 18 Principios de Estadística más altas en estadística 1 seguramente también tendrán calificaciones más altas en estadística 2 y viceversa). Las variables a correlacionar pueden ser cuantitativas o cualitativas y se pueden utilizar técnicas paramétricas y no paramétricas para determinar la significancia de la correlación. Por otro lado, en el análisis de regresión se busca habitualmente estimar o predecir el valor promedio de una variable llamada «dependiente» en función de otras variables llamadas «independientes». Por ejemplo, se puede estar interesado en analizar el consumo de las familias en función de los ingresos familiares, los miembros del hogar, la educación promedio de la familia y la zona de residencia (urbana o rural). Para estimar esta relación se pueden utilizar métodos paramétricos (como el análisis de regresión por Mínimos Cuadrados Ordinarios) o no paramétricos. Finalmente, se encuentran los estudios de causalidad. Dentro del análisis inferencial, este es el nivel más alto y, por tanto, el más complejo. Causalidad en términos simples significa que una variable influye directamente en el comportamiento de otra. Esto no es fácil de determinar, ya que, el comportamiento de una variable puede estar afectado por muchas variables a la vez. El mayor reto consiste en aislar el efecto de otras variables y cuantificar la influencia de una sola. Para esto se han desarrollado métodos cuasiexperimentales como «diferencias en diferencias» o «regresiones discontinuas». En este punto es importante señalar que correlación no implica necesariamente causalidad. Dos variables pueden estar correlacionadas fuertemente pero no necesariamente implicar causalidad. En el ejemplo de las calificaciones de estadística 1 y 2, puede existir una correlación fuerte entre ambas variables, pero las calificaciones del curso de estadística 2 pueden no necesariamente depender de las calificaciones del curso estadística 1. El rendimiento académico se explica por muchos otros factores como la motivación, la educación de los padres, el índice de inteligencia, entre otros. Comprender que correlación no implica necesariamente causalidad evita que lleguemos a conclusiones equivocadas en el análisis inferencial. 1.5 La importancia del muestreo Como se mencionó previamente, obtener información de toda la población es tarea difícil. Por tanto, las muestras constituyen en los principales insumos 19 Manuel Zambrano Monserrate, Alexia Berrús Zhumi, Giuliana Goncalves Guillén para el análisis de datos. En este sentido, la información más importante de la muestra estará contenida en los estadísticos. Para obtener un buen estadístico, entre otros factores, la muestra debe ser representativa de la población. Consecuentemente, el proceso de muestreo es clave. Existen dos tipos principales de muestreo: probabilístico y no probabilístico. En el muestreo probabilístico, todos los objetos o individuos tienen la misma probabilidad de ser seleccionados. Existen varios métodos de muestreo probabilístico, como: aleatorio simple, sistemático, estratificado y conglomerado. Por otro lado, en el muestreo no probabilístico, los objetos o individuos no son seleccionados de manera aleatoria. Algunos de los métodos de muestreo no probabilístico más conocidos son el propositivo, por cuotas, por conveniencia y bola de nieve. Sin embargo, una gran desventaja del muestreo no probabilístico es que los resultados no se pueden generalizar ni formular teorías a partir de ellos, esto debido a que la muestra generalmente no es representativa. Por otro lado, para determinar el tamaño de la muestra se debe definir previamente el tamaño de la población universo, ya que para cada estudio existe un distinto «tamaño muestral idóneo» (Mira, Gomez, Aranaz, & Perez, 1997). Se pueden emplear fórmulas para población finita o infinita. La definición de estas fórmulas está fuera del alcance de este libro, por tanto, se recomienda literatura especializada de consulta como Malhotra (2008). 20 Principios de Estadística Ejercicios propuestos del capítulo Ejercicio 1.1 Clasifique las siguientes variables como continuas, discretas, dicótomas o policótomas: a. Los granos de azúcar en una bolsa de 1kg. b. ¿El café con o sin azúcar?: SI, NO c. Situación laboral actual: empleado, desempleado, jubilado, inactivo d. La temperatura: 30.8 °C; 35.9 °C. e. Número de dormitorios en su casa: 2, 3 ,4. f. La distancia de su casa a la universidad: 20.3 km; 15.5 km. g. Número de personas en un centro comercial: 100, 150, 200. h. Estado civil: soltero, casado, viudo, separado. i. Gusto por las películas de terror: SI, NO. Ejercicio 1.2 En estadística, ¿Cuál es la diferencia entre población y muestra? Ejercicio 1.3 Mencione dos de las herramientas aplicadas en la estadística descriptiva. Ejercicio 1.4 Responda Verdadero (V) o Falso (F) según corresponda: a. La estadística descriptiva se divide en paramétrica y no paramétrica.( ) b. El estadístico es a la muestra lo que el parámetro a la población. ( ) c. La temperatura es un ejemplo de una variable nominal. ( ) d. Las variables dicótomas son aquellas que toman más de dos valores. ( ) e. Una de las herramientas usadas en estadística inferencial son los diagramas de barras. ( ) Ejercicio 1.5 Describa la principal diferencia entre estadística descriptiva e inferencial. 21 Manuel Zambrano Monserrate, Alexia Berrús Zhumi, Giuliana Goncalves Guillén Ejercicio 1.6 ¿Cuáles son los tipos de muestreo probabilístico más conocidos? Ejercicio 1.7 ¿Cuáles son los tipos de muestreo no probabilístico más conocidos? Ejercicio 1.8 Mencione 5 ejemplos de variables ordinales. Ejercicio 1.9 Explique la diferencia entre variables de intervalo y razón. Ejercicio 1.10 A través de un ejemplo realista, explique cómo la estadística puede ayudar a comprender de mejor forma un fenómeno. 22

Use Quizgecko on...
Browser
Browser