Full Transcript

# Estadística Descriptiva ## ¿Qué es la estadística descriptiva? La estadística descriptiva es una rama de las matemáticas que se encarga de recolectar, organizar, presentar, analizar e interpretar datos con el fin de describir las características de un conjunto de datos. ### ¿Qué la diferencia d...

# Estadística Descriptiva ## ¿Qué es la estadística descriptiva? La estadística descriptiva es una rama de las matemáticas que se encarga de recolectar, organizar, presentar, analizar e interpretar datos con el fin de describir las características de un conjunto de datos. ### ¿Qué la diferencia de la estadística inferencial? La estadística descriptiva se limita a describir los datos, mientras que la estadística inferencial busca generalizar los resultados de una muestra a una población más grande. ### Tipos de estadística descriptiva * **Univariada:** Se enfoca en describir una sola variable. * **Bivariada:** Se enfoca en describir la relación entre dos variables. * **Multivariada:** Se enfoca en describir la relación entre más de dos variables. ## Medidas de tendencia central Las medidas de tendencia central son valores que representan el centro de un conjunto de datos. ### Media La media es el promedio de un conjunto de datos. Se calcula sumando todos los valores y dividiendo el resultado por el número de valores. $\qquad \mu = \frac{\sum_{i=1}^{n} x_i}{N}$ Donde: * $\mu$ es la media de la población. * $N$ es el tamaño de la población. * $x_i$ es el valor del i-ésimo elemento de la población. ### Mediana La mediana es el valor que se encuentra en el centro de un conjunto de datos ordenados. * **Para datos no agrupados:** 1. Se ordenan los datos de menor a mayor. 2. Se identifica el valor central. Si el número de datos es par, la mediana es el promedio de los dos valores centrales. * **Para datos agrupados:** 1. Se calcula la frecuencia acumulada. 2. Se identifica la clase mediana (la primera clase cuya frecuencia acumulada es mayor o igual a la mitad del número total de datos). 3. Se aplica la siguiente fórmula: $\qquad M_e = L_i + \frac{\frac{N}{2} - F_{i-1}}{f_i} \cdot A$ Donde: * $M_e$ es la mediana. * $L_i$ es el límite inferior de la clase mediana. * $N$ es el número total de datos. * $F_{i-1}$ es la frecuencia acumulada de la clase anterior a la clase mediana. * $f_i$ es la frecuencia absoluta de la clase mediana. * $A$ es la amplitud de la clase mediana. ### Moda La moda es el valor que más se repite en un conjunto de datos. * **Para datos no agrupados:** Se identifica el valor que aparece con mayor frecuencia. * **Para datos agrupados:** 1. Se identifica la clase modal (la clase con mayor frecuencia absoluta). 2. Se aplica la siguiente fórmula: $\qquad M_o = L_i + \frac{d_1}{d_1 + d_2} \cdot A$ Donde: * $M_o$ es la moda. * $L_i$ es el límite inferior de la clase modal. * $d_1$ es la diferencia entre la frecuencia de la clase modal y la frecuencia de la clase anterior. * $d_2$ es la diferencia entre la frecuencia de la clase modal y la frecuencia de la clase posterior. * $A$ es la amplitud de la clase modal. ## Medidas de dispersión Las medidas de dispersión indican qué tan dispersos están los datos alrededor de la media. ### Rango El rango es la diferencia entre el valor máximo y el valor mínimo de un conjunto de datos. $\qquad R = X_{max} - X_{min}$ ### Varianza La varianza mide la dispersión de los datos respecto a la media. * **Para una población:** $\qquad \sigma^2 = \frac{\sum_{i=1}^{N} (X_i - \mu)^2}{N}$ Donde: * $\sigma^2$ es la varianza de la población. * $N$ es el tamaño de la población. * $X_i$ es el valor del i-ésimo elemento de la población. * $\mu$ es la media de la población. * **Para una muestra:** $\qquad S^2 = \frac{\sum_{i=1}^{n} (X_i - \bar{X})^2}{n-1}$ Donde: * $S^2$ es la varianza de la muestra. * $n$ es el tamaño de la muestra. * $X_i$ es el valor del i-ésimo elemento de la muestra. * $\bar{X}$ es la media de la muestra. ### Desviación estándar La desviación estándar es la raíz cuadrada de la varianza. * **Para una población:** $\qquad \sigma = \sqrt{\sigma^2}$ * **Para una muestra:** $\qquad S = \sqrt{S^2}$ ### Coeficiente de variación El coeficiente de variación es una medida de dispersión relativa que permite comparar la variabilidad de diferentes conjuntos de datos. $\qquad CV = \frac{\sigma}{\mu} \cdot 100$ (para una población) $\qquad CV = \frac{S}{\bar{X}} \cdot 100$ (para una muestra) ## Medidas de forma Las medidas de forma describen la forma de la distribución de los datos. ### Asimetría La asimetría mide el grado de simetría de una distribución. * **Distribución simétrica:** La media, la mediana y la moda son iguales. El coeficiente de asimetría es cero. * **Distribución asimétrica positiva (sesgada a la derecha):** La media es mayor que la mediana y la moda. El coeficiente de asimetría es positivo. * **Distribución asimétrica negativa (sesgada a la izquierda):** La media es menor que la mediana y la moda. El coeficiente de asimetría es negativo. ### Curtosis La curtosis mide el grado de apuntamiento de una distribución. * **Distribución mesocúrtica:** Tiene una curtosis similar a la de la distribución normal. * **Distribución leptocúrtica:** Tiene una curtosis mayor que la de la distribución normal (es más apuntada). * **Distribución platicúrtica:** Tiene una curtosis menor que la de la distribución normal (es más aplanada). ## Diagramas de caja Un diagrama de caja es una representación gráfica de un conjunto de datos que muestra el mínimo, el primer cuartil (Q1), la mediana (Q2), el tercer cuartil (Q3) y el máximo. También puede mostrar los valores atípicos. ### ¿Cómo interpretarlo? * La caja representa el rango intercuartílico (IQR), que contiene el 50% de los datos centrales. * La línea dentro de la caja representa la mediana. * Los bigotes se extienden hasta los valores mínimo y máximo, a menos que haya valores atípicos. * Los valores atípicos se representan como puntos individuales fuera de los bigotes. ## Tablas de frecuencia Las tablas de frecuencia son una forma de organizar los datos en categorías y mostrar la frecuencia (el número de veces que aparece cada categoría). ### Tipos de frecuencia * **Frecuencia absoluta:** El número de veces que aparece una categoría. * **Frecuencia relativa:** La proporción de veces que aparece una categoría (frecuencia absoluta dividida por el número total de datos). * **Frecuencia acumulada:** La suma de las frecuencias absolutas hasta una determinada categoría. * **Frecuencia relativa acumulada:** La suma de las frecuencias relativas hasta una determinada categoría.