Estadística I PDF
Document Details
Uploaded by Deleted User
Tags
Summary
Este documento resume diferentes métodos y ejemplos de cálculo de estadística descriptiva, incluyendo medidas de tendencia central, dispersión, posición y forma. Ofrece ejemplos de cálculo con datos agrupados y no agrupados.
Full Transcript
MEDIDAS ESTADÍSTICAS Medidas de Medidas de Medidas de Medidas de Tendencia Dispersión Posición Forma Central Media Medi...
MEDIDAS ESTADÍSTICAS Medidas de Medidas de Medidas de Medidas de Tendencia Dispersión Posición Forma Central Media Medidas de Aritmética Rango Cuartiles Asimetría simple Desviación Medidas de Mediana Deciles Media Apuntamiento Moda Varianza Percentiles Media Desviación Ponderada Estándar MEDIDAS DE TENDENCIA CENTRAL Indican con alta precisión cual es el valor más cercano o central de la información Dan lugar a una síntesis de para considerarlo como el la información representante de toda la población MEDIA ARITMÉTICA SIMPLE O MEDIA ARITMÉTICA (PROMEDIO) Se calcula sumando todas las observaciones de un conjunto de Media se 𝑆𝑢𝑚𝑎 𝑑𝑒 𝑙𝑜𝑠 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 datos, dividendo el total para el representa con 𝑀𝑒𝑑𝑖𝑎 = 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠 número de elementos 𝑥ҧ involucrados. Más o igual a 30 Menos de 30 con con rango menor o Datos No Agrupados Datos Agrupados rango igual a cinco estrictamente unidades mayor a cinco unidades σ 𝑥𝑖 σ 𝑥𝑖. 𝑓𝑖 𝑥ҧ = 𝑥ҧ = 𝑁 𝑁 EJEMPLO 1 DATOS NO AGRUPADOS: SE TIENEN LOS SIGUIENTES VALORES DE FACTURACIÓN EN MILES DE DÓLARES: 10, 3, 9, 7, 2. ¿CUÁL ES EL MONTO DE VENTAS PROMEDIO? σ 𝑥𝑖 10 + 3 + 9 + 7 + 2 31 𝑥ҧ = = = = 6.2 𝑚𝑖𝑙𝑒𝑠 𝑑𝑒 𝑑ó𝑙𝑎𝑟𝑒𝑠 = $6200 𝑁 5 5 EJEMPLO 2 DATOS AGRUPADOS: LA DISTRIBUCIÓN DE FRECUENCIAS DE LA TABLA SIGUIENTE MUESTRA LOS DATOS DE LAS CANTIDADES DE 40 PRÉSTAMOS PERSONALES. OBTENER EL MONTO PROMEDIO DE PRÉSTAMOS. fi Cantidad de Número de xi fi.xi Préstamo Préstamos 300 + 700 /2 $300 – 700 13 500 6500 700 – 1100 11 900 9900 σ 𝑓𝑖 𝑥𝑖 44400 𝑥ҧ = = = $1110 1100 – 1500 6 1300 7800 𝑁 40 1500 – 1900 5 1700 8500 1900 – 2300 3 2100 6300 2300 – 2700 1 2500 2500 2700 – 3100 1 2900 2900 40 44400 MEDIA PONDERADA En tres cursos de un mismo nivel los promedios de las calificaciones fueron 5.6; 6.1 y 4.9; si los cursos tenían respectivamente 34; 30 y 36 alumnos, determine la calificación promedio de los 3 cursos. 𝑥1 ∙ 𝑛1 + 𝑥2 ∙ 𝑛2 + … + 𝑥𝑝 ∙ 𝑛𝑝 𝑥ҧ = 𝑛1 + 𝑛2 + … + 𝑛𝑝 5.6 34 + 6,1 30 + (4,9)(36) 549,8 𝑥ҧ = = = 5,498 ≈ 5,5 34 + 30 + 36 100 El promedio de las calificaciones de los tres cursos es 5,5 MEDIANA Es el valor que se No se ve afectada por Deben estar encuentra en el centro observaciones ordenados en forma Su símbolo es Me. de una secuencia extremas en un creciente o ordenada de datos conjunto de datos decreciente. Datos: 4, 7, 5, 6, 3, 2, 7 La mediana es el dato Muestras Datos No agrupados que se encuentra en el 𝑀𝑒 = 𝑥𝑛+1 Datos Ordenados: 2, 3, 4, 5, 6, 7, 7 impares centro de dicha ordenación. 2 n= 1, 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 𝑀𝑒 = 𝑥𝑛+1 = 𝑥4 = 5 2 35, 37, 39, 41, 43, 45, 47, 49, 51, 53, 55, 57, 59, 61, 63, 65, 67, 69, 71, 73, 75, 77, 79, 81, 83, 85, 87, 89, 91, 93, 95, 97, 99. Datos: 12,15, 14, 16, 11, 10, 10, 13 𝑥𝑛+ 𝑥𝑛+1 Muestras La mediana es el promedio de los datos 𝑀𝑒 = 2 2 Datos Ordenados: 16, 15, 14, 13, 12, 11, 10, 10 pares centrales 2 n= 2, 4, 6, 8, 10, 12, 14, 16, 18, 𝑥4+ 𝑥5 13 + 12 20, 22, 24, 26, 28, 30, 32, 34, 36, 𝑀𝑒 = = = 12,5 38, 40, 42, 44, 46, 48, 50, 52, 54, 2 2 56, 58, 60, 62, 64, 66, 68, 70, 72, 74, 76, 78, 80, 82, 84, 86, 88, 90, 92, 94, 96, 98 y 100 posición MEDIANA PARA DATOS AGRUPADOS 𝑛 Posición anterior de Cantidad de Número de Fi xi fi.xi − 𝐹𝑖−1 Fi ( frecuencia 𝑀𝑒 = 𝐿𝑖 + 2 ∙𝑎 absoluta acumulada) Préstamo Préstamos 𝑓𝑖 fi $300 – 700 13 13 500 6500 700 – 1100 11 24 900 9900 i = primer intervalo cuya frecuencia acumulada supera a n/2 1100 - 700 =400 1100 – 1500 6 30 1300 7800 Li = es el límite real inferior del intervalo de la mediana 1500 – 1900 5 35 1700 8500 n = número de datos 1900 – 2300 3 38 2100 6300 𝐹𝑖−1 = frecuencia acumulada anterior al intervalo de la 2300 – 2700 1 39 2500 2500 mediana 2700 – 3100 1 40 2900 2900 fi = frecuencia absoluta del intervalo de la mediana 40 44400 𝑛 a = amplitud del intervalo ≤ 𝐹𝑖 2 𝑛 40 = = 20 ≤ 24 2 2 40 −13 2° intervalo: i = 2 𝑀𝑒 = 700 + 2 ∙ 400 = $954.55 11 a = 400 F1 = 13 f3 = 6 L6 = 699.50 MODA La Moda es el valor de un conjunto de datos que aparece Datos No Agrupados con mayor frecuencia. Se obtiene fácilmente a partir de un arreglo ordenado. Datos: 2, 4, 5, 6, 7, 7, 8, 7, 6 Mo = 7 No se afecta ante la ocurrencia de valores extremos Datos: 1,1,3, 1, 1, 2, 2, 4, 2, 3, 2, 5, 6 Mo = 1 y 2 Sólo se utiliza la moda para propósitos descriptivos porque es más variable para distintas muestras. Datos: 0, 0, 2, 3, 4, 5 Un conjunto de datos puede tener más de una moda o Mo = 0 ninguna. Datos: 0, 1, 2, 3, 4, 5 Mo = No existe El símbolo es Mo. MODA PARA DATOS AGRUPADOS fi Cantidad de Número de Fi xi fi.xi fi más Préstamo Préstamos i = intervalo de Li = es el límite real alta $300 – 700 13 13 500 6500 mayor frecuencia inferior del intervalo 700 – 1100 11 24 900 9900 absoluta de la moda 1100 – 1500 6 30 1300 7800 1500 – 1900 5 35 1700 8500 Intervalo que se repite más veces 1900 – 2300 3 38 2100 6300 𝑑1 ES DECIR, fi 𝑀𝑜 = 𝐿𝑖 + ∙𝑎 2300 – 2700 1 39 2500 2500 𝑑1 + 𝑑2 2700 – 3100 1 40 2900 2900 40 44400 d1 = fi – fi-1 d2 = fi – fi+1 13 a = amplitud del Posición siguiente de 𝑀𝑜 = 300 + ∙400 = $646.67 Posición anterior de Fi ( frecuencia 13+2 Fi ( frecuencia absoluta acumulada) intervalo absoluta acumulada) MEDIA GEOMÉTRICA La media geométrica es un tipo de media que se calcula como la raíz del producto de un conjunto de números estrictamente positivos. Todos los valores se multiplican entre sí. De modo que si uno de ellos fuera cero, el producto total sería cero. N: Número total de observaciones. Uno de sus principales usos es para calcular medias x: La variable X sobre la que se calcula la sobre porcentajes, pues su cálculo ofrece unos media geométrica. resultados más adaptados a la realidad. i: Posición de cada observación. MEDIDAS DE POSICIÓN Las medidas de posición relativa se llaman en general cuantiles Se clasifican en tres grandes grupos: Cuartiles, quintiles, deciles, percentiles. Las medidas de posición dividen a una distribución ordenada en partes iguales. Para calcular las medidas de posición es necesario que los datos estén ordenados de menor a mayor. CUARTILES (QK) Son los tres valores de la variable Ejemplo: Calcular Q3 entre los siguientes datos 3, 5, 2, de una distribución que la dividen 7, 6, 4, 9 en cuatro partes iguales Paso 1: Ordenar los datos ascendentemente 2, 3, 4, 5, 6, 7, 9 25% 50% 75% Paso 2: Calcular la posición de Q3 número de quartil Q3 = 3(7/4) = 21/4 = 5,25 𝑛 𝑄𝑘 = 𝑘(4 ) Paso 3: Calcular Q3 6+7 Qk = Cuartil número 1, 2, 3 ó 4 Q3 = 2 = 6.5 n = total de datos de la distribución La posición del segundo cuartil corresponde a la ubicación de la mediana: Q2 = Mediana 0% 25% 50% 75% 100% CUARTILES PARA DATOS AGRUPADOS Li = límite real inferior de la clase donde se encuentra el cuartil. N = tamaño de la muestra o población Fi-1 =frecuencia acumulada anterior a la clase del cuartil. ai = la amplitud de la clase. Q1 16.25 ≤ Fi 16.25 ≤ 18 DECILES Y PERCENTILES Desde D1 hasta D9 Desde P1 hasta P99 Percentiles Deciles D5 = Mediana P50 = Mediana No agrupados Pn = kn/100 No agrupados Dn = kn/10 𝐾𝑛 𝐾𝑛 − 𝐹𝑖−1 − 𝐹𝑖−1 𝑃𝑛 = 𝐿𝑖 + 100 ∙𝑎 10 Agrupados 𝑓𝑖 Agrupados 𝐷𝑛 = 𝐿𝑖 + ∙𝑎 𝑓𝑖 MEDIDAS DE FORMA MEDIDAS DE ASIMETRÍA O SESGO MEDIDAS DE APUNTAMIENTO O KURTOSIS MEDIDAS DE ASIMETRÍA O SESGO Permite identificar y describir la manera cómo los datos tienden a reunirse de acuerdo con la frecuencia Tipos de Asimetría con que se hallen dentro de Asimetría Simétrica Asimetría Positiva la distribución. Negativa o la o a la derecha Cuando los datos se izquierda distribuyen Cuando la minoría aproximadamente a de los datos están en Cuando la minoría ambos lados de la de los datos están en la parte derecha de media aritmética. la media aritmética. Permite identificar las la parte izquierda de 𝑥ҧ = 𝑀𝑑 = 𝑀𝑜 características de la la media. 𝑥ҧ > 𝑀𝑑 > 𝑀𝑜 𝑥ҧ < 𝑀𝑑 < 𝑀𝑜 distribución de datos sin necesidad de generar gráfico. COEF. < 0 COEF. = 0 COEF. > 0 COEFICIENTE DE ASIMETRÍA DE PEARSON Horas de Número de auditoría empresas Se calculan las siguientes medidas 𝜇 − 𝑀𝑜 3(𝜇 − 𝑀𝑒) 0 – 24.9 2 con las fórmulas revisadas en 𝑆𝑘1 = 𝜎 𝑆𝑘2 = 𝜎 25 – 49.9 4 clase: 50 – 74.9 12 μ = 87.45 75 – 99.9 30 Me = 89.12 100 – 124.9 18 Mo = 89.95 125 – 149.9 4 σ = 26.73 87.45 −89.95 3(87.45 − 89.12) 𝑆𝑘1 = = −0.094 𝑆𝑘2 = = −0.187 Sesgo a la izquierda 26.73 26.73 MEDIDAS DE APUNTAMIENTO O KURTOSIS Apuntamiento es el grado de concentración alrededor de la media Coeficiente de Fisher Datos Agrupados Datos No agrupados Permite identificar las características de la distribución de datos sin Si α < 3 ? la distribución es platicúrtica necesidad de Si α = 3 ? la distribución es normal o mesocúrtica generar gráfico. Si α > 3 ? la distribución es leptocúrtica EJEMPLO DE KURTOSIS Horas de Número de xi xi.fi (xi-ഥ 𝒙)^4 fi(xi-ഥ 𝒙)^4 σ = 26.73 auditoría empresas 0 – 24.9 2 12.45 24.9 31640625 63281250 25 – 49.9 4 37.45 149.8 6250000 25000000 50 – 74.9 12 62.45 749.4 390625 4687500 125000000 𝛼= = 3.5 75 – 99.9 30 87.45 2623.5 0 0 70(26.73)4 100 – 124.9 18 112.45 2024.1 390625 7031250 125 – 149.9 4 137.45 549.8 6250000 25000000 70 6121.5 125000000 LEPTOCURTICA 6121.5 𝑥ҧ = = 87.45 70 Características Evolución del Análisis Cuantificación de la Estadístico Covarianza Se cuantifica a nivel Coeficientes que integran en un valor descriptiva e inferencial estimado, información con respecto a la varianza conjunta entre dos variables El nivel de covarianza Análisis Objetivo: Definir la magnitud y el sentido de la relación entre las de dos variables Bivariado variables Se determina la Análisis conjunto de las varianzas de relación entre las dos variables (X y Y) permite identificar variables la relación empírica entre éstas El análisis bivariado busca someter a contrastación la tesis de asociación y hasta causalidad entre dos variables definidas. VariablesDependientes e Independientes Variable Independiente Variable Dependiente Es el resultado que se medirá, como el grado de azúcar en Es una variable “controlada y conocida” que se la sangre que se obtendrá luego de administrar un manipula en el estudio. medicamento. Será un valor o serie de valores Ejemplo conocidos y manipulables. Los efectos del consumo de carbohidratos en el peso de los jóvenes: Ejemplo: la medida de la dosis de un medicamento que se cree Variable independiente: La cantidad de carbohidratos que se que ayuda a los diabéticos a regular el azúcar de sangre. suministrará en gramos. La variable dependiente: el peso de los chicos.. Analizar el efecto que un plan de entrenamiento basado en la técnica Facilitación Neuromuscular Propioceptiva (FNP) (variable independiente) produce sobre la movilidad articular de la cadera (variable dependiente). Supuestos teóricos considerados Los cambios en una variable (X) no se asocian con cambios en una variable (Y) que permanece constante Si una variable deja de variar se La inferencia se basará en el uso de la función de convierte en una constante distribución t para determinar la probabilidad de error al tomar la decisión de aceptar la hipótesis de nulidad de la relación. No se puede hablar de ausencia de covarianza Distribución de los datos bivariados se comporta de manera normal Variabilidad propia de cada variable Contraste de hipótesis Supuestos Representación gráfica de una relación Bivariada La representación gráfica de las correlaciones obedece a los principios del análisis matemático de funciones La representación de funciones parte de la noción clave del sistema de coordenadas cartesianas. Se encuentra conformado fundamentalmente por dos ejes: el eje de las abscisas (X) y el eje de las ordenadas (Y) Representación gráfica de una relación Bivariada Noción de punto El punto es la mínima expresión de una línea. La línea que describe el IV comportamiento de un conjunto de IV puntos se define por una función. III Toda función se define como una III relación entre variables, entonces el punto define la mínima expresión de una relación entre variables (x, y) Cada pareja ordenada (x, y) le corresponde un punto del plano, y viceversa. 6 Gráficos de una función Si m >0 la recta es CRECIENTE Si m