Medidas Descriptivas PDF
Document Details
Uploaded by TrendyCurl
Facultad de Ciencias Exactas y Naturales y Agrimensura – UNNE
Tags
Summary
This document provides a summary and definition of measures used in descriptive statistics, such as measures of central tendency (mode), position, dispersion, and form (skewness and kurtosis). It includes advantages and disadvantages of each measure, along with examples.
Full Transcript
Estadística y Análisis de Datos MEDIDAS ESTADISTICAS DE RESUMEN Objetivo: Caracterizar una distribución de frecuencias por medio de un cantidad reducida de medidas numéricas que complementan la información aportada por tab...
Estadística y Análisis de Datos MEDIDAS ESTADISTICAS DE RESUMEN Objetivo: Caracterizar una distribución de frecuencias por medio de un cantidad reducida de medidas numéricas que complementan la información aportada por tablas de distribución y gráficos. Los tipos de medidas que podemos calcular para poder describir el comportamiento de un conjunto de datos son: 1. Medidas de tendencia central. Son medidas que “tienden” a estar en el centro de la distribución de datos. Caracterizan el centro de la distribución, esto es: alrededor de qué valor se agrupan los datos. 2. Medidas de posición, fractiles o cuantiles. Son medidas cuyos valores dividen en fracciones al conjunto ordenado de unidades elementales según el valor de la variable. 3. Medidas de dispersión o variabilidad. Son las que describen cuán dispersos están los datos. La dispersión se puede medir respecto a alguna medida de tendencia central o no. 4. Medidas de forma: Como su nombre lo indica describen la forma de la distribución de datos. Se pueden clasificar en dos grandes grupos o bloques: medidas de asimetría y medidas de curtosis. ASIMETRÍA: Estas medidas describen el grado de asimetría respecto al punto máximo de concentración de la variable en estudio. CURTOSIS: Mide la agudeza (elevación o achatamiento) de una distribución de datos comparada con la distribución normal. Tener en cuenta que: o Cada una de estas Medidas de Resumen describen de una manera única al conjunto de datos. o Una misma Medida de Resumen, puede ser calculada de distintas maneras (en cuanto a la estructura de la fórmula, si la tiene), porque depende del tipo de variable que se está analizando, del Nivel de Medición Estadístico alcanzado y del Tipo de agrupación de datos. o También poseen propiedades, ventajas y desventajas que se deben considerar. MEDIDAS DE TENDENCIA CENTRAL (MTC) MODO o MODA (Mo) Definición: Es aquel valor de la variable en estudio que se presenta con mayor frecuencia. Es la más elemental de las MTC. Su determinación es independiente del Nivel de Medición Estadístico alcanzado. Ventajas No requiere cálculos. Puede usarse para datos tanto cuantitativos como cualitativos. Fácil de interpretar. No se ve influenciada por valores extremos. Desventajas Para conjuntos pequeños de datos su valor no tiene casi utilidad, si es que de hecho existe. Solo tiene significado en el caso de una gran cantidad de datos. No utiliza toda la información disponible. No siempre existe, si los datos no se repiten. En ocasiones, el azar hace que una sola observación no representativa sea el valor más frecuente del conjunto de datos. Puede suceder que una distribución de datos no tenga Mo, o tenga más de un Mo, en cuyo caso esta Medida no es representativa. Es la más inestable de las MTC. (un dato que se agregue o quite puede hacer cambiar significativamente su valor) CÁLCULO DEL MODO O MODA DS/A: DATOS SIN AGRUPAR NO TIENE FÓRMULA. Simplemente se observa el valor de la variable que se repite con mayor frecuencia. 1 Estadística y Análisis de Datos Ejemplo: Cantidad de materias aprobadas por 5 alumnos de segundo año de la carrera Licenciatura en Ciencias Físicas. FaCENA – UNNE. Año 2012. cantidad de materias aprobadas 1 2 2 3 5 Mo = 2 materias Interpretación: La cantidad de materias aprobadas que se repite con mayor frecuencia entre estos 5 alumnos de segundo año de la carrera Licenciatura en Ciencias Físicas es 2 materias. ¡OJO!: NO SE DICE “LA MAYORIA” DE ALUMNOS TIENE 2 MATERIAS (esto es un error común) DAS: DATOS EN AGRUPACIÓN SIMPLE NO TIENE FÓRMULA. Se busca la mayor frecuencia SIMPLE, y luego se detecta el valor de la variable a la que corresponde. FRECUENCIAS SIMPLES Variable fi ri pi x1 x2 …… Mo = xi > fi > ri > pi ….. xk TOTALES n 1 100 Ejemplo Tabla I Materias aprobadas por estudiantes de segundo año de la carrera de Licenciatura en Física de FaCENA. Año 2012. (Muestra: 300 estudiantes) Cantidad de materias Frecuencias Simples Frecuencias Acumuladas aprobadas xi fi ri pi Fi Ri Pi 0 74 0,2467 24,67 74 0,2467 24,67 1 97 0,3233 32,33 171 0,57 57 2 64 0,2133 21,33 235 0,7833 78,33 3 25 0,0833 8,33 260 0,8666 86,66 4 26 0,0867 8,67 286 0,9533 95,33 5 14 0,0467 4,67 300 1 100 TOTAL 300 1 100 Mo = 1 materia Interpretación: La cantidad de materias aprobadas que se presentó con mayor frecuencia es 1. 2 Estadística y Análisis de Datos DAIC: DATOS AGRUPADOS EN INTERVALOS DE CLASE Para aplicar la fórmula, primero se debe determinar el Intervalo que contiene al Mo, ingresando por alguna frecuencia SIMPLE. VARIABLE FRECUENCIAS SIMPLES Li < x i ≤ Ls fi ri pi IC1 Intervalo que IC2 contiene al …… fi 1 ri1 pi 1 Mo Li(Mo) - Ls(Mo) > fi > ri > pi ……. fi +1 ri+1 pi+1 ICK TOTALES n 1 100 Luego se reemplaza los datos necesarios en la fórmula y lo que obtenemos es una estimación del valor del Mo. Δ1 Mo = Li(Mo) + ∙a Δ1 +Δ2 i donde: Li : límite inferior de la clase modal (intervalo que contiene la moda). 1: es la diferencia entre la frecuencia del intervalo modal y la frecuencia del intervalo premodal. 1 = fi fi1 2: es la diferencia entre la frecuencia del intervalo modal y la frecuencia del intervalo posmodal. 2 = fi fi+1 ai : la amplitud del intervalo de clase modal. Ejemplo Tabla II Tiempo de duración de los distintos procesos que se realizaron en un departamento de cómputos, en un día de trabajo Tiempo de Marca de duración fi ri pi Fi Ri Pi clase (en minutos) (0 – 2] 1 20 0.2083 20.83 20 0.2083 20.83 (2 – 4] 3 33 0.3438 34.38 53 0.5521 55.21 (4 – 6] 5 21 0.2188 21.88 74 0.7708 77.08 (6 – 8] 7 14 0.1458 14.58 88 0.9167 91.67 (8 – 10] 9 8 0.0833 8.33 96 1 100 n=∑ fi =96 ∑ ri =1 ∑ pi =100 fi − fi−1 33 − 20 𝐌𝐨 = Li(Mo) + ∙ ai = 2 + ∙ 2 = 3,04 minutos (fi − fi−1 ) + (fi − fi+1 ) (33 − 20) + (33 − 21) Interpretación: El tiempo de duración que se repite con mayor frecuencia en los procesos realizados es 3,04 minutos MEDIA ARITMÉTICA (𝐗 ̅) Definición: La media aritmética es la suma de las observaciones en una muestra dividida entre el número de observaciones efectuadas en ella. Es la medida de resumen más conocida como “promedio”. Es un valor que representa a cada uno de los valores de la variable en estudio. (para variables cuantitativas). ∑n x ̅ = i=1 i X n 3 Estadística y Análisis de Datos Propiedades: 1) La media aritmética es un valor representativo del conjunto de valores observados puesto que puede reemplazar a cada uno de los valores sin que el total se altere. Cantidad de materias aprobadas 2 1 3 5 3 ̅ Reemplazo por el valor de X 2,8 2,8 2,8 2,8 2,8 Total = ∑5i=1 xi = 2 + 1 + 3 + 5 + 3 = 14 materias Pero, n ∙ ̅ X = 5 ∙ 2,8 = 14 materias = Total ̅ = ∑5i=1 xi Por lo que: n ∙ X ∑ n x Justificación: Por definición, ̅ X = i=1 i → n ∙ ̅ X = ∑ni=1 xi n 2) La suma de los desvíos de las observaciones respecto a la media aritmética es igual a cero. ̅ Desvío: di = xi − X Justificación n n n n ∑ di = ∑(xi − ̅ X) = ∑ x i − ∑ ̅ X=n∙̅ X−n∙̅ X=0 i=1 i=1 i=1 i=1 3) Si a un conjunto de datos le sumamos o restamos una constante k, la media del nuevo conjunto va a quedar afectada por esta constante y va a se igual a la media del conjunto anterior más o menos esa constante. xi ̅X zi = x i ± k Justificación ∑ni=1 zi ∑ni=1(xi ± k) ∑ni=1 xi ± ∑ni=1 k ∑ni=1 xi nk Z= = = = ± =X̅±k n n n n n 4) Si a los datos de un conjunto los multiplico o divido por una constante k, la media del nuevo conjunto será igual a la media del conjunto anterior multiplicada o dividida por esa constante k. xi ̅X zi = k ∙ x i Justificación ∑ni=1 zi ∑ni=1(k ∙ xi ) k ∙ ∑ni=1 xi ∑ni=1 xi Z= = = =k∙ ̅ =k∙X n n n n 5) La media aritmética es el punto de equilibrio o centro de gravedad del conjunto de datos observados. Podemos imaginar a los datos como un sistema físico, en el que cada dato tiene una “masa” unitaria y lo ubicamos sobre una barra en la posición correspondiente a su valor. La media representa la posición en que deberíamos ubicar el punto de apoyo para que el sistema esté en equilibrio. x x x x x Cantidad de materias aprobadas 0 1 2 3 4 5 x= 2,8 materias De esta propiedad se deriva la principal desventaja que tiene esta medida. Los valores muy extremos ya sea muy grandes o muy pequeños afectan notablemente al valor de la media aritmética, haciéndola desplazar hacia el lado donde se encuentra ese valor extremo, de allí que cuando existen valores extremos en un conjunto de datos, esta medida no es recomendable. Por ejemplo, para la muestra: 4, 2, 2, 1, 4, 1, 2, 70, 4 es x= 10. Si no tenemos en cuenta el valor 70, la media sería x= 2,5, que es un valor mucha más razonable. Por eso, si una muestra contiene algún valor fuera de lo común la media aritmética vale de poco, a menos que ese valor no sea tenido en cuenta. 4 Estadística y Análisis de Datos No obstante, es una medida muy fácil de calcular, de interpretar, también es fácil su manejo algebraico, y es conocida en general por las personas comunes, por eso es una de las medidas más usadas. Ventajas Emplea en su cálculo toda la información disponible. Se expresa en las mismas unidades que la variable en estudio. Es el centro de gravedad de toda la distribución, representando a todos los valores observados. Es un valor único. Se trata de un concepto familiar para la mayoría de las personas. Es útil para llevar a cabo procedimientos estadísticos como la comparación de medias de varios conjuntos de datos. Desventajas Es muy sensible a los valores extremos de la variable: ya que todas las observaciones intervienen en el cálculo de la media, la aparición de una observación extrema, hará que la media se desplace en esa dirección, perdiendo representatividad. En consecuencia, no es recomendable usar la media como medida central en las distribuciones muy asimétricas. CÁLCULO DE LA MEDIA ARITMÉTICA DS/A: DATOS SIN AGRUPAR ∑ni=1 xi ̅= X n DAS: DATOS EN AGRUPACIÓN SIMPLE ∑ki=1 xi ∙ fi ̅= X n k: Cantidad de clases que se generan de acuerdo a los distintos valores que asumió la variable en estudio. DAIC: DATOS AGRUPADOS EN INTERVALOS DE CLASE ∑k x ∙ f ̅ = i=1 i i X n k: Cantidad de intervalos de clase generados. xi: (MARCA DE CLASE) valor que representa al intervalo de clase. De la TABLA I 0×74+1×97+2×64+3×25+4×26+5×14 x = 300 = 1,58 materias Interpretación: En promedio, los 300 estudiantes de segundo año de la carrera de Licenciatura en Física de FaCENA, aprobaron 1,58 materias De la TABLA II x = 4,20 minutos Interpretación: En promedio se utilizaron 4,20 minutos en los distintos procesos que se realizaron en un departamento de cómputos, en un día de trabajo. MEDIANA (Me) Definición: Es aquel valor de la variable en estudio que divide al conjunto de datos ordenados en dos partes iguales, de tal forma que el 50% de las unidades elementales tienen un valor menor o igual a dicho valor y el otro 50% un valor superior o a lo sumo igual. Al requerir datos ordenados, esta Medida se aplica a variables cuya clasificación tengan al menos un Nivel de Medición Estadístico: Ordinal o Jerárquico. 5 Estadística y Análisis de Datos Ventajas Como medida descriptiva, tiene la ventaja de no estar afectada por las observaciones extremas, ya que no depende de los valores que toma la variable, sino del orden de las mismas. Por ello es adecuado su uso en distribuciones asimétricas. Es de cálculo rápido y de interpretación sencilla. Desventajas No utiliza en su “cálculo” toda la información disponible. No pondera cada valor por el número de veces que se ha repetido. Hay que ordenar los datos antes de determinarla. CÁLCULO DE LA MEDIANA DS/A: DATOS SIN AGRUPAR Y DAS: DATOS EN AGRUPACION SIMPLE 1) Se ordenan los datos: n 2) Calculamos el siguiente índice i = como primera aproximación de la posición buscada. 2 3) Analizamos el resultado del índice: 4.1) Si el índice i es un número entero, entonces la Me es el promedio entre dos valores x +x consecutivos: 𝐌𝐞 = i i+1 2 4.2) Si el índice i es un número no entero, entones la Me coincide con un valor observado. Donde el i buscado será igual al entero más próximo por exceso: 𝐌𝐞 = xi Para encontrar los valores necesarios se ingresa por alguna frecuencia ACUMULADA. De la TABLA I: n = 300 i = n /2 = 300/2 = 150 xi + xi+1 x150 +x151 1 materia+1 materia Entonces, Me = = = = 1 materia 2 2 2 Interpretación: El 50% de los estudiantes tiene a lo sumo 1 materia aprobada. DAIC: DATOS AGRUPADOS EN INTERVALOS DE CLASE Una vez calculado el índice que determina la posición (sin realizar ninguna transformación), ingresamos por alguna frecuencia ACUMULADA para determinar qué clase de intervalo contiene el valor buscado. Luego se reemplaza los datos necesarios en la fórmula y lo que obtenemos es una estimación del valor de la Me. n − F(i−1) Me = Li(Me) + 2. ai fi donde: Li : límite inferior del intervalo que contiene la mediana. n: número de individuos que forman la muestra. Fi1: frecuencia acumulada hasta el intervalo anterior al que contiene la mediana. fi : frecuencia absoluta del intervalo que contiene la mediana. ai : la amplitud del intervalo donde cae la mediana. De la TABLA II: n − Fi−1 48−20 Me = Li(Me) + 2 ∙ ai = 2 + ∙ 2 = 3,70 minutos fi 33 Interpretación: el 50% de los procesos realizados duraron 3,70 minutos o menos y el 50% restante de los procesos 3,70 minutos o más. 6 Estadística y Análisis de Datos MEDIDAS DE POSICIÓN, FRACTILES o CUANTILES Definición: Son valores de la variable en estudio que dividen al conjunto ordenado de datos observados en fracciones de tal manera que deja un porcentaje h% de unidades elementales por debajo de ese valor y un (100 h) % de unidades elementales por encima del mismo. CUARTILES: (Q1, Q2 y Q3) Dividen al conjunto ordenado de unidades elementales según la variable en estudio en 4 partes iguales. Q1 Q2 Q3 Se observa que Q2 = Me QUINTILES: Ki con i = 1, 2, 3, 4 (Idem anterior: en 5 partes iguales) DECILES: Di; con i = 1, 2,..., 9 (Idem anterior: en 10 partes iguales) PERCENTILES: PK ; con k = 1, 2, …, 99 (Ídem anterior: en100 partes iguales) CÁLCULO DE CUANTILES DS/A o DAS 1) Se ordenan los datos: 2) Definimos: h: fracción de unidades elementales en porcentaje que deja por debajo del valor buscado. n∙h 3) Calculamos el siguiente índice i = 100 como primera aproximación de la posición buscada. 4) Analizamos el resultado del índice: 4.1) Si el índice i es un número entero, entonces el cuantil es el promedio entre dos valores x +x consecutivos: Cuantil = i i+1 2 4.2) Si el índice i es un número no entero, entones el cuantil coincide con un valor observado. Donde el i buscado será igual al entero más próximo por exceso: Cuantil = xi Para encontrar los valores necesarios se ingresa por alguna frecuencia ACUMULADA. De la Tabla I Cuantil n h i = (n. h)/100 Entonces Me=(x150+x151)/2=(1+1)/2 = D5=Me=P50 300 50 i= (300.50)/100= =150 1 materia Q3 = (x225+x226)/2=(2+2)/2 = Q3 300 75 i = (300.75)/100= =225 2 materias Q3 = 2 materias Interpretación: El 75% de los estudiantes tiene 2 o menos materias aprobadas y el resto (25%) de los estudiantes tiene 2 o más materias aprobadas. 7 Estadística y Análisis de Datos Otra interpretación: De cada 100 estudiantes, 75 tiene 2 o menos materias aprobadas y los restantes 25 estudiantes tiene 2 o más materias DAIC Una vez calculado el índice que determina la posición (sin realizar ninguna transformación), ingresamos por alguna frecuencia ACUMULADA para determinar qué clase de intervalo contiene el valor buscado. Luego se reemplaza los datos necesarios en la fórmula y lo que obtenemos es una estimación del valor del cuantil. n∙h − F(i−1) Cuantil = Li(cuantil o fractil) + 100. ai fi De la Tabla II 75.96 Q 3 → 75% de 96 = = 72 100 72 − 53 Q3 = 4 + ∙ 2 = 5,81 minutos 21 Interpretación: El 75% de los procesos realizados duraron 5,81 minutos o menos y el 25% restante de los procesos 5,81 minutos o más. MEDIDAS DE VARIABILIDAD O DISPERSIÓN Una vez que se han recogido los valores que toman las variables de nuestro estudio (datos), procederemos al análisis descriptivo de los mismos. Para variables categóricas o cualitativas, como el sexo por ejemplo, se quiere conocer el número de casos en cada una de las categorías, reflejando habitualmente el porcentaje que representan del total, y expresándolo en una tabla de frecuencias. Para variables numéricas, en las que puede haber un gran número de valores observados distintos, se ha de optar por un método de análisis distinto, respondiendo a las siguientes preguntas: a. ¿Alrededor de qué valor se agrupan los datos? b. Supuesto que se agrupan alrededor de un número, ¿cómo lo hacen? ¿muy concentrados? ¿muy dispersos? Las medidas de tendencia central vienen a responder a la primera pregunta. La medida más evidente que podemos calcular para describir un conjunto de observaciones numéricas es su valor medio. Otra medida de tendencia central que se utiliza habitualmente es la mediana. Es la observación equidistante de los extremos. Si la media y la mediana son iguales, la distribución de la variable es simétrica. La media es muy sensible a la variación de las puntuaciones. Sin embargo, la mediana es menos sensible a dichos cambios. Por último, otra medida de tendencia central, no tan usual como las anteriores, es la moda. Es decir que estas medidas de centralización, sirven para describir un aspecto de los datos, pero no nos dicen nada acerca de otro aspecto de igual importancia: la dispersión de los valores observados. Un promedio como la Media o la Mediana sólo localizan el centro de los datos. Eso es valioso desde ese punto de vista, pero un promedio no nos dice nada acerca de la dispersión de los datos, para esto utilizaremos las medidas de dispersión o variabilidad. Si el valor de estas medidas de dispersión es pequeño, nos indica que los datos están estrechamente agrupados alrededor de la Media, entonces la media se considera representativa de los datos, la Media es un promedio confiable. Inversamente, una medida de dispersión grande indica que la Media no es confiable, no es representativa de los datos. Para entender mejor esto, supongamos que tenemos dos muestras de tamaño tres: 10, 20 y 60 28,29 y 33 La media aritmética de ambas muestras es 30. Sin embargo, existe una diferencia esencial entre ellas, puesto que los valores de la primera muestra se encuentran más separados que los de la segunda. Es por esto, que es necesario que introduzcamos alguna medida de variabilidad que distinga a las dos muestras. La importancia práctica de tales medidas, se evidencia por ejemplo, en que una muy pequeña variabilidad en un proceso de producción de cierto producto, puede indicar alta calidad. Por lo tanto toda MTC, para que brinde una información eficaz, debe ir acompañado de alguna Medida de Variabilidad. 8 Estadística y Análisis de Datos Rango o Amplitud Máxima Desvío Intercuartil Absolutas Varianza Medidas de Variabilidad o Dispersión Desviación típica o estándar Coeficiente de Relativa Variación RANGO o AMPLITUD MÁXIMA Definición: es la diferencia entre el máximo y el mínimo valor del conjunto de datos. R = Xmáx – Xmín Ventajas Útil cuando se quiere conocer la extensión de las variaciones extremas (valor máximo de la dispersión). Fácil de calcular. Desventajas No es una medida de dispersión con respecto al centro de la distribución. En su cálculo intervienen sólo 2 valores observados. Por lo tanto no nos dice nada respecto de la variabilidad del resto del conjunto, No se puede calcular en distribuciones con límite de clase abierto. Está influenciada por los valores extremos, por lo que resulta ser una medida inestable que queda afectada por el tamaño de la muestra. (si se agrega o se quita un dato, puede variar su resultado en forma significativa). De la Tabla I R= (5 – 0) = 5 materias Interpretación: Existe una amplitud máxima de 5 materias aprobadas entre los estudiantes observados. Rango intercuartílico ó Desviación Intercuartil Definición: es la variación máxima que sufre el 50% de los valores de la variable (las ¾ partes menos ¼). Este desvío deja mucho a cada lado (el 25% de la información). DI = Q3 – Q1 La mediana parte a la distribución en dos partes iguales, pero a veces es más significativo el 50% entre Q3 y Q1 porque es un 50% más puro, más homogéneo por ser el 50% central (no toma valores extremos, deja de lado el 25% que concentra muy poco y el 25% que concentra mucho). Es decir, hay más homogeneidad en el 50% central que entre los dos 50% que divide la mediana (porque éstos incluyen los extremos). 9 Estadística y Análisis de Datos Ventaja La principal ventaja que presenta el rango intercuartílico frente al rango es que este último se suele ver bastante afectado por la presencia de cualquier valor anómalo (anormalmente alto o bajo), mientras que el rango intercuartílico es bastante menos sensible a ese tipo de observaciones. Por tanto, en ocasiones suele ser preferible utilizar el rango intercuartílico en lugar del rango como medida de dispersión de los datos Nos indica la amplitud del 50% central de la distribución, donde se concentran los datos y se ubican las MTC. Desventaja En su cálculo NO intervienen todos los datos observados. De la Tabla I DI = Q3 – Q1 = (2 materias – 1 materia) = 1 materia Interpretación: la diferencia entre el dato que ocupa la posición 75 y el dato que ocupa la posición 225, previa ordenación de los datos es 1 materia o que la diferencia entre el mayor y el menor del 50% de los datos centrales, previa ordenación de los mismos es 1 materia. Otra interpretación: El 50% de los alumnos que ocupan la posición central de la distribución de datos, según la cantidad de materias aprobadas, tiene una amplitud de 1 materia. VARIANZA Definición: es el promedio de los cuadrados de las desviaciones de los valores muestrales respecto de la media aritmética 𝐗 ̅. Se representa por 𝐒 𝟐. ̅)𝟐 ∑𝐧𝐢=𝟏(𝐱𝐢 − 𝐗 𝐒𝟐 = 𝐧 Esta varianza muestral se obtiene como la suma de las diferencias de cuadrados y por tanto tiene como unidades de medida el cuadrado de las unidades de medida en que se mide la variable estudiada. Aunque esta fórmula de la varianza muestral es correcta, en la práctica, el denominador que se utiliza, en lugar de n, es el valor n1. Por tanto, la medida que se utiliza es: ∑ni=1(xi − ̅ X)2 𝐒̂ 𝟐 = n−1 El haber cambiado el denominador de n por n1 está en relación al hecho de que esta segunda fórmula es una estimación más precisa de la varianza poblacional y posee las propiedades que necesitamos para realizar inferencias a la población. Suele denominarse varianza insesgada o cuasi-varianza. De ahora en adelante, si no se especifica lo contrario, cada vez que hablemos de varianza nos estaremos refiriendo a la insesgada (n 1). El hecho de dividir por n 1 en lugar de n es apenas apreciable cuando n es grande. Propiedades La varianza es mayor o igual a cero. Si a los datos de un conjunto, le sumamos o restamos una constante k, la varianza del nuevo conjunto será igual a la varianza del conjunto anterior. Si a los datos de un conjunto, le multiplicamos o dividimos por una constante k, la varianza del nuevo conjunto será igual a la varianza del conjunto anterior multiplicada o dividida por k2. Ventajas En su cálculo intervienen todos los datos observados. Es una medida de variabilidad promedio respecto a una MTC (𝐗 ̅). Desventaja Se pierde la unidad de medida original (queda afectada al cuadrado). DESVIACIÓN TÍPICA o DESVIACIÓN ESTÁNDAR Definición: es la raíz cuadrada de la varianza, y se representa por S. Expresa la dispersión de la distribución y se expresa en las mismas unidades de medida de la variable. La desviación típica es la medida de dispersión más utilizada en estadística. 10 Estadística y Análisis de Datos ̅)𝟐 ∑𝐧𝐢=𝟏(𝐱𝐢 − 𝐗 𝐒= √ 𝐧 Aunque esta fórmula de la desviación estándar muestral es correcta, en la práctica, el denominador que se utiliza, en lugar de n, es el valor n1. Por tanto, la medida que se utiliza es: ∑𝐧 (𝐱𝐢 − 𝐗 ̅)𝟐 𝐒 = √ 𝐢=𝟏 𝐧−𝟏 El haber cambiado el denominador de n por n1 está en relación al hecho de que esta segunda fórmula es una estimación más precisa de la desviación estándar verdadera de la población y posee las propiedades que necesitamos para realizar inferencias a la población. Ventajas En su cálculo intervienen todos los datos observados. Es una medida de variabilidad promedio respecto a una MTC (𝐗 ̅). Esta expresada en las mismas unidades que la variable en estudio. Como medidas de variabilidad más importantes, conviene destacar algunas características de la varianza y el desvío estándar: Son índices que describen la variabilidad o dispersión y por tanto cuando los datos están muy alejados de la media, el numerador de sus fórmulas será grande y la varianza y la desviación estándar también lo serán. Al aumentar el tamaño de la muestra, disminuye la varianza y la desviación estándar. Cuando todos los datos de la distribución son iguales, la varianza y el desvío estándar son iguales a 0. Para su cálculo se utilizan todos los datos de la distribución; por tanto, cualquier cambio de valor será detectado. Ambas son sensibles a la variación de cada una de los datos, es decir, si un dato cambia, cambia con ella la varianza. La razón es que si miramos su definición, la varianza es función de cada una de las observaciones. La desviación típica tiene la propiedad de que en el intervalo (𝐗 ̅ − 2S, 𝐗̅ + 2S) se encuentra, al menos, el 75% de las observaciones Incluso si tenemos muchos datos y estos provienen de una distribución normal (se definirá este concepto más adelante), podremos llegar al 95 %. De la tabla I Varianza 𝐒̂ 𝟐 = 1,990234114 materias2 Interpretación: La variabilidad promedio del cuadrado de los desvíos del número de materias aprobadas respecto a su media es de 1,990234114 materias2 Desviación típica 𝐒̂= 1,410756575 materias Interpretación: La variabilidad promedio del número de materias aprobadas respecto a su media es de 1,410756575 materias COEFICIENTE DE VARIACIÓN Es una medida de dispersión relativa que se expresa generalmente en porcentajes. Las medidas de dispersión que vimos anteriormente, son “absolutas” y son útiles para describir la dispersión de un solo conjunto de datos. Si dos conjuntos van a ser comparados, los valores absolutos son convenientes para éste fin, únicamente si los promedios de dichos conjuntos son más o menos iguales y si por otra parte se refieren a un mismo fenómeno. Por ejemplo, no tiene sentido comparar cual entre dos compañías A y B presenta mayor dispersión en los salarios, si la primera paga en dólares y la segunda paga en pesos argentinos. Tampoco tiene sentido comparar, por ejemplo, cual de dos productos de la 11 Estadística y Análisis de Datos competencia presenta mayor dispersión en su contenido, si uno de ellos tiene una presentación en onzas, mientras que el otro tiene una presentación en gramos. Es necesario por lo tanto, disponer de una medida que nos permita comparar qué tan pequeña o qué tan grande es una medida de dispersión absoluta como la desviación estándar. El coeficiente de variación que simbolizamos por CV, es una medida de dispersión relativa que resulta de comparar la S S ̅ del conjunto, así: CV = con la X X̅ Ejemplo: Si tenemos dos conjuntos de estudiantes A y B, cuyo peso presenta la misma dispersión: S = 12 kilos, pero el conjunto A tiene un peso promedio de 72 kilos, mientras que el conjunto B tiene un peso promedio de 61 kilos; es claro, que desde el punto de vista de la dispersión absoluta, la variabilidad en ambos conjuntos es idéntica. No obstante, también es claro, que relativamente, el conjunto A presenta mayor homogeneidad en sus pesos, ya que 12 respecto a 72, es relativamente menor que 12 respecto a 61, puesto que como observamos a continuación, CVA < CVB 12 12 CVA = 72 ∙ 100 = 16,67% CVB = 61 ∙ 100 = 19,67% Siguiendo el análisis, el coeficiente de variación, podría ser muy importante, para conocer cómo evoluciona un conjunto desde el punto de vista de su dispersión, a través del tiempo. Propiedades Sólo se debe calcular para variables con todos los valores positivos. Todo índice de variabilidad es esencialmente no negativo. Las observaciones pueden ser positivas o nulas, pero su variabilidad debe ser siempre positiva. De ahí que sólo debemos trabajar con variables positivas, para la que tenemos con seguridad que ̅ X > 0. No es invariante ante cambios de origen. Es decir, si a los resultados de una medida le sumamos una cantidad positiva, b > 0, para tener Y = X + b, entonces CVY < CVX. Es invariante a cambios de escala. Así, por ejemplo, el coeficiente de variación de una variable medida en metros es una cantidad adimensional que no cambia si la medición se realiza en centímetros. Ventajas Es la única medida de dispersión que permite comparar el nivel de dispersión de dos muestras de variables diferentes. Emplea toda la información disponible en su cálculo. Fácil de calcular. Desventaja No es una medida de dispersión con respecto al centro de la distribución de los datos. DISTRIBUCIÓN NORMAL, CAMPANA DE GAUSS Esta distribución será ampliada con más detalles en el transcurso del desarrollo de la Asignatura. Es la distribución teórica más conocida y utilizada en Estadística. Fue creada por el matemático GAUSS con el objeto de generalizar muchas distribuciones referidas a ciertos fenómenos de la naturaleza (por ejemplo: estatura y peso por sexo) que presentaban características similares. Características generales de una distribución normal: o Relaciona la media con la desviación estándar que son sus parámetros: µ y σ o Tiene forma de campana. Es una curva simétrica: tiene un pico máximo en el centro y decrece constantemente hacia los extremos. o No tiene límites hacia sus extremos, es decir, no corta nunca el eje de abcisas. o La media aritmética coincide con el modo y la mediana. o El área bajo la curva representa del tamaño de la muestra. Es una distribución que se utiliza para describir otras características de una distribución en particular comparándola con ella (por ejemplo asimetría y curtosis). También para determinar valores de datos atípicos. Cuando estamos en presencia de una distribución de datos que se aproxima a la distribución normal podemos también obtener fracciones de datos que caen dentro de ciertos límites. La más usada es la regla (68-95-99). 12 Estadística y Análisis de Datos Regla empírica para datos: (68 – 95 – 99) - 𝜇±𝜎 Se encuentra aproximadamente el 68% de los valores de datos. - 𝜇 ± 2𝜎 Se encuentra aproximadamente el xi 95 % de los valores de datos. μ 𝜇 ± 𝜎 = 68% - 𝜇 ± 3𝜎 Se encuentra aproximadamente el 𝜇 ± 2𝜎 = 95% 99,7% de los valores de datos. 𝜇 ± 3𝜎 = 99,7% MEDIDAS DE FORMA Las medidas de forma permiten comprobar si una distribución de frecuencia tiene características especiales como simetría, asimetría y nivel de apuntamiento que la clasifiquen en un tipo particular de distribución. Las medidas de forma son necesarias para determinar el comportamiento de los datos y así, poder adaptar herramientas para el análisis probabilístico. Algunas medidas de forma son: Asimetría: coeficientes de asimetría de Fisher y Pearson. La ley normal. Curtosis o aplastamiento: coeficiente de Fisher. ASIMETRIA: Con estas medidas se trata de establecer si una distribución de datos es sesgada o no (si es asimétrica o no). Simétrica Asimétrica a derecha Asimétrica a izquierda Mo = Me = ̅ X Mo Me ̅ X ̅ X Me Mo ̅ Mo) > 0 (X ̅ Mo) < 0 (X ̅ Mo) = 0 (X Podemos establecer que: < 0 Asimétrica a izquierda, sesgada a la izquierda ̅ Mo) (X = 0 Simétrica > 0 Asimétrica a derecha, sesgada a la derecha Inconvenientes: 1. Como es una medida absoluta, el resultado se expresa en unidades originales de la distribución. 2. La misma cantidad absoluta de asimetría tiene un diferente significado para distintas series con distintos grados de variabilidad Se eliminan los inconvenientes anteriores, obteniendo el Coeficiente de Asimetría de PEARSON. ̅ − Mo X AP = Ŝ Pearson comprobó que en distribuciones moderadamente asimétricas: ̅ ̅ − Me ) X − Mo ≈ 3 ∙ (X Por lo tanto ̅ − Me ) 3 ∙ (X AP = Ŝ 13 Estadística y Análisis de Datos Si Ap > 0 la distribución será asimétrica positiva o a derecha (desplazada hacia la derecha). Si Ap < 0 la distribución será asimétrica negativa o a izquierda (desplazada hacia la izquierda). Si Ap = 0 la distribución será simétrica. La 2da expresión es la más usada, dado que la Me es más estable que el Mo. Una distribución es sesgada, si NO es simétrica. En algunas bibliografías establecen que si: Ap ≤ 1 o Ap ≥ 1 puede considerarse que la distribución de datos es significativamente sesgada. Otra forma de calcular la asimetría, es utilizar el llamado coeficiente de FISHER que representaremos como AF y responderá a la siguiente expresión matemática: ∑ni=1(xi − ̅ X)3 AF = n. Ŝ 3 Según sea el valor de AF, diremos que la distribución es asimétrica a derecha o positiva, a izquierda o negativa, o simétrica, o sea: Si AF > 0 la distribución será asimétrica positiva o a derecha (desplazada hacia la derecha). Si AF < 0 la distribución será asimétrica negativa o a izquierda (desplazada hacia la izquierda). Si AF = 0 la distribución será simétrica. De la Tabla I ̅ Me)/Ŝ = 3. (1,58 − 1)/1,410756575 = 1,233381 Ap = 3.(X Interpretación: La distribución de materias aprobadas de los 300 estudiantes observados es asimétrica a derecha. En la representación gráfica podemos observar la asimetría de la distribución de los datos COEFICIENTE DE CURTOSIS Es un coeficiente que nos permite determinar la agudeza de una distribución, comparándola con la distribución normal. Se aplica a distribuciones unimodales y simétricas o ligeramente asimétricas. Coeficiente de curtosis de Fisher Para calcularlo utilizaremos la expresión ∑𝐧𝐢=𝟏(𝐱𝐢 − 𝐗 ̅)𝟒 𝐂𝐅 = −𝟑 𝐧. 𝐒̂ 𝟒 Si CF > 0 la distribución será leptocúrtica o apuntada, los datos están muy concentrados en la media, siendo una curva muy apuntada. Si CF = 0 la distribución será mesocúrtica o normal Si CF < 0 la distribución será platicúrtica o menos apuntada que lo normal, muy poca concentración de datos en la media, presentando una forma muy achatada. Bibliografía John Neter , William Wasserman y Whitmor. Fundamento de Estadística. Compañía Editorial Continental, 1980 Mendenhall, W. ; Wackerly D.; Scheaffer, Richard - Estadística Matemática con Aplicaciones Grupo Editorial Iberoamericana – 1994 Triola,M. – Estadística Elemental- Addison Wesley – 2000. 14