Estadística Descriptiva PDF
Document Details
Uploaded by Deleted User
Racca, Bottai, Ivancovich, Piskulic, Prunello, Allasia, Silva Quintana, Daurelio
Tags
Summary
Este documento presenta un capítulo de estadística descriptiva. Se analiza la información contenida en conjuntos de datos utilizando tablas y gráficos y se calculan características numéricas, como estadísticas. Se incluyen ejemplos, como datos experimentales de un estudio sobre el cultivo de girasol. Se explican las variables y su clasificación, junto con diferentes tipos de gráficos para analizar datos cualitativos, como los gráficos de sectores y de barras.
Full Transcript
1. ESTADÍSTICA DESCRIPTIVA 1.1 Introducción El objetivo de la estadística descriptiva es resumir la información contenida en un conjunto de datos, de la manera más concisa y completa posible. Esto puede hacerse mediante la construcción de tablas y gr...
1. ESTADÍSTICA DESCRIPTIVA 1.1 Introducción El objetivo de la estadística descriptiva es resumir la información contenida en un conjunto de datos, de la manera más concisa y completa posible. Esto puede hacerse mediante la construcción de tablas y gráficos y el cálculo de ciertas características numéricas llamadas "estadísticas". Veamos un ejemplo. A continuación se presentan los datos obtenidos para evaluar el efecto de la aplicación de dos fertilizantes utilizados en el cultivo de girasol, sobre diferentes características de las plantas. En una estación experimental agropecuaria, se eligieron al azar 30 plantas de cada uno de dos lotes sembrados con la misma variedad pero tratados con diferentes fertilizantes. En cada planta se registraron el número de hojas, el diámetro del capítulo (flor), la altura de la planta, el diámetro del tallo y la calidad del llenado del capítulo a los 110 días de la siembra. Tabla 1.1: Datos experimentales sobre el cultivo del girasol Diámetro del Altura de Número Diámetro del Planta Fertilizante Llenado capítulo (cm) la planta (m) de hojas tallo (cm) 1 A 17.3 2.45 9 3.4 regular 2 A 17.9 2.59 13 2.4 bueno 3 A 14.1 2.37 10 2.4 bueno 4 A 17.6 2.51 11 2.3 malo 5 A 15.2 2.29 8 2.0 malo 6 A 19.0 2.47 9 2.4 regular 7 A 20.4 2.46 7 2.5 malo 8 A 15.7 2.54 12 3.6 regular 9 A 18.3 2.62 13 2.3 bueno 10 A 19.3 2.56 10 3.9 regular 11 A 21.0 2.64 11 3.5 bueno 12 A 16.5 2.46 9 4.0 malo 13 A 22.3 2.62 10 2.4 regular 14 A 23.7 2.76 12 5.1 regular 15 A 26.0 2.89 13 8.3 malo Racca, Bottai, Ivancovich, Piskulic, Prunello, Allasia, Silva Quintana, Daurelio (2018). Problemas de Estadística aplicados a la Biología y la Química. Capítulo 1. UNR Editora, Rosario. 8 Capítulo 1. Estadística descriptiva 16 A 20.9 2.64 11 2.5 malo 17 A 20.2 2.46 7 3.4 regular 18 A 19.9 2.75 12 5.0 malo 19 A 14.8 2.28 8 2.1 regular 20 A 18.7 2.46 8 2.5 regular 21 A 17.3 2.49 11 2.5 bueno 22 A 18.0 2.59 11 5.4 bueno 23 A 19.1 2.52 12 3.3 malo 24 A 19.6 2.57 11 3.1 malo 25 A 14.9 2.44 11 3.8 regular 26 A 14.5 2.53 13 3.8 bueno 27 A 13.3 2.26 8 2.1 bueno 28 A 10.8 2.12 6 2.2 malo 29 A 15.3 2.47 14 3.9 bueno 30 A 12.7 2.31 9 2.4 malo 31 B 18.9 2.46 12 2.3 bueno 32 B 22.0 2.54 11 2.4 bueno 33 B 21.7 2.40 8 2.3 bueno 34 B 20.0 2.42 9 3.1 regular 35 B 22.9 2.54 10 3.6 regular 36 B 20.9 2.40 9 2.1 regular 37 B 17.2 2.21 8 2.1 regular 38 B 19.9 2.39 9 2.3 bueno 39 B 25.5 2.61 10 3.6 bueno 40 B 20.0 2.50 11 3.5 bueno 41 B 21.2 2.59 13 2.4 bueno 42 B 18.5 2.27 7 2.3 bueno 43 B 23.6 2.58 10 3.9 bueno 44 B 25.7 2.71 12 3.9 malo 45 B 23.4 2.58 12 2.3 bueno 46 B 26.1 2.73 12 3.6 malo 47 B 24.5 2.53 8 3.6 regular 48 B 25.7 2.65 10 7.4 bueno 49 B 20.1 2.30 9 2.2 bueno 50 B 20.2 2.46 10 2.5 bueno 51 B 22.8 2.56 11 2.3 malo 52 B 24.0 2.72 14 3.8 regular 53 B 20.1 2.57 13 4.0 regular 54 B 17.5 2.14 5 2.2 regular 55 B 15.6 2.32 11 2.3 regular 56 B 12.1 2.08 7 2.3 bueno 57 B 18.0 2.25 7 2.3 bueno 58 B 17.4 2.33 9 2.5 malo 59 B 15.3 2.15 6 2.1 bueno 60 B 18.5 2.41 10 2.4 bueno Una unidad es el ítem sujeto a observación (una alícuota de una solución, un extendido de sangre periférica, un animal, etc.). Cada unidad puede ser observada en relación con una o varias características. Una caracte- rística que puede variar de unidad a unidad se denomina variable (concentración, densidad, pH en el caso de una solución, porcentaje de eosinófilos en un extendido de sangre periférica, peso, edad, sexo, etc. en un animal). 1.2 Clasificación de variables 9 Las observaciones registradas de una o más variables conforman el conjunto de datos. En nuestro ejemplo, la unidad es la planta, las variables son el número de hojas, el diámetro del capítulo, la altura de la planta, el diámetro del tallo y el llenado del capítulo y el conjunto total de datos es el brindado anteriormente. 1.2 Clasificación de variables Un primer paso importante es reconocer las variables bajo estudio y determinar de qué tipo son: cualitativas o cuantitativas. Variables cualitativas, también llamadas categóricas, son aquellas no medibles numéricamente (sexo, grupo sanguíneo, etc.). Cuando la variable en estudio es de este tipo, cada unidad observada resulta incluida en una de dos o más categorías exhaustivas y mutuamente excluyentes. En el ejemplo se estudió una variable cualitativa, el llenado del capítulo. Las categorías posibles son: malo, regular y bueno. Estas pueden ser codificadas como malo = 1, regular = 2 y bueno = 3. La suma, diferencia o promedio no tiene sentido en este caso. Variables cuantitativas son aquellas que toman valores numéricos para los cuales tienen sentido las operaciones aritméticas. Estas variables pueden ser discretas o continuas. Si la variable puede asumir, teóricamente, cualquier valor de un intervalo se denomina continua en dicho intervalo y si sólo puede tomar en él valores aislados, discreta. En nuestro ejemplo, las variables cuantitativas son el número de hojas, el diámetro del capítulo, la altura y el diámetro del tallo. La primera de ellas es discreta y las restantes continuas. En la Figura 1.1 se presenta un esquema que resume la clasificación de variables ya vista. Figura 1.1: Clasificación de las variables VARIABLES CUALITATIVAS CUANTITATIVAS DISCRETAS CONTINUAS 1.3 Descripción de un conjunto de observaciones de una variable cualitativa Presentaremos tres tipos de gráficos particularmente útiles para variables cualitativas: el de sectores, el de barras y el diagrama de Pareto. Gráfico de sectores La construcción del gráfico de sectores consiste en diagramar un círculo que representa al 100 % de las unidades. El mismo se divide en tantos sectores como categorías existan. El área de cada sector es proporcional al porcentaje de unidades que pertenecen a la categoría que representa. En la Figura 1.2 se presenta el gráfico de sectores para calidad de llenado del capítulo. Gráfico de barras En el gráfico de barras se representa una barra para cada categoría. La longitud de cada una de ellas es proporcional al porcentaje de unidades que pertenecen a la categoría y el ancho es el mismo para todas. La Figura 1.3 muestra la utilización del gráfico de barras para representar el llenado con los 10 Capítulo 1. Estadística descriptiva datos de cada tipo de fertilizante por separado. Esta información puede presentarse conjuntamente en un gráfico de barras subdivididas o de barras adyacentes (Figura 1.4). Figura 1.2: Distribución porcentual del llenado del capítulo Bueno 43.3% Malo 25% Regular 31.7% Figura 1.3: Distribución porcentual del llenado del capítulo según fertilizante Fertilizante A Fertilizante B Bueno Bueno Regular Regular Malo Malo 0 10 20 30 40 0 10 20 30 40 50 60 Porcentaje Porcentaje Figura 1.4: Distribución porcentual del llenado según fertilizante Fertilizante A Llenado Malo Regular Bueno Fertilizante B 0 10 20 30 40 50 60 Porcentaje Diagrama de Pareto El diagrama de Pareto es un tipo especial de gráfico de barras. La frecuencia de cada categoría se representa en el eje vertical y las distintas categorías se indican en el eje horizontal en orden descendente de acuerdo con el número de observaciones de cada una de ellas. Se suele agregar un eje vertical derecho para representar el porcentaje de veces que se observó una categoría o las 1.4 Variables cuantitativas 11 que se encuentran a su izquierda (porcentaje acumulado). Una línea sobre el diagrama conecta los porcentajes acumulados a través de las distintas categorías. Estos diagramas son muy útiles en los programas de mejoramiento de calidad porque permiten enfocar la atención en los defectos más frecuentes de un producto o proceso. Veamos un ejemplo. Los errores en las pesadas pueden ser atribuidos a distintas causas: la adsorción de la humedad en la superficie del recipiente de pesada (a); no permitir que los recipientes se enfríen alcanzando la misma temperatura que la balanza antes de pesar (b) y un inadecuado mantenimiento de las pesas (c). Con el fin de lograr un mejoramiento del proceso de pesada, un laboratorio empleó diversos procedimientos para determinar la causa del error presente en 180 mediciones. Se encontraron las siguientes frecuencias para cada causa: (a) 81 casos (45 %), (b) 54 casos (30 %) y (c) 27 casos (15 %). El 10 % restante corresponde a la categoría “otras” (d). La representación de la distribución de las causas de error mediante un diagrama de Pareto se presenta en la Figura 1.5. Podemos concluir, por ejemplo, que el 30 % de los errores observados son de tipo b y el 75 % de los errores son de tipo a o de tipo b. Figura 1.5: Distribución de las causas de los errores en las pesadas 180 100 Frecuencia absoluta 144 80 Porcentaje 108 60 72 40 36 20 0 0 a b c d 1.4 Descripción de un conjunto de observaciones de una variable cuantitativa 1.4.1 Representaciones gráficas Para variables cuantitativas los gráficos más comunes son el diagrama de puntos, el de tallo y hoja, el de bastones, el histograma y el boxplot. Diagrama de puntos Sea x la variable altura de la planta, cuyos valores observados son: 2.45, 2.59,... , 2.28,... , 2.15, 2.41. Los mismos se simbolizan con x1 , x2 ,..., xi ,..., xn ; indicando el subíndice el orden de observación del dato (xi será el valor de la variable x observado en la i-ésima unidad elegida, i = 1, 2,... , n; siendo n el número total de datos obtenidos). Para este ejemplo se tiene n = 60, x1 = 2.45 m y x60 = 2.41 m. El conjunto de datos x1 , x2 ,..., xi ,..., xn puede representarse en un diagrama de puntos. Este permite en forma rápida visualizar la distribución de los datos sobre una escala real. Los valores de la variable se indican sobre el eje de abscisas. Cada valor observado se marca con una cruz o un punto arriba del número que le corresponde en el eje de abscisas. Si existen dos o más unidades con el mismo valor, las cruces o puntos correspondientes se alinean en forma vertical. En el eje de ordenadas se representa la frecuencia absoluta o número de veces que se presentó cada valor. El diagrama de puntos resultante para la variable altura de la planta se muestra en la Figura 1.6. 12 Capítulo 1. Estadística descriptiva Figura 1.6: Distribución de la altura de la planta 7 6 Frecuencia absoluta 5 4 3 2 1 0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 Altura (m) Diagrama de tallo y hoja El gráfico de tallo y hoja, apropiado cuando el número de datos es relativamente pequeño, se construye de la siguiente manera: En primera instancia, cada observación debe ser separada en un tallo y una hoja. Generalmente la hoja está constituida por el último dígito y el tallo por los restantes (uno o más dígitos). Así, para el valor 2.45 m el tallo es 2.4 y la hoja, 5. Luego se ordenan los tallos de menor a mayor en forma vertical, trazando una línea a la derecha de ellos. Finalmente, se une cada hoja al tallo correspondiente, ordenándolas en sentido creciente al alejarse del tallo. La Figura 1.7 muestra el diagrama de tallo y hoja para la variable altura de la planta. Figura 1.7: Distribución de la altura de la planta 20 8 21 245 22 156789 23 012379 24 001245666666779 25 01233444667788999 26 122445 27 12356 28 9 Unidad de la hoja: 0.01 m. Ejemplo: 20|8 representa 2.08 m A partir de este gráfico se pueden observar ciertas características de la distribución. Si ubicamos aproximadamente en el gráfico el valor central y por ese punto trazamos una recta horizontal, la distribución se divide en dos partes cada una de las cuales es prácticamente imagen especular de la otra. Diremos en este caso que la distribución es aproximadamente simétrica. La Figura 1.8 presenta otras situaciones hipotéticas, mientras que la Figura 1.9 muestra los gráficos resultantes al rotar 90º los diagramas anteriores e idealizarlos mediante una curva trazada sobre las hojas. En el primero se observa una distribución simétrica con un único pico. En la idealización de la situación 1, la distribución “se extiende” más hacia la derecha; en este caso diremos que es asimétrica hacia la derecha. En el gráfico correspondiente a la situación 2 se visualiza el caso de una distribución con dos picos. En el último gráfico se observa, comparativamente con el de nuestro ejemplo, menor variabilidad de los datos. La nueva distribución resulta más concentrada alrededor del valor central. 1.4 Variables cuantitativas 13 Figura 1.8: Distintos tipos de distribuciones de la altura de la planta a) Situación 1 b) Situación 2 c) Situación 3 20 24556677899 20 248 20 21 001123345566678899 21 002467 21 5 22 112234556789 22 0122334456789 22 56 23 0123679 23 2379 23 00123455667899 24 04569 24 014 24 00123345566666688779 25 3447 25 1245669 25 0122233444667788999 26 45 26 012334566778899 26 568 27 27 12445 27 6 28 9 28 1269 28 Unidad de la hoja: 0.01 m Figura 1.9: Idealización de los diagramas de tallo y hoja luego de una rotación de 90º Nuestro ejemplo Situación 1 Situación 2 Situación 3 2.1 2.3 2.5 2.7 2.9 2.1 2.3 2.5 2.7 2.9 Altura (m) Cuando se desean comparar dos distribuciones relacionadas, es útil construir un diagrama de tallo y hoja con un tallo común. En la Figura 1.10 se presenta el diagrama correspondiente a la altura de la planta para ambos fertilizantes. Figura 1.10: Distribución de la altura de la planta según fertilizante Fertilizante A Fertilizante B 20 8 2 21 45 986 22 157 71 23 0239 977666654 24 001266 99764321 25 034467889 4422 26 15 65 27 123 9 28 Unidad de la hoja: 0.01 m 14 Capítulo 1. Estadística descriptiva A partir de la observación del diagrama de tallo y hoja y del de puntos, se puede ubicar aproxima- damente el valor central del conjunto de datos y tener idea de la variabilidad de los mismos alrededor de ese valor central, de la simetría, del número de picos, etc. Otra utilidad de estos gráficos es la detección de outliers, observaciones que se encuentran “lejos” del resto de los datos. Más adelante precisaremos mejor este concepto. Gráfico de bastones A menudo resulta de interés efectuar un resumen de los datos mediante una tabla de frecuencias a través de un agrupamiento de los mismos. Cuando el número de observaciones es grande pero hay pocos valores diferentes, como ocurre generalmente cuando la variable es discreta, la tabla consta de los m valores diferentes observados de la variable (simbolizados con xj , variando j de 1 a m) y del número de veces que se repite cada uno de ellos o frecuencia absoluta (simbolizada con fj ). También suelen utilizarse la frecuencia relativa (simbolizada con hj ) que se define como el cociente entre la correspondiente frecuencia absoluta y el número total de datos; la frecuencia absoluta acumulada (simbolizada con Fj ) igual al número de observaciones menores o iguales a xj y frecuencia relativa acumulada (simbolizada con Hj ) definida como el cociente entre la correspondiente frecuencia absoluta acumulada y el número total de datos. A continuación se presenta dicha tabla para la variable número de hojas del ejemplo: Tabla 1.2: Distribución de frecuencias del número de hojas de la planta Frecuencia Frecuencia Frecuencia Frecuencia Nº de hojas (xj ) absoluta relativa absoluta (fj ) relativa (hj ) acumulada (Fj ) acumulada (Hj ) 5 1 0.0167 1 0.0167 6 2 0.0333 3 0.0500 7 5 0.0833 8 0.1333 8 7 0.1167 15 0.2500 9 9 0.1500 24 0.4000 10 9 0.1500 33 0.5500 11 11 0.1833 44 0.7333 12 8 0.1333 52 0.8667 13 6 0.1000 58 0.9667 14 2 0.0333 60 1.000 Total 60 1 El gráfico o diagrama de bastones es la representación gráfica adecuada en este caso. En el eje de abscisas se representan los valores observados de la variable y en el de ordenadas las correspondientes frecuencias (absolutas o relativas). Para cada valor observado se levanta un segmento de altura igual a su frecuencia. Al igual que en el gráfico de puntos y en el diagrama de tallo y hoja, el gráfico de bastones permite tener idea de la simetría de la distribución, de la ubicación del o de los picos, así como del valor central del conjunto de datos, de su variabilidad y de la existencia de potenciales outliers. El gráfico de bastones correspondiente a nuestro ejemplo se muestra en la Figura 1.11. Histograma de frecuencias En el caso en que la variable toma muchos valores diferentes, como ocurre generalmente con observaciones de una variable continua, los pasos para la construcción de la tabla de frecuencias son los siguientes: 1.4 Variables cuantitativas 15 Figura 1.11: Distribución del número de hojas de la planta 12 10 Frecuencia absoluta 8 6 4 2 0 5 6 7 8 9 10 11 12 13 14 Número de hojas Se determina un intervalo que incluya a todos los datos; para ello se calcula la diferencia entre el mayor y el menor valor observados de la variable x en estudio. En nuestro caso, para la variable altura de la planta: 2.89 – 2.08 = 0.81 m. Podemos entonces tomar un intervalo total cuya amplitud sea 0.88, para comenzar en 2.05 y finalizar con 2.93 m. Se divide a dicho intervalo en m intervalos más pequeños (intervalos o subintervalos de clase). Estos intervalos, en la mayoría de los casos, se eligen de igual amplitud, aunque en algunas distribuciones de índole etaria o económica, conviene tomarlos de amplitud diferente. En nuestro ejemplo, pensemos en formar ocho subintervalos, o sea m = 8, de amplitud igual a 0.11 m. Se calcula la frecuencia absoluta (fj ) correspondiente a cada intervalo. Definiremos como frecuencia absoluta correspondiente a un intervalo genérico j (j = 1, 2,..., m) al número de valores de la variable x que pertenecen al mismo, sin incluir el extremo inferior pero incluyendo el superior. Otro criterio es incluir el extremo inferior excluyendo el superior. Es conveniente aclarar el criterio que se ha seguido en la agrupación. También pueden calcularse la frecuencia relativa (hj ) que se define como el cociente entre la correspondiente frecuencia absoluta y el número total de datos; la frecuencia absoluta acumulada (Fj ) igual al número de observaciones menores o iguales al límite superior del intervalo correspondiente y frecuencia relativa acumulada (Hj ) definida como el cociente entre la correspondiente frecuencia absoluta acumulada y el número total de datos. La tabla 1.3 presenta la distribución de frecuencias para la variable altura de la planta. Como se puede observar, con esta forma de agrupamiento se ha perdido parte de la información original, porque sólo sabemos cuántos datos caen dentro de un intervalo pero no conocemos el valor de cada uno de ellos. Por lo cual, el número de intervalos no debe ser muy pequeño para que su amplitud no resulte muy grande y de esa manera se pierda demasiada información original. El número de intervalos tampoco debe ser muy grande ya que no se cumpliría con el objetivo del agrupamiento. Para construir el histograma de frecuencias se procede de la siguiente manera: Se representan en el eje de las abscisas los intervalos en que se agruparon los valores de la variable y en el eje de las ordenadas la frecuencia absoluta o la frecuencia relativa. 16 Capítulo 1. Estadística descriptiva Tabla 1.3: Distribución de frecuencias de la altura de la planta Frecuencia Frecuencia Frecuencia Frecuencia Intervalos (m) absoluta relativa absoluta (fj ) relativa (hj ) acumulada (Fj ) acumulada (Hj ) (2.05 – 2.16] 4 0.0667 4 0.0667 (2.16 – 2.27] 4 0.0667 8 0.1333 (2.27 – 2.38] 7 0.1167 15 0.2500 (2.38 – 2.49] 16 0.2667 31 0.5167 (2.49 – 2.60] 17 0.2833 48 0.8000 (2.60 – 2.71] 7 0.1167 55 0.9167 (2.71 – 2.82] 4 0.0667 59 0.9833 (2.82 – 2.93] 1 0.0167 60 1.000 Total 60 1 Sobre cada uno de los subintervalos se grafica un rectángulo cuya área representa la frecuencia (absoluta o relativa) del mismo. Cuando todos los subintervalos son de igual amplitud, la base de cada rectángulo se considera el segmento unitario y por lo tanto la altura es numéricamente igual a la frecuencia del correspondiente subintervalo. En el caso que la amplitud de los subintervalos (∆j ) no sea la misma, se grafica en el eje de ordenadas el cociente fj /∆j o hj /∆j de manera que el área del rectángulo siga representando la frecuencia. El histograma correspondiente a la altura de la planta se muestra en la Figura 1.12. Figura 1.12: Distribución de la altura de la planta 20 Frecuencia absoluta 15 10 5 0 2.05 2.16 2.27 2.38 2.49 2.60 2.71 2.82 2.93 Altura (m) La construcción de un histograma es más dificultosa que la de un diagrama de tallo y hoja y además este último tiene la ventaja de mostrar la totalidad de los valores observados. En la Figura 1.14 se muestra un diagrama resumen de los gráficos vistos. Diagrama de dispersión Un diagrama de dispersión muestra la relación entre dos variables cuantitativas. Los valores de una variable se sitúan en el eje de las abscisas y los valores de la otra en el de las ordenadas. Cada par de observaciones viene representado en el gráfico por un punto. El grafico puede revelar la naturaleza de la relación entre las variables, analizando las siguientes características: Forma: cuando los puntos del diagrama de dispersión se sitúan aproximadamente a lo largo 1.4 Variables cuantitativas 17 de una recta se dice que la relación es lineal. Otras formas que pueden presentarse son agrupaciones, relaciones curvilíneas u otras no definidas o claras. Dirección: si la relación entre las dos variables tiene una dirección clara, decimos que existe una asociación positiva cuando a valores mayores de una variable le corresponden en general valores mayores de la otra o negativa en el caso en que a valores menores de una variable le corresponden valores mayores de la otra. Intensidad: la fuerza de la relación estará dada por la proximidad de los puntos a la curva que se supone describe el comportamiento de una en función de la otra. Si se consideran las variables del ejemplo diámetro del capítulo y altura de la planta, el gráfico de dispersión permite decir que la relación es directa, lineal y no muy intensa (ya que se observa gran dispersión de los puntos alrededor del patrón lineal, Figura 1.13). Figura 1.13: Distribución conjunta del diámetro del capítulo y la altura de la planta 30 25 Altura (m) 20 15 10 2.0 2.2 2.4 2.6 2.8 3.0 Diámetro del capítulo (cm) Figura 1.14: Gráficos según tipo de variable GRÁFICOS SEGÚN TIPO DE VARIABLE CUALITATIVA CUANTITATIVA Pocos datos Muchos datos Pocos valores Muchos valores diferentes diferentes Barras Puntos Tallo y hoja Tallo y hoja Sectores Tallo y hoja Bastones Histograma Pareto 18 Capítulo 1. Estadística descriptiva 1.4.2 Estadísticas Para completar la descripción de los datos se calculan las principales medidas características del conjunto llamadas estadísticas. Dentro de ellas, podemos hablar de medidas de posición (dan una idea de la localización de los datos) y medidas de dispersión (se refieren a la variabilidad de los mismos). Estadísticas de posición Las principales medidas de posición son: la media aritmética, las fractilas o cuantilos, entre ellos la mediana o cuantil del 50 %, y el modo. Media aritmética: es la suma de los valores observados dividida por el número total de datos. Es la abscisa del centro de gravedad de la distribución de frecuencias. Así, si x1 , x2 ,....., xi ,....., xn representan los n valores observados de la variable x: 1 1 n x̄ = (x1 + x2 +... + xn ) = ∑ xi n n i=1 En nuestro ejemplo, si calculamos la media aritmética para las variables número de hojas y altura de la planta concluimos que el número de hojas promedio por planta fue de 10.0 hojas y la altura promedio fue de 2.475 m. Fractilas o cuantilos: La fractila de orden r es aquel valor tal que el r % (0 ≤ r ≤ 100) de las observaciones son menores o iguales que él. Distinguiremos las fractilas más importantes: Mediana: es aquel valor de la variable que se encuentra en el lugar central del conjunto ordenado de datos. La mitad de las observaciones son menores o iguales que él y la otra mitad son mayores. Los tres valores que dividen a los datos ordenados en cuatro partes con aproximadamente el mismo número de datos se denominan cuartilos, a los que simbolizaremos Q1 , Q2 y Q3. El primer cuartil es el valor tal que el 25 % de las observaciones son menores o iguales que él. El segundo cuartil es la mediana y el tercer cuartil es aquel valor tal que el 75 % de las observaciones son menores o iguales que él. De forma similar se pueden definir los decilos y los percentilos. Para calcular la mediana de una distribución se procede de la siguiente forma. Se ordenan las observaciones de menor a mayor. Si el número de observaciones es impar, la mediana es el valor central del conjunto. Si el número de observaciones es par, la mediana es el promedio de las dos observaciones centrales. El primer cuartil se calcula como la “mediana” del conjunto de observaciones menores a Q2 y el tercer cuartil como la “mediana” del conjunto de observaciones por encima de Q2. Si el número de observaciones es impar la mediana se excluye para calcular Q1 y Q3. Algunos programas suelen usar reglas diferentes, por lo cual los resultados pueden no coincidir exactamente con los obtenidos con nuestra regla. A continuación se presentan los valores ordenados de la variable altura de la planta del ejemplo: 2.08 2.12 2.14 2.15 2.21 2.25 2.26 2.27 2.28 2.29 2.3 2.31 2.32 2.33 2.37 2.39 2.4 2.4 2.41 2.42 2.44 2.45 2.46 2.46 2.46 2.46 2.46 2.46 2.47 2.47 2.49 2.5 2.51 2.52 2.53 2.53 2.54 2.54 2.54 2.56 2.56 2.57 2.57 2.58 2.58 2.59 2.59 2.59 2.61 2.62 2.62 2.64 2.64 2.65 2.71 2.72 2.73 2.75 2.76 2.89 1.4 Variables cuantitativas 19 Ya que el número de datos es par, se procede a ubicar las dos observaciones centrales y a calcular el promedio de ellas. La mediana, primer y tercer cuartil resultan iguales a: Q2 = (2.47 + 2.49)/2 = 2.48 m Q1 = (2.37 + 2.39)/2 = 2.38 m Q3 = (2.58 + 2.59)/2 = 2.585 m Por lo tanto, se informa que el 50 % de las plantas presentó una altura menor o igual a 2.48 m, el 25 % menor o igual a 2.38 m y el 75 % menor o igual a 2.585 m. La media aritmética depende de todas los valores observados, por lo que la presencia de un valor anormalmente grande o pequeño influye sensiblemente en ella. En estas ocasiones, la media aritmética no es una medida adecuada de posición central, usándose entonces la mediana como medida de tendencia central más representativa. Aclaremos esto a través de un ejemplo. Se registra la temperatura máxima en cinco días de un mes (en ºC): 21 22 24 26 28 La media aritmética y la mediana resultan, respectivamente: 24.2 y 24 ºC. Imaginemos una segunda situación en que las temperaturas registradas fueran: 21 22 24 26 40 La media aritmética y la mediana resultan, respectivamente: 26.6 y 24 ºC. En este caso la media aritmética no es una buena medida de tendencia central, ya que el 80 % de las temperaturas son menores que ella. Como vemos, la mediana es más “resistente” a la presencia de valores extremos. Pensemos en tres curvas que idealizan los contornos de distintos histogramas: uno simétrico, otro asimétrico a la derecha y el tercero asimétrico a la izquierda. Ubique la media y la mediana, en la Figura 1.15 en la que se ejemplifican estas situaciones. Figura 1.15: Idealizaciones de contornos de distintos histogramas Modo: es el valor de la variable que se presenta mayor número de veces, es decir, el que tiene la mayor frecuencia. En nuestro ejemplo, el modo de la variable altura de la planta es igual a 2.46 m, puesto que esta fue la altura que presentaron más plantas. Puede ocurrir que un conjunto de datos no presente modo, si todos los valores poseen igual frecuencia, o bien que haya más de uno. El modo es la única medida de posición que puede usarse para datos provenientes de una variable cualitativa. Así, en nuestro ejemplo, la calidad de llenado del capítulo más frecuente es “bueno”. 20 Capítulo 1. Estadística descriptiva Estadísticas de dispersión Las medidas de posición son útiles pero resumen sólo parte de la información contenida en el conjunto de datos. Podemos tener dos conjuntos de observaciones con aproximadamente la misma media, mediana y modo, pero que difieran en cuánto se alejan del valor “central”. Para aclarar este último punto veamos un ejemplo: los siguientes datos corresponden a 10 medi- ciones reiteradas de la concentración de paracetamol ( %p/p), realizadas sobre comprimidos molidos a fino polvo homogéneo en mortero, aplicando dos métodos distintos, ensayo espectrofotométrico (EE) y espectroscopía de reflectancia (ER) en el infrarrojo cercano. EE 83.85 83.90 83.72 83.92 83.92 84.02 83.92 84.16 84.02 84.13 ER 83.92 83.72 83.84 84.20 83.92 84.16 84.02 83.60 84.13 84.26 Las medidas de posición calculadas para los valores de concentración de paracetamol fueron: Método Media Mediana EE 83.956 %p/p 83.920 %p/p ER 83.977 %p/p 83.970 %p/p Las distribuciones de los valores de concentración de paracetamol para ambos métodos se repre- sentan en la figura 1.16. Figura 1.16: Distribución de la concentración de paracetamol según método de medición EE ER 4 Frecuencia absoluta 3 2 1 0 83.6 83.8 84.0 84.2 83.6 83.8 84.0 84.2 Concentración de paracetamol (%p/p) Las medidas de posición son prácticamente las mismas para las observaciones obtenidas con uno y otro método. Sin embargo, ellas no resumen en forma completa la información contenida en cada conjunto de datos. Por ejemplo, en el primer caso las observaciones están más concentradas alrededor del valor central que en el segundo. Surge entonces la necesidad de definir medidas que den idea de la variabilidad de los valores observados. Las medidas de dispersión que estudiaremos son el rango, la variancia, la desviación estándar, el coeficiente de variación y el rango intercuartil. Rango: es la diferencia entre el mayor y el menor valor observado de la variable. En nuestro ejemplo, para el método EE el rango observado resultó igual a 84.16 – 83.72 = 0.44 %p/p, mientras que para el método ER fue igual a 0.66 %p/p, evidentemente mayor. 1.4 Variables cuantitativas 21 El rango sólo tiene en cuenta la variabilidad entre los valores extremos y no nos proporciona una medida de la concentración de los datos alrededor del valor “central”. Se utiliza cuando el número de observaciones es pequeño, ya que, como los datos intermedios son pocos la diferencia entre el mayor y menor valor nos da idea de la variación de los datos. Variancia: cuando se usa la media aritmética como medida de posición, debe definirse una carac- terística que sirva como medida de la variabilidad, en promedio, de los datos respecto de la media. Por lo tanto, debe basarse en el siguiente desvío: (xi − x̄). Pero la suma de esos desvíos es nula, puesto que: n n ∑(xi − x̄) = ∑ xi − nx̄ = nx̄ − nx̄ = 0 i=1 i=1 De aquí se deduce que si se desea definir una medida de variabilidad promedio, la suma anterior no servirá como base pues, sea cual fuere la variabilidad de los datos respecto del promedio, la misma valdrá siempre cero. Tomaremos como medida de dispersión a una característica que se basa en la suma de los cuadrados de esos desvíos. La medida promedio de dispersión más lógica sería: 1 n 2 ∑(xi − x̄) n i=1 Sin embargo, definiremos la variancia muestral como: 1 n s2 = ∑(xi − x̄) 2 n − 1 i=1 Justificaremos más adelante el por qué de la corrección efectuada. Si no existe variabilidad en el conjunto de datos, o sea que cada observación xi es igual a x̄, la variancia resultaría igual a 0. A mayor variabilidad, mayor s2. Para nuestro ejemplo la variancia de la variable concentración de paracetamol aplicando el método EE resulta igual a 0.0171 ( %p/p)2 y con el método ER, 0.0469 ( %p/p)2. Si el conjunto de observaciones son mediciones reiteradas de una misma magnitud, como en el caso de este ejemplo, la variancia nos refleja la precisión de la medida. A mayor variancia, menor precisión. Por lo cual, el método EE es aparentemente más preciso que el otro. Si las observaciones provienen de unidades diferentes, la variancia es medida de la homogeneidad del conjunto. Este es el caso de las mediciones de la altura de las 60 plantas de girasol. A menor variancia, mayor homogeneidad. Desviación estándar: se define esta medida como la raíz cuadrada positiva de la variancia: ¿ Á 1 n s = +Á À ∑(xi − x̄)2 n − 1 i=1 Obviamente la desviación estándar está expresada en unidades de la variable y podemos interpre- tarla como una “distancia promedio de las observaciones con respecto a la media”. La desviación estándar de la variable concentración de paracetamol para el método EE fue 0.131 %p/p y para el método ER, 0.217 %p/p. Los valores observados de la concentración aplican- do el EE se desvían, en promedio, 0.131 %p/p de su media aritmética; y 0.217 %p/p al aplicar el método ER. 22 Capítulo 1. Estadística descriptiva Coeficiente de variación: es la desviación estándar dividida por la media aritmética, o sea que es la desviación estándar medida en unidades de la media aritmética. s CV = ∣x̄∣ Es una medida adimensional que indica qué proporción representa la desviación estándar respecto de la media aritmética. Se utiliza con frecuencia en la comparación de la variabilidad de dos o más conjuntos de datos que difieren en unidades y/o magnitudes. Los coeficientes de variación (en porcentaje) de la variable concentración de paracetamol para el método EE y ER resultaron respectivamente 0.16 % y 0.26 %. La desviación estándar representa un 0.16 % de la media aritmética en el primer caso y un 0.26 % en el segundo. Rango intercuartil: es la diferencia entre el tercer cuartilo y el primero, es decir: RI = Q3 − Q1 El rango intercuartil es una medida de dispersión que no está influenciada por valores extremos. Cuando se usa la mediana (Q2 ) como medida de posición, el rango intercuartil es la medida de dispersión adecuada para acompañarla. Por lo tanto, el rango intercuartil para el primer método es: RI = 84.02 %p/p − 83.90 %p/p = 0.12 %p/p El rango intercuartil mide la dispersión del 50 % de los datos centrales. Si su valor es pequeño, nos dice que el conjunto del 50 % central de las observaciones es poco variable, nada nos dice de las restantes. El rango intercuartil de la altura de la planta resulta igual a 2.585 m – 2.38 m = 0.205 m. El 50 % central de los valores de altura cae en un rango de 0.205 m. Boxplot. Outliers Si tenemos en cuenta los cuartilos y los valores observados mínimo y máximo, obtenemos un conjunto de cinco números que brindan un buen resumen de nuestros datos. Con esos cinco valores, podemos construir un gráfico llamado boxplot o diagrama de caja. Este gráfico se construye diagramando una caja (box) cuyo lateral izquierdo (o inferior) representa a Q1 y el derecho (o superior) a Q3 , de modo que la longitud de la caja es el rango intercuartil. La mediana se representa como una línea dentro de la caja. Dos líneas hacia la izquierda y derecha (o hacia abajo y hacia arriba), llamadas whiskers o bigotes, se extienden hasta los valores extremos. Para los valores observados de la concentración de paracetamol medido por EE los cinco números a tener en cuenta para su construcción son: Q1 = 83.9 %p/p Q2 = 83.92 %p/p Q3 = 84.02 %p/p Valor mínimo = 83.72 %p/p Valor máximo = 84.16 %p/p Este gráfico brinda una medida central, la mediana, y una idea de la dispersión a través del rango y del rango intercuartil. La posición de la mediana dentro de la caja y la semejanza en la longitud de los bigotes nos dan idea de simetría de la distribución, aunque el histograma y el diagrama de tallo y hoja son más útiles en este aspecto (Figura 1.17). En la Figura 1.14 se presenta un diagrama con los gráficos adecuados a cada tipo de variable. ¿Dónde ubicaría el boxplot? 1.4 Variables cuantitativas 23 Figura 1.17: Distribución de la concentración de paracetamol determinada por el método EE 83.7 83.8 83.9 84.0 84.1 84.2 Concentración de paracetamol (%p/p) Si se deseara comparar dos distribuciones, en cuanto a los cinco números mencionados, es de utilidad diagramar dos boxplots en forma paralela. En la Figura 1.18 se representan los diagramas para ambos métodos de medición de paracetamol. Como ya comentamos con anterioridad, ambos métodos registran aproximadamente las mismas medidas de posición, pero el método EE presenta menor variabilidad en sus observaciones por lo que sería aparentemente más preciso. Figura 1.18: Distribución de la concentración de paracetamol según método de medición ER EE 83.6 83.8 84.0 84.2 84.4 Concentración de paracetamol (%p/p) Una modificación de este gráfico permite detectar potenciales outliers (observaciones que no son típicas del conjunto). Se considerarán potenciales outliers aquellas observaciones que caigan por fuera de: Q1 − 1.5 RI Q3 + 1.5 RI La modificación del gráfico consiste en extender los whiskers hasta las observaciones mínima y máxima que no sean puntos atípicos. Los outliers se marcan en el gráfico como puntos separados de los whiskers. Para realizar el boxplot modificado (Figura 1.19) de la variable diámetro del tallo de las plantas, calculamos: 24 Capítulo 1. Estadística descriptiva Q1 = 2.3 cm Q2 = 2.5 cm Q3 = 3.6 cm RI = 1.3 cm Valor mínimo = 2.0 cm Valor máximo = 8.3 cm Q1 − 1.5RI = 0.35 cm Q3 + 1.5RI = 5.55 cm Por lo tanto, todo valor menor a 0.35 cm y superior a 5.55 cm se considerará potencial outlier. Al revisar el conjunto de datos, no se observa ningún valor inferior a 0.35 cm, razón por la cual el bigote izquierdo no se modifica. En cambio sí se detectan dos datos superiores a 5.55 cm: 7.4 y 8.3 cm. Luego, el bigote derecho se modifica extendiéndose sólo hasta 5.4 cm y las dos observaciones consideradas potenciales outliers se marcan como puntos separados. Figura 1.19: Distribución del diámetro del tallo 2 3 4 5 6 7 8 Diámetro del tallo (cm) Lo presentado en el punto 1.4.2 puede resumirse en la Figura 1.20. Figura 1.20: Medidas descriptivas para conjuntos de observaciones de variables cuantitativas MEDIDAS DESCRIPTIVAS (Estadísticas) ESTADÍSTICAS ESTADÍSTICAS DE POSICIÓN DE DISPERSIÓN Media aritmética Rango Mediana Rango intercuartil Modo Desviación estándar Cuartilos Variancia Percentilos Coeficiente de variación 1.5 Ejercicios de aplicación resueltos 25 1.5 Ejercicios de aplicación resueltos 1. En un estudio sobre la cantidad de pesticida residual en frutas se detectaron 15 manzanas con restos de pesticida que excedían los límites fijados por la Unión Europea (0.01 mg/kg). Las manzanas contenían las siguientes cantidades de Fenitrothion (en mg/kg): 0.012 0.018 0.015 0.039 0.028 0.025 0.016 0.012 0.012 0.040 0.021 0.020 0.011 0.015 0.023 Para realizar la descripción de este conjunto de pocos datos de la variable contenido de Fe- nitrothion (cuantitativa continua) se procede en primera instancia a ordenarlos de menor a mayor. 0.011 0.012 0.012 0.012 0.015 0.015 0.016 0.018 0.020 0.021 0.023 0.025 0.028 0.039 0.040 La Figura 1.21 presenta el diagrama de puntos. Se observa una distribución asimétrica a la derecha. Figura 1.21: Distribución del contenido de Fenitrothion 4 Frecuencia absoluta 3 2 1 0 0.010 0.015 0.020 0.025 0.030 0.035 0.040 Fenitrothion (mg/kg) A continuación efectuamos el cálculo de las estadísticas. (a) De posición: 1 15 x̄ = ∑ xi = 0.0205 mg/kg 15 i=1 Cada manzana presentó en promedio 0.0205 mg/kg de Fenitrothion. Mediana = 0.018 mg/kg Q1 = 0.012 mg/kg Q3 = 0.025 mg/kg La mitad de las manzanas presentó un contenido de Fenitrothion menor o igual a 0.018 mg/kg. El 25 % presentó un contenido menor o igual a 0.012 mg/kg y el 75 % menor o igual a 0.025 mg/kg. En correspondencia con la forma asimétrica hacia la derecha de esta distribución, se observa que la media es mayor que la mediana. 26 Capítulo 1. Estadística descriptiva (b) De dispersión: Rango = 0.040 mg/kg - 0.011 mg/kg = 0.029 mg/kg Los valores observados del contenido de Fenitrothion caen en un rango de 0.029 mg/kg. 1 15 2 −5 2 Variancia = ∑(xi − 0.0205) = 8.5695 × 10 (mg/kg) 15 − 1 i=1 √ Desviación estándar = s = + 8.5695 × 10−5 (mg/kg)2 = 0.00926 mg/kg Los valores observados del contenido de Fenitrothion se desvían en promedio 0.00926 mg/kg de la media aritmética. RI = 0.025 mg/kg − 0.012 mg/kg = 0.013 mg/kg El 50 % de las observaciones centrales caen en un rango de 0.013 mg/kg CV = 45.2 % La desviación estándar representa el 45.2 % de la media. 2. El objetivo de un estudio (K. Hjorth et al. / Food Control 22 (2011) 1701-706) fue investigar la cantidad de pesticidas residuales en frutas y vegetales en diferentes países de Sudamérica. Se observaron un total de 724 muestras de frutas y verduras provenientes de diferentes países. Los siguientes datos corresponden al número de pesticidas encontrados por muestra: Nº de pesticidas 0 1 2 3 4 5 6 7 8 9 Nº de muestras 139 169 143 113 82 43 21 10 2 2 Observamos que la variable x: número de pesticidas, toma pocos valores diferentes y cada valor diferente se repite un determinado número de veces. Se trata de un conjunto de muchos datos de una variable aleatoria discreta. Completamos la tabla de frecuencias: xj Nº de muestras (fj ) hj 0 139 0.19 1 169 0.23 2 143 0.20 3 113 0.16 4 82 0.11 5 43 0.06 6 21 0.03 7 10 0.014 8 2 0.003 9 2 0.003 Total 724 En lugar de un diagrama de puntos, realizaremos un gráfico de bastones (Figura 1.22). Se observa una distribución asimétrica hacia la derecha. 1.5 Ejercicios de aplicación resueltos 27 Figura 1.22: Distribución del número de pesticidas 160 Frecuencia absoluta 120 80 40 0 0 1 2 3 4 5 6 7 8 9 Número de pesticidas Procedemos a calcular las estadísticas: (a) De posición: La fórmula de la media aritmética tiene otra expresión, considerando las frecuencias de los valores. 1 n=724 1 m=10 x̄ = ∑ xi = ∑ xj fj = 2.2 pesticidas 724 i=1 724 j=1 Cada muestra analizada, presentó en promedio 2.2 pesticidas. Q2 = 2 pesticidas El 50 % de las muestras presentó 2 pesticidas o menos. Modo = 1 pesticida El número de pesticidas observado por muestra con mayor frecuencia fue 1. (b) De dispersión: La fórmula de la variancia tiene también otra expresión, si consideramos la frecuencia de cada valor: 1 n=724 2 1 m=10 2 2 Variancia = ∑ (xi − x̄) = ∑ (xj − x̄) fj = 3.2 pesticidas 723 i=1 723 j=1 Desviación estándar = s = 1.8 pesticidas Los valores observados se desvían, en promedio, 1.8 pesticidas de la media. CV = 82 % La desviación estándar representa el 82 % de la media. 3. En un ensayo clínico efectuado para comparar distintos tratamientos para la artritis reumatoidea participaron 50 pacientes con la enfermedad. Se describieron las características basales de los participantes, siendo una de las variables el nivel plasmático de proteína C reactiva (PCR). Las observaciones se presentan a continuación (mg/L): 28 Capítulo 1. Estadística descriptiva Paciente PCR (mg/L) Paciente PCR (mg/L) Paciente PCR (mg/L) 1 44.5 18 47.7 35 77.5 2 51.1 19 63.1 36 54.8 3 50.2 20 49.7 37 66.2 4 67.2 21 68.0 38 29.1 5 45.3 22 39.9 39 71.7 6 43.9 23 30.6 40 98.7 7 46.5 24 30.9 41 72.0 8 86.1 25 51.9 42 38.1 9 84.1 226 53.6 43 101.4 10 70.7 27 28.7 44 54.8 11 37.6 28 62.7 45 36.7 12 52.7 29 14.3 46 64.1 13 81.2 30 74.9 47 64.9 14 54.6 31 32.3 48 37.6 15 55.3 32 79.6 49 50.6 16 65.1 33 66.0 50 52.1 17 57.4 34 54.0 La información de la tabla anterior es más fácil de visualizar cuando los datos se ordenan en intervalos: Frecuencia Frecuencia Intervalos Frecuencia Frecuencia absoluta relativa (mg/L) absoluta (fj ) relativa (hj ) acumulada (Fj ) acumulada (Hj ) (10; 22.5] 1 0.02 1 0.02 (22.5; 35.0] 5 0.10 6 0.12 (35.0; 47.5] 9 0.18 15 0.30 (47.5; 60.0] 15 0.30 30 0.60 (60.0; 72.5] 12 0.24 42 0.84 (72.5; 85.0] 5 0.10 47 0.94 (85.0; 97.5] 1 0.02 48 0.96 (97.5; 110.0] 2 0.04 50 1.00 Procedemos a construir el histograma de frecuencias y un box-plot (Figura 1.23). Se observa una distribución aproximadamente simétrica. Figura 1.23: Distribución del nivel plasmático de PCR 16 110 Frecuencia absoluta 12 90 PCR (mg/L) 70 8 50 4 30 10 0 10.0 22.5 35.0 47.5 60.0 72.5 85.0 97.5 110.0 PCR (mg/L) 1.6 Ejercicios 29 A continuación calculamos las estadísticas. De posición: x̄ = 56.23 mg/L El nivel plasmático de PCR medio en cada paciente resultó igual a 56.23 mg/L. Mediana = 54.3 mg/L El 50 % de los pacientes tuvo niveles menores o iguales a 54.3 mg/L Q1 = 44.5 mg/L Q3 = 67.2 mg/L El 25 % de los pacientes tuvo niveles menores o iguales a 44.5 mg/Ly el 75 % menores o iguales a 67.2 mg/L. De dispersión: Rango = 87.1 mg/L Las observaciones caen en un rango de 87.1 mg/L. Variancia = s2 = 337.07 (mg/L)2 Desviación estándar = s = 18.36 mg/L Las observaciones se desvían, en promedio, 18.36 mg/L de la media aritmética. RI = 22.7 mg/L El 50 % de las observaciones centrales están en un rango de = 22.7 mg/L CV = 32.7 % La desviación estándar representa el 32.65 % de la media. 1.6 Ejercicios 4. Especifique el carácter de las siguientes variables: Cuantitativa Cuantitativa Cualitativa Discreta Continua Número de colonias de bacterias tróficas en un acuífero Variedades de un cultivo de maíz Contenido de aminoácidos de semillas de trigo Número de defectos de una presentación farmacéutica Tipo de tratamiento aplicado a pacientes con neumonía Concentración de ión nitrato en agua Número de cromosomas en distintas especies 30 Capítulo 1. Estadística descriptiva 5. El Laboratorio Nacional de Referencia del INEI ANLIS Malbrán presentó en la comunicación “Situación actual de la enfermedad por virus Influenza y su relación con la vacuna antigripal” (Noviembre de 2017) la siguiente información correspondiente a las primeras 44 semanas del año 2017: Tabla 1.4: Argentina. Casos y porcentajes de positividad según grupos de edad. Semana 1 44 de 2017. Distribución de virus respiratorios Grupos de edad Muestras Muestras % positividad sobre total de positivos (años cumplidos) analizadas positivas VSR Influenza Adenovirus Parainfluenza Otros 64 3275 1496 45.7 % 88.2 % 2.1 % 4.7 % 1.1 % 3.9 % Fuente: Elaboración propia del Área de Vigilancia de la Salud de la Dirección de Epidemiología en base a información proveniente del Sistema Nacional de Vigilancia de la Salud (SNVS) SIVILA. A continuación se presentan un gráfico de barras adyacentes y uno de barras subdivididas. Realice un breve comentario de los mismos. Figura 1.24: Distribución del tipo de virus según grupo etario Edad (años cumplidos) 64 0 20 40 60 80 100 0 20 40 60 80 100 Porcentaje Porcentaje 6. El objetivo del trabajo “Errores de despacho de medicamentos en un hospital público pediátrico” (Rev. Latino-am Enfermagem 2008 setembro-outubro; 16-5) fue evaluar la seguridad en el despacho de medicamentos a través de la determinación de la tasa de errores de despacho (cualquier desvío ocurrido entre lo despachado y lo prescrito en la receta médica). Dichos errores fueron categorizados en errores de contenido, de rótulo y de documentación. De los 300 errores identificados sobre un total de 2620 dosis despachadas, la categoría de error más frecuente fue la de “error de contenido”: 262 (87.3 %). En la siguiente tabla se muestra la distribución del tipo de error dentro de dicha categoría: Tipo de error de contenido Frecuencia absoluta Frecuencia relativa ( %) Medicamento incorrecto 1 0.38 Fórmula farmacéutica incorrecta 3 1.15 Sobredosis 75 28.62 Subdosis 130 49.62 Omisión 40 15.27 Otros errores de contenido 13 4.96 Total 262 100 1.6 Ejercicios 31 Construya un diagrama de Pareto para describir la información presentada. Comente las carac- terísticas de la distribución. 7. Un exceso en la ingestión de nitratos y nitritos puede causar metahemoglobinemia, habiéndose estudiado además posibles efectos cancerígenos. La OMS recomienda valores no mayores a 0.5 mg/L de nitrito en agua para consumo. En una estación de tratamiento de agua potable se midió la concentración de nitritos en 21 muestras de agua de río. Los resultados se presentan a continuación (mg/L): 0.403 0.410 0.401 0.400 0.413 0.411 0.371 0.412 0.420 0.431 0.428 0.409 0.416 0.433 0.426 0.421 0.409 0.418 0.407 0.375 0.394 Realice un diagrama de tallo y hoja y un breve comentario de las características de la distribución. 8. Indique cuáles de las siguientes estadísticas son de posición y cuáles de dispersión: Posición Dispersión Media aritmética Rango intercuartil Variancia Mediana Desviación estándar Rango Modo Coeficiente de variación 9. Con referencia al ejercicio 7 (página 31), realice un boxplot modificado para detectar potenciales outliers. Luego complete la descripción del conjunto calculando las restantes estadísticas de posición y de dispersión. 10. Como parte de un trabajo cuyo objetivo fue estudiar los factores que afectan la variabilidad en el número de cromosomas de una especie herbácea (Claytonia virginica, L.), se midió dicha variable en 90 plantas de la especie mencionada. 24 28 28 28 27 28 29 29 29 30 28 36 32 29 30 30 29 31 29 31 24 28 29 28 35 33 28 24 28 29 31 31 24 28 29 30 31 31 30 29 28 30 33 28 34 38 28 32 33 34 30 28 28 31 32 34 39 40 31 35 27 28 34 29 28 31 35 30 29 24 28 31 32 28 32 28 28 31 28 29 30 33 41 30 29 42 28 29 36 32 Realice la descripción más adecuada de este conjunto de datos. 11. Con el objeto de evaluar la calidad de comprimidos de paracetamol de 500 mg se llevó a cabo un ensayo de uniformidad de unidades de dosificación. Se determinó el porcentaje de principio activo respecto de lo rotulado en 80 comprimidos elegidos al azar de la producción diaria de un laboratorio. Los datos se presentan a continuación. 32 Capítulo 1. Estadística descriptiva 94.1 96.4 97.8 98.3 99.3 100.1 101.0 101.9 103.4 94.2 96.7 97.8 98.3 99.4 100.1 101.1 102.1 103.5 94.3 96.8 97.9 98.5 99.4 100.1 101.1 102.2 103.6 94.8 97.1 97.9 98.6 99.5 100.1 101.1 102.6 103.9 95.0 97.1 98.0 99.0 99.5 100.3 101.2 102.9 104.3 95.6 97.2 98.0 99.0 99.6 100.4 101.4 103.0 104.7 95.7 97.3 98.1 99.1 99.8 100.5 101.4 103.1 105.5 96.1 97.7 98.1 99.2 99.9 100.5 101.4 103.2 105.8 96.2 97.8 98.2 99.2 99.9 100.9 101.8 103.2 (a) Proceda a construir el diagrama de tallo y hoja y el histograma e indique qué ventaja posee el primero sobre el histograma. (b) Realice el cálculo de las estadísticas de posición y de dispersión. 12. Para comparar la cantidad de pesticidas presentes en las manzanas producidas en dos regiones geográficas diferentes (A y B) se analizaron 50 unidades provenientes de cada zona a fin de medir el número de pesticidas presentes en ellas. Los resultados fueron: Zona A Zona B Nº de pesticidas Frecuencia Nº de pesticidas Frecuencia 0 0 0 4 1 5 1 12 2 6 2 14 3 12 3 10 4 14 4 6 5 10 5 4 6 3 6 0 Proceda a realizar la descripción más adecuada de ambos conjuntos de observaciones. Efectúe luego la comparación de las distribuciones de frecuencias del número de pesticidas para ambas regiones. 13. Las variaciones en el contenido de ácido ascórbico en naranjas pueden deberse a diversos factores, tales como variedad, prácticas de cultivo, grado de maduración y evolución de la temperatura ambiente durante el período de cosecha de la fruta. El Código Alimentario Argen- tino establece especificaciones acerca del contenido mínimo de ácido ascórbico en naranjas. Con el propósito de evaluar el cumplimiento de dicha especificación, en un establecimiento se eligieron al azar 103 frutas y se determinó el contenido en jugo recién exprimido en cada una de ellas (mg/mL). 0.49 0.56 0.53 0.58 0.53 0.48 0.46 0.49 0.47 0.46 0.43 0.38 0.39 0.51 0.42 0.43 0.42 0.40 0.49 0.47 0.48 0.35 0.33 0.35 0.40 0.43 0.47 0.47 0.45 0.50 0.42 0.38 0.41 0.35 0.32 0.40 0.45 0.50 0.41 0.45 0.48 0.43 0.42 0.36 0.34 0.34 0.36 0.42 0.40 0.50 0.44 0.43 0.41 0.40 0.38 0.41 0.36 0.40 0.43 0.47 0.48 0.46 0.34 0.37 0.39 0.38 0.41 0.46 0.43 0.42 0.43 0.50 0.44 0.48 0.33 0.47 0.47 0.50 0.45 0.39 0.50 0.38 0.37 0.46 0.36 0.33 0.33 0.34 0.35 0.38 0.36 0.48 0.44 0.36 0.37 0.44 0.36 0.41 0.51 0.41 0.46 0.33 0.34 1.6 Ejercicios 33 Realice un informe descriptivo de este conjunto de datos con la información que se brinda a continuación. Figura 1.25: Distribución del contenido de ácido ascórbico 9 8 Frecuencia absoluta 7 6 5 4 3 2 1 0 0.30 0.35 0.40 0.45 0.50 0.55 0.60 Ácido ascórbico (mg/mL) Figura 1.26: Distribución del contenido de ácido ascórbico 0.30 0.35 0.40 0.45 0.50 0.55 0.60 Ácido ascórbico (mg/mL) Estadísticas para los valores de ácido ascórbico n = 103 Percentilos: Media aritmética = 0.423 1.0 % = 0.33 Variancia = 0.003 5.0 % = 0.33 Desviación estándar = 0.058 10.0 % = 0.34 Mínimo = 0.32 25.0 % = 0.38 Máximo = 0.58 50.0 % = 0.42 Rango = 0.26 75.0 % = 0.47 90.0 % = 0.50 95.0 % = 0.51 99.0 % = 0.56 14. Realice un informe descriptivo de las observaciones del diámetro del capítulo de las plantas de girasol con cada fertilizante. Compare luego ambas distribuciones. 34 Capítulo 1. Estadística descriptiva 15. Indique si cada una de las siguientes expresiones es verdadera (V) o falsa (F): La media puede ser mayor que el valor observado más grande o menor que el más chico. La media puede ser igual al valor más chico o igual al valor más grande (considerando el caso en que los valores mínimo y máximo no sean iguales). La media puede ser un valor no observado. Si la distribución es simétrica coinciden media y mediana. La mediana es siempre un valor observado de la variable. La mediana de una distribución simétrica es el punto medio entre el mínimo y el máximo valor observado. La desviación estándar de -1; -10; -6; -8; -12 es un número positivo. Dadas las observaciones 0; -1; 1; -2; 2 la mediana es 1. Si se aumenta el número de observaciones el rango puede disminuir. La media siempre disminuye a medida que aumenta el número de observaciones. Dos estudiantes midieron la concentración de un analito en una solución, obteniendo una media de 10 mg/dL, mientras que otros cuatro, obtuvieron una media de 14 mg/dL. La media considerando los seis estudiantes resulta igual a 12 mg/dL. 16. Considere las dos situaciones siguientes e indique en cuál de ellas la variancia de las mediciones logradas es medida de la precisión del método usado: En un laboratorio se realiza una medición de la concentración de calcio en cada uno de diez frascos de reactivos de un lote. En un laboratorio se realizan diez mediciones de la concentración de calcio sobre diez alícuotas del mismo frasco. 17. La Figura 1.27 muestra el histograma correspondiente a un conjunto de observaciones hipotéti- cas: Figura 1.27: Histograma 1 30 25 Frecuencia absoluta 20 15 10 5 0 5 10 15 20 25 30 35 40 x (a) Ubique aproximadamente la media y la mediana en la Figura 1.27. (b) En el primer panel de la Figura 1.28 grafique un histograma en el cual la media sea aproxi- madamente la misma que en el anterior pero la mediana se encuentre desplazada hacia la derecha. 1.7 Ejercicios propuestos 35 (c) En el segundo panel de la Figura 1.28 grafique ahora un histograma con aproximadamente la misma media y mediana que el primero pero que refleje una mayor dispersión de los datos. Figura 1.28: Nuevos histogramas Histograma 2 Histograma 3 30 30 25 25 Frecuencia absoluta Frecuencia absoluta 20 20 15 15 10 10 5 5 0 0 5 10 15 20 25 30 35 40 5 10 15 20 25 30 35 40 x x 18. En un trabajo práctico, cada uno de los alumnos de una comisión mide la concentración de colesterol-HDL en una misma muestra. El instructor a cargo de la clase informa que el promedio de todas las mediciones obtenidas es de 73.5 mg/dL. Supongamos que el resultado de la medición individual que Ud. efectuó fue de 74.60 mg/dL: (a) ¿Podría ser su resultado el más alto de todos? (b) ¿Podría ser su resultado igual a la mediana? Si su respuesta es NO explique por qué y si es SI indique qué forma tendría la distribución. (c) Supongamos que la media de todas las mediciones fuera aproximadamente igual al valor verdadero de la concentración medida, marque con una cruz en qué caso estaría Ud. más conforme con su resultado: Si la desviación estándar del método fuera de 0.52 mg/dL. Si la desviación estándar del método fuera de 1.1 mg/dL. 1.7 Ejercicios propuestos 19. Dé ejemplos de: Variables cualitativas Variables cuantitativas discretas Variables cuantitativas continuas 20. (a) ¿En qué caso conviene usar la mediana como medida de tendencia central en reemplazo de la media? (b) En ese caso, ¿cuál sería la medida de dispersión que acompañaría a la mediana?: desviación estándar variancia rango intercuartil coeficiente de variación 36 Capítulo 1. Estadística descriptiva 21. Considere los siguientes conjuntos de datos: 1: 101 103 105 107 109 2: 105 105 105 105 105 3: 97 101 105 109 113 (a) Sin efectuar cálculos, responda las siguientes preguntas: ¿Qué conjunto de datos posee la mayor media aritmética? ¿Qué conjunto de datos posee la menor mediana? ¿Qué conjunto de datos posee la menor desviación estándar? ¿Qué conjunto de datos tiene variancia igual a 0? ¿Qué conjunto de datos tiene la mayor desviación estándar? ¿Qué conjunto de datos posee el mayor rango intercuartil? (b) Realice los cálculos correspondientes y verifique sus respuestas. 22. A continuación se presentan las notas de exámenes de tres comisiones de quince alumnos cada una: Comisión 1 : 50 70 70 70 70 70 70 70 70 70 70 70 70 70 90 Comisión 2 : 50 53 56 59 62 65 68 71 74 77 80 83 86 88 90 Comisión 3 : 50 50 50 50 50 50 50 70 90 90 90 90 90 90 90 (a) Realice el diagrama de puntos para cada una de las comisiones. (b) En base a ellos, sin efectuar cálculos, responda las siguientes preguntas: Considerando la media de las tres comisiones, ¿cuál de ellas tuvo mejor rendimiento? Teniendo en cuenta el rango como medida de variación, ¿qué comisión tiene mayor dispersión? Teniendo en cuenta la desviación estándar, ¿qué comisión presenta mayor variabili- dad? Considerando la media y la desviación estándar, ¿cuál de las comisiones tuvo mejor rendimiento? 23. Se presenta a continuación una serie de datos de la concentración de colesterol total en un grupo de pacientes adultos mayores (mg/dL): 201 217 169 175 295 250 196 187 222 142 ¿Puede considerarse que alguno de dichos datos es un potencial outlier? 24. Un total de 1470 alumnos de escolaridad primaria, de ambos sexos, fue estudiado con el fin de efectuar un monitoreo de bocio endémico en cuatro localidades de la provincia de Santa Fe: Reconquista (n = 404) y Villa Ocampo (n = 294) ubicadas en el norte de la provincia y Rufino (n = 317) y Venado Tuerto (n = 455) ubicadas en el sur de la provincia. El examen palpatorio reveló 10 niños con bocio en Reconquista, 9 en Villa Ocampo, 4 en Rufino y 16 en V