Estadistica para administracion y economia PDF
Document Details
Uploaded by SignificantApostrophe
Levin et al.
Tags
Summary
Chapter 2 of the document, "Grouping and Presentation of Data for Expressing Meaning: Tables and Graphs," introduces methods for organizing and presenting data in a tabular and graphical format. It covers fundamental statistical concepts like distinguishing between samples and populations, the conversion of raw data to meaningful information, and utilizing frequency distributions.
Full Transcript
capítulo 2 AGRUPACIÓN Y PRESENTACIÓN DE DATOS PARA EXPRESAR SIGNIFICADOS: TABLAS Y GRÁFICAS Objetivos Mostrar la diferencia entre...
capítulo 2 AGRUPACIÓN Y PRESENTACIÓN DE DATOS PARA EXPRESAR SIGNIFICADOS: TABLAS Y GRÁFICAS Objetivos Mostrar la diferencia entre Representar gráficamente muestras y poblaciones distribuciones de frecuencias Convertir los datos sin procesar con histogramas, polígonos en información útil y ojivas Construir y utilizar datos Utilizar distribuciones de ordenados frecuencias para tomar decisiones Construir y utilizar distribucio- nes de frecuencias Contenido del capítulo 2.1 ¿Cómo podemos ordenar los Estadística en el trabajo 42 datos? 8 Ejercicio de base de datos 2.2 Ejemplos de datos sin procesar computacional 43 11 Términos introducidos en 2.3 Ordenamiento de datos en el capítulo 2 45 arreglos de datos y distribucio- nes de frecuencias 12 Ecuaciones introducidas en el capítulo 2 46 2.4 Construcción de una distribución de frecuencias 20 Ejercicios de repaso 46 2.5 Representación gráfica de distribuciones de frecuencias 29 7 E l gerente de producción de la Dalmon Carpet Company es responsable de la fabricación de alfombras en más de 500 telares. Para no tener que medir la producción diaria (en yardas) de cada telar, toma una muestra de 30 telares cada día, con lo que llega a una conclusión respecto a la producción promedio de alfombras de las 500 máquinas. La tabla que se presenta más adelante exhibe la producción de cada uno de los 30 telares de la muestra. Estas cantidades son los datos sin procesar a partir de los cuales el director de producción puede sacar conclusiones acerca de la toda la población de telares en su desempeño del día anterior. Producción en yardas de 30 telares para alfombra 16.2 15.4 16.0 16.6 15.9 15.8 16.0 16.8 16.9 16.8 15.7 16.4 15.2 15.8 15.9 16.1 15.6 15.9 15.6 16.0 16.4 15.8 15.7 16.2 15.6 15.9 16.3 16.3 16.0 16.3 Mediante los métodos introducidos en este capítulo, podemos ayudar al director de producción a llegar a la conclusión correcta. Algunas definiciones Los datos son colecciones de cualquier cantidad de observaciones relacionadas. Podemos recopilar el número de teléfonos que diferentes empleados instalan en un día dado o el número de teléfonos que instala un trabajador dado durante un día en un periodo de varios días, y podemos llamar datos a estos resultados. Una colección de datos se conoce como conjunto de datos; una sola observación es un dato puntual. 2.1 ¿Cómo podemos ordenar los datos? Para que los datos sean útiles, necesitamos organizar nuestras observaciones de modo que podamos distinguir patrones y llegar a conclusiones lógicas. Este capítulo presenta las técnicas tabular y gráfi- ca para organización de datos; en el capítulo 3 mostraremos cómo usar números para describir datos. Recolección de datos Represente todos Los especialistas en estadística seleccionan sus observaciones de manera que todos los grupos rele- los grupos vantes estén representados en los datos. Para determinar el mercado potencial de un nuevo produc- to, por ejemplo, los analistas podrían estudiar cien consumidores de cierta área geográfica. Dichos analistas deben tener la certeza de que este grupo incluya personas que representan distintas varia- bles como nivel de ingresos, raza, nivel educativo y vecindario. Encuentre datos a Los datos pueden provenir de observaciones reales o de registros elaborados con otros propósi- partir de observacio- tos. Por ejemplo, con fines de facturación e informes médicos, un hospital registra el número de nes o de registros pacientes que utilizan los servicios de rayos X. Esta información puede organizarse para producir datos que los especialistas en estadística puedan describir e interpretar. Use los datos del Los datos pueden ayudar a los responsables de tomar decisiones a hacer suposiciones razonadas pasado para tomar acerca de las causas y, por tanto, de los efectos probables de ciertas características en situaciones da- decisiones del futuro das. El conocimiento de tendencias derivado de la experiencia previa puede, también, permitir a los ciudadanos conscientes anticipar resultados posibles y actuar en consecuencia. Una investigación de mercado puede revelar que determinado producto es preferido por amas de casa de origen afroame- ricano de las comunidades suburbanas, con ingresos y educación promedios. Los textos publicitarios del producto deberán, por tanto, estar dirigidos a esta audiencia. Y si los registros del hospital mues- 8 Capítulo 2 Agrupación y presentación de datos para expresar significados: tablas y gráficas tran que un número mayor de pacientes ha utilizado el aparato de rayos X en junio que en enero, el departamento de personal del hospital deberá determinar si esto sucedió sólo ese año o es indicati- vo de una tendencia y, tal vez, debería ajustar su programa de contratación y asignación de vacacio- nes de acuerdo con la información. Cuando los datos se ordenan de manera compacta y útil, los responsables de tomar decisiones pueden obtener información confiable sobre el entorno y usarla para tomar decisiones inteligentes. En la actualidad, las computadoras permiten a los especialistas en estadística recolectar enormes volúmenes de observaciones y comprimirlas en tablas, gráficas y cifras instantáneamente. Éstas son formas compactas y útiles, pero ¿son confiables? Recuerde que los datos producidos por una compu- tadora son tan precisos como los datos que entraron en ella. Como dicen los programadores, ¡“BEBS”! o ¡“basura entra, basura sale!”. Los administradores deben tener mucho cuidado y cercio- rarse que los datos empleados estén basados en suposiciones e interpretaciones correctas. Antes de depositar nuestra confianza en cualquier conjunto de datos interpretados, vengan de una computado- ra o no, póngalos a prueba mediante las siguientes preguntas: Pruebas para datos 1. ¿De dónde vienen los datos? ¿La fuente es tendenciosa?, es decir, ¿es posible que exista inte- rés en proporcionar datos que conduzcan a cierta conclusión más que a otras? 2. ¿Los datos apoyan o contradicen otras evidencias que se tienen? 3. ¿Hace falta alguna evidencia cuya ausencia podría ocasionar que se llegue a una conclusión di- ferente? 4. ¿Cuántas observaciones se tienen? ¿Representan a todos los grupos que se desea estudiar? 5. ¿La conclusión es lógica? ¿Se ha llegado a conclusiones que los datos no confirman? Estudie las respuestas que dé a estas preguntas. ¿Vale la pena usar los datos o debemos esperar y recabar más información antes de actuar? Si el hospital se queda corto de personal porque contrató pocos técnicos para operar las instalaciones de rayos X, quiere decir que su administrador confió en datos insuficientes. Si la agencia de publicidad dirigió su propaganda sólo a las amas de casa afroa- mericanas de los suburbios cuando pudo haber triplicado sus ventas al incluir también a amas de casa blancas, quiere decir que también en este caso hubo confianza en datos insuficientes. En ambos ca- sos, probar los datos disponibles podría haber ayudado a los administradores a tomar mejores deci- siones. Ejemplo de conteo El efecto de emplear datos incompletos o tendenciosos puede ilustrarse con el siguiente ejemplo: doble una asociación nacional de líneas de transporte afirma, en un comercial, que “el 75% de todo lo que uno utiliza se transporta en camión”. Esta afirmación podría conducir a creer que automóviles, ferro- carriles, aeroplanos, barcos y otras formas de transporte sólo trasladan el 25% de lo que utilizamos. Es fácil llegar a tal conclusión, pero ésta no es completamente ilustrativa. En la afirmación no se toma en cuenta la cuestión del “conteo doble”. ¿Qué pasa cuando algo es llevado hasta su ciudad por ferrocarril y luego en camión hasta su casa? ¿O cómo se considera la paquetería si se transporta por correo aéreo y luego en motocicleta? Cuando se resuelve la cuestión del conteo doble (algo bas- tante complicado de manejar), resulta que los camiones transportan una proporción mucho menor de bienes que la afirmada por los transportistas. Aunque los camiones están involucrados en la entrega de una proporción relativamente alta de lo que utilizamos, el ferrocarril y los barcos llevan más bie- nes a lo largo de más kilómetros. Diferencia entre muestras y poblaciones Definición de mues- Los expertos en estadística recogen datos de una muestra y utilizan esta información para hacer in- tra y población ferencias sobre la población que representa esa muestra. Así, una población es un todo y una mues- tra es una fracción o segmento de ese todo. Función de las Se estudiarán las muestras para poder describir las poblaciones. El hospital del ejemplo puede es- muestras tudiar un grupo pequeño y representativo de los registros de rayos X, en lugar de examinar cada uno de los registros de los últimos 50 años. La Gallup Poll puede entrevistar una muestra de sólo 2,500 2.1 ¿Cómo podemos ordenar los datos? 9 estadounidenses adultos con el fin de predecir la opinión de todos los adultos que viven en Estados Unidos. Ventajas de las El estudio de una muestra es más sencillo que el de la población completa, cuesta menos y lleva muestras menos tiempo. A menudo, probar la resistencia de una parte de avión implica destruirla; en conse- cuencia, es deseable probar la menor cantidad de partes. En algunas ocasiones, la prueba implica un riesgo humano; el uso de muestras disminuye ese riesgo a un nivel aceptable. Por último, se ha pro- bado que incluso el examen de una población entera deja pasar algunos elementos defectuosos. Por tanto, en algunos casos, el muestreo puede elevar el nivel de calidad. Si usted se pregunta cómo pue- de suceder esto, piense en lo cansado y poco animoso que estaría si tuviera que observar de manera continua miles y miles de productos en una banda continua. Función de las Una población es un conjunto de todos los elementos que estamos estudiando, acerca de los cua- poblaciones les intentamos sacar conclusiones. Debemos definir esa población de modo que quede claro cuándo cierto elemento pertenece o no a la población. Para el estudio de mercado mencionado, la población puede estar constituida por todas las mujeres residentes dentro de un radio de 25 kilómetros con cen- tro en la ciudad de Cincinnati, que tengan un ingreso familiar anual entre $20,000 y $45,000 y hayan cursado por lo menos 11 años de educación formal. Una mujer que viva en el centro de Cincinnati, con ingresos familiares de $25,000 y estudios universitarios completos podría ser parte de esa po- blación, mientras que una mujer residente de San Francisco, o que tenga ingresos familiares de $7,000 o con cinco años de estudios profesionales, no se consideraría miembro de nuestra población. Necesidad de Una muestra es una colección de algunos elementos de la población, no de todos. La población una muestra de nuestra investigación de mercado son todas las mujeres que cumplen con los requisitos anterio- representativa res. Cualquier grupo de mujeres que cumpla con tales requisitos puede constituir una muestra, siem- pre y cuando el grupo sea una fracción de la población completa. Una porción grande de relleno de frambuesas con sólo algunas migajas de corteza es una muestra de tarta, pero no es una muestra re- presentativa debido a que las proporciones de los ingredientes no son las mismas en la muestra que en el todo. Una muestra representativa contiene las características relevantes de la población en las mismas proporciones en que están incluidas en tal población. Si la población de mujeres del ejemplo es un tercio de afroamericanas, entonces una muestra representativa en términos de raza tendrá también un tercio de afroamericanas. En el capítulo 6 se analizan con más detalle los métodos específicos pa- ra realizar muestreos. Búsqueda de un patrón significativo en los datos Los datos pueden Los datos pueden organizarse de muchas maneras. Podemos, simplemente recolectarlos y mante- organizarse de nerlos en orden. O, si las observaciones están hechas con números, podemos hacer una lista de los muchas maneras datos puntuales de menor a mayor según su valor numérico. Pero si los datos consisten en trabaja- dores especializados (como carpinteros, albañiles o soldadores) de una construcción, o en los distin- tos tipos de automóviles que ensamblan todos los fabricantes, o en los diferentes colores de suéteres fabricados por una empresa dada, debemos organizarlos de manera distinta. Necesitaremos presen- tar los datos puntuales en orden alfabético o mediante algún principio de organización. Una forma común de organizar los datos consiste en dividirlos en categorías o clases parecidas y luego contar el número de observaciones que quedan dentro de cada categoría. Este método produce una distri- bución de frecuencias, que se estudiará más adelante, en este mismo capítulo. ¿Por qué debemos Organizar los datos tiene como fin permitirnos ver rápidamente algunas de las características de organizar los datos? los datos recogidos. Buscamos cosas como el alcance (los valores mayor y menor), patrones eviden- tes, alrededor de qué valores tienden a agruparse los datos, qué valores aparecen con más frecuen- cia, etc. Cuanta más información de este tipo podamos obtener de una muestra, mejor entenderemos la población de la cual proviene, y mejor será nuestra toma de decisiones. 10 Capítulo 2 Agrupación y presentación de datos para expresar significados: tablas y gráficas Ejercicios 2.1 Aplicaciones 2-1 Cuando se les pregunta qué medicamento tomarían si estuvieran en una isla abandonada y sólo pudieran elegir un analgésico, la mayoría de los médicos prefiere Bayer, en lugar de Tylenol, Bufferin o Advil. ¿Se llegó a esta conclusión a partir de una muestra o de una población? 2-2 El 25% de los automóviles vendidos en Estados Unidos en 1992 fue armado en Japón. ¿Se llegó a esta conclusión a partir de una muestra o de una población? 2-3 Hace poco, una fábrica de aparatos electrónicos introdujo al mercado un nuevo amplificador, y en la ga- rantía se indica que se han vendido 10,000 de esos amplificadores. El presidente de la empresa, bastante preocupado después de recibir tres cartas de quejas con respecto a los nuevos amplificadores, informó al gerente de producción que se implantarían costosas medidas de control para asegurar que los defectos no aparecieran de nuevo. Haga un comentario sobre la reacción del gerente desde la perspectiva de las cinco pruebas para datos que se dieron en la página 9. 2-4 “Alemania permanecerá siempre dividida”, afirmó Walter Ulbricht después de la construcción del Muro de Berlín en 1961. Sin embargo, hacia finales de 1969, el gobierno de Alemania del Este empezó a permitir el libre tránsito entre la parte oriental y la occidental, y veinte años después, el muro fue destruido por com- pleto. Mencione algunas razones por las cuales Ulbricht hizo una predicción incorrecta. 2-5 Analice los datos dados en el problema planteado al inicio del capítulo en términos de las cinco pruebas para datos dados en la página 9. 2.2 Ejemplos de datos sin procesar La información obtenida, antes de ser organizada y analizada, se conoce como datos sin procesar. Son “sin procesar” puesto que aún no han sido manejados mediante un método estadístico. Problema que Los datos de los telares proporcionados al inicio del capítulo son un ejemplo de datos sin procesar. enfrenta el personal Consideremos un segundo ejemplo. Suponga que el personal de admisión de una universidad, preocu- de admisión pado por el éxito de los estudiantes que escogen para ser admitidos, desea comparar el desempeño de los estudiantes universitarios con otros logros, como calificaciones en el nivel anterior, resulta- dos de exámenes y actividades extracurriculares. En lugar de estudiar a todos los alumnos de todos los años, el personal puede tomar una muestra de la población de estudiantes en un periodo dado y estudiar sólo ese grupo, para llegar a conclusiones sobre qué características parecen predecir el éxito. Por ejemplo, puede comparar las calificaciones del nivel educativo anterior con el promedio de cali- ficaciones universitarias de los estudiantes de la muestra. El personal puede sumar las calificaciones y dividir el resultado entre el número total de ellas para obtener un promedio, o media, para cada es- tudiante. En la tabla 2-1 se presentan tabulados estos datos sin procesar: 20 pares de calificaciones promedio en el bachillerato y en la universidad. Problema de Cuando se diseña un puente, los ingenieros deben determinar la tensión que un material dado, construcción digamos el concreto, puede soportar. En lugar de probar cada pulgada cúbica de concreto para de- de un puente terminar su capacidad de resistencia, los ingenieros toman una muestra, la prueban y llegan a la conclusión sobre qué tanta tensión, en promedio, puede resistir ese tipo de concreto. En la tabla 2-2 se presentan los datos sin procesar obtenidos de una muestra de 40 bloques de concreto que se utili- zarán para construir un puente. Tabla 2-1 Bach. Univ. Bach. Univ. Bach. Univ. Bach. Univ. Promedios de califica- 3.6 2.5 3.5 3.6 3.4 3.6 2.2 2.8 ciones en bachillerato 2.6 2.7 3.5 3.8 2.9 3.0 3.4 3.4 y universidad de 20 2.7 2.2 2.2 3.5 3.9 4.0 3.6 3.0 estudiantes universita- rios del último año 3.7 3.2 3.9 3.7 3.2 3.5 2.6 1.9 4.0 3.8 4.0 3.9 2.1 2.5 2.4 3.2 2.2 Ejemplos de datos sin procesar 11 Tabla 2-2 Presión en libras por 2500.2 2497.8 2496.9 2500.8 2491.6 2503.7 2501.3 2500.0 pulgada cuadrada 2500.8 2502.5 2503.2 2496.9 2495.3 2497.1 2499.7 2505.0 que puede resistir el 2490.5 2504.1 2508.2 2500.8 2502.2 2508.1 2493.8 2497.8 concreto 2499.2 2498.3 2496.7 2490.4 2493.4 2500.7 2502.0 2502.5 2506.4 2499.9 2508.4 2502.3 2491.3 2509.5 2498.4 2498.1 SUGERENCIAS Los datos no necesariamente son informa- más pequeño, o el valor alrededor del cual parecen agrupar- Y ción; tener más datos no necesariamente se. Si los datos provienen de una muestra, se suponen re- SUPOSICIONES produce mejores decisiones. La meta es presentativos de la población de la que se tomaron. Todos resumir y presentar los datos de manera los buenos estadísticos (y usuarios de datos) reconocen que útil para apoyar la toma de decisiones efectiva y ágil. La ra- usar datos sesgados o incompletos conduce a malas deci- zón por la que los datos deben organizarse es ver si existe siones. un patrón en ellos, patrones como el valor más grande y el Ejercicios 2.2 Aplicaciones 2-6 Observe los datos de la tabla 2-1. ¿Por qué los datos necesitan organizarse más? ¿Puede usted llegar a una conclusión partiendo de los datos tal como se presentan? 2-7 El gerente de mercadotecnia de una compañía grande recibe un informe mensual de las ventas de uno de los productos de la compañía. El informe consiste en una lista de las ventas del producto por estado du- rante el mes anterior. ¿Es éste un ejemplo de datos sin procesar? 2-8 El gerente de producción de una compañía grande recibe un informe mensual de su departamento de con- trol de calidad. El informe presenta el índice de rechazo de la línea de producción (número de rechazos por cada 100 unidades producidas), la máquina que ocasiona el mayor número de productos defectuosos y el costo promedio de reparación de las unidades rechazadas. ¿Es éste un ejemplo de datos sin procesar? 2.3 Ordenamiento de datos en arreglos de datos y distribuciones de frecuencias Definición de orde- Una ordenación de datos es una de las formas más sencillas de presentarlos: organiza los valores en nación de datos orden ascendente o descendente. En la tabla 2-3 repetimos los datos de la producción de alfombras del problema presentado al inicio del capítulo, y en la tabla 2-4 reordenamos los números en un or- den ascendente. Ventajas de la La ordenación de datos ofrece varias ventajas con respecto a los datos sin procesar: ordenación de datos 1. Podemos identificar los valores mayor y menor rápidamente. En el ejemplo de las alfom- bras, los datos van de las 15.2 a las 16.9 yardas. Tabla 2-3 Muestra de la 16.2 15.8 15.8 15.8 16.3 15.6 producción diaria de 15.7 16.0 16.2 16.1 16.8 16.0 30 telares para alfombra (en yardas) 16.4 15.2 15.9 15.9 15.9 16.8 15.4 15.7 15.9 16.0 16.3 16.0 16.4 16.6 15.6 15.6 16.9 16.3 12 Capítulo 2 Agrupación y presentación de datos para expresar significados: tablas y gráficas Tabla 2-4 Ordenamiento de los 15.2 15.7 15.9 16.0 16.2 16.4 datos de la producción 15.4 15.7 15.9 16.0 16.3 16.6 diaria de 30 telares para 15.6 15.8 15.9 16.0 16.3 16.8 alfombra (en yardas) 15.6 15.8 15.9 16.1 16.3 16.8 15.6 15.8 16.0 16.2 16.4 16.9 2. Es fácil dividir los datos en secciones. En la tabla 2-4, los primeros 15 valores (la mitad infe- rior de los datos) están entre 15.2 y 16.0 yardas, y los últimos 15 (la mitad superior) entre 16.0 y 16.9 yardas. De manera similar, el tercio más bajo de los datos está entre 15.2 y 15.8 yardas, el tercio de en medio está entre 15.9 y 16.2 yardas, y el tercio más alto entre 16.2 y 16.9 yardas. 3. Podemos ver si algunos valores aparecen más de una vez en el arreglo. Los valores iguales quedan juntos. En la tabla 2-4 se muestra que nueve niveles ocurren más de una vez cuando se toma una muestra de 30 telares. 4. Podemos observar la distancia entre valores sucesivos de los datos. En la tabla 2-4, 16.6 y 16.8 son valores sucesivos. La distancia entre ellos es de 0.2 yardas (16.8 16.6). Desventajas de la A pesar de las ventajas, en algunas ocasiones un ordenamiento de datos no resulta útil. Como da ordenación de datos una lista de todos los valores, es una forma incómoda de mostrar grandes cantidades de datos. Sue- le ser necesario comprimir la información sin que pierda su utilidad para la interpretación y la toma de decisiones. ¿Cómo podemos hacerlo? Una mejor forma de organizar datos: la distribución de frecuencias Las distribuciones de Una manera de compactar datos es mediante una tabla de frecuencias o distribución de frecuencias. frecuencias permiten Para entender la diferencia entre ésta y el ordenamiento de datos, tome como ejemplo las existencias manejar más datos promedio (en días) para 20 tiendas de autoservicio: Tabla 2-5 Ordenamiento de datos 2.0 3.8 4.1 4.7 5.5 para las existencias pro- 3.4 4.0 4.2 4.8 5.5 medio (en días) para 20 3.4 4.1 4.3 4.9 5.5 tiendas de autoservicio 3.8 4.1 4.7 4.9 5.5 En las tablas 2-5 y 2-6, hemos tomado los mismos datos concernientes a las existencias prome- dio y los hemos organizado, primero, como un arreglo ascendente y luego como una distribución de frecuencias. Para obtener la tabla 2-6 tuvimos que dividir los datos en grupos de valores parecidos. Pierden algo de Después registramos el número de datos puntuales que caen en cada grupo. Observe que perdimos información algo de información al construir la distribución de frecuencias. Ya no podemos saber, por ejemplo, Pero se obtiene otro que el valor 5.5 aparece cuatro veces y que el valor 5.1 no aparece. Sin embargo, ganamos informa- tipo de información ción acerca del patrón de existencias promedio. En la tabla 2-6, podemos ver que las existencias pro- medio caen con más frecuencia en el intervalo de 3.8 a 4.3 días. No es usual encontrar existencias Tabla 2-6 Clase (grupo de valores Frecuencia (número de parecidos de datos puntuales) observaciones que hay en cada clase) Distribución de frecuencias para las 2.0 a 2.5 1 existencias promedio 2.6 a 3.1 0 (en días) en 20 tiendas de autoservicio 3.2 a 3.7 2 (6 clases) 3.8 a 4.3 8 4.4 a 4.9 5 5.0 a 5.5 4 2.3 Ordenamiento de datos en arreglos de datos y distribuciones de frecuencias 13 promedio en el intervalo de 2.0 a 2.5 días o en el que va de 2.6 a 3.1 días. Las existencias que están entre 4.4 y 4.9 días y entre 5.0 y 5.5 días no son las que prevalecen, pero ocurren con más frecuen- cia que algunas otras. Así pues, las distribuciones de frecuencias sacrifican algunos detalles pero nos ofrecen nuevas perspectivas sobre los patrones de los datos. Función de las clases Una distribución de frecuencias es una tabla en la que organizamos los datos en clases, es decir, en una distribución en grupos de valores que describen una característica de los datos. El inventario promedio es una de frecuencias característica de las 20 tiendas de autoservicio. En la tabla 2-5, esta característica tiene once valores diferentes. Pero estos mismos datos podrían dividirse en cualquier número de clases. En la tabla 2-6, por ejemplo, utilizamos seis. Podríamos comprimir todavía más los datos y utilizar sólo dos clases: menores que 3.8 y mayores o iguales que 3.8. O podríamos aumentar el número de clases utilizan- do intervalos más pequeños, como se hace en la tabla 2-7. ¿Por qué se le cono- Una distribución de frecuencias muestra el número de observaciones del conjunto de datos que ce como distribución caen en cada una de las clases. Si se puede determinar la frecuencia con la que se presentan los va- de frecuencias? lores en cada clase de un conjunto de datos, se puede construir una distribución de frecuencias. Definición de distribución de frecuencias relativas Características de las Hasta aquí hemos considerado la frecuencia con que aparecen los valores en cada clase como el nú- distribuciones de fre- mero total de datos puntuales u observaciones que caen en cada clase. Podemos expresar la frecuen- cuencias relativas cia de cada valor también como una fracción o un porcentaje del número total de observaciones. La frecuencia de un inventario promedio de 4.4 a 4.9 días, por ejemplo, es 5 en la tabla 2-6, pero 0.25 en la tabla 2-8. Para obtener este valor de 0.25, dividimos la frecuencia de esa clase (5) entre el nú- mero total de observaciones del conjunto de datos (20). La respuesta se puede expresar como una fracción (5/20), un número decimal (0.25) o un porcentaje (25%). En una distribución de frecuencias relativas se presentan las frecuencias en términos de fracciones o porcentajes. Las clases son Observe, en la tabla 2-8, que la suma de todas las frecuencias relativas es igual a 1.00, o 100%. completamente Esto se debe a que una distribución de frecuencias relativas da una correspondencia de cada clase incluyentes con su fracción o porcentaje del total de los datos. Por consiguiente, las clases que aparecen en cual- quier distribución de frecuencias, sean relativas o simples, son completamente incluyentes. Todos los Son mutuamente datos caen en una u otra categoría. Note también que las clases de la tabla 2-8 son mutuamente ex- excluyentes cluyentes, es decir, ningún dato puntual cae en más de una categoría. En la tabla 2-9 se ilustra este concepto mediante la comparación de clases mutuamente excluyentes con clases que se traslapan. En las distribuciones de frecuencias no existen clases que se traslapen. Tabla 2-7 Clase Frecuencia Clase Frecuencia Distribución de 2.0 a 2.2 1 3.8 a 4.0 3 frecuencias para las 2.3 a 2.5 0 4.1 a 4.3 5 existencias promedio 2.6 a 2.8 0 4.4 a 4.6 0 (en días) en 20 tiendas 2.9 a 3.1 0 4.7 a 4.9 5 de autoservicio (12 clases) 3.2 a 3.4 2 5.0 a 5.2 0 3.5 a 3.7 0 5.3 a 5.5 4 Tabla 2-8 Frecuencia relativa: Clase Frecuencia fracción de observaciones en cada clase Distribución de frecuencias relativas 2.0 a 2.5 1 0.05 del inventario promedio 2.6 a 3.1 0 0.00 (en días) para 20 tiendas de autoservicio 3.2 a 3.7 2 0.10 3.8 a 4.3 8 0.40 4.4 a 4.9 5 0.25 5.0 a 5.5 4 0.20 20 1.00 (suma de frecuencias relativas de todas las clases) 14 Capítulo 2 Agrupación y presentación de datos para expresar significados: tablas y gráficas Tabla 2-9 Clases mutuamente Mutuamente excluyentes 1a4 5a8 9 a 12 13 a 16 excluyentes y clases No mutuamente excluyentes 1a4 3a6 5 a 80 7 a 10 que se traslapan Clases de datos Hasta ahora, las clases han consistido en números y describen algún atributo cuantitativo de los cualitativos elementos de la muestra. Podemos, también, clasificar la información de acuerdo con características cualitativas, como raza, religión y sexo, que no entran de manera natural en categorías numéricas. Igual que las clases de atributos cuantitativos, éstas deben ser completamente incluyentes y mutua- mente excluyentes. En la tabla 2-10 se muestra cómo construir distribuciones de frecuencias simples o absolutas y distribuciones de frecuencias relativas usando el atributo cualitativo de ocupación. Clases de extremo Aunque en la tabla 2-10 no se enumeran todas las ocupaciones de los graduados del Central abierto para listas College, sigue siendo completamente incluyente. ¿Por qué? La clase “otros” cubre a todas las obser- que no son vaciones que no entran en las categorías mencionadas. Utilizaremos algo parecido siempre que nues- exhaustivas tra lista no incluya específicamente todas las posibilidades. Por ejemplo, si la característica puede presentarse durante cualquier mes del año, una lista completa debería incluir 12 categorías. Pero si deseamos enumerar sólo los ocho primeros meses, de enero a agosto, podemos utilizar el término otros para referirnos a las observaciones correspondientes a los restantes cuatro meses, septiembre, octubre, noviembre y diciembre. Aunque nuestra lista no incluye específicamente todas las posibili- dades, sigue siendo completamente incluyente. La categoría “otros” se conoce como clase de extre- mo abierto cuando permite que el extremo inferior o el superior de una clasificación cuantitativa no esté limitado. La última clase de la tabla 2-11 (“72 o más”) es de extremo abierto. Tabla 2-10 Distribución Distribución de Clase de frecuencias frecuencias relativas Ocupación de los ocupacional (1) (1) 100 integrantes de una muestra de 100 Actor 5 0.05 graduados del Central College Banquero 8 0.08 Empresario 22 0.22 Químico 7 0.07 Médico 10 0.10 Agente de seguros 6 0.06 Periodista 2 0.02 Abogado 14 0.14 Maestro 9 0.09 Otros 17 0.17 100 1.00 Tabla 2-11 Clase: edad Frecuencia Frecuencia relativa (1) (2) (2) 89,592 Edades de los habitantes del condado de Bunder Nacimiento a 7 8,873 0.0990 8 a 15 9,246 0.1032 16 a 23 12,060 0.1346 24 a 31 11,949 0.1334 32 a 39 9,853 0.1100 40 a 47 8,439 0.0942 48 a 55 8,267 0.0923 56 a 63 7,430 0.0829 64 a 71 7,283 0.0813 72 o más 6,192 0.0691 89,592 1.0000 2.3 Ordenamiento de datos en arreglos de datos y distribuciones de frecuencias 15 Clases discretas Los esquemas de clasificación pueden ser tanto cuantitativos como cualitativos y tanto discretos como continuos. Las clases discretas son entidades separadas que no pasan de una clase a la siguien- te sin que haya un rompimiento. Clases como el número de niños de cada familia, el número de ca- miones de una compañía de transportistas o las ocupaciones de los graduados del Central College son discretas. Los datos discretos son aquellos que pueden tomar sólo un número limitado de valo- res o un número infinito numerable de valores. Los graduados del Central College pueden clasifi- carse como doctores o químicos, pero no como algo intermedio. El precio de cierre de las acciones de AT&T puede ser 391/2 o 397/8 (pero no 39.43), o su equipo de básquetbol favorito puede ganar por 5 o 27 puntos (pero no por 17.6 puntos). Clases continuas Los datos continuos pasan de una clase a otra sin que haya un rompimiento. Implican medicio- nes numéricas como el peso de las latas de tomates, la presión sobre el concreto o las calificaciones de bachillerato de los estudiantes del último año en la universidad, por ejemplo. Los datos continuos pueden expresarse con números fraccionarios o con enteros. SUGERENCIAS Existen muchas maneras de presentar da- cias es aún más efectivo; convertir estas frecuencias en de- Y tos. Para empezar, puede elaborar un cimales (que se conocen como frecuencias relativas) puede SUPOSICIONES ordenamiento de datos de manera des- ayudar todavía más. Sugerencia: debe recordar que las va- cendente o ascendente. Mostrar cuántas riables discretas son cosas que se pueden contar y las varia- veces aparece un valor usando una distribución de frecuen- bles continuas aparecen en algún punto de una escala. Ejercicios 2.3 Ejercicios de autoevaluación EA 2-1 Las edades de los 50 integrantes de un programa de servicio social del gobierno son: 83 51 66 61 82 65 54 56 92 60 65 87 68 64 51 70 75 66 74 68 44 55 78 69 98 67 82 77 79 62 38 88 76 99 84 47 60 42 66 74 91 71 83 80 68 65 51 56 73 55 Use estos datos para construir las distribuciones de frecuencia relativa con 7 y 13 intervalos iguales. La política del estado para los programas de servicio social requiere que alrededor de 50% de los participan- tes tengan más de 50 años. a) ¿Cumple el programa con la política? b) ¿La distribución de frecuencias relativas de 13 intervalos ayuda a responder el inciso a) mejor que la distribución de 7 intervalos? c) Suponga que el director de servicios sociales desea saber la proporción de participantes en el progra- ma que tienen entre 45 y 50 años de edad. ¿A partir de cuál distribución de frecuencias relativas, de 7 o de 13 intervalos, puede estimar mejor la respuesta? EA 2-2 Use los datos de la tabla 2-1 para elaborar un ordenamiento de mayor a menor del promedio general en bachillerato. Después haga un ordenamiento de mayor a menor del promedio general en la universidad. ¿A partir de los dos ordenamientos, qué puede concluir que no podía a partir de los datos originales? Aplicaciones 2-9 Los talleres Transmissions Fix-It registran el número de comprobantes de servicio extendidos el mes an- terior en cada una de sus 20 sucursales de la forma siguiente: 16 Capítulo 2 Agrupación y presentación de datos para expresar significados: tablas y gráficas 823 648 321 634 752 669 427 555 904 586 722 360 468 847 641 217 588 349 308 766 La compañía tiene la creencia de que una sucursal no puede mantenerse financieramente con menos de 475 servicios mensuales. Es también política de la compañía otorgar una bonificación económica al ge- rente de la sucursal que genere más de 725 servicios mensuales. Ordene los datos de la tabla e indique cuántas sucursales no pueden mantenerse y cuántas recibirán bonificación. 2-10 Utilice los datos de la empresa Transmissions Fix-It del ejercicio 2-9. La vicepresidente financiera de la compañía ha establecido lo que llama una “lista de observación de sucursales” que contiene las sucursales cuya actividad en cuanto a servicios prestados es lo suficientemente baja como para que la casa matriz le preste atención especial. Esta categoría incluye a las sucursales cuya actividad está entre 550 y 650 ser- vicios mensuales. ¿Cuántos talleres deberán estar en dicha lista si nos basamos en la actividad del mes an- terior? 2-11 El número de horas que les toma a los mecánicos retirar, reparar y reinstalar una transmisión en uno de los talleres de Transmissions Fix-It, durante un día de la semana anterior, se registra de la manera siguiente: 4.3 2.7 3.8 2.2 3.4 3.1 4.5 2.6 5.5 3.2 6.6 2.0 4.4 2.1 3.3 6.3 6.7 5.9 4.1 3.7 A partir de estos datos, elabore una distribución de frecuencias con intervalos de una hora. ¿A qué con- clusiones puede llegar acerca de la productividad de los mecánicos si toma en cuenta la distribución de frecuencias? Si el gerente de la Transmissions Fix-It cree que más de 6.0 horas es evidencia de un desem- peño insatisfactorio, ¿de qué magnitud es el problema del desempeño de los mecánicos en este taller en particular? 2-12 El comisionado de transporte del condado de Orange está preocupado por la velocidad a la que los con- ductores manejan en un tramo de la carretera principal. Los datos de velocidad de 45 conductores son los siguientes: 15 32 45 46 42 39 68 47 18 31 48 49 56 52 39 48 69 61 44 42 38 52 55 58 62 58 48 56 58 48 47 52 37 64 29 55 38 29 62 49 69 18 61 55 49 Use estos datos para elaborar distribuciones de frecuencias relativas con 5 y 11 intervalos iguales. El De- partamento de Transporte informa que, a nivel nacional, no más de 10% de los conductores excede 55 mph. a) ¿Se comportan los conductores del condado de Orange de acuerdo con las afirmaciones del informe del Departamento de Transporte acerca de los patrones de manejo? b) ¿Qué distribución usó para responder el inciso a)? c) El Departamento de Transporte ha determinado que la velocidad más segura para esta carretera es más de 36 y menos de 59 mph. ¿Qué proporción de conductores maneja dentro de este intervalo? ¿Qué distribución ayuda a responder a esta pregunta? 2-13 Ordene los datos de la tabla 2-2, en un arreglo de mayor a menor. a) Suponga que la ley estatal requiere que los puentes de concreto puedan soportar al menos 2,500 lb/pulg2. ¿Cuántas muestras no pasarán esta prueba? b) ¿Cuántas muestras podrían soportar una presión de al menos 2,497 lb/pulg2 pero no una de 2,504 lb/pulg2? c) Si examina con cuidado el arreglo, se dará cuenta de que algunas muestras pueden soportar cantida- des iguales de presión. Proporcione una lista de tales presiones y el número de muestras que pueden soportar cada cantidad de presión. 2-14 Un estudio reciente sobre los hábitos de los consumidores de televisión por cable en Estados Unidos pro- porcionó los siguientes datos: Número de horas que ven Número de canales comprados televisión por semana 25 14 18 16 Continúa 2.3 Ordenamiento de datos en arreglos de datos y distribuciones de frecuencias 17 Número de horas que ven Número de canales comprados televisión por semana 42 12 96 6 28 13 43 16 39 9 29 7 17 19 84 4 76 8 22 13 104 6 Ordene los datos. ¿Qué conclusión puede deducir de estos datos? 2-15 La agencia de protección ambiental estadounidense tomó muestras de agua de 12 ríos y arroyos que de- sembocan en el lago Erie. Las muestras se probaron en los laboratorios de la agencia y clasificadas según la cantidad de contaminantes sólidos suspendidos en cada muestra. Los resultados de la prueba se dan en la tabla siguiente: Muestra 1 2 3 4 5 6 Contaminantes (ppm) 37.2 51.7 68.4 54.2 49.9 33.4 Muestra 7 8 9 10 11 12 Contaminantes (ppm) 39.8 52.7 60.0 46.1 38.5 49.1 a) Ordene los datos en un arreglo descendente. b) Determine el número de muestras con un contenido de contaminantes entre 30.0 y 39.9, 40.0 y 49.9, 50.0 y 59.9 y entre 60.0 y 69.9. c) Si 45.0 es el número que utiliza la agencia de protección ambiental para indicar una contaminación exce- siva, ¿cuántas muestras serán clasificadas como excesivamente contaminadas? d) ¿Cuál es la distancia más grande entre dos muestras consecutivas cualesquiera? 2-16 Suponga que el personal de admisiones al que nos referimos al analizar la tabla 2-1 de la página 12 desea examinar la relación entre la diferencial de un estudiante que realiza el examen de admisión (la diferen- cia entre el resultado real del examen y el esperado según el promedio general del nivel anterior) y la dis- persión de los promedios generales del estudiante en el bachillerato y la universidad (la diferencia entre el promedio general de la universidad y el del nivel anterior). El personal de admisiones utiliza los datos siguientes: Prom. bach. Prom. univ. Resultado examen Prom. bach. Prom. univ. Resultado examen 3.6 2.5 1,100 3.4 3.6 1,180 2.6 2.7 940 2.9 3.0 1,010 2.7 2.2 950 3.9 4.0 1,330 3.7 3.2 1,160 3.2 3.5 1,150 4.0 3.8 1,340 2.1 2.5 940 3.5 3.6 1,180 2.2 2.8 960 3.5 3.8 1,250 3.4 3.4 1,170 2.2 3.5 1,040 3.6 3.0 1,100 3.9 3.7 1,310 2.6 1.9 860 4.0 3.9 1,330 2.4 3.2 1,070 Además, el personal de admisiones ha recibido la siguiente información del servicio de pruebas educati- vas: Prom. bach. Resultado examen Prom. bach. Resultado examen 4.0 1,340 2.9 1,020 3.9 1,310 2.8 1,000 3.8 1,280 2.7 980 3.7 1,250 2.6 960 Continúa 18 Capítulo 2 Agrupación y presentación de datos para expresar significados: tablas y gráficas Prom. bach. Resultado examen Prom. bach. Resultado examen 3.6 1,220 2.5 940 3.5 1,190 2.4 920 3.4 1,160 2.3 910 3.3 1,130 2.2 900 3.2 1,100 2.1 880 3.1 1,070 2.0 860 3.0 1,040 a) Ordene estos datos en un arreglo descendente de las dispersiones. (Considere positivo un aumento en el promedio general de universidad respecto al de bachillerato y como negativo el caso contrario.) In- cluya con cada dispersión la diferencial de admisión correspondiente. (Considere negativo un resul- tado de admisión que esté por debajo del esperado y positivo uno que esté por arriba.) b) ¿Cuál es la dispersión más común? c) Para la dispersión del inciso b), ¿cuál es la diferencial de admisión más común? d) ¿A qué conclusiones llega, partiendo del análisis que ha hecho? Soluciones a los ejercicios de autoevaluación EA 2-1 7 intervalos 13 intervalos Frecuencia Frecuencia Frecuencia Clase relativa Clase relativa Clase relativa 30-39 0.02 35-39 0.02 70-74 0.10 40-49 0.06 40-44 0.04 75-79 0.10 50-59 0.16 45-49 0.02 80-84 0.12 60-69 0.32 50-54 0.08 85-89 0.04 70-79 0.20 55-59 0.08 90-94 0.04 80-89 0.16 60-64 0.10 95-99 0.04 90-99 0.08 65-69 0.22 1.00 1.00 a) Como se puede saber a partir de cualquiera de las distribuciones, cerca de 90% de los participantes tiene más de 50 años, por lo que el programa no cumple la política. b) En este caso, es igualmente sencillo usar las dos. c) La distribución de 13 intervalos da una mejor estimación porque tiene una clase de 45-49, mientras que la distribución de 7 intervalos agrupa todas las observaciones entre 40 y 49. EA 2-2 Ordenamiento de datos según el promedio general de bachillerato: Prom. bach. Prom. univ. Prom. bach. Prom. univ. 4.0 3.9 3.4 3.4 4.0 3.8 3.2 3.5 3.9 4.0 2.9 3.0 3.9 3.7 2.7 2.2 3.7 3.2 2.6 2.7 3.6 3.0 2.6 1.9 3.6 2.5 2.4 3.2 3.5 3.8 2.2 3.5 3.5 3.6 2.2 2.8 3.4 3.6 2.1 2.5 Ordenamiento de datos según el promedio general en la universidad: Prom. bach. Prom. univ. Prom. bach. Prom. univ. 4.0 3.9 3.2 3.7 3.9 4.0 3.2 2.4 Continúa 2.3 Ordenamiento de datos en arreglos de datos y distribuciones de frecuencias 19 Prom. bach. Prom. univ. Prom. bach. Prom. univ. 3.8 4.0 3.0 3.6 3.8 3.5 3.0 2.9 3.7 3.9 2.8 2.2 3.6 3.5 2.7 2.6 3.6 3.4 2.5 3.6 3.5 3.2 2.5 2.1 3.5 2.2 2.2 2.7 3.4 3.4 1.9 2.6 De estos ordenamientos se puede ver que los promedios generales altos en un nivel tienden a relacionarse con promedios generales altos en el otro, aunque hay algunas excepciones. 2.4 Construcción de una distribución de frecuencias Clasifique los datos Ahora que ya hemos aprendido a dividir una muestra en clases, podemos tomar los datos sin proce- sar y construir una distribución de frecuencias. Para resolver el problema de los telares para alfom- bra de la primera página del capítulo, siga estos tres pasos: Divida el rango 1. Decida el tipo y número de clases para dividir los datos. En este caso, ya hemos escogido total de los datos clasificar los datos de acuerdo con la medida cuantitativa del número de yardas producidas, más en clases de que con respecto a un atributo cualitativo como color o estampado. En seguida, necesitamos decidir igual tamaño cuántas clases distintas usar y el alcance que cada clase debe cubrir. El rango total debe dividir- se entre clases iguales; esto es, el ancho del intervalo, tomado desde el principio de una clase hasta el principio de la siguiente, debe ser el mismo para todas. Si escogemos un ancho de 0.5 yardas para cada clase de la distribución, las clases serán las que se muestran en la tabla 2-12. Problemas con clases Si las clases fueran desiguales y el ancho de los intervalos variara de una clase a otra, tendría- desiguales mos una distribución mucho más difícil de interpretar que una con intervalos iguales. ¡Imagine lo difícil que sería interpretar los datos de la tabla 2-13! Use de 6 a 15 clases El número de clases depende del número de datos puntuales y del alcance de los datos reco- lectados. Cuantos más datos puntuales se tengan o más grande sea el rango, más clases se nece- sitarán para dividir los datos. Desde luego, si solamente tenemos 10 datos puntuales, no tendría sentido plantear 10 clases. Como regla general, los estadísticos rara vez utilizan menos de seis y más de 15 clases. Determine el ancho Debido a que necesitamos hacer los intervalos de clase de igual tamaño, el número de clases de los intervalos de determina el ancho de cada clase. Para hallar el ancho de los intervalos podemos utilizar esta clase ecuación: Ancho de un intervalo de clase Valor unitario siguiente después Valor más pequeño Ancho de los del valor más grande de los datos de los datos [2-1] intervalos de clase Número total de intervalos de clase Tabla 2-12 Clase en yardas Frecuencia Producción diaria de una 15.1-15.5 2 muestra de 30 telares 15.6-16.0 16 para alfombras con 16.1-16.5 8 intervalos de clase de 16.6-17.0 4 0.5 yardas 30 20 Capítulo 2 Agrupación y presentación de datos para expresar significados: tablas y gráficas Tabla 2-13 Clase Ancho de intervalos de clase Frecuencia Producción diaria de una 15.1-15.5 15.6 15.1 0.5 2 muestra de 30 telares 15.6-15.8 15.9 15.6 0.3 8 para alfombra utilizando 15.9-16.1 16.2 15.9 0.3 9 intervalos de clase desiguales 16.2-16.5 16.6 16.2 0.4 7 16.6-16.9 17.0 16.6 0.4 4 30 Debemos utilizar el siguiente valor de las mismas unidades, ya que estamos midiendo el in- tervalo entre el primer valor de una clase y el primer valor de la siguiente. En nuestro estudio de los telares, el último valor es 16.9, de modo que el siguiente valor es 17.0. Como estamos uti- lizando seis clases en este ejemplo, el ancho de cada clase será: Valor unitario siguiente después del valor Valor más pequeño de los datos más grande de los datos [2-1] Número total de intervalos de clase 17.0 15.2 6 1.8 6 0.3 yd ← ancho de los intervalos de clase Examine los El paso 1 está completo. Hemos decidido clasificar los datos según las mediciones cuantitati- resultados vas de cuántas yardas de alfombra fueron producidas. Definimos seis clases para cubrir el rango de 15.2 a 16.9 y, como resultado de ello, utilizamos 0.3 yardas como el ancho de nuestros interva- los de clase. Construya las clases 2. Clasifique los datos puntuales en clases y cuente el número de observaciones que hay en y cuente las cada una. Hicimos esto en la tabla 2-14. Cada dato puntual entra al menos en una clase y ningún frecuencias dato puntual entra en más de una clase. En consecuencia, nuestras clases son completamente incluyentes y mutuamente excluyentes. Observe que el límite inferior de la primera clase corres- ponde al dato puntual menor de la muestra, y que el límite superior de la última clase correspon- de al de dato puntual mayor. 3. Ilustre los datos en un diagrama. (Vea la figura 2-1.) Estos tres pasos nos permiten organizar los datos en forma tanto tabular como gráfica. En este caso, nuestra información se muestra en la tabla 2-14 y en la figura 2-1. Estas dos distribuciones de frecuencias omiten algunos de los detalles contenidos en los datos sin procesar de la tabla 2-3, pero nos facilitan la observación de los patrones contenidos en ellos. Por ejemplo, una característica ob- via es que la clase 15.8-16.0 contiene el mayor número de elementos; mientras que la 15.2-15.4, con- tiene el menor. Tabla 2-14 Clase Frecuencia Producción diaria de una 15.2-15.4 2 muestra de 30 telares 15.5-15.7 5 para alfombra con intervalos de clase de 15.8-16.0 11 0.3 yardas 16.1-16.3 6 16.4-16.6 3 16.7-16.9 3 30 2.4 Construcción de una distribución de frecuencias 21 20 18 14 16 12 14 Frecuencia 10 12 10 8 Frecuencia 8 6 6 4 4 2 2 2 5 11 6 3 3 18 12 15.2-15.4 15.5-15.7 15.8-16.0 16.1-16.3 16.4-16.6 16.7-16.9 15.1-16.0 16.1-17.0 Nivel de producción en yardas Nivel de producción en yardas FIGURA 2-1 FIGURA 2-2 Distribución de frecuencia de los niveles de producción de una muestra de 30 Distribución de frecuencias de los niveles de producción telares para alfombra con intervalos de clase de 0.3 yardas de una muestra de 30 telares para alfombra con intervalos de clase de una yarda Detecte las Observe, en la figura 2-1, que las frecuencias de las clases con ancho de 0.3 yardas siguen una tendencias secuencia regular: el número de datos puntuales empieza con dos para la primera clase, aumenta hasta cinco en la segunda, alcanza 11 en la tercera clase, disminuye a seis y luego cae a tres en la quinta y sexta clases. Tendremos que, cuanto más ancho sea el intervalo de clase, más suave será la progresión. Sin embargo, si las clases son demasiado anchas, podemos perder mucha información, al grado de que la gráfica carezca de significado. Por ejemplo, si compactamos la figura 2-1 y toma- mos sólo dos categorías, oscurecemos el patrón. Esto se hace evidente en la figura 2-2. Uso de la computadora para construir distribuciones de frecuencias Los cálculos A lo largo del presente texto, usaremos ejemplos sencillos para ilustrar cómo realizar muchos tipos manuales son de análisis estadísticos. Con tales ejemplos, usted puede aprender qué tipo de cálculos debe hacer. tediosos Esperamos que también sea capaz de entender los conceptos que hay detrás de los cálculos, de modo que pueda apreciar por qué algunos cálculos en particular son los apropiados. Sin embargo, prevale- ce la cuestión de hacer los cálculos de forma manual es tedioso, cansado y proclive al error. Además, muchos problemas reales tienen tal cantidad de datos que no es posible hacer los cálculos a mano. Paquetes de software Por esta razón, casi todos los análisis estadísticos reales se hacen con ayuda de computadoras. Usted para análisis prepara los datos que introducirá a la máquina e interpreta los resultados y decide las acciones adecua- estadísticos das, pero la computadora realiza todos los cálculos numéricos. Existen muchos paquetes de software ampliamente utilizados para hacer análisis estadísticos. Entre otros, están Minitab, SAS, Excel, SPSS y SYSTAT.* Pero emplearemos Minitab, SPS y Excel para ilustrar los resultados típicos que producen. Uso de los datos El apéndice 10 contiene los datos de calificaciones de los 199 estudiantes que usaron este texto de calificaciones durante 2002. En la figura 2-3 se usó Minitab para crear una distribución de frecuencias de las cali- ficaciones totales sin procesar de los estudiantes del curso. Los valores de la columna TOTPOR10 son los puntos medios o marcas de clase. Con frecuencia también son de interés las distribuciones de frecuencias bivariadas, en las que los datos se clasifican de acuerdo con dos atributos diferentes. En la figura 2-4 se ilustra una distribución que muestra las calificaciones con letras en las seis sec- *Minitab es marca registrada de Minitab, Inc., University Park, Pa. SAS es marca registrada de SAS Institute, Inc., Cary N. C. SPSS es marca registrada de SPSS, Inc., Chicago, Ill. SYSTAT es marca registrada de SYSTAT, Inc. Evanston, Ill. Excel es marca registrada de Microsoft. 22 Capítulo 2 Agrupación y presentación de datos para expresar significados: tablas y gráficas Resumen estadístico para variables discretas TOTPOR10 Cuenta Porcentaje Ctaacum Pctacum FIGURA 2-3 Distribución de frecuencias de calificaciones totales sin procesar obtenida con Minitab Estadísticas tabuladas RENGLONES: CALIFNUM COLUMNAS: SECCIÓN TODO FIGURA 2-4 Distribución de frecuencias TODO bivariada obtenida con Minitab que CONTENIDO DE CELDAS -- muestra las CUENTA calificaciones en % DE TABLA cada sección ciones de la clase. La variable CALIFNUM tiene valores de 0 a 9, que corresponden a las califica- ciones con letras F, D, C, C, C, B, B, B+, A y A. El apéndice 11 contiene los datos correspondientes a las ganancias del último trimestre de 1989 de 224 compañías, los cuales fueron publicados en The Wall Street Journal durante la segunda se- mana de febrero de 1990. La figura 2-5 ilustra la distribución de frecuencias obtenida con Minitab de las ganancias del último trimestre de 1989. La variable Q489 representa las ganancias del último trimestre de 1989, en cifras redondeadas a dólares. Debido a que las compañías incluidas en la New York Stock Exchange (Bolsa de Valores de Nue- va York) (3) tienden a tener características financieras diferentes a las enumeradas en la American Stock Exchange (Bolsa de Valores Estadounidense) (2), y debido también a que éstas, a su vez, son 2.4 Construcción de una distribución de frecuencias 23 Resumen estadístico para variables discretas Q489 Cuenta Porcentaje Ctaacum Pctacum FIGURA 2-5 Distribución de frecuencias obtenida con Minitab de las calificaciones del último trimestre de 1989 distintas a las de las compañías enumeradas en “al contado” (1), también utilizamos MYSTAT para producir la distribución bivariada de los mismos datos en la figura 2-6. Estadísticas tabuladas RENGLONES: Q489 COLUMNAS: TRANSACCIÓN TODO FIGURA 2-6 TODO Distribución de frecuencias bivariadas obtenida con CONTENIDO DE LAS CELDAS -- Minitab en donde CUENTA se muestran los % DE RENGLÓN % DE COLUMNA ingresos de cada % DE TABLA transacción 24 Capítulo 2 Agrupación y presentación de datos para expresar significados: tablas y gráficas SUGERENCIAS Es necesario ser extremadamente cuida- y así sucesivamente. Pero si el producto bajo estudio está Y dosos al elegir las clases cuando se elabora dirigido a estudiantes universitarios, tendría más sentido SUPOSICIONES una distribución de frecuencias, incluso agrupar los datos en las categorías: 18, 19-22 y 23 o ma- cuando un programa de computación de- yores. No pierda de vista que el uso de una computadora fine las clases. Por ejemplo, un programa de cómputo pue- para efectuar cálculos estadísticos no sustituye al sentido de clasificar las respuestas a un estudio de mercado de común. acuerdo con la edad del consumidor: 15-19, 20-24, 25-29, Ejercicios 2-4 Ejercicios de autoevaluación EA 2-3 La compañía High Performance Bicycle Products de Chapel Hill, Carolina del Norte, hizo un muestreo de sus registros de embarque para cierto día con los siguientes resultados: Tiempo entre la recepción de una orden y su entrega (en días) 4 12 8 14 11 6 7 13 13 11 11 20 5 19 10 15 24 7 29 6 Construya una distribución de frecuencias para estos datos y una distribución de frecuencias relativas. Use intervalos de 6 días. a) ¿Qué puede asegurar acerca de la efectividad del procesamiento de pedidos a partir de la distribución de frecuencias? b) Si la compañía desea asegurar que la mitad de sus entregas se hagan en 10 días o menos, ¿puede de- terminar, a partir de la distribución de frecuencias, si han logrado esta meta? c) ¿Qué puede hacer con los datos si tiene una distribución de frecuencias relativas, que es difícil lograr con sólo una distribución de frecuencias? EA 2-4 El señor Franks, un ingeniero de seguridad de Mars Point Nuclear Power Generating Station, elaboró una tabla de la temperatura pico del reactor cada día durante el último año y preparó la siguiente distribución de frecuencias: Temperaturas en °C Frecuencia Menos de 500 4 501-510 7 511-520 32 521-530 59 530-540 82 550-560 65 561-570 33 571-580 28 580-590 27 591-600 23 Total 360 Enumere y explique los errores que pueda encontrar en la distribución del señor Franks. Aplicaciones 2-17 La Universal Burger está preocupada por la cantidad de desperdicio que genera, por lo que obtuvo una muestra del desperdicio de hamburguesas desde el año pasado con los siguientes resultados: 2.4 Construcción de una distribución de frecuencias 25 Número de hamburguesas descartadas durante un turno 2 16 4 12 19 29 24 7 19 22 14 8 24 31 18 20 16 6 Construya una distribución de frecuencias y una distribución de frecuencias relativas para estos datos. Uti- lice intervalos de 5 hamburguesas. a) Una de las metas de Universal Burger es que al menos 75% de los turnos tengan no más de 16 ham- burguesas desperdiciadas. ¿Puede determinar a partir de la distribución de frecuencia si se logra esta meta? b) Qué porcentaje de turnos tienen desperdicios de 21 hamburguesas o menos? ¿Qué distribución usó para determinar su respuesta? 2-18 Remítase a la tabla 2-2 y construya una distribución de frecuencias relativas usando intervalos de 4.0 lb/pulg2. ¿Qué se puede concluir a partir de esta distribución? 2-19 La Oficina de Estadística Laboral ha definido una muestra de 30 comunidades de todo Estados Unidos y compiló los precios de productos básicos en cada comunidad al principio y al final del mes de agosto, con el fin de encontrar cuánto ha variado aproximadamente el Índice de Precios al Consumidor (IPC) (CPI, Consumer Price Index) durante ese mes. Los cambios porcentuales en los precios para las 30 comunida- des son: 0.7 0.4 0.3 0.2 0.1 0.1 0.3 0.7 0.0 0.4 0.1 0.5 0.2 0.3 1.0 0.3 0.0 0.2 0.5 0.1 0.5 0.3 0.1 0.5 0.4 0.0 0.2 0.3 0.5 0.4 a) Ordene los datos en un arreglo ascendente. b) Utilizando las siguientes cuatro clases de igual tamaño, construya una distribución de frecuencias: 0.5 a 0.2, 0.1 a 0.2, 0.3 a 0.6 y 0.7 a 1.0. c) ¿Cuántas comunidades tienen precios que no han cambiado o que se han incrementado en menos de 1.0%? d) ¿Son estos datos continuos o discretos? 2-20 Sarah Anne Ralpp, presidenta de Baggit, Inc., acaba de obtener algunos datos sin procesar de una inves- tigación de mercado que su compañía hizo recientemente. La investigación se llevó a cabo para determi- nar la efectividad del nuevo lema publicitario de la empresa, “Cuando termine con todo, ¡embólselo!” Pa- ra determinar el efecto del lema sobre las ventas de los empaques Embólselo para comida, se interrogó a 20 personas respecto a cuántos empaques compraba mensualmente antes de conocer el lema publicitario y cuántos compra después que éste se utilizó en una campaña. Los resultados fueron los siguientes: Antes/Después Antes/Después Antes/Después Antes/Después 4 3 2 1 5 6 8 10 4 6 6 9 2 7 1 3 1 5 6 7 6 8 4 3 3 7 5 8 8 4 5 7 5 5 3 6 3 5 2 2 a) Construya las distribuciones de frecuencias simples y relativas para las respuestas dadas “antes”, uti- lizando como clases los intervalos 1 a 2, 3 a 4, 5 a 6, 7 a 8 y 9 a 10. b) Haga lo mismo que en el inciso anterior para los datos de “después”. c) Mencione la razón fundamental por la cual tiene sentido utilizar las mismas clases para ambos tipos de respuestas, “antes” y “después”. d) Para cada pareja de respuestas “antes/después”, reste la respuesta “antes” de la respuesta “después” para obtener el número que llamaremos “cambio” (ejemplo: 3 4 1), y construya ambas distri- buciones de frecuencias, simples y relativas, para la categoría “cambio”, utilizando las clases 5 a 4, 3 a 2, 1 a 0, 1 a 2, 3 a 4 y 5 a 6. e) Con base en su análisis, establezca si el nuevo lema publicitario ha contribuido a las ventas, e indique una o dos razones que sustenten su conclusión. 2-21 A continuación presentamos las edades de 30 personas que compraron grabadoras de video en la tienda de música Symphony durante la semana pasada: 26 Capítulo 2 Agrupación y presentación de datos para expresar significados: tablas y gráficas 26 37 40 18 14 45 32 68 31 37 20 32 15 27 46 44 62 58 30 42 22 26 44 41 34 55 50 63 29 22 a) A partir de una observación de los datos como se presentan, ¿a qué conclusiones puede llegar rápida- mente acerca del mercado de Symphony? b) Construya una clasificación cerrada de seis categorías. ¿Esta clasificación le permite llegar a alguna con- clusión adicional sobre el mercado de Symphony? 2-22 Utilice los datos del ejercicio 2-21. a) Construya una clasificación de extremo abierto de cinco categorías. ¿Esta clasificación le permite lle- gar a alguna otra conclusión acerca del mercado de Symphony? b) Construya ahora una distribución de frecuencias relativas que corresponda a la clasificación de extre- mo abierto de cinco categorías. ¿Esta distribución le proporciona a Symphony información adicional útil acerca de su mercado? ¿Por qué? 2-23 John Lyon, dueño de la tienda de alimentos Fowler’s de Chapel Hill, Carolina del Norte, tiene organiza- das las compras que le hicieron sus clientes durante la semana anterior en la siguiente distribución de fre- cuencias: Cant. gastada Frecuencia 0.00- 0.99 1,050 1.00- 3.99 1,240 4.00- 6.99 1,300 7.00- 9.99 1,460 10.00-12.99 1,900 13.00-15.99 1,050 16.00-18.99 1,150 19.00-21.99 980 22.00-24.99 830 25.00-27.99 780 28.00-30.99 760 31.00-33.99 720 34.00-36.99 610 37.00-39.99 420 40.00-42.99 280 43.00-45.99 100 46.00-48.99 90 John dice que es incómodo tener 17 intervalos, cada uno definido por dos números. ¿Puede usted sugerir cómo simplificar la clasificación de los datos sin perder demasiado su valor? 2-24 A continuación puede ver los puntos medios de los intervalos de una distribución de frecuencias que re- presenta el tiempo en minutos que tardaron los miembros del equipo de atletismo de una universidad en recorrer ocho kilómetros a campo traviesa. 25 35 45 a) ¿Diría que el entrenador puede obtener información suficiente a partir de estos puntos medios para ayudar al equipo? b) Si la respuesta al inciso anterior es “no”, ¿cuántos intervalos parecerían los apropiados? 2-25 Barney Mason examinó la cantidad de desperdicio de papas fritas (en libras) durante los últimos 6 meses en Universal Burger y creó la siguiente distribución de frecuencias: Desperdicio de papas fritas en libras Frecuencia