Probabilidad y Estadistica para Ingeniería y Ciencias PDF
Document Details
Uploaded by SuperiorCombinatorics7621
Universidad César Vallejo
Jay L. Devore
Tags
Related
- Statistical Tables PDF
- 1588490822-walpole-probability-statistics-for-engineers-scientists-9th-edition.pdf
- Probability & Statistics 2024-2025 PDF
- Probability & Statistics for Engineers & Scientists PDF
- Noida Institute of Engineering and Technology Statistics & Probability BAS0303 PDF
- Devore Solutions Ed9 PDF
Summary
This textbook covers probability and statistics for engineering and science students. It includes topics such as descriptive statistics, probability, discrete and continuous random variables, and inferential statistics. The textbook is the seventh edition and was written by Jay L. Devore.
Full Transcript
Devore.pdf 12/3/08 10:13:56 00Ander(i-xxviii).qxd 2/29/08 10:41 AM Page iv Prels_p00i-xvi.qxd 3/12/08 10:17 AM Page i SÉPTIMA EDICIÓN Probabilidad y Estadística para Ingenierí...
Devore.pdf 12/3/08 10:13:56 00Ander(i-xxviii).qxd 2/29/08 10:41 AM Page iv Prels_p00i-xvi.qxd 3/12/08 10:17 AM Page i SÉPTIMA EDICIÓN Probabilidad y Estadística para Ingeniería y Ciencias Prels_p00i-xvi.qxd 3/12/08 10:17 AM Page ii Prels_p00i-xvi.qxd 3/12/08 10:17 AM Page iii SÉPTIMA EDICIÓN Probabilidad y Estadística para Ingeniería y Ciencias JAY L. DEVORE California Polytechnic State University, San Luis Obispo Traducción Jorge Humberto Romo Traductor profesional Revisión Técnica A. Leonardo Bañuelos Saucedo Profesor de carrera titular Facultad de Ingeniería Universidad Nacional Autónoma de México Australia Brasil Corea España Estados Unidos Japón México Singapur Reino Unido Prels_p00i-xvi.qxd 3/12/08 10:17 AM Page iv Probabilidad y Estadística para © D.R. 2008 por Cengage Learning Editores, Ingeniería y Ciencias S.A. de C.V., Séptima edición una Compañía de Cengage Learning, Inc. Jay L. Devore Corporativo Santa Fe Av. Santa Fe núm. 505, piso 12 Presidente de Cengage Learning Col. Cruz Manca, Santa Fe Latinoamérica: C.P. 05349, México, D.F. Javier Arellano Gutiérrez Cengage Learning™ es una marca registrada usada bajo permiso. Director general México y Centroamérica: DERECHOS RESERVADOS. Ninguna parte de Héctor Enrique Galindo Iturribarría este trabajo amparado por la Ley Federal del Derecho de Autor, podrá ser reproducida, Director editorial Latinoamérica: transmitida, almacenada o utilizada en José Tomás Pérez Bonilla cualquier forma o por cualquier medio, ya sea gráfico, electrónico o mecánico, incluyendo, Director de producción: pero sin limitarse a lo siguiente: fotocopiado, Raúl D. Zendejas Espejel reproducción, escaneo, digitalización, grabación en audio, distribución en Internet, Editor: distribución en redes de información o Sergio R. Cervantes González almacenamiento y recopilación en sistemas de información a excepción de lo permitido en Editora de producción: el Capítulo III, Artículo 27 de la Ley Federal del Abril Vega Orozco Derecho de Autor, sin el consentimiento por escrito de la Editorial. Ilustrador: Lori Heckelman / Graphic World, International Typesetting and Composition Traducido del libro Probability and Statistics for Engineering and the Sciences. Seventh Edition. Diseño de portada: Publicado en inglés por Brooks/Cole © 2008 Grupo Insigne OTA S. A. de C. V. ISBN: 0-495-38217-5 Datos para catalogación bibliográfica: Composición tipográfica: Devore, Jay L. Probabilidad y Estadística para EDITEC, S.A. de C.V Ingeniería y Ciencias. Séptima edición. ISBN-13: 978-607-481-338-8 ISBN-10: 607-481-338-8 Visite nuestro sitio en: http://latinoamerica.cengage.com Prels_p00i-xvi.qxd 3/12/08 10:17 AM Page v A mi esposa Carol: Su esmero en la enseñanza es una continua inspiración para mí. A mis hijas, Allison y Teresa: Con gran orgullo admito sus logros que no conocen ningún límite. v Prels_p00i-xvi.qxd 3/12/08 10:17 AM Page vi Prels_p00i-xvi.qxd 3/12/08 10:17 AM Page vii Contenido 1 Generalidades y estadística descriptiva Introducción 1 1.1 Poblaciones, muestras y procesos 2 1.2 Métodos pictóricos y tabulares en la estadística descriptiva 10 1.3 Medidas de localización 24 1.4 Medidas de variabilidad 31 Ejercicios suplementarios 42 Bibliografía 45 2 Probabilidad Introducción 46 2.1 Espacios muestrales y eventos 47 2.2 Axiomas, interpretaciones y propiedades de probabilidad 51 2.3 Técnicas de conteo 59 2.4 Probabilidad condicional 67 2.5 Independencia 76 Ejercicios suplementarios 82 Bibliografía 85 3 Variables aleatorias discretas y distribuciones de probabilidad Introducción 86 3.1 Variables aleatorias 87 3.2 Distribuciones de probabilidad para variables aleatorias discretas 90 3.3 Valores esperados 100 3.4 Distribución de probabilidad binomial 108 3.5 Distribuciones hipergeométricas y binomiales negativas 116 3.6 Distribución de probabilidad de Poisson 121 Ejercicios suplementarios 126 Bibliografía 129 vii Prels_p00i-xvi.qxd 3/12/08 10:17 AM Page viii viii Contenido 4 Variables aleatorias continuas y distribuciones de probabilidad Introducción 130 4.1 Funciones de densidad de probabilidad 131 4.2 Funciones de distribución acumulativa y valores esperados 136 4.3 Distribución normal 144 4.4 Distribuciones exponencial y gama 157 4.5 Otras distribuciones continuas 163 4.6 Gráficas de probabilidad 170 Ejercicios suplementarios 179 Bibliografía 183 5 Distribuciones de probabilidad conjunta y muestras aleatorias Introducción 184 5.1 Variables aleatorias conjuntamente distribuidas 185 5.2 Valores esperados, covarianza y correlación 196 5.3 Estadísticos y sus distribuciones 202 5.4 Distribución de la media muestral 213 5.5 Distribución de una combinación lineal 219 Ejercicios suplementarios 224 Bibliografía 226 6 Estimación puntual Introducción 227 6.1 Algunos conceptos generales de estimación puntual 228 6.2 Métodos de estimación puntual 243 Ejercicios suplementarios 252 Bibliografía 253 7 Intervalos estadísticos basados en una sola muestra Introducción 254 7.1 Propiedades básicas de los intervalos de confianza 255 7.2 Intervalos de confianza de muestra grande para una media y proporción de población 263 Prels_p00i-xvi.qxd 3/12/08 10:17 AM Page ix Contenido ix 7.3 Intervalos basados en una distribución de población normal 270 7.4 Intervalos de confianza para la varianza y desviación estándar de una población normal 278 Ejercicios suplementarios 281 Bibliografía 283 8 Pruebas de hipótesis basadas en una sola muestra Introducción 284 8.1 Hipótesis y procedimientos de prueba 285 8.2 Pruebas sobre una media de población 294 8.3 Pruebas relacionadas con una proporción de población 306 8.4 Valores P 311 8.5 Algunos comentarios sobre la selección de una prueba 318 Ejercicios suplementarios 321 Bibliografía 324 9 Inferencias basadas en dos muestras Introducción 325 9.1 Pruebas z e intervalos de confianza para una diferencia entre dos medias de población 326 9.2 Prueba t con dos muestras e intervalo de confianza 336 9.4 Inferencias sobre una diferencia entre proporciones de población 353 9.5 Inferencias sobre dos varianzas de población 360 Ejercicios suplementarios 364 Bibliografía 368 10 Análisis de la varianza Introducción 369 10.1 ANOVA unifactorial 370 10.2 Comparaciones múltiples en ANOVA 379 10.3 Más sobre ANOVA unifactorial 385 Ejercicios suplementarios 395 Bibliografía 396 Prels_p00i-xvi.qxd 3/12/08 10:17 AM Page x x Contenido 11 Análisis de varianza con varios factores Introducción 397 11.1 ANOVA bifactorial con Kij 1 398 11.2 ANOVA bifactorial con Kij 1 410 11.3 ANOVA con tres factores 419 11.4 Experimentos 2p factoriales 429 Ejercicios suplementarios 442 Bibliografía 445 12 Regresión lineal simple y correlación Introducción 446 12.1 Modelo de regresión lineal simple 447 12.2 Estimación de parámetros de modelo 454 12.3 Inferencias sobre el parámetro de pendiente 1 468 12.4 Inferencias sobre Yx* y predicción de valores Y futuros 477 12.5 Correlación 485 Ejercicios suplementarios 494 Bibliografía 499 13 Regresión múltiple y no lineal Introducción 500 13.1 Aptitud y verificación del modelo 501 13.2 Regresión con variables transformadas 508 13.3 Regresión con polinomios 519 13.4 Análisis de regresión múltiple 528 13.5 Otros problemas en regresión múltiple 550 Ejercicios suplementarios 562 Bibliografía 567 14 Pruebas de bondad de ajuste y análisis de datos categóricos Introducción 568 14.1 Pruebas de bondad de ajuste cuando las probabilidades categóricas se satisfacen por completo 569 14.2 Pruebas de bondad de ajuste para hipótesis compuestas 576 Prels_p00i-xvi.qxd 3/12/08 10:17 AM Page xi Contenido xi 14.3 Tablas de contingencia mutuas (o bidireccionales) 587 Ejercicios suplementarios 595 Bibliografía 598 15 Procedimientos sin distribución Introducción 599 15.1 La prueba Wilcoxon de rango con signo 600 15.2 Prueba Wilcoxon de suma de rangos 608 15.3 Intervalos de confianza sin distribución 614 15.4 ANOVA sin distribución 618 Ejercicios suplementarios 622 Bibliografía 624 16 Métodos de control de calidad Introducción 625 16.1 Comentarios generales sobre gráficas de control 626 16.2 Gráficas de control para ubicación de proceso 627 16.3 Gráficas de control para variación de proceso 637 16.4 Gráficas de control para atributos 641 16.5 Procedimientos CUSUM 646 16.6 Muestreo de aceptación 654 Ejercicios suplementarios 660 Bibliografía 661 Apéndice/Tablas A.1 Distribuciones binomiales acumulativas 664 A.2 Distribuciones acumulativas de Poisson 666 A.3 Áreas de la Curva normal estándar 668 A.4 La Función Gamma incompleta 670 A.5 Valores críticos para Distribuciones t 671 A.6 Valores críticos de tolerancia para distribuciones normales de población 672 A.7 Valores críticos para distribuciones chi-cuadrada 673 A.8 Curva t para áreas de cola 674 A.9 Valores críticos para distribuciones F 676 A.10 Valores críticos para distribuciones de rango estudentizado 682 Prels_p00i-xvi.qxd 3/12/08 10:17 AM Page xii xii Contenido A.11 Curvas chi-cuadrada para áreas de cola 683 A.12 Valores críticos para la prueba de normalidad Ryan-Joiner 685 A.13 Valores críticos para la prueba Wilcoxon de rangos con signo 686 A.14 Valores críticos para la prueba Wilcoxon de suma de rangos 687 A.15 Valores críticos para el intervalo Wilcoxon de rangos con signo 688 A.16 Valores críticos para el intervalo Wilcoxon de suma de rangos 689 A.17 Curvas para pruebas t 690 Respuestas a ejercicios seleccionados de número impar 691 Índice 710 Prels_p00i-xvi.qxd 3/12/08 10:17 AM Page xiii Prefacio Propósito El uso de modelos de probabilidad y métodos estadísticos para analizar datos se ha conver- tido en una práctica común en virtualmente todas las disciplinas científicas. Este libro pre- tende introducir con amplitud aquellos modelos y métodos que con mayor probabilidad se encuentran y utilizan los estudiantes en sus carreras de ingeniería y las ciencias naturales. Aun cuando los ejemplos y ejercicios se diseñaron pensando en los científicos e ingenieros, la mayoría de los métodos tratados son básicos en los análisis estadísticos en muchas otras disciplinas, por lo que los estudiantes de las ciencias administrativas y sociales también se beneficiarán con la lectura del libro. Enfoque Los estudiantes de un curso de estadística diseñado para servir a otras especialidades de es- tudio al principio es posible que duden del valor pertinencia de la materia, pero mi experien- cia es que los estudiantes pueden ser conectados a la estadística con el uso de buenos ejemplos y ejercicios que combinen sus experiencias diarias con sus intereses científicos. Así pues, he trabajado duro para encontrar ejemplos reales y no artificiales, que alguien pen- só que valía la pena recopilar y analizar. Muchos de los métodos presentados, sobre todo en los últimos capítulos sobre inferencia estadística, se ilustran analizando datos tomados de una fuente publicada y muchos de los ejercicios también implican trabajar con dichos da- tos. En ocasiones es posible que el lector no esté familiarizado con el contexto de un pro- blema particular (como muchas veces yo lo estuve), pero me di cuenta que los problemas reales atraen más a los estudiantes con un contexto un tanto extraño que por problemas de- finitivamente artificiales en un entorno conocido. Nivel matemático La exposición es relativamente modesta en función de desarrollo matemático. El uso sus- tancial del cálculo se hace sólo en el capítulo 4 y en partes de los capítulos 5 y 6. En par- ticular, con excepción de una observación o nota ocasional, el cálculo aparece en la parte de inferencia del libro sólo en la segunda sección del capítulo 6. No se utiliza álgebra matricial en absoluto. Por lo tanto, casi toda la exposición deberá ser accesible para aquellos cuyo co- nocimiento matemático incluye un semestre o dos trimestres de cálculo diferencial e in- tegral. Contenido El capítulo 1 se inicia con algunos conceptos y terminología básicos (población, muestra, estadística descriptiva e inferencial, estudios enumerativos contra analíticos, y así sucesiva- mente) y continúa con el estudio de métodos descriptivos gráficos y numéricos importantes. En el capítulo 2 se ofrece el desarrollo un tanto tradicional de la probabilidad, seguido por distribuciones de probabilidad de variables aleatorias continuas y discretas en los capítulos 3 y 4, respectivamente. Las distribuciones conjuntas y sus propiedades se analizan en la pri- mera parte del capítulo 5. La última parte de este capítulo introduce la estadística y sus dis- tribuciones muestrales, las cuales constituyen el puente entre probabilidad e inferencia. Los siguientes tres capítulos se ocupan de la estimación puntual, los intervalos estadísticos y la comprobación de hipótesis basados en una muestra única. Los métodos de inferencia que implican dos muestras independientes y datos apareados se presentan en el capítulo 9. El análisis de la varianza es el tema de los capítulos 10 y 11 (unifactorial y multifactorial, xiii Prels_p00i-xvi.qxd 3/12/08 10:17 AM Page xiv xiv Prefacio respectivamente). La regresión aparece por primera vez en el capítulo 12 (el modelo de re- gresión lineal simple y correlación) y regresa para una amplia repetición en el capítulo 13. Los últimos tres capítulos analizan métodos de ji cuadrada, procedimientos sin distribución (no paramétricos) y técnicas de control de calidad estadístico. Ayuda para el aprendizaje de los estudiantes Aunque el nivel matemático del libro representará poca dificultad para la mayoría de los es- tudiantes de ciencia e ingeniería, es posible que el trabajo dirigido hacia la comprensión de los conceptos y apreciación del desarrollo lógico de la metodología en ocasiones requiera un esfuerzo sustancial. Para ayudar a que los estudiantes ganen en comprensión y aprecia- ción he proporcionado numerosos ejercicios de dificultad variable desde muchos que impli- can la aplicación rutinaria del material incluido en el texto hasta algunos que piden al lector que extienda los conceptos analizados en el texto a situaciones un tanto nuevas. Existen mu- chos ejercicios que la mayoría de los profesores desearía asignar durante cualquier curso particular, pero recomiendo que se les pida a los estudiantes que resuelvan un número sus- tancial de ellos; en una disciplina de solución de problemas, el compromiso activo de esta clase es la forma más segura de identificar y cerrar las brechas en el entendimiento que ine- vitablemente surgen. Las respuestas a la mayoría de los ejercicios impares aparecen en la sección de respuestas al final del texto. Además, está disponible un Manual de Soluciones para el Estudiante, que incluye soluciones resueltas de casi todos los ejercicios de número impar. Nuevo en esta edición Ejercicios y ejemplos nuevos, muchos basados en fuentes publicadas que incluyen datos reales. Algunos de los ejercicios permiten una interpretación más amplia de los ejerci- cios tradicionales que incluyen cuestiones muy específicas y algunos de éstos implican material de las primeras secciones y capítulos. El material de los capítulos 2 y 3 sobre propiedades de probabilidad, conteo y tipos de va- riables aleatorias se reescribió para alcanzar una mayor claridad. La sección 3.6 sobre la distribución de Poisson ha sido revisada, incluido el material nue- vo sobre la aproximación de Poisson a la distribución binomial y la reorganización de la subsección sobre procesos de Poisson. El material de la sección 4.4 sobre distribuciones gama y exponencial ha sido reordenado de tal suerte que las segundas aparecen antes que las primeras. Esto es muy conveniente para aquellos que desean abordar la distribución exponencial y evitar la distribución gama. Una breve introducción al error en la media de los cuadrados en la sección 6.1 ahora apa- rece como ayuda para motivar la propiedad de insesgabilidad y se da un ejemplo nuevo que ilustra la posibilidad de tener más de un solo estimador insesgado razonable. Existe un énfasis disminuido en los cálculos manuales en el ANOVA multifactorial para reflejar el hecho de que ahora hay software apropiado ampliamente disponible y ahora se incluyen gráficas residuales para verificar suposiciones de modelo. Se han realizado miles de pequeños cambios en la redacción a lo largo del libro para me- jorar las explicaciones y pulir la exposición. El sitio web incluye applets Java™ creados por Gary McClelland, específicamente para este texto basado en el cálculo, así como también conjuntos de datos tomados del texto principal. WebAssign, el sistema de asignación de tareas más ampliamente utilizado en la educación superior, permite asignar, reunir, calificar y registrar tareas vía la web. Este comprobado sistema de asignación de tareas ha sido mejorado para incluir vínculos al contenido espe- cífico del texto, ejemplos de video y tutoriales propios del problema. Disponible para es- te libro, Enhanced WebAssign es más que un sistema de asignación de tareas; es un completo sistema de aprendizaje para los estudiantes. Prels_p00i-xvi.qxd 3/12/08 10:17 AM Page xv Prefacio xv Material de apoyo para el profesor Este libro cuenta con una serie de recursos para el profesor, los cuales están disponibles en el inglés y sólo se proporcionan a los docentes que lo adopten como texto en sus cursos. Para mayor información, póngase en contacto con el área de servicio a clientes en las siguientes direcciones de correo electrónico: Cengage Learning México y Centroamérica [email protected] Cengage Learning Caribe [email protected] Cengage Learning Cono Sur [email protected] Cengage Learning Paraninfo [email protected] Cengage Learning Pacto Andino [email protected] Los recursos disponibles se encuentran en el sitio web del libro: http: //latinoamerica.cengage.com/devore Las direcciones de los sitios web referidas en el texto no son administradas por Cengage Learning Latinoamérica, por lo que ésta no es responsable de los cambios o actualizaciones de las mismas. Reconocimentos Mis colegas en Cal Poly me proporcionaron apoyo y retroalimentación invaluables durante el curso de los años. También agradezco a los muchos usuarios de ediciones previas que me sugirieron mejoras (y en ocasiones errores identificados). Una nota especial de agradecimien- to va para Matt Carlton por su trabajo en los dos manuales de soluciones, uno para profeso- res y el otro para estudiantes. Y me he beneficiado mucho de un diálogo que tuve con Doug Bates sobre el contenido, aun cuando no siempre he estado de acuerdo con sus muy preca- vidas sugerencias. La generosa retroalimentación provista por los siguientes revisores de ésta y previas ediciones, ha sido de mucha ayuda para mejorar el libro: Robert L. Armacost, University of Central Florida; Bill Bade, Lincoln Land Community College; Douglas M. Bates, Univer- sity of Wisconsin-Madison; Michael Berry, West Virginia Wesleyan College; Brian Bow- man, Auburn University; Linda Boyle, University of lowa; Ralph Bravaco, Stonehill College; Linfield C. Brown, Tufts University; Karen M. Bursic, University of Pittsburgh; Lynne Butler, Haverford College; Raj S. Chhikara, University of Houston-Clear Lake; Ed- win Chong, Colorado State University; David Clark, California State Polytechnic Univer- sity en Pomona; Ken Constantine, Taylor University; David M. Cresap, University of Portland; Savas Dayanik, Princeton University; Don E. Deal, University of Houston; Ann- janette M. Dodd, Humboldt State University; Jimmy Doi, California Polytechnic State Uni- versity-San Luis Obispo; Charles E. Donaghey, University of Houston; Patrick J. Driscoll, U.S. Military Academy; Mark Duva, University of Virginia; Nassir Eltinay, Lincoln Land Community College; Thomas English, College of the Mainland; Nasser S. Fard, Northeas- tern University; Ronald Fricker, Naval Postgraduate School; Steven T. Garren, James Madi- son University; Harland Glaz, University of Maryland; Ken Grace, Anoka-Ramsey Community College; Celso Grebogi, University of Maryland; Veronica Webster Griffis, Mi- chigan Technological University; Jose Guardiola, Texas A&M University-Corpus Christi; K.L.D. Gunawardena, University of Wisconsin-Oshkosh; James J. Halavin, Rochester Institute of Technology; James Hartman, Marymount University; Tyler Haynes, Saginaw Valley State University; Jennifer Hoeting, Colorado State University; Wei-Min Huang, Lehigh University; Roger W. Johnson, South Dakota School of Mines & Technology; Chih- wa Kao, Syracuse University; Saleem A. Kassam, University of Pennsylvania; Mohammad T. Khasawneh, State University of NewYork-Binghamton; Stephen Kokoska, Colgate Uni- versity; Sarah Lam, Binghamton University; M. Louise Lawson, Kennesaw State Univer- sity; Jialiang Li, University of Wisconsin-Madison; Wooi K. Lim, William Paterson Prels_p00i-xvi.qxd 3/12/08 10:17 AM Page xvi xvi Prefacio University; Aquila Lipscomb, The Citadel; Manuel Lladser, University of Colorado en Boulder; Graham Lord, University of Califomia-Los Angeles; Joseph L. Macaluso, DeSales University; Ranjan Maitra, Iowa State University; David Mathiason, Rochester Institute of Technology; Arnold R. Miller, University of Denver; John J. Millson, University of Mary- land; Pamela Kay Miltenberger, West Virginia Wesleyan College; Monica Molsee, Portland State University; Thomas Moore, Naval Postgraduate School; Robert M. Norton, College of Charleston; Steven Pilnick, Naval Postgraduate School; Robi Polikar, Rowan University; Ernest Pyle, Houston Baptist University; Steve Rein, California Polytechnic State Uni- versity-San Luis Obispo; Tony Richardson, University of Evansville; Don Ridgeway, North Carolina State University; Larry J. Ringer, Texas A&M University; Robert M. Schumacher, Ce- darville University; Ron Schwartz, Florida Atlantic University; Kevan Shafizadeh, California State University-Sacramento; Robert K. Smidt, California Polytechnic State University-San Luis Obispo; Alice E. Smith, Auburn University; James MacGregor Smith, University of Massachusetts; Paul J. Smith, University of Maryland; Richard M. Soland, The George Washington University; Clifford Spiegelman, Texas A&M University; Jery Stedinger, Cor- nell University; David Steinberg, Tel Aviv University; William Thistleton, State University of New York Institute of Technology; G. Geoffrey Vining, University of Florida; Bhutan Wadhwa, Cleveland State University; Elaine Wenderholm, State University of New York- Oswego; Samuel P. Wilcock, Messiah College; Michael G. Zabetakis, University of Pitts- burgh y Maria Zack, Point Loma Nazarene University. Gracias a Merrill Peterson y sus colegas en Matrix Productions por hacer el proce- so de producción lo menos embarazoso posible. Una vez más me siento obligado a expresar mi gratitud a todas las personas que han hecho importantes contribuciones a lo largo de sie- te ediciones del libro. En particular, Carolyn Crockett ha sido tanto una editora de primera clase como una buena amiga. Jennifer Risden, Joseph Rogove, Ann Day, Elizabeth Gersh- man y Ashley Summers merecen una mención especial por sus recientes esfuerzos. También deseo extender mi aprecio a los cientos de representantes de ventas quienes durante los úl- timos 20 años han predicado hábilmente el evangelio sobre este libro y otros que he escri- to. Por último pero no menos importante, un sincero agradecimiento a mi esposa Carol por tolerar mi programa de trabajo y mis frecuentes y demasiadas quejas a lo largo de mi carre- ra de escritor. Jay Devore c1_p001-045.qxd 3/12/08 2:31 AM Page 1 Generalidades y 1 estadística descriptiva INTRODUCCIÓN Los conceptos y métodos estadísticos no son sólo útiles sino que con frecuencia son in- dispensables para entender el mundo que nos rodea. Proporcionan formas de obtener ideas nuevas del comportamiento de muchos fenómenos que se presentarán en su campo de especialización escogido en ingeniería o ciencia. La disciplina de estadística nos enseña cómo realizar juicios inteligentes y tomar decisiones informadas entre la presencia de incertidumbre y variación. Sin incerti- dumbre y variación, habría poca necesidad de métodos estadísticos o de profesionales en estadística. Si cada componente de un tipo particular tuviera exactamente la mis- ma duración, si todos los resistores producidos por un fabricante tuvieran el mismo valor de resistencia, si las determinaciones del pH en muestras de suelo de un lugar particular dieran resultados idénticos, y así sucesivamente, entonces una sola obser- vación revelaría toda la información deseada. Una importante manifestación de variación surge en el curso de la medición de emisiones en vehículos automotores. Los requerimientos de costo y tiempo del Fede- ral Test Procedure (FTP, por sus siglas en inglés) impiden su uso generalizado en pro- gramas de inspección de vehículos. En consecuencia, muchas agencias han creado pruebas menos costosas y más rápidas, las que se espera reproduzcan los resultados obtenidos con el FTP. De acuerdo con el artículo “Motor Vehicle Emissions Variabi- lity” (J. of the Air and Waste Mgmt. Assoc., 1996: 667-675), la aceptación del FTP como patrón de oro ha llevado a la creencia ampliamente difundida de que las me- diciones repetidas en el mismo vehículo conducirían a resultados idénticos (o casi idénticos). Los autores del artículo aplicaron el FTP a siete vehículos caracterizados como “altos emisores”. He aquí los resultados de uno de los vehículos. HC (g/milla) 13.8 18.3 32.2 32.5 CO (g/milla) 118 149 232 236 1 c1_p001-045.qxd 3/12/08 2:31 AM Page 2 2 CAPÍTULO 1 Generalidades y estadística descriptiva La variación sustancial en las mediciones tanto de HC como de CO proyecta una du- da considerable sobre la sabiduría convencional y hace mucho más difícil realizar eva- luaciones precisas sobre niveles de emisiones. ¿Cómo se pueden utilizar técnicas estadísticas para reunir información y sacar conclusiones? Supóngase, por ejemplo, que un ingeniero de materiales inventó un re- cubrimiento para retardar la corrosión en tuberías de metal en circunstancias específi- cas. Si este recubrimiento se aplica a diferentes segmentos de la tubería, la variación de las condiciones ambientales y de los segmentos mismos producirá más corrosión sus- tancial en algunos segmentos que en otros. Se podría utilizar un análisis estadístico en datos de dicho experimento para decidir si la cantidad promedio de corrosión excede un límite superior especificado de alguna clase o para predecir cuánta corrosión ocu- rrirá en una sola pieza de tubería. Por otra parte, supóngase que el ingeniero inventó el recubrimiento con la creen- cia de que será superior al recubrimiento actualmente utilizado. Se podría realizar un experimento comparativo para investigar esta cuestión aplicando el recubrimiento ac- tual a algunos segmentos de la tubería y el nuevo a otros segmentos. Esto debe reali- zarse con cuidado o se obtendrá una conclusión errónea. Por ejemplo, tal vez la cantidad promedio de corrosión sea idéntica con los dos recubrimientos. Sin embargo, el recubrimiento nuevo puede ser aplicado a segmentos que tengan una resistencia su- perior a la corrosión y en condiciones ambientales severas en comparación con los seg- mentos y condiciones del recubrimiento actual. El investigador probablemente observaría entonces una diferencia entre los dos recubrimientos atribuibles no a los recubrimien- tos mismos, sino sólo a variaciones extrañas. La estadística ofrece no sólo métodos para analizar resultados de experimentos una vez que se han realizado sino también suge- rencias sobre cómo pueden realizarse los experimentos de una manera eficiente para mitigar los efectos de variación y tener una mejor oportunidad de llegar a conclusiones correctas. 1.1 Poblaciones, muestras y procesos Los ingenieros y científicos constantemente están expuestos a la recolección de hechos o datos, tanto en sus actividades profesionales como en sus actividades diarias. La disciplina de estadística proporciona métodos de organizar y resumir datos y de sacar conclusiones ba- sadas en la información contenida en los datos. Una investigación típicamente se enfocará en una colección bien definida de objetos que constituyen una población de interés. En un estudio, la población podría consistir de todas las cápsulas de gelatina de un tipo particular producidas durante un periodo específi- co. Otra investigación podría implicar la población compuesta de todos los individuos que recibieron una licenciatura de ingeniería durante el año académico más reciente. Cuando la información deseada está disponible para todos los objetos de la población, se tiene lo que se llama un censo. Las restricciones de tiempo, dinero y otros recursos escasos casi siem- pre hacen que un censo sea impráctico o infactible. En su lugar, se selecciona un subcon- junto de la población, una muestra, de manera prescrita. Así pues, se podría obtener una c1_p001-045.qxd 3/12/08 2:31 AM Page 3 1.1 Poblaciones, muestras y procesos 3 muestra de cojinetes de una corrida de producción particular como base para investigar si los cojinetes se ajustan a las especificaciones de fabricación, o se podría seleccionar una muestra de los graduados de ingeniería del último año para obtener retroalimentación sobre la calidad de los programas de estudio de ingeniería. Por lo general, existe interés sólo en ciertas características de los objetos en una po- blación: el número de grietas en la superficie de cada recubrimiento, el espesor de cada pa- red de cápsula, el género de un graduado de ingeniería, la edad a la cual el individuo se graduó, y así sucesivamente. Una característica puede ser categórica, tal como el género o tipo de funcionamiento defectuoso o puede ser de naturaleza numérica. En el primer caso, el valor de la característica es una categoría (p. ej., femenino o soldadura insuficiente), mientras que en el segundo caso, el valor es un número (p. ej., edad 23 años o diámetro 0.502 cm). Una variable es cualquier característica cuyo valor puede cambiar de un ob- jeto a otro en la población. Inicialmente las letras minúsculas del alfabeto denotarán las va- riables. Algunos ejemplos incluyen: x marca de la calculadora de un estudiante y número de visitas a un sitio web particular durante un periodo específico z distancia de frenado de un automóvil en condiciones específicas Se obtienen datos al observar o una sola variable o en forma simultánea dos o más varia- bles. Un conjunto de datos univariantes se compone de observaciones realizadas en una so- la variable. Por ejemplo, se podría determinar el tipo de transmisión automática (A) o manual (M) en cada uno de diez automóviles recientemente adquiridos en cierto concesio- nario y el resultado sería el siguiente conjunto de datos categóricos M A A A M A A M A A La siguiente muestra de duraciones (horas) de baterías D puestas en cierto uso es un con- junto de datos numéricos univariantes: 5.6 5.1 6.2 6.0 5.8 6.5 5.8 5.5 Se tienen datos bivariantes cuando se realizan observaciones en cada una de dos variables. El conjunto de datos podría consistir en un par (altura, peso) por cada jugador integrante del equipo de básquetbol, con la primera observación como (72, 168), la segunda como (75, 212), y así sucesivamente. Si un ingeniero determina el valor tanto de x componente de duración y y razón de la falla del componente, el conjunto de datos resultante es bivarian- te con una variable numérica y la otra categórica. Los datos multivariantes surgen cuando se realizan observaciones en más de una variable (por lo que bivariante es un caso especial de multivariante). Por ejemplo, un médico investigador podría determinar la presión sanguí- nea sistólica, la presión sanguínea diastólica y nivel de colesterol en suero de cada pacien- te participante en un estudio. Cada observación sería un triple de números, tal como (120, 80, 146). En muchos conjuntos de datos multivariantes, algunas variables son numéricas y otras son categóricas. Por lo tanto, el número anual dedicado al automóvil de Consumer Reports da valores de tales variables como tipo de vehículo (pequeño, deportivo, compacto, tamaño mediano, grande), eficiencia de consumo de combustible en la ciudad (mpg), efi- ciencia de consumo de combustible en carretera (mpg), tipo de tren motriz (ruedas traseras, ruedas delanteras, cuatro ruedas), etcétera. Ramas de la estadística Es posible que un investigador que ha recopilado datos desee resumir y describir caracterís- ticas importantes de los mismos. Esto implica utilizar métodos de estadística descriptiva. Algunos de ellos son de naturaleza gráfica; la construcción de histogramas, diagramas de caja y gráficas de puntos son ejemplos primordiales. Otros métodos descriptivos implican c1_p001-045.qxd 3/12/08 2:31 AM Page 4 4 CAPÍTULO 1 Generalidades y estadística descriptiva el cálculo de medidas numéricas, tales como medias, desviaciones estándar y coeficientes de correlación. La amplia disponibilidad de programas de computadora estadísticos han he- cho que estas tareas sean más fáciles de realizar de lo que antes eran. Las computadoras son mucho más eficientes que los seres humanos para calcular y crear imágenes (¡una vez que han recibido las instrucciones apropiadas del usuario!). Esto significa que el investigador no tiene que esforzarse mucho en el “trabajo tedioso” y tendrá más tiempo para estudiar los da- tos y extraer mensajes importantes. A lo largo de este libro, se presentarán los datos de sa- lida de varios paquetes tales como MINITAB, SAS, S-Plus y R. El programa R puede ser descargado sin cargo del sitio http://www.r-project.org. Ejemplo 1.1 La tragedia que sufrió el transbordador espacial Challenger y sus astronautas en 1986 con- dujo a varios estudios para investigar las razones de la falla de la misión. La atención se en- focó de inmediato en el comportamiento de los sellos anulares del motor del cohete. He aquí datos derivados de observaciones en x temperatura del sello anular (°F) en cada encendi- do de prueba o lanzamiento del motor del cohete del transbordador (Presidential Commis- sion on the Space Shuttle Challenger Accident, Vol. 1, 1986: 129-131). 84 49 61 40 83 67 45 66 70 69 80 58 68 60 67 72 73 70 57 63 70 78 52 67 53 67 75 61 70 81 76 79 75 76 58 31 Sin organización, es difícil tener una idea de cuál podría ser una temperatura típica o repre- sentativa, ya sea que los valores estén muy concentrados en torno a un valor típico o bastan- te esparcidos, ya sea que existan brechas en los datos, qué porcentaje de los valores están en los 60, y así sucesivamente. La figura 1.1 muestra lo que se conoce como gráfica de tallo y hojas de los datos, así como también un histograma. En breve, se discutirá la construcción e interpretación de estos resúmenes gráficos; por el momento se espera que se vea cómo es- tán distribuidos los valores de temperatura a lo largo de la escala de medición. Algunos de estos lanzamientos/encendidos fueron exitosos y otros fallaron. Tallo y hojas de temperatura N 36 Unidad de hojas 1.0 1 3 1 1 3 2 4 0 4 4 59 6 5 23 9 5 788 13 6 0113 (7) 6 6777789 16 7 000023 10 7 556689 4 8 0134 40 30 Porcentaje 20 10 0 25 35 45 55 65 75 85 Temperatura Figura 1.1 Una gráfica de tallo y hojas e histograma generados con MINITAB de los datos de temperatura de los sellos anulares. c1_p001-045.qxd 3/12/08 2:31 AM Page 5 1.1 Poblaciones, muestras y procesos 5 La temperatura más baja es de 31 grados, mucho más baja que la siguiente temperatura más baja y ésta es la observación en relación con el desastre del Challenger. La investigación presidencial descubrió que se requerían temperaturas calientes para la operación exitosa de los sellos anulares y que 31 grados eran demasiado frío. En el capítulo 13 se presentará una relación entre temperatura y la probabilidad de un lanzamiento exitoso. Después de haber obtenido una muestra de una población, un investigador con fre- cuencia desearía utilizar la información muestral para sacar algún tipo de conclusión (hacer una inferencia de alguna clase) con respecto a la población. Es decir, la muestra es un me- dio para llegar a un fin en lugar de un fin por sí misma. Las técnicas para generalizar desde una muestra hasta una población se congregan dentro de la rama de la disciplina llamada es- tadística inferencial. Ejemplo 1.2 Las investigaciones de resistencia de materiales constituyen una rica área de aplicación de métodos estadísticos. El artículo “Effects of Aggregates and Microfillers on the Flexural Properties of Concrete” (Magazine of Concrete Research, 1997: 81-98) reportó sobre un es- tudio de propiedades de resistencia de concreto de alto desempeño obtenido con el uso de superplastificantes y ciertos aglomerantes. La resistencia a la compresión de dicho concre- to previamente había sido investigada, pero no se sabía mucho sobre la resistencia a la fle- xión (una medida de la capacidad de resistir fallas a flexión). Los datos anexos sobre resistencia a la flexión (en megapascales, MPa, donde 1 Pa (pascal) 1.45 104 lb/pulg2) aparecieron en el artículo citado: 5.9 7.2 7.3 6.3 8.1 6.8 7.0 7.6 6.8 6.5 7.0 6.3 7.9 9.0 8.2 8.7 7.8 9.7 7.4 7.7 9.7 7.8 7.7 11.6 11.3 11.8 10.7 Supóngase que se desea estimar el valor promedio de resistencia a la flexión de todas las vi- gas que pudieran ser fabricadas de esta manera (si se conceptualiza una población de todas esas vigas, se trata de estimar la media poblacional). Se puede demostrar que, con un alto gra- do de confianza, la resistencia media de la población se encuentra entre 7.48 MPa y 8.80 MPa; esto se llama intervalo de confianza o estimación de intervalo. Alternativamente, se podrían utilizar estos datos para predecir la resistencia a la flexión de una sola viga de este tipo. Con un alto grado de confianza, la resistencia de una sola viga excederá de 7.35 MPa; el núme- ro 7.35 se conoce como límite de predicción inferior. El objetivo principal de este libro es presentar e ilustrar métodos de estadística infe- rencial que son útiles en el trabajo científico. Los tipos más importantes de procedimientos inferenciales, estimación puntual, comprobación de hipótesis y estimación por medio de in- tervalos de frecuencia, se introducen en los capítulos 6 a 8 y luego se utilizan escenarios más complicados en los capítulos 9 a 16. El resto de este capítulo presenta métodos de estadís- tica descriptiva que se utilizan mucho en el desarrollo de inferencia. Los capítulos 2 a 5 presentan material de la disciplina de probabilidad. Este material finalmente tiende un puente entre las técnicas descriptivas e inferenciales. El dominio de la pro- babilidad permite entender mejor cómo se desarrollan y utilizan los procedimientos inferencia- les, cómo las conclusiones estadísticas pueden ser traducidas al lenguaje diario e interpretadas y cuándo y dónde pueden ocurrir errores al aplicar los métodos. La probabilidad y estadística se ocupan de cuestiones que implican poblaciones y muestras, pero lo hacen de una “manera in- versa” una con respecto a la otra. En un problema de probabilidad, se supone que las propiedades de la población estu- diada son conocidas (p. ej., en una población numérica, se puede suponer una cierta distri- bución específica de valores de la población) y se pueden plantear y responder preguntas con respecto a una muestra tomada de una población. En un problema de estadística, el ex- perimentador dispone de las características de una muestra y esta información le permite sa- car conclusiones con respecto a la población. La relación entre las dos disciplinas se resume diciendo que la probabilidad discurre de la población a la muestra (razonamiento deductivo), c1_p001-045.qxd 3/12/08 2:31 AM Page 6 6 CAPÍTULO 1 Generalidades y estadística descriptiva Probabilidad Población Muestra Estadística inferencial Figura 1.2 Relación entre probabilidad y estadística inferencial. mientras que la estadística inferencial discurre de la muestra a la población (razonamiento inductivo). Esto se ilustra en la figura 1.2. Antes de que se pueda entender lo que una muestra particular pueda decir sobre la po- blación, primero se deberá entender la incertidumbre asociada con la toma de una muestra de una población dada. Por eso se estudia la probabilidad antes que la estadística. Como un ejemplo del enfoque contrastante de la probabilidad y la estadística inferen- cial, el uso que los conductores hacen de los cinturones de seguridad manuales de regazo en carros equipados con sistemas de cinturones de hombro automáticos. (El artículo “Auto- mobile Seat Belts: Usage Patterns in Automatic Belt Systems”, Human Factors, 1998: 126-135, resume datos de uso.) Se podría suponer que probablemente 50% de todos los con- ductores de carros equipados de esta forma en cierta área metropolitana utilizan de manera regular su cinturón de regazo (una suposición sobre la población), así que se podría pregun- tar, “¿qué tan probable es que una muestra de 100 conductores incluirá por lo menos 70 que regularmente utilicen su cinturón de regazo?” o “¿cuántos de los conductores en una mues- tra de tamaño 100 se puede esperar que utilicen con regularidad su cinturón de regazo?” Por otra parte, en estadística inferencial se dispone de información sobre la muestra; por ejem- plo, una muestra de 100 conductores de tales vehículos reveló que 65 utilizan con regulari- dad su cinturón de regazo. Se podría entonces preguntar: “¿proporciona esto evidencia sustancial para concluir que más de 50% de todos los conductores en esta área utilizan con regularidad su cinturón de regazo?” En el último escenario, se intenta utilizar la informa- ción relativa a la muestra para responder una pregunta acerca de la estructura de toda la po- blación de la cual se seleccionó la muestra. En el ejemplo del cinturón de regazo, la población está bien definida y concreta: todos los conductores de carros equipados de una cierta manera en un área metropolitana particu- lar. En el ejemplo 1.1, sin embargo, una muestra de temperaturas de sello anular está dispo- nible, pero proviene de una población que en realidad no existe. En su lugar, conviene pensar en la población como compuesta de todas las posibles mediciones de temperatura que se po- drían hacer en condiciones experimentales similares. Tal población se conoce como pobla- ción conceptual o hipotética. Existen varias situaciones en las cuales las preguntas encajan en el marco de referencia de la estadística inferencial al conceptualizar una población. Estudios enumerativos contra analíticos W. E. Deming, estadístico estadounidense muy influyente quien fue una fuerza propulsora en la revolución de calidad de Japón durante las décadas de 1950 y 1960, introdujo la dis- tinción entre estudios enumerativos y estudios analíticos. En los primeros, el interés se en- foca en un conjunto de individuos u objetos finito, identificable y no cambiante que conforman una población. Un marco de muestreo, es decir, una lista de los individuos u ob- jetos que tienen que ser muestreados, está disponible para un investigador o puede ser cons- truida. Por ejemplo, el marco se podría componer de todas las firmas incluidas en una petición para calificar una cierta iniciativa para las boletas de votación en una elección próxi- ma; por lo general se elige una muestra para indagar si el número de firmas válidas sobre- pasa un valor especificado. Como otro ejemplo, el marco puede contener números de serie de todos los hornos fabricados por una compañía particular durante cierto periodo; se puede seleccionar una muestra para inferir algo sobre la duración promedio de estas unidades. El uso de métodos inferenciales presentados en este libro es razonablemente no controversial en tales escenarios (aun cuando los estadísticos continúan argumentando sobre qué métodos particulares deben ser utilizados). c1_p001-045.qxd 3/12/08 2:31 AM Page 7 1.1 Poblaciones, muestras y procesos 7 Un estudio analítico se define ampliamente como uno que no es de naturaleza enume- rativa. Tales estudios a menudo se realizan con el objetivo de mejorar un producto futuro al actuar sobre un proceso de una cierta clase (p. ej., recalibrar equipo o ajustar el nivel de al- guna sustancia tal como la cantidad de un catalizador). A menudo se obtienen datos sólo sobre un proceso existente, uno que puede diferir en aspectos importantes del proceso futu- ro. No existe por lo tanto un marco de muestreo que enliste los individuos u objetos de in- terés. Por ejemplo, una muestra de cinco turbinas con un nuevo diseño puede ser fabricada y probada para investigar su eficiencia. Estas cinco podrían ser consideradas como una muestra de la población conceptual de todos los prototipos que podrían ser fabricados en condiciones similares, pero no necesariamente representativas de la población de las unida- des fabricadas una vez que la producción futura esté en proceso. Los métodos para utilizar la información sobre muestras para sacar conclusiones sobre unidades de producción futu- ras pueden ser problemáticos. Se deberá llamar a alguien con los conocimientos necesarios en el área del diseño e ingeniería de turbinas (o de cualquier otra área pertinente) para que juzgue si tal extrapolación es sensible. Una buena exposición de estos temas se encuentra en el artículo “Assumptions for Statistical Inference”, de Gerald Hahn y William Meeker (The American Statistician, 1993: 1-11). Recopilación de datos La estadística se ocupa no sólo de la organización y análisis de datos una vez que han sido recopilados sino también con el desarrollo de técnicas de recopilación de datos. Si éstos no son apropiadamente recopilados, un investigador no puede ser capaz de responder las pre- guntas consideradas con un razonable grado de confianza. Un problema común es que la po- blación objetivo, aquella sobre la cual se van a sacar conclusiones, puede ser diferente de la población realmente muestreada. Por ejemplo, a los publicistas les gustaría contar con va- rias clases de información sobre los hábitos de ver televisión de sus clientes potenciales. La información más sistemática de esta clase proviene de colocar dispositivos de monitoreo en un pequeño número de casas a través de Estados Unidos. Se ha conjeturado que la coloca- ción de semejantes dispositivos por sí misma modifica el comportamiento del televidente, de modo que las características de la muestra pueden ser diferentes de aquellas de la pobla- ción objetivo. Cuando la recopilación de datos implica seleccionar individuos u objetos de un mar- co, el método más simple para garantizar una selección representativa es tomar una mues- tra aleatoria simple. Ésta es una para la cual cualquier subconjunto particular del tamaño especificado (p. ej., una muestra de tamaño 100) tiene la misma oportunidad de ser selec- cionada. Por ejemplo, si el marco se compone de 1 000 000 de números de serie, los núme- ros 1, 2,... , hasta 1 000 000 podrían ser anotados en trozos idénticos de papel. Después de colocarlos en una caja y mezclarlos perfectamente, se sacan uno por uno hasta que se ob- tenga el tamaño de muestra requisito. De manera alternativa (y mucho más preferible), se podría utilizar una tabla de números aleatorios o un generador de números aleatorios de computadora. En ocasiones se pueden utilizar métodos de muestreo alternativos para facilitar el pro- ceso de selección, a fin de obtener información extra o para incrementar el grado de con- fianza en conclusiones. Un método como ése, el muestreo estratificado, implica separar las unidades de la población en grupos no traslapantes y tomar una muestra de cada uno. Por ejemplo, un fabricante de reproductores de DVD podría desear información sobre la satis- facción del cliente para unidades producidas durante el año previo. Si tres modelos diferen- tes fueran fabricados y vendidos, se podría seleccionar una muestra distinta de cada uno de los estratos correspondientes. Esto daría información sobre los tres modelos y garantizaría que ningún modelo estuviera sobre o subrepresentado en toda la muestra. Con frecuencia, se obtiene una muestra de “conveniencia” seleccionando individuos u objetos sin aleatorización sistemática. Por ejemplo, un conjunto de ladrillos puede ser apilado c1_p001-045.qxd 3/12/08 2:31 AM Page 8 8 CAPÍTULO 1 Generalidades y estadística descriptiva de tal modo que sea extremadamente difícil seleccionar a los que se encuentran en el cen- tro. Si los ladrillos localizados en la parte superior y a los lados de la pila fueran de algún modo diferentes a los demás, los datos muestrales resultantes no representarían la pobla- ción. A menudo un investigador supondrá que tal muestra de conveniencia representa en for- ma aproximada una muestra aleatoria, en cuyo caso el repertorio de métodos inferenciales de un estadístico puede ser utilizado; sin embargo, ésta es una cuestión de criterio. La ma- yoría de los métodos aquí analizados se basan en una variación del muestreo aleatorio sim- ple descrito en el capítulo 5. Los ingenieros y científicos a menudo reúnen datos realizando alguna clase de expe- rimento. Esto puede implicar cómo asignar varios tratamientos diferentes (tales como ferti- lizantes o recubrimientos anticorrosivos) a las varias unidades experimentales (parcelas o tramos de tubería). Por otra parte, un investigador puede variar sistemáticamente los niveles o categorías de ciertos factores (p. ej., presión o tipo de material aislante) y observar el efec- to en alguna variable de respuesta (tal como rendimiento de un proceso de producción). Ejemplo 1.3 Un artículo en el New York Times (27 de enero de 1987) reportó que el riesgo de sufrir un ataque cardiaco podría ser reducido tomando aspirina. Esta conclusión se basó en un ex- perimento diseñado que incluía tanto un grupo de control de individuos que tomaron un placebo que tenía la apariencia de aspirina pero que se sabía era inerte y un grupo de tra- tamiento que tomó aspirina de acuerdo con un régimen específico. Los sujetos fueron asignados al azar a los grupos para protegerlos contra cualquier prejuicio de modo que se pudieran utilizar métodos basados en la probabilidad para analizar los datos. De los 11 034 individuos en el grupo de control, 189 subsecuentemente experimentaron ataques cardiacos, mientras que sólo 104 de los 11 037 en el grupo de aspirina sufrieron un ata- que cardiaco. La tasa de incidencia de ataques cardiacos en el grupo de tratamiento fue de sólo aproximadamente la mitad de aquella en el grupo de control. Una posible explica- ción de este resultado es la variación de la probabilidad, que la aspirina en realidad no tie- ne el efecto deseado y la diferencia observada es sólo una variación típica del mismo modo que el lanzamiento al aire de dos monedas idénticas por lo general produciría dife- rente cantidad de águilas. No obstante, en este caso, los métodos inferenciales sugieren que la variación de la probabilidad por sí misma no puede explicar en forma adecuada la magnitud de la diferencia observada. Ejemplo 1.4 Un ingeniero desea investigar los efectos tanto del tipo de adhesivo como del material con- ductor en la fuerza adhesiva cuando se monta un circuito integrado (CI) sobre cierto sustra- to. Se consideraron dos tipos de adhesivos y dos materiales conductores. Se realizaron dos observaciones por cada combinación de tipo de adhesivo/material conductor y se obtuvie- ron los datos anexos. Tipo de adhesivo Material conductor Fuerza de adhesión observada Promedio 1 1 82, 77 79.5 1 2 75, 87 81.0 2 1 84, 80 82.0 2 2 78, 90 84.0 Las fuerzas adhesivas promedio resultantes se ilustran en la figura 1.3. Parece que el adhe- sivo tipo 2 mejora la fuerza adhesiva en comparación con el tipo 1 en aproximadamente la misma cantidad siempre que se utiliza uno de los materiales conductores, con la combina- ción 2, 2 como la mejor. De nuevo se pueden utilizar métodos inferenciales para juzgar si estos efectos son reales o simplemente se deben a la variación de la probabilidad. Supóngase además que se consideran dos tiempos de curado y también dos tipos de posrecubrimientos de los circuitos integrados. Existen entonces 2 ? 2 ? 2 ? 2 16 combi- naciones de estos cuatro factores y es posible que el ingeniero no disponga de suficientes c1_p001-045.qxd 3/12/08 2:31 AM Page 9 1.1 Poblaciones, muestras y procesos 9 Fuerza promedio 85 Adhesivo tipo 2 Adhesivo tipo 1 80 1 2 Material conductor Figura 1.3 Fuerzas de adhesión promedio en el ejemplo 1.4. recursos para hacer incluso una observación sencilla para cada una de estas combinaciones. En el capítulo 11 se verá cómo la selección cuidadosa de una fracción de estas posibilida- des usualmente dará la información deseada. EJERCICIOS Sección 1.1 (1-9) 1. Dé una posible muestra de tamaño 4 de cada una de las si- inscritos en el curso para promover discusiones sobre el ma- guientes poblaciones. terial incluido en el curso y mejorar el dominio de la materia. a. Todos los periódicos publicados en Estados Unidos. Suponga que los estudiantes inscritos en un largo curso de es- b. Todas las compañías listadas en la Bolsa de Valores de tadística (¿de qué más?) se dividen al azar en un grupo de Nueva York. control que no participará en la instrucción suplementaria y c. Todos los estudiantes en su colegio o universidad. en un grupo de tratamiento que sí participará. Al final del cur- d. Todas las calificaciones promedio de los estudiantes en su so, se determina la calificación total de cada estudiante en el colegio o universidad. curso. a. ¿Son las calificaciones del grupo IS una muestra de una 2. Para cada una de las siguientes poblaciones hipotéticas, dé población existente? De ser así, ¿cuál es? De no ser así, una muestra posible de tamaño 4. ¿cuál es la población conceptual pertinente? a. Todas las distancias que podrían resultar cuando usted lan- b. ¿Cuál piensa que es la ventaja de dividir al azar a los es- za un balón de fútbol americano. tudiantes en los dos grupos en lugar de permitir que cada b. Las longitudes de las páginas de libros publicados de aquí estudiante elija el grupo al que desea unirse? a 5 años. c. ¿Por qué los investigadores no pusieron a todos los estu- c. Todas las mediciones de intensidades posibles de terremo- diantes en el grupo de tratamiento? Nota: El artículo tos (escala de Richter) que pudieran registrarse en Califor- (“Supplemental Instruction: An Effective Component of nia durante el siguiente año. Student Affairs Programming”, J. of College Student De- d. Todos los posibles rendimientos (en gramos) de una cierta vel., 1997:577-586) discute el análisis de datos de varios reacción química realizada en un laboratorio. programas de instrucción suplementaria. 3. Considere la población compuesta de todas las computadoras de 6. El sistema de la Universidad Estatal de California (CSU, por una cierta marca y modelo y enfóquese en si una computadora sus siglas en inglés) consta de 23 terrenos universitarios, des- necesita servicio mientras se encuentra dentro de la garantía. de la Estatal de San Diego en el sur hasta la Estatal Humboldt a. Plantee varias preguntas de probabilidad con base en la se- cerca de la frontera con Oregon. Un administrador de CSU lección de 100 de esas computadoras. desea hacer una inferencia sobre la distancia promedio entre b. ¿Qué pregunta de estadística inferencial podría ser respondi- la ciudad natal y sus terrenos universitarios. Describa y discuta da determinando el número de dichas computadoras en una diferentes métodos de muestreo, que pudieran ser empleados. muestra de tamaño 100 que requieren servicio de garantía? ¿Éste sería un estudio enumerativo o un estudio analítico? 4. a. Dé tres ejemplos diferentes de poblaciones concretas y tres Explique su razonamiento. ejemplos distintos de poblaciones hipotéticas. 7. Cierta ciudad se divide naturalmente en diez distritos. ¿Cómo b. Por cada una de sus poblaciones concretas e hipotéticas, dé podría seleccionar un valuador de bienes raíces una muestra un ejemplo de una pregunta de probabilidad y un ejemplo de casas unifamiliares que pudiera ser utilizada como base de pregunta de estadística inferencial. para desarrollar una ecuación para predecir el valor estimado 5. Muchas universidades y colegios han instituido programas de a partir de características tales como antigüedad, tamaño, nú- instrucción suplementaria (IS), en los cuales un facilitador re- mero de baños, distancia a la escuela más cercana y así suce- gularmente se reúne con un pequeño grupo de estudiantes sivamente? ¿El estudio es enumerativo o analítico? c1_p001-045.qxd 3/12/08 2:31 AM Page 10 10 CAPÍTULO 1 Generalidades y estadística descriptiva 8. La cantidad de flujo a través de una válvula solenoide en el b. ¿Este estudio es enumerativo o analítico? Explique su ra- sistema de control de emisiones de un automóvil es una ca- zonamiento. racterística importante. Se realizó un experimento para estu- 9. En un famoso experimento realizado en 1882, Michelson y diar cómo la velocidad de flujo dependía de tres factores: la Newcomb obtuvieron 66 observaciones del tiempo que re- longitud de la armadura, la fuerza del resorte y la profundidad quería la luz para viajar entre dos lugares en Washington, de la bobina. Se eligieron dos niveles diferentes (alto y bajo) de D.C. Algunas de las mediciones (codificadas en cierta mane- cada factor y se realizó una sola observación del flujo por ca- ra) fueron, 31, 23, 32, 36, 2, 26, 27 y 31. da combinación de niveles. a. ¿Por qué no son idénticas estas mediciones? a. ¿De cuántas observaciones consistió el conjunto de datos b. ¿Es éste un estudio enumerativo? ¿Por qué sí o por qué resultante? no? 1.2 Métodos pictóricos y tabulares en la estadística descriptiva La estadística descriptiva se divide en dos temas generales. En esta sección, se considera la representación de un conjunto de datos por medio de técnicas visuales. En las secciones 1.3 y 1.4, se desarrollarán algunas medidas numéricas para conjuntos de datos. Es posible que usted ya conozca muchas técnicas visuales; tablas de frecuencia, hojas de contabilidad, his- togramas, gráficas de pastel, gráficas de barras, diagramas de puntos y similares. Aquí se se- leccionan algunas de estas técnicas que son más útiles y pertinentes a la estadística de probabilidad e inferencial. Notación Alguna notación general facilitará la aplicación de métodos y fórmulas a una amplia varie- dad de problemas prácticos. El número de observaciones en una muestra única, es decir, el tamaño de muestra, a menudo será denotado por n, de modo que n 4 para la muestra de universidades {Stanford, Iowa State, Wyoming, Rochester} y también para la muestra de lecturas de pH {6.3, 6.2, 5.9, 6.5}. Si se consideran dos muestras al mismo tiempo, m y n o n1 y n2 se pueden utilizar para denotar los números de observaciones. Por lo tanto, si {29.7, 31.6, 30.9} y {28.7, 29.5, 29.4, 30.3} son lecturas de eficiencia térmica de dos tipos diferentes de motores diesel, entonces m 3 y n 4. Dado un conjunto de datos compuesto de n observaciones de alguna variable x, enton- ces x1, x2, x3,... , xn denotarán las observaciones individuales. El subíndice no guarda nin- guna relación con la magnitud de una observación particular. Por lo tanto, x1 en general no será la observación más pequeña del conjunto, ni xn será la más grande. En muchas aplica- ciones, x1 será la primera observación realizada por el experimentador, x2 la segunda, y así sucesivamente. La observación i-ésima del conjunto de datos será denotada por xi. Gráficas de tallos y hojas Considérese un conjunto de datos numéricos x1, x2,... , xn para el cual xi se compone de por lo menos dos dígitos. Una forma rápida de obtener la representación visual informativa del conjunto de datos es construir una gráfica de tallos y hojas. Pasos para construir una gráfica de tallos y hojas 1. Seleccione uno o más de los primeros dígitos para los valores de tallo. Los segun- dos dígitos se convierten en hojas. 2. Enumere los posibles valores de tallos en una columna vertical. 3. Anote la hoja para cada observación junto al valor de tallo. 4. Indique las unidades para tallos y hojas en algún lugar de la gráfica. c1_p001-045.qxd 3/12/08 2:31 AM Page 11 1.2 Métodos pictóricos y tabulares en la estadística descriptiva 11 Si el conjunto de datos se compone de calificaciones de exámenes, cada uno entre 0 y 100, la calificación de 83 tendría un tallo de 8 y una hoja de 3. Para un conjunto de datos de efi- ciencias de consumo de combustible de automóviles (mpg), todas entre 8.1 y 47.8, se po- drían utilizar como el tallo, así que 32.6 tendría entonces una hoja de 2.6. En general, se recomienda una gráfica basada en tallos entre 5 y 20. Ejemplo 1.5 El consumo de alcohol por parte de estudiantes universitarios preocupa no sólo a la comu- nidad académica sino también, a causa de conse