Estadística 1 y 2 PDF

Summary

Este documento presenta la unidad de Estadística Descriptiva. Se introducen conceptos básicos como población, muestreo y variables estadísticas. Además, se exploran las diferentes ramas de la estadística, y sus campos de aplicación, incluyendo ejemplos. El texto enfatiza la importancia de la estadística como herramienta para la solución de problemas y proporciona una visión general del proceso de la estadística descriptiva.

Full Transcript

UNIDAD I: ESTADÍSTICA DESCRIPTIVA TEMA 1 CONCEPTOS BÁSICOS 1.1. Introducción 1.2. Métodos estadísticos 1.3. Población 1.4. Censo, Muestra, Muestreo, Azar 1.5. Unidad de mues...

UNIDAD I: ESTADÍSTICA DESCRIPTIVA TEMA 1 CONCEPTOS BÁSICOS 1.1. Introducción 1.2. Métodos estadísticos 1.3. Población 1.4. Censo, Muestra, Muestreo, Azar 1.5. Unidad de muestra y Unidad de análisis 1.6. Variable estadística 1.7. Escalas de medición 1.8. Parámetros y Estadígrafos 1.1. INTRODUCCIÓN El primer capítulo presenta los conceptos básicos, que son pilares de la construcción del conocimiento de la temática que se desarrollará a lo largo de todo el curso. Particularmente, en esta Unidad se aprenderán los conceptos necesarios para el abordaje de los diferentes temas del curso de Estadística. Para comprender qué es la Estadística y qué hacen los estadísticos utilizaremos algunas definiciones muy simples. Definición 1.1. “Estadística”. Ciencia que aborda el tema de la recolección, presentación, análisis e interpretación de grupos de datos de naturaleza numérica y no numérica. Esta definición comienza a poner en claro algunos aspectos: la Estadística es una disciplina estrechamente relacionada con la Matemática y los datos numéricos o no numéricos son la materia prima de la misma. Definición 1.2. Estadístico: Persona versada o que se ocupa de la compilación de conjuntos de datos. (Compilación. f. Reunión de una obra o partes de contenido análogo) La definición es muy ambigua ya que un estadístico puede ser una persona cualquiera desde un empleado que llene planillas, un individuo que lleve el registro anual de los promedios diarios de la temperatura, un profesional que aplique complejas técnicas para la toma de decisiones con respecto a la solución de problemas reales o un científico que genere la teoría matemática en la cual se basan los métodos estadísticos. Se desprende de estas definiciones que el campo de aplicación de esta ciencia es muy amplio. En este curso la Estadística se convierte en una herramienta esencial en la formación de los profesionales, a los efectos del abordaje de problemas siguiendo un procedimiento que consiste en: 1- Identificación de un problema: se reconoce, comprende y define el problema. 2- Determinación de los objetivos: se plantean preguntas a responder o se hacen suposiciones a comprobar 3- Recolección de datos: se diseña un procedimiento para captar información útil. 4- Organización de los datos: se les da un formato que permita el reconocimiento de aspectos particulares y una exploración de los aspectos generales de los datos, y se los prepara para su procesamiento o manipulación numérica. 5- Análisis de los datos: se aplican técnicas para resumir el conjunto de datos recolectados y otros análisis que conduzcan a dar respuesta a los interrogantes planteados inicialmente. 6- Presentación de los resultados e interpretación: se le da a la información un formato accesible para comprender el fenómeno estudiado. 5 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Año 2021 UNIDAD I: ESTADÍSTICA DESCRIPTIVA Estos principios de solución ordenada de un problema se irán profundizando a lo largo del curso, a los efectos de que se logre capacidad de enfrentar cualquier problema que involucre una cuantificación, primeramente mediante un método general y luego, mediante métodos estadísticos particulares. 1.2. RAMAS DE LA ESTADÍSTICA Y CAMPOS DE APLICACIÓN La Estadística puede dividirse en dos grandes ramas perfectamente diferenciadas por los objetivos que persiguen y por los métodos que utilizan. Estas son: Estadística Descriptiva Estadística Inferencial En ninguno de los dos casos interesa el comportamiento individual o los datos en particular, sino una comprensión general de la masa de datos o patrón de comportamiento general de los mismos. a) Estadística Descriptiva: se ocupa de la obtención, organización, análisis de datos de una muestra y presentación de los resultados obtenidos de manera objetiva. Tiene por objeto poner de manifiesto la estructura y regularidades existentes en el conjunto de datos que se somete a estudio (patrón de los datos). b) Estadística Inferencial: comprende un conjunto de métodos mediante los cuales se obtienen generalizaciones o se toman decisiones sobre la base de una información parcial o incompleta (datos muestrales) que ha sido obtenida previamente por medio de técnicas descriptivas. Vale adelantar que el análisis inferencial no excluye al análisis descriptivo, el cual se llevará a cabo en la primera etapa del estudio. Ambas ramas tienen por objetivo en común la comprensión general de las propiedades de una masa de datos referida a una variable, o sea que en ninguno de los dos casos interesa un dato particular sino la comprensión del total de los datos. En la jerga estadística esto se traduce en que la atención se focaliza en conocer un patrón de comportamiento general de los datos, que en Estadística Descriptiva corresponderá a una a muestra (estudio parcial) y en el caso de la Estadística Inferencial corresponderá a todo el universo (estudio general). Por tanto, la Estadística Descriptiva no permite extraer conclusiones cuyo alcance vaya más allá de la extensión que tienen los datos conocidos, mientras que la Estadística Inferencial sí lo permite. Por ejemplo: a) un periódico local informa acerca de los volúmenes de vino producidos en Mendoza para exportación durante los últimos dos años, y comenta acerca del incremento porcentual del 2010 por sobre lo producido el año anterior. A partir de esta información nada se podrá decir acerca de las exportaciones de vinos sanjuaninos. b) para diagnosticar la formación previa que tienen los alumnos que ingresan a la universidad en la interpretación de textos se puede proceder a tomar una evaluación. Los resultados pueden ser analizados de dos formas, considerando a todas las evaluaciones o bien tomando un subconjunto representativo que incluye sólo un 20% de las mismas. Aplicando las herramientas del análisis estadístico descriptivo al primer caso, se tendrá información para diagnosticar la capacidad comprensiva de todo el alumnado universitario ingresante, en tanto que en el segundo la información obtenida solo dará cuenta de los estudiantes que conformaron el 20% de los exámenes evaluados. Si en este último caso existiera interés en generalizar los datos a todo el alumnado, habrá que recurrir a los métodos que proporciona la Estadística Inferencial. c) de un caballete con ajo en proceso de secado se toman 100 bulbos de ajo (entre los miles existentes) y se pesan obteniendo lo siguiente: 90, 80,…,130 gramos. La aplicación del análisis estadístico podría arrojar las siguientes conclusiones: “El peso promedio de los cien bulbos es de l00 gramos” y, “Con alta confianza puede decirse que el peso promedio de los bulbos del caballete puede encontrarse entre los 99,1 y 110,2 gramos”. Fácilmente se podrá 6 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCuyo / Año 2021 UNIDAD I: ESTADÍSTICA DESCRIPTIVA identificar que la primera conclusión caracteriza solamente al grupo de los cien bulbos medidos, mientras que la segunda es aplicable a todo el ajo estibado. En la búsqueda a soluciones de problemas reales, la Estadística descriptiva suele constituir el primer paso del análisis estadístico, ya que por lo general siempre interesan conclusiones con mayor alcance que al del conjunto de datos utilizados para el análisis. Por ejemplo, si una empresa láctea quisiera predecir la vida útil de un nuevo tipo de yogur, haría un seguimiento de la cantidad de días que el producto no presenta deterioro de la calidad utilizando unos pocos potes de yogur, dado que sería impráctico y muy costoso someter a estudio a una cantidad grande de envases. Aplicando el método descriptivo se tendría información sobre el conjunto de yogures analizados. Del estudio surgirían diversos datos sobre este grupo particular de potes de yogur. Sin embargo, el objetivo final de la empresa consistirá en lograr la mayor vida útil de toda la producción posible de yogures. Obviamente, pretender este alcance basándose directamente en el conjunto de datos conocidos conllevará a generalizar o extender la conclusión, a una situación de incertidumbre con cierto riesgo de cometer un error, porque la información disponible ha sido de tipo parcial o incompleta. Con ayuda de los métodos estadísticos inferenciales se podrán juzgar los méritos de los resultados, o en otras palabras, la confiabilidad a tener en la conclusión ampliada. ESTADÍSTICA DESCRIPTIVA Proceso de: 4 1 3 ANÁLISIS P C L O A 2 Análisis M N Organización tradicional U Clasificación (2º reducción) I RECOLECCIÓN y (1º reducción) N F DE DATOS análisis I A. numérico I exploratorio C + C (Obtención de A. gráfico A A registros por C (Distribuciones de C observación, (Preparación y (Descripción de medición, frecuencias) I I depuración de las propiedades entrevista, etc) los datos) del patrón de Ó Ó datos) N N Figura 1.1. Etapas de la Estadística descriptiva Como se verá en la Unidad II, la Teoría de la probabilidad servirá de nexo entre ambas ramas estadísticas y permitirá resolver situaciones que de alguna forma impliquen incertidumbre por no poseer un conocimiento objetivo completo. La Estadística inferencial permitirá enunciar conclusiones generales del siguiente tipo: a) Puede esperarse, con una confianza del 95 %, que el monte frutal de cerezos de interés presente un porcentaje entre 80 a 85% de plantas sin problemas de incompatibilidad injerto- pie. b) Se puede esperar, con un nivel de significancia de 0,05, que la poda tipo B permitirá un rendimiento significativamente mayor al que se lograría con la poda tipo A. 7 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Año 2021 UNIDAD I: ESTADÍSTICA DESCRIPTIVA En el estudio de la Estadística Inferencial se verá que los problemas a resolver son de dos tipos. El primero de ellos implica una estimación de un valor general y, el otro, un estudio comparativo a partir de una suposición o hipótesis. 1.3. POBLACIÓN El concepto de población en Estadística implica que se requiere identificar perfectamente cuáles son los elementos que se someten a estudio (conjunto de elementos) o que aportan datos útiles (conjunto de datos) para comprender y poder explicar la problemática. Esto lleva a identificar dos tipos de poblaciones: Definición 1.5. Una población física o real es el conjunto formado por todas las unidades de observación con existencia real, que pueden proporcionar datos con relación al fenómeno de interés. Definición 1.6. Se llama población estadística o teórica a aquella conformada por todos los resultados posibles que puede tomar una característica observable, medible o contable en los elementos de la población física. Se ilustrarán estos últimos conceptos aplicándolos a una problemática de interés. Un olivicultor quiere comprar un monte de olivos ubicado en el Departamento de Maipú (Mendoza) y conoce, a través de la bibliografía, que existe una relación directa entre el grosor del tronco frutal y el rendimiento en frutos. De modo que le interesa averiguar cuál es el diámetro medio de los troncos a la altura de pecho (DAP, en cm). Luego, todas las plantas de olivo del monte componen la población física o real, mientras que las mediciones del DAP de los olivos proporcionarán los datos que componen a la población estadística o teórica (Población 1 de Figura 1.2). Podría estar interesado también en el estado general que presentan las plantas, considerando las categorías: muy buena, buena, regular y mala. En este caso, la población física sigue siendo la misma pero se tiene otra población estadística formada por las categorías que se asignan a los olivos (Población 2 de Figura 1.2). Se desprende que en el primer caso la población estadística surge de la medición de la característica “DAP”, mientras que en el segundo de la observación de la característica “estado general de la planta”. 81,2 cm Población estadística 1, Conjunto de todos los valores 57,9 cm posibles de DAP medidos de los … olivos. (naturaleza cuantitativa)) 45,5 cm Medición de una variable 72,5 cm, etc (DAP) Observación de una variable Regular (condición Bueno Población estadística 2, olivo) M. bueno Es el conjunto cuyos elementos Bueno son el estado de condición Población real, Regular Malo observado en los olivos Conjunto de todos los olivos (naturaleza cualitativa) M. bueno, etc del monte ubicado en Maipú Figura 1.2. Diagrama ilustrativo de conceptos poblacionales 8 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCuyo / Año 2021 UNIDAD I: ESTADÍSTICA DESCRIPTIVA Tamaño poblacional El tamaño poblacional está dado por la cantidad de elementos que posee una población física. Por ejemplo, si se mide la altura de 500 algarrobos de una reserva natural, la población física y la estadística estarán formadas, respectivamente, por 500 árboles y 500 mediciones de altura. Análogamente si en un día se han fraccionado 1500 botellas de vino y luego se las han clasificado en unidad conforme o unidad no conforme, de acuerdo a si cumplieron o no las especificaciones establecidas, las poblaciones están constituidas por 1500 unidades y la misma cantidad de datos de condición. Definición 1.7. El tamaño poblacional, se refiere al número de unidades que tiene la población. Se lo simboliza con la letra ene mayúscula, N. Las poblaciones físicas siempre tienen tamaño finito (N), pero cuando su tamaño es muy grande, como sería el caso de la población formada por todos los olivos del Departamento de Maipú se las considera en la práctica como de tamaño infinito (N →). En la problemática de interés de la Figura 1.2, resulta que las dos poblaciones estadísticas tienen la misma cantidad de unidades, dado que cada planta proporciona un dato de DAP y otro de condición de cada planta de olivo. Finalmente, resulta conveniente una síntesis que destaque los siguientes aspectos: a) La población física es el conjunto completo de unidades reales que tienen alguna propiedad observable, contable o mensurable en común que interesa respecto a un problema de interés. b) La población estadística se origina cuando se realiza la observación, el conteo ó medición de las unidades de la población física, y es el conjunto completo de datos posibles (clases, categorías o bien de números). c) Es necesario definir perfectamente la población física en el tiempo y en el espacio, de modo que ante la presencia de cualquier unidad se pueda decidir si forma parte o no de la población que está bajo estudio. En otras palabras, definir una población física significa dejar perfectamente delimitado las unidades que la conformarán. Aplicada la idea a la problemática del monte de olivos, significa establecer de antemano si se considerarán, por ejemplo, todos los olivos sin importar la edad de las plantas o que éstas sean de diferente variedad, etc. d) Debe quedar muy claro si efectivamente se estudió la población física definida (población objeto) o si se trató de otra (población de trabajo). e) Debe notarse que a partir de una misma población física se pueden generar diferentes poblaciones teóricas. Si se estudia una sola variable en la población física, el estudio se llama univariado y se genera una sola población teórica; si se estudian dos variables se llama bivariado y se generan dos poblaciones teóricas. Entonces, siguiendo con el razonamiento, si se estudian más de dos variables el estudio es multivariado generando más de dos poblaciones teóricas simultáneamente. 1.4. CENSO, MUESTRA, MUESTREO Y AZAR Hasta ahora se ha señalado que la Estadística tiene por objeto el estudio de los colectivos o fenómenos de masa, tratando de descubrir las regularidades del comportamiento que tienen ciertos aspectos de interés, como pueden ser la cantidad de frutos de tamaño comercial que produce una planta de tomate o el número de huevos que pueden empollar aves de la fauna nativa, o bien comprender las relaciones existentes entre dos o más aspectos de interés, como por ejemplo, el efecto del agregado de diferentes dosis de un fertilizante nitrogenado en el crecimiento de un cultivo hortícola o de la edad de los viñedos en la calidad del vino obtenido a partir de sus uvas. La forma de recolectar la información básica (datos) para hacer un análisis estadístico es a través de un censo o de un muestreo. El censo es un método de recolección de datos que consiste en el relevamiento o la captura de datos (expresión de uso cuando el relevamiento está automatizado) a partir de la totalidad de los elementos que componen la población bajo estudio. Un 9 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Año 2021 UNIDAD I: ESTADÍSTICA DESCRIPTIVA censo debe cumplir las condiciones de universalidad, que significa observar o medir a todos los elementos de la población, y simultaneidad, que consiste en la realización en un momento determinado como si se tratara de una foto instantánea. Por otra parte, se ha visto que cuando se seleccionan algunos de los elementos de una población con la intención de alcanzar un conocimiento general acerca de la misma, ese grupo de elementos conforma una muestra. También en este caso existen varias interpretaciones del término: a) Vulgarmente se habla de muestra con relación a cualquier conjunto de observaciones tomado a partir de una población, es decir, una muestra es cualquier subconjunto de elementos poblacionales. b) En Estadística además está involucrado el pensamiento acerca de la particular forma en que se deben seleccionar las unidades, de modo que el subconjunto de unidades "sirva" para representar a la población total. En efecto, cuán confiable será la información que resulte del análisis de la muestra con relación a la que se lograría a través de un censo poblacional depende en gran manera de la forma en que sea obtenida la muestra. Al respecto, en el capítulo destinado al tema del muestreo estadístico se presentarán las diferentes técnicas y condiciones para su aplicación. La utilización de la muestra descansa en el principio de que las partes representan al todo, es decir que las muestras reflejan las características que definen la población de la cual fueron extraídas, de ahí que se piense en una muestra representativa. Es decir, que el logro de una buena información general acerca de una población a partir de los datos muestrales (sin estudiarla completamente mediante un censo) depende del método de selección de las unidades muestrales y del tamaño de la muestra. Definición 1.8. Las unidades que conforman las muestras se denominan unidades muestrales o unidades muestra. El tamaño muestral está dado por la cantidad de unidades muestra o número de unidades poblacionales seleccionadas para conformar la muestra estadística. El tamaño muestral se representa con la letra ene minúscula, n. El tipo de muestra que resulta de principal interés para los estadísticos es aquel que se conoce como muestra aleatoria o muestra al azar. Análogamente, siendo el muestreo el proceso por el cual se selecciona un número prefijado de elementos de la población (población madre), este tipo de muestras se generará con un muestreo aleatorio o muestreo al azar. Los métodos de muestreo serán desarrollados en el capítulo destinado al muestreo; por ahora se tratará de entender el concepto de aleatoriedad. ¿Qué es el azar?. En principio, se puede decir que simplemente es un concepto que permite encubrir falta de conocimiento acerca de cómo ocurren en realidad los hechos. Por ejemplo, sea el lanzamiento conceptual de un dado al aire, es decir sin que se produzca la realización física del lanzamiento. Se sabe que el resultado de la tirada puede arrojar un número entero entre 1 y 6, pero ¿se tiene la seguridad de que aparecerá un número determinado de los seis posibles?. La respuesta es no, porque se trata de una experiencia aleatoria. Pero, ¿por qué no se puede acertar con seguridad el resultado de la tirada del dado?. ¿Es realmente impredecible?. Por supuesto que no, el resultado está perfectamente determinado por el estado de la naturaleza; lo que sucede es que intervienen fuerzas que son imposibles de controlar a voluntad y este conocimiento incompleto de las leyes de nuestro mundo es lo que lleva a buscar una justificación, a esconder en el azar la ignorancia o despreocupación por averiguar la verdad. Muchas veces se informa sobre resultados basados en el análisis de una muestra de datos, pero en muchos casos se trata de muestras que no cumplen con las condiciones requeridas para que la aplicación del análisis estadístico arroje resultados válidos. La Estadística requiere muestras tomadas al azar, es decir, muestras cuyas unidades se han obtenido mediante algún procedimiento aleatorio, es decir, con total prescindencia de la voluntad personal. El caso se ilustrará con los siguientes ejemplos: a) Sea una situación de examen final de una materia cuyo programa tiene 15 capítulos. El docente coloca quince bolillas idénticas solamente diferenciadas por el número que tienen marcado (1 al 15) en un bolillero. Acto seguido el alumno procede a mezclarlas muy bien y, luego extrae dos 10 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCuyo / Año 2021 UNIDAD I: ESTADÍSTICA DESCRIPTIVA bolillas que indican los capítulos acerca de los cuales será interrogado. Se puede decir que el proceso del sorteo ha originado una muestra conformada por dos unidades de muestra (n=2) que se corresponden con los capítulos del programa cuyos números coinciden con los de las bolillas extraídas. b) Sea ahora un surco que tiene 50 plantas de ajo y se desea seleccionar aleatoriamente una muestra de n=5. Se puede dar un número corrido a las plantas, según la ubicación en el surco, y posteriormente se pueden preparar 50 tarjetas idénticas, numeradas del 1 al 50. Las tarjetas se barajan concienzudamente, se extrae una tarjeta y se anota el número. La tarjeta se devuelve al grupo, y se extraen cuatro más, procediendo de manera similar. Las cinco plantas a las cuales les corresponden los números extraídos conformarán la muestra aleatoria a estudiar. Es claro que en ninguno de los dos ejemplos resultaron muestras conformadas por unidades que fueron elegidas a voluntad, sino que respondieron a un proceso de selección mediante sorteo. Algo muy diferente se da en el caso de las entrevistas periodísticas que se realizan en el kilómetro cero de la Ciudad de Mendoza para conocer la opinión acerca de algún tema, o cuando en una finca se eligen las plantas que están al lado de los callejones o en una fábrica se toman las cajas de latas que están en la parte superior de una estiba. Es claro que las muestras en estos últimos casos responden a un muestreo con elección dirigida o muestreo no aleatorio. La selección aleatoria se producirá cuando se obtengan las muestras ajustándose a procedimientos que no dejen librado ningún aspecto a la voluntad del observador. Es condición para la aplicación de los métodos estadísticos que la muestra representativa de la población se obtenga mediante selección aleatoria. Un tipo de muestreo fundamental a tal fin es el muestreo aleatorio simple que fue aplicado en los ejemplos del sorteo de bolillas y de plantas de ajo. A modo de síntesis se tiene lo siguiente: a) La primera preocupación frente a una situación problemática es identificar si se trata de un conjunto de datos que es una colección exhaustiva, o sea, si contiene a todos los posibles datos relacionados con el fenómeno de interés, o si sólo se tiene un subconjunto de datos entre los posibles. El primer conjunto corresponderá a datos poblacionales y, el segundo, a datos muestrales. b) Las poblaciones se conceptualizan como “el todo” y una muestra como una fracción representativa del todo. c) Para medir al todo se recurre a estudios censales (censo) y para medir a la muestra a estudios muestrales (muestreo). d) En Estadística descriptiva la situación más común es la aplicación de herramientas a los datos de una muestra o unas pocas muestras. A partir de los datos muestrales y mediante la Estadística Inferencial se puede obtener información poblacional, acompañando el análisis con un enunciado en términos probabilísticos dado que se aplica el método inductivo incompleto1. e) El tamaño muestral es determinante en la elección de los métodos estadísticos descriptivos e inferenciales. 1.5. UNIDAD DE MUESTRA Y UNIDAD DE ANÁLISIS Se ha definido el concepto de unidad de observación en relación a cada uno de los elementos que componen la población y que pueden proporcionar los datos para el análisis. Por su importancia fundamental, se profundizará y ampliará el concepto de unidad que se manejará en este curso. El método de muestreo, por razones que serán vistas en el capítulo destinado particularmente al muestreo, constituye la forma más utilizada en el ámbito científico para obtener información empírica. La unidad de muestreo es la entidad básica mediante la cual, aplicando un procedimiento aleatorio de selección, se accede a la unidad de observación. 1 Método inductivo incompleto: método que parte de un conocimiento que no es completo y concluye con enunciados que van más allá del alcance de los datos disponibles. 11 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Año 2021 UNIDAD I: ESTADÍSTICA DESCRIPTIVA En algunos casos hay coincidencia entre la unidad de observación y la unidad de muestreo. Por ejemplo, con el objetivo de conocer el rendimiento académico de los alumnos que iniciaron el cursado de Estadística, en la primera clase se selecciona una muestra al azar del 10% y a los seleccionados se les pregunta el promedio de notas. La unidad de muestreo coincide con la unidad de observación: un alumno que cursa Estadística. Pero muchas veces no ocurre esto. En el ámbito del control alimentario, el análisis en laboratorio de muestras de alimento es una tarea rutinaria. Por ejemplo, se quiere tomar la decisión acerca del momento oportuno para cosechar los duraznos de un monte frutal, que se usarán como materia prima en un proceso productivo de mermelada. A tal efecto se hará un seguimiento del grado de madurez de los frutos, a través de los grados Brix que miden el % de sacarosa presente en una solución acuosa. El muestreo para recolectar las muestras de fruta a evaluar requerirá dos etapas a campo que consistirán: la primera en hacer un sorteo de los durazneros, y la segunda en una selección al azar de duraznos en los árboles que resultaron sorteados. En una tercera etapa, utilizando un refractómetro portátil manual me medirá en el laboratorio una muestra analítica consistente en una alícuota (gota) del jugo de los duraznos seleccionados en las diferentes plantas, y finalmente de estos resultados se obtendrá el tenor zucarino promedio que presentan los duraznos. En este caso hay que reconocer tres etapas de muestreo y en cada caso una unidad diferente de muestreo (árbol-fruto-jugo). La última unidad, o sea la utilizada para el análisis con el refractómetro, además de haber constituido una unidad de muestra, es una unidad de análisis. Esta es la unidad directamente relacionada con el objeto de interés en la investigación y la que aportará un dato (º Brix leído mediante el refractómetro). Si hubiera interesado medir el peso de la fruta, la unidad de análisis habría sido un durazno, mientras que si hubiera interesado la variedad de fruta la unidad de análisis podría haber sido el duraznero o el durazno. Por otra parte, en los estudios ecológicos que constituyen un caso particular de investigación, suele interesar el estudio de agregados de poblaciones, generalmente comunidades completas, que se ubican espacialmente en un lugar definido, y esto va acompañado de otra problemática en la definición de las unidad. Significa entonces que el tipo de análisis al que se someterá la unidad de observación define la unidad de análisis, por lo cual es necesario plantearse en la planificación de una investigación la clara identificación de la unidad de observación física, la unidad de muestreo y finalmente, si habrá coincidencia entre estas y la unidad de análisis. Definición 1.9. La unidad de análisis, es el objeto último de observación o medición, sobre el cual se desea obtener información estadística. Cada unidad de análisis arroja un dato para el análisis estadístico, y en forma conjunta constituyen la masa de datos. La unidad de análisis debe estar definida con absoluta precisión, evitando todo posible tipo de ambigüedad o confusión tanto con relación a quien hará la observación o medición, como para quienes procesen esos datos o quienes sean, posteriormente, los usuarios de los resultados. Los elementos o unidades de análisis pueden ser de diferente naturaleza. Siguiendo normativa de aplicación en el ámbito de los sistemas de calidad2, se considerarán tres tipos de unidades: a) Unidad aislada: es una unidad en sí, de modo que cuando es físicamente fraccionada o desarmada no conserva su forma ni cumple con su finalidad original. Ejemplo: un melón, una botella, un tornillo, etc. b) Unidad continua: es una unidad que se define en función de un patrón de medición o de un artefacto físico, tal el caso de longitudes o áreas. Ejemplo: 1 m o una pulgada de alambre, 1 m2 de terreno, etc. c) Unidad a granel: es una unidad que corresponde a porciones de peso o volumen especificado que se toma como unidad a partir del material que se encuentra a granel, basándose en criterios de uniformidad. Ejemplo: 500 g de semilla, 100 cc de aceite de oliva, etc. (masa y volumen). 2 Norma UNIT 472-75 Inspección por atributos. Planes de muestra única, doble y múltiple con rechazo 12 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCuyo / Año 2021 UNIDAD I: ESTADÍSTICA DESCRIPTIVA En cualquier caso, el interés se centra en observar o medir algún o algunos aspectos de tales unidades, a los que se hace referencia como características o propiedades, y que pueden ser de naturaleza cualitativa o cuantitativa. Para este fin habrá que determinar el tamaño de la unidad de análisis en cada situación particular, en ningún caso deberá decidirse de manera arbitraria y tiene mucha importancia. Las unidades aisladas son fáciles de reconocer, pero en los otros dos casos se requiere establecer criterios que permitan identificar físicamente la unidad de análisis. Siempre interesa observar o medir ciertas características en tales unidades, conocidas a veces como caracteres o propiedades, que por ahora anticiparemos pueden ser de naturaleza cualitativa o cuantitativa. Para este fin habrá que determinar el tamaño de la unidad de análisis en cada situación particular; en ningún caso deberá decidirse de manera arbitraria y tiene mucha importancia. 1.6. VARIABLES ESTADÍSTICAS Los elementos o unidades de análisis de una población poseen una serie de cualidades, rasgos, características o propiedades comunes, que suelen presentar cambios en su estado o expresión de unidad de análisis a unidad de análisis cuando se hace una observación o medición sobre ellos. Algo análogo ocurre en la muestra. Estas características son variables, en tanto que aquellas características que no cumplen con esta condición son llamadas constantes. Definición 1.10. En general, en el contexto estadístico, una variable es una propiedad o atributo común a todas las unidades de análisis o los elementos de una población o una muestra, con respecto a la cual ellas difieren de alguna forma entre sí. Básicamente, existen dos tipos de caracteres en los elementos, aquellos que se asocian con valores numéricos y aquellos que no. Por tal razón, se considerarán dos tipos de variables estadísticas: variables cuantitativas y variables cualitativas. Estas últimas darán origen a datos categóricos y las variables cuantitativas darán origen a datos numéricos. Definición 1.11. Una variable estadística cualitativa es aquella que por su propia naturaleza no se puede cuantificar (o no hay interés justificado en hacerlo) y sus estados, observados en los elementos poblacionales o bien muestrales, son descriptos mediante términos calificativos o etiquetas. Para simbolizar una variable cualitativa se utilizan las primeras letras del abecedario en mayúscula (A, B, C,...) Definición 1.12. Una variable estadística cuantitativa es aquella que por su propia naturaleza admite que sus variaciones en los elementos poblacionales o muestrales, sean susceptibles de cuantificación o medición numérica propiamente dicha. Para simbolizar una variable cuantitativa se utilizan las últimas letras del abecedario en mayúscula (… X, Y, Z) Ilustraremos estos nuevos conceptos con dos interrogantes: a) ¿Usted de qué carrera es alumno en la Facultad de Ciencias Agrarias? b) ¿Cuántas materias le faltan para alcanzar el título? En el primer caso, la respuesta a la pregunta se da entre estas alternativas: "Ing. Agronómica" –“Licenciatura en Bromatología” – “Bromatología” – “Ing. en Recursos Naturales Renovables” – “Tecnicatura en Enología”. Se trata entonces de una variable cualitativa, "carrera cursada en la Facultad" con cinco modalidades de respuesta, que son datos categóricos. En el segundo interrogante, la respuesta será algún número, por tanto se trata de una variable cuantitativa, "cantidad de materias faltantes para obtener el título", y la respuesta será un dato numérico. Definición 1.13. Se llama variable cuantitativa discreta a aquella que, dado un intervalo en la recta numérica, solo toma un número finito o infinito numerable de valores de él. 13 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Año 2021 UNIDAD I: ESTADÍSTICA DESCRIPTIVA Definición 1.14. Se llama variable cuantitativa continua a aquella que dado un intervalo en la recta numérica, toma cualquier valor de los infinitos posibles valores de él. Resumiendo, los dos tipos de variables estadísticas presentadas admiten a su vez una clasificación en los tipos de datos que les corresponde (Tabla 1.1). Tabla 1.1 Clasificación de las variables Naturaleza de Naturaleza de Proceso utilizado para generar los datos la variable los datos Observación (color de ojos, variedades, productos) Observación con ordenamiento (suelos: muy salinos-salinos- Cualitativa Categóricos normales-no salinos) Medición y posterior codificación (alturas arbóreas en metros → árbol: muy alto-alto-mediano-bajo-muy bajo) Recuento o conteo: datos discretos Cuantitativa Numéricos Medición instrumental: datos continuos Por lo general el tema de clasificar variables también presenta dificultades a la hora de identificar el tipo de variable en una situación problema particular. Puede contribuir al esclarecimiento el tener en cuenta las características de los procesos de medición de los datos numéricos: a) el conteo o enumeración, origina datos cuantitativos de naturaleza discreta. A modo de ilustración daremos los siguientes ejemplos de variables discretas: número de días hasta el 80% de brotación de las plantas de ajo, número de pulgones por hoja, número de tomates con podredumbre apical. b) la medición instrumental, contrariamente, suele dar origen a datos cuantitativos de naturaleza continua. Son ejemplos de variables continuas: el peso en gramos de raíces de plantas cultivadas in vitro, las temperaturas medias diarias en ºC, la cantidad en ml de reactivo gastado en una titulación, etc. Para referirse a la observación o medición de un elemento en particular se utiliza la letra en minúscula que corresponde a la mayúscula asignada a la variable, acompañada de un subíndice, representado por la letra i, el cual tomará valores desde 1 hasta el número de elementos del conjunto. Por ejemplo: dos modalidades de una variable cualitativa A se indicarán como 𝑎1 𝑦 𝑎2 tres valores de una variable discreta observada x se indicarán como 𝑥1 , 𝑥2 , 𝑥3 infinitos valores de una variable continua observada x se indicarán como 𝑥1 , 𝑥2 , … , 𝑥𝑖 , … una serie de n de valores de una variable cuantitativa, se indicarán como 𝑥1 , 𝑥2 , … , 𝑥𝑖 , … , 𝑥𝑛 la serie x1 , x2 , x3 , x4 , x5 , x6 se la indica como xi , i = 1, 2, … ,6 que se lee como “valores de x sub i donde i varía desde 1 hasta 6”. la serie 𝑥1 , 𝑥2 , … , 𝑥𝑖 , … se la indica resumidamente como xi , i = 1, 2, … , ∞, lo que se lee como: “valores de x sub i, donde i varía desde 1 hasta ∞”. En forma análoga, relacionando con el concepto de tamaño poblacional, no confundir la forma de expresar simbólicamente al conjunto de datos observados en una población física, que siempre será finito (N), con el del conjunto de datos que teóricamente pueden observarse, y que podría ser infinito. 1.7. ESCALAS DE MEDICIÓN La medición de las variables es un problema fundamental en todas las ciencias y, en términos generales se la puede definir como la acción que consiste en clasificar o bien medir asignando números a las unidades de análisis para representar la modalidad o la magnitud en que se presenta 14 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCuyo / Año 2021 UNIDAD I: ESTADÍSTICA DESCRIPTIVA en ellas una variable de interés. Bajo esta concepción la medición en las ciencias físicas y naturales generalmente resulta objetiva, contrariamente a lo que ocurre en las ciencias sociales y del comportamiento: si se dice que la hoja de un árbol tiene una longitud de 2,54 cm, habrá coincidencia en lo que interpreten varias personas, pero si se dice que un alumno obtuvo una buena calificación en su examen resultará difícil que un grupo de personas coincidan en la interpretación del juicio emitido. Significa que a la hora de obtener datos acerca de un problema de interés se puede disponer de diferentes formas de medir o, mejor aún, de diferentes escalas de medición. De acuerdo al tipo de datos se tendrá la naturaleza de la variable medida, y de acuerdo al tipo de variable serán las herramientas de análisis estadístico que se deben aplicar. De otra forma, el nivel de medición de la variable condiciona el método de análisis estadístico. Los cuatro niveles de medición ampliamente reconocidos son (del más débil al más fuerte): escala nominal, escala ordinal, escala de intervalo y escala de razón. 1.7.1. Escala nominal y escala ordinal Cuando la medición de las variables arroja datos que no son de naturaleza numérica significa que el nivel de la medición corresponde a una escala nominal o bien a una ordinal. La medición de estas variables origina registros que respectivamente son: clases y categorías. Escala nominal Es la forma más simple de medición. Los “datos” son clases que equivalen a un otorgamiento de etiquetas. Las categorías nominales más sencillas corresponden a una clasificación dicotómica: la unidad pertenece a una clase A o bien a una clase B, tal como podrían ser: “planta sana-planta enferma”, “insecto vivo-insecto muerto”, "artículo conforme-artículo no conforme", etc. También puede tratarse de una clasificación multinomial, tal el caso de calificar el color de ojos en: negro- castaño-azul-verde-otro. Por razones computacionales, las categorías suelen ser codificadas mediante números que no tienen valor cuantitativo alguno, solamente identifican una clase, por ejemplo: a hembra se codifica con “0” y a macho con “1”. Los símbolos (letras o números) que designan a los diferentes grupos o clases en una escala nominal pueden intercambiarse sin alterar la información esencial de la escala. Tabla 1.2 Ejemplos de escala nominal Variable cualitativa Categoría Reacción a un estímulo positivo-negativo Tipo de aditivos permitidos por el Código Alimentario ácido ascórbico, ácido benzoico, aspartamo Argentino Variedades de vid utilizadas para elaborar vino Pinot noire, Chenin, Chardonnay espumante Observación: para reconocer este tipo de datos se debe cumplir que: a) los “datos” se obtuvieron simplemente observando y clasificando cualitativamente las unidades, y b) no tiene sentido el ordenamiento de las clases. Escala ordinal La escala ordinal es una escala de ordenamiento jerárquico porque se puede establecer que un dato observado que se clasifica en una categoría posee más fuerte o más débil la propiedad que presenta otro dato observado clasificado en otra categoría. Es decir, que se pueden establecer posiciones relativas de las diferentes modalidades de la variable observada de interés, sin que esto implique distancias entre ellas. Los numerales empleados en las escalas ordinales no son cuantitativos, sino que indican exclusivamente la posición en la serie ordenada y no "cual es" la diferencia entre posiciones sucesivas de la escala. 15 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Año 2021 UNIDAD I: ESTADÍSTICA DESCRIPTIVA En esta escala se puede establecer cuál categoría es “mayor”, “mejor” o “preferida”, es decir dar una dirección de ordenamiento; sin embargo, como en el caso de la nominal no se puede decir cuánto “mayor”, “mejor” o más “preferida” es”. Por tanto también la escala ordinal pertenece a niveles bajos de medición, ya que no se pueden hacer planteamientos numéricos significativos con respecto a las diferencias entre las categorías. Solamente tiene sentido hacer un ordenamiento de mayor a menor o viceversa, pero aunque existe un orden entre categorías, la diferencia entre dos adyacentes cualesquiera no es la misma a lo largo de la escala. Esto quiere decir que si las categorías se codificaran con números, es muy probable que la diferencia entre la categoría 8 y la 10 no sea de la misma magnitud que entre la 0 y la 2. Ejemplo 1.1: Suponga que a los clientes en un almacén se les hace unas preguntas para valorar la calidad del servicio. Los clientes valoran la calidad de acuerdo a las siguientes respuestas: 1 (excelente), 2 (bueno), 3 (regular), 3 (malo) 4 (pésimo). Estos datos son ordinales. Note que una valoración de 1 no indica que el servicio es dos veces mejor que cuando se da una valoración de 2. Sin embargo podemos decir que la valoración de 1 es preferiblemente mejor que 2, y así en los demás casos. Tabla 1.3 Ejemplos de escala ordinal Variable cualitativa Categoría Me disgusta, Me gusta poco, Me gusta, Me gusta Grado de aceptación de un producto mucho Tolerancia de grupos de cultivos al sodio Extremadamente Sensible, Sensible, Moderadamente intercambiable, bajo condiciones de salinidad Tolerante, Tolerante Observación: para reconocer este tipo de datos se debe cumplir que: a) los “datos” se obtuvieron simplemente observando y clasificando cualitativamente las unidades, y b) tiene sentido el ordenamiento de las clases de mayor a menor o viceversa. 1.7.2. Escala de intervalo y escala de razón Cuando la medición de las variables arroja datos de naturaleza numérica significa que el nivel de la medición corresponde a una escala de intervalos o bien a una de razón. La medición de estas variables origina registros que son números que pertenecen al conjunto de los reales, ℝ. Una escala numérica es una escala ordenada en la cual, la diferencia entre dos números sucesivos cualesquiera es una cantidad significativa (diferente a cero) que además se mantiene constante en cualquier parte de la escala. En otras palabras, la distancia entre pares de valores numéricos del conjunto ordenado es constante. Escala de intervalos La escala de intervalos se caracteriza porque dado el conjunto ordenado de mediciones, las distancias numéricas iguales entre dos números, representan distancias iguales empíricas en la variable medida pero, con relación al 0 u origen de la escala numérica ocurre que no se trata de un cero real o verdadero. Escala de cocientes o razones Cuando las diferencias son significativas e iguales en todos los puntos de la escala, existe un cero real que permite considerar cocientes de mediciones, entonces la escala es una escala de razón. Una persona que mide 1,80 metros tiene el doble de la estatura de alguien que mide 90 centímetros; en general, entonces, las mediciones de longitud están dadas en escala de razón. La temperatura es un caso especial: las escalas Fahrenheit y la Celsius (centígrada) son de intervalo pero no de razón; el establecimiento del “cero” es arbitrario, no real. Nadie podría decir que 40 ºC señalan el doble de temperatura que 20 ºC. Pero cuando se mide a partir del cero absoluto, como en la escala de Kelvin, la temperatura está dada en una escala de razón, puesto que, si se duplica la temperatura, en realidad se duplica la velocidad promedio de las moléculas que componen la substancia. 16 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCuyo / Año 2021 UNIDAD I: ESTADÍSTICA DESCRIPTIVA Tabla 1.4 Ejemplos de escalas de intervalo y de razón. Variable cuantitativa Niveles de medición Temperatura en (en grados Centígrados o Fahrenheit) De intervalo Tiempo calendario(gregoriano, hebreo o islámico) De intervalo Estatura (en metros o centímetros) De razón Peso (en libras o kilogramos) De razón Edad (en años o días) De razón Para finalizar, resulta conveniente presentar una integración aplicada de los últimos conceptos dados. Tabla 1.5 Ejemplos de los conceptos de unidad de análisis, población física y variable Variable Unidad de Análisis Población Física Nombre Tipo Dato Un Tomate Conjunto de todos los tomates que conforman (unidad aislada) un lote (Ej: carga de un camión) (categórico) Color del fruto Cualitativo Tamaño poblacional: N desconocido. A los verde, rojo efectos prácticos N se considera . 100g de triturado de Conjunto de todas las porciones posibles de (%) lectura Cuantitativa (numérico) tomate triturado que conforman un lote (Ej: un tanque) refractométrica continua 1,2% (unidad a granel) Tamaño poblacional: N=10000 kg 1 tetra de jugo de Conjunto de todos los tetra que componen un Recuento de Cuantitativa (numérico) tomate lote. mohos discreta 20 (unidad aislada) Tamaño poblacional: N=50000 envases tetra (en 75 campos) 1 lata de tomate Conjunto de todos frascos que produce un Grado de (categórico) pelado en conserva establecimiento/día. Cualitativa selección común, elegido (unidad aislada) Tamaño poblacional: N=10000 frascos 1.8. PARÁMETROS Y ESTADÍGRAFOS Cuando un problema pueda ser resuelto con ayuda de datos numéricos, nuestro primer paso es definir estadísticamente el problema, es decir, definir la población estadística y especificar los parámetros. Hemos tratado los aspectos para definir una población estadística, y en este momento solo comentaremos brevemente el problema de especificar parámetros. Los valores de las variables que se estudian tienen una distribución determinada en los individuos que constituyen la población. Definición 1.15. Los parámetros son funciones que resumen una propiedad del conjunto completo de posibles datos poblacionales. Caracterizan a la población y se representan con letras griegas minúsculas. Por ejemplo: la media poblacional se representa con la letra . Un parámetro es un solo valor obtenido para describir en forma sumaria las características pertinentes a un estado de naturaleza acerca de una población. Una población puede que tenga muchas características y, por consiguiente, también muchos parámetros; a menudo, tiene un valor mínimo, un valor máximo, una media, una amplitud, un valor total de todos los valores individuales, etc. Sin duda, no todos los parámetros de una población son necesarios en una situación problemática dada; su elección depende de la naturaleza del problema. Los valores de los parámetros por lo común se consideran valores verdaderos. Para una mejor comprensión, sea el siguiente ejemplo: el diámetro promedio de los árboles de una plantación es una característica mensurable (por lo tanto un parámetro) de la población formada por diámetros de todos los árboles de una determinada población. Es el verdadero promedio de los diámetros. De manera semejante, la proporción de todos los telespectadores que ven un cierto programa a cierta hora es un parámetro de la población de telespectadores; es la verdadera proporción o proporción de la población. Es imposible calcular el valor verdadero de cualquier parámetro de una población infinita. En la mayor parte de los casos, tampoco resulta práctico calcular el valor verdadero de cualquier parámetro de una población finita. Debido a esto, resulta necesario realizar “inferencias” 17 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Año 2021 UNIDAD I: ESTADÍSTICA DESCRIPTIVA acerca de los parámetros de la población a partir de la información contenida en una pequeña parte o “muestra” de la población. Definición 1.16. Un estadígrafo es cualquier función calculada a partir de los valores de una variable observada en una muestra. Definición 1.17. Los estimadores son aquellos estadígrafos que toman valores próximos a los parámetros de la población de la que proceden. Los estimadores son útiles si se desea “inferir” los parámetros de la población y sólo se dispone de muestras (Figura 1.4) Parámetro (valor constante) POBLACIÓN Estadígrafo Estimador (valor variable) (valor variable) MUESTRA Estadística Descriptiva Estadística Inferencial Figura 1.4: El método inductivo incompleto: estadígrafos, estimadores y parámetros 18 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCuyo / Año 2021 UNIDAD I: ESTADÍSTICA DESCRIPTIVA TEMA 2 CONCEPTOS GENERALES PARA LA OBTENCIÓN Y PROCESAMIENTO DE DATOS 2.1. Introducción 2.2. Medición y calidad de los datos 2.3. Procesamiento estadístico de datos 2.4. Recolección de datos 2.1. INTRODUCCIÓN Los conjuntos de datos empíricos utilizados para indagar los fenómenos que acontecen en el mundo real suelen ser de naturaleza muy variada. La problemática puede requerir métodos de análisis de datos estadísticos de diversa complejidad, sin embargo, cualquiera sea ésta, siempre los procedimientos tendrán un aspecto en común que es el de atravesar por dos etapas: la del análisis estadístico descriptivo y la del análisis estadístico inferencial. Presentados los conceptos básicos, con este capítulo se inicia el desarrollo de las herramientas que proporciona la Estadística Descriptiva para la organización, el análisis y la interpretación de conjuntos de datos. El objetivo fundamental es develar las propiedades que presentan los datos en conjunto o en masa, denominadas en general propiedades estadísticas de los datos1 y también conocer algunos aspectos particulares. La planificación de la recolección de los datos referentes a una problemática puede conducir a una investigación por muestreo o a una investigación mediante el diseño experimental, lo que da origen, respectivamente, a conjuntos de datos muestrales y datos experimentales, temas que serán tratados en capítulos que se desarrollarán más adelante después de presentar los conceptos básicos de la inferencia estadística. Las herramientas que brinda la Estadística Descriptiva permiten hacer: a) una descripción gráfica en forma tabular (con tablas) o bien con representaciones gráficas (diagramas, y gráficos en un sistema cartesiano) y, b) una descripción numérica, a través de medidas de las propiedades estadísticas calculadas con los datos muestrales, denominadas estadígrafos. Ambas descripciones permiten expresar, en términos cuantitativos, las características que presentan las muestras con relación a las propiedades estadísticas de las variables observadas. La complejidad de la descripción está en función del tipo de variable y su nivel de medición, el tamaño muestral y el objetivo del análisis. En general, cuanto menor sea el nivel de medición y la cantidad de datos, menor será la dificultad y la gama de estadígrafos a utilizar. En cuanto al objetivo de la descripción estadística, se debe decidir cuál es el tipo de información que interesa tener, parcial (respecto a una muestra en particular) o bien poblacional que, como se verá al avanzar en el desarrollo de la asignatura, será lo común. También se considerará el destinatario de la información, y en este sentido podrá apuntarse a una comunicación para un público general (periódicos, boletines de divulgación, etc.) para lo cual deberá emplearse un estilo simple, o bien a un destinatario más preparado con lo cual se requiere un estilo comunicacional más riguroso (informes técnicos o informes científicos), reservando para estos últimos las herramientas que comunican con mayor exactitud y precisión los resultados. Las herramientas para analizar datos muestrales se pueden clasificar, en primera instancia, en dos tipos: procedimientos de análisis exploratorio y, procedimientos de análisis clásico. Los primeros, como lo indica su nombre, se aplican en la etapa inicial del análisis con el objetivo principal de tomar un conocimiento ligero sobre la calidad de los datos y algunos aspectos que son relevantes ---1 Se refiere a propiedades generales que presentan los conjuntos de datos empíricos, que son cuatro y se conocen como: Posicionamiento/Tendencia central, Dispersión, Apuntalamiento (curtosis) y Asimetría. 19 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCuyo / Año 2021 UNIDAD I: ESTADÍSTICA DESCRIPTIVA para definir el posterior análisis, y suelen llevarse a cabo utilizando diagramas o medidas simples. En cambio el análisis tradicional es empleado para un conocimiento acabado sobre las propiedades que poseen los datos y para la comunicación de los resultados definitivos, y se valen de herramientas gráficas como las tablas y las representaciones gráficas denominadas generalmente gráficos, así como de una gran gama de estadígrafos. 2.2. MEDICIÓN Y CALIDAD DE LOS DATOS El importante acto de toma de decisiones puede estar basado en información o bien en la intuición que tienen las personas. Pero, mientras más se utilice la información que brindan los hechos, y menos se use la intuición, con mayor seguridad se arribará a la toma de mejores decisiones. La pobre calidad de los datos medidos, así como de los datos procesados, van en contra de su utilidad. Contar con datos de calidad se constituye en un objetivo, y asegurarse de que realmente los datos la tienen es un desafío inicial en el análisis de los mismos para poder obtener información útil. Resulta importante dejar en claro que una genuina calidad en los datos se logra interviniendo en el sistema de la medición y no sobre ellos en sí. Para esto el proceso de medición se inicia con la identificación y delimitación correcta de la problemática y los objetivos de su estudio, y continúa con: a) la definición de los datos relevantes, b) la captación (medición o búsqueda), c) su depuración mediante controles preventivos (detección de errores) y correctivos (adecuación), y d) su organización del modo más eficiente para el posterior análisis. Entre las múltiples dimensiones para establecer la calidad de los datos, se considerarán la pertinencia, la exactitud, la precisión, la cantidad, y la oportunidad. Las ideas correspondientes son: ALGUNAS PROPIEDADES DE LA BUENA MEDICIÓN Exactitud: se refiere a cuan cerca está el resultado de una medición xi del valor verdadero. El grado de exactitud depende del instrumento de medición; como regla general, cuando más se podrá medir con una exactitud igual a la mitad de la diferencia entre dos unidades contiguas. Por ejemplo si se tiene una escala graduada en unidades de gramos, al medir solo se podrá tener una exactitud al nivel de  0,5, es decir que podrán tenerse los resultados 6,5 o 7,0 o 7,5 al tratar de medir unidades de análisis que tienen un valor verdadero igual a 7,0. Los datos de alta calidad, con un sistema de medición capaz, a través de sucesivas mediciones, tomarán valores suficientemente próximos al valor verdadero de la variable en estudio. Cuando no hay exactitud se dice que la medición tiene sesgo o que es sesgada. Precisión: se refiere a cuan cerca los valores medidos se aproximan entre sí unos de otros, y se la vincula con el concepto estadístico de dispersión. La falta de precisión es una de una de las razones más comunes de baja calidad de datos: la dispersión debe ser reflejo solamente de cambios intrínsecos y propios de la característica medida y no de otro factor. Ilustración de la diferencia entre exactitud y precisión Exactitud: Baja Alta Alta Ubicación respecto al blanco de tiro Precisión: Alta Baja Alta Variabilidad en la repetición del tiro Pertinencia: se refiere a que únicamente se deben emplear datos que resulten adecuados para alcanzar la finalidad por la cual se recolectaron y, al deber que se tiene de no usarlos cuando carecen de esta propiedad, tal el caso de que carezcan de relevancia, exactitud, vigencia, consistencia, autenticidad, etc. Oportunidad: se deben optimizar los procesos de medición para disponer de los datos en conveniencia de formato, tiempo y lugar. En esto presta gran apoyo el uso de tecnologías de la información y comunicación (TIC), para contar con los datos necesarios en el momento que se los necesite (captura automática de datos, bases de datos informatizadas, software especializado, etc.). 20 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Año 2021 UNIDAD I: ESTADÍSTICA DESCRIPTIVA Desde el punto de vista de la cantidad de variables medidas, se puede hablar de una medición univariada, bivariada y multivariada (Tabla 2.1). Tabla 2.1 Tipo de medición según dimensionalidad Caso/NºVariables Ejemplo Estudio del número de plantas vivas de maleza Wedelia glauca por parcela (X), al aplicar Univariado (1) un herbicida. Estudio del aumento del peso corporal de cerdos (Y, en kg), en la etapa de destete, en Bivariado (2) función del peso de la ración alimenticia (X, en kg). Estudio del efecto de la humedad relativa ambiente (X1, en %) y la temperatura media del Multivariado (3) suelo (X2, en ºC), en el rendimiento de un híbrido de tomate (Y, en T/ha). En esta primer unidad de estudio, se centrará el interés en la descripción estadística de muestras univariadas. 2.3. PROCESAMIENTO ESTADÍSTICO DE DATOS Cualquiera sea la situación, el procesamiento de datos arranca con el diseño para la recolección. Para ser sometidos al análisis estadístico, los datos pueden obtenerse de diferente modo. Así se tiene el caso de la obtención por participación directa, que es cuando la persona interviene en el proceso de la observación o medición de las unidades físicas, y por participación indirecta que es cuando los datos han sido tomados por un tercero. A su vez, puede decirse que los datos estadísticos se pueden obtener a través de diferentes medios: a) fuentes de emisión y b) fuentes documentales. El primer medio hace referencia a que los sujetos que son de interés (objetos, hechos o fenómenos) son observados o medidos por quien hará su análisis, en tanto que el segundo medio recurre a la información documental, es decir, a datos que son ajenos o de tercera parte. El paso siguiente a la recolección de datos es su preparación para que muestren o pongan en evidencia propiedades y aspectos notables, y también para facilitar el análisis posterior, que podrá hacerse en forma manual o mediante una computadora. Esto es lo que se denomina proceso de organización de datos. Este proceso, puede requerir un ordenamiento de los datos y muchas veces va acompañado de una clasificación o agrupamiento de datos, con lo cual se crean subconjuntos de datos o clases de naturaleza cualitativa o cuantitativa, con el objetivo fundamental de reducir el número de datos para facilitar la comprensión de las características generales y particulares de los datos. En tercer lugar, asegurada su calidad, los datos son analizados. EL PROCESAMIENTO DE DATOS 1º) Recolección (Diseño y toma) 2º) Organización (Depuración, Ordenamiento, Clasificación) 3º) Análisis (exploratorio y tradicional) Es muy importante internalizar que la aplicación de los métodos estadísticos muestra una gran diferencia con la capacitación adquirida al resolver problemas en Matemática. En esta última, los datos se toman puros sin analizar aspectos que hacen a su toma y diagnóstico de calidad, pero, en la aplicación de la Estadística, antes de entrar propiamente en el análisis, se requiere trabajar con los datos para asegurar que tienen la calidad necesaria que requiere el análisis posterior. Esto se debe a dos razones: a) que se trata de datos empíricos que provienen de una realización física, y por tanto pueden estar afectados por diversos tipos de errores y, b) que la aplicación de los métodos estadísticos inferenciales se basa en que las poblaciones de las que se tomaron los datos cumplen con ciertos supuestos o enunciados proposicionales en los que se funda la correcta aplicación de cada método, por lo tanto hay que comprobar el cumplimiento de tales proposiciones que se consideran verdaderas. Para finalizar, antes del abordaje de las diferentes etapas del procesamiento de datos, se quiere advertir sobre lo siguiente: en la resolución de problemas de Estadística descriptiva se necesita combinar el arte y la ciencia, a fin de alcanzar los mejores resultados. Así por ejemplo el 21 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCuyo / Año 2021 UNIDAD I: ESTADÍSTICA DESCRIPTIVA concepto de muestra pequeña y de muestra grande, que en Estadística inferencial estará referenciado al número 30, resulta flexible cuando se hace la descripción de un conjunto de datos, y puede requerirse un tamaño muestral de n=50 para poder construir los gráficos indicados para muestras grandes. Finalmente, se apela a un llamado de atención acerca de lo siguiente: el alumno mientras trabaje con los datos de una muestra en el contexto de esta primera unidad temática del programa de la asignatura, estará considerando una situación en particular con características y condiciones específicas para esa muestra, de modo que será incorrecto hacer generalizaciones directamente a otras situaciones con mayor alcance, es decir, en ningún caso podrán emitirse conclusiones poblacionales. 2.4. RECOLECCIÓN DE DATOS En un censo se ha visto que, para alcanzar el objetivo del estudio o sea la descripción de la población, se realiza una observación exhaustiva midiendo las N unidades de análisis posibles. Pero, la situación más común consiste en la observación parcial de la población a través de una muestra representativa. Se presentarán innumerables situaciones, sin embargo cualquiera sea el caso, al diseñar la recolección de datos o toma de la muestra siempre conviene, de acuerdo a la complejidad del problema, dedicar un tiempo al diseño de la planilla que servirá para registrar los datos correspondientes. Esta debe contener una mínima información identificatoria (tema, fecha, instrumento de medición, personal que mide, etc.) y además debe procurarse un formato que facilite el posterior tratamiento de los datos (por ejemplo, según requerimiento del software a utilizar para el procesamiento), a fin de evitar un retrabajo posterior. Obtenidos los registros o datos estadísticos, existe una instancia previa a su análisis, que es la de preparación de los datos, que requiere el pasaje por tres etapas: la depuración, la ordenación y la clasificación de los datos. PREPARACIÓN DE LOS DATOS PARA EL ANÁLISIS 1º) Depuración: se trata de asegurarse que se dispone de datos que son correctos, y consiste en controlar si los datos brutos (registros) tienen algún problema, por ejemplo, un posible error de medición. Esto se hace antes y después de la carga de los datos, y puede llevar a una corrección que puede consistir en una nueva toma de datos, retipeo, transformaciones, etc. Recién cuando se pueda dar garantía de la calidad de los datos (datos correctos al 100 %) corresponde pasar a la siguiente etapa. 2º) Ordenación: procura facilitar el tratamiento posterior de los datos. Por ejemplo es muy útil contar con una tabla donde los datos estén ordenados por magnitud, ya que esta simple operación ya pone en evidencia aspectos del patrón general de variación de los datos, lo cual no es visualizado en el caso de los datos en bruto. 3º) Clasificación: como su nombre lo indica, tiene por objeto formar agrupamientos de datos, esto es clases o grupos en asociación, por ejemplo, a las modalidades de una variable cualitativa o de los valores de una tipo cuantitativa. Una vez que los datos han sido depurados, el criterio general es organizar el conjunto de datos en bruto de modo que la masa de datos organizados comience a revelar el patrón general de datos (comportamiento de la variable en estudio) y también aspectos particulares. Hay dos criterios base para decidir cómo abordar la tarea: el tamaño muestral y el tipo de variable (Cuadro 2.2). Respecto a: Tipo de variable: si la variable es cualitativa siempre se trabajará con muestras grandes, pero en el caso de variables numéricas se presenta la situación de muestras pequeñas y muestras grandes. 22 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Año 2021 UNIDAD I: ESTADÍSTICA DESCRIPTIVA Cuadro 2.2. Proceso de ordenación y clasificación de datos muestrales Tipo de variable Tamaño muestral Ordenación Clasificación Cualitativa Grande No Sí Pequeño Sí No Discreta Grande Sí Sí Cuantitativa Pequeño Sí No Continua Grande Sí Sí Tamaño muestral: si las muestras son pequeñas se trabaja directamente con los datos pero si son grandes se utiliza la modalidad de datos agrupados. Referencia para clasificar muestras de acuerdo al tamaño: 𝑛 < 30, muestra pequeña 𝑛 ≥ 30, muestra grande Conforme a estos criterios es que se abordará la organización y análisis de datos en los temas posteriores. 23 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCuyo / Año 2021 UNIDAD I: ESTADÍSTICA DESCRIPTIVA TEMA 3 ORGANIZACIÓN Y ANÁLISIS DESCRIPTIVO DE VARIABLES CUALITATIVAS 3.1.Introducción 3.2.Propiedades estadísticas de las variables cualitativas 3.3. Distribuciones de frecuencias de datos cualitativos 3.3.1.Organización de datos 3.3.2. Herramientas para el análisis gráfico 3.3.2.1.Presentación tabular 3.3.2.2.Representación gráfica 3.3.3.Herramientas para el análisis numérico 3.3.3.1.Medidas generales 3.3.3.2.Medidas particulares 3.3.4. Distribuciones de frecuencias de datos bivariados 3.1. INTRODUCCIÓN Se insistirá en recordar que el objetivo fundamental de la descripción estadística de un con- junto de datos muestrales es poner de manifiesto características del comportamiento general de los datos, lo cual puede ofrecer una menor o mayor dificultad. El análisis del comportamiento de las va- riables cualitativas siempre se basa en muestra de tamaño grande, dado que las variables de esta naturaleza tienen una medición que no es compleja ni costosa por cuanto, generalmente, consiste en una simple observación visual de las unidades físicas. En este caso se suele pasar por alto la etapa de ordenación de los datos, procediendo directamente a la clasificación de las unidades en corres- pondencia con las modalidades o categorías de la variable; esto lleva a un recuento final de la cantidad de veces que se presentó cada modalidad. La condición es que la clasificación sea exhaus- tiva y mutuamente excluyente.Se trata de conocer la distribución de los datos de la variable observada, la que simplemente se denominará distribución de frecuencias de la muestra anali- zada. Con relación a las distribuciones de frecuencias, interesa conocer sus propiedades estadísti- cas, las que se pueden visualizar a través de un análisis gráfico, y conocer a través de un análisis numérico el valor que toman los correspondientes estadígrafos. Con un tratamiento previo de sis- tematización de los datos obtenidos se llega a la construcción de tablas y, en una segunda instancia a la representación gráfica que puede hacerse a través de diagramas que son gráficos simples, y de gráficos con diferente grado de complejidad. Hay una gama amplia de representaciones gráfi- cas, algunas de las cuales son aptas para representar variables cualitativas (niveles nominal y ordinal). y otras para variables cuantitativas ya sean discretas o continuas, y también se tienen dife- rentes posibilidades de representaciones según el tamaño muestral. El análisis combinado del tipo de variable y el tamaño muestral es la clave para tomar decisiones al respecto. La presentación tabular es muy valorada en el ambiente científico, porque aporta datos en mayor detalle. Por su parte las representaciones gráficas, al tratarse de esquemas visuales, están destinadas a permitir que el lector aprecie en un rápido ‘golpe de vista’ aspectos sobresalientes de la información estadística contenida en una muestra. En este capítulo, el desarrollo de esta temática está destinado al tratamiento de las variables cualitativas, es decir, aquellas cuyos “valores” se ob- tienen mediante la observación y, los siguientes se destinarán al caso de las variables cuantitativas cuyos valores se obtienen por recuento o medición instrumental de una característica o propiedad (datos univariados) o de dos (datos bivariados) o más (datos multivariados), en las unidades de análisis que componen una muestra. 24 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2021 UNIDAD I: ESTADÍSTICA DESCRIPTIVA 3.2. PROPIEDADES ESTADÍSTICAS DE LAS VARIABLES CATEGÓRICAS Si bien la mayoría de las situaciones problema que interesará resolver en la vida profesional, por los perfiles de las carreras de la Facultad de Ciencias Agrarias, conducirán al análisis de varia- bles cuantitativas, en este curso se destinará un buen espacio al análisis descriptivo de las variables cualitativas. Esto se fundamenta en razones pedagógicas, dado que es conveniente iniciar la presen- tación de nuevos temas por lo que ofrece menor dificultad, pero además cada vez hay más interés en tratar el análisis de datos referidos a variables cualitativas, medidas en escala nominal u ordinal, si- tuación que suele estar asociada a investigaciones que llevan a cabo entrevistas o encuestas, y también a valoraciones de carácter personal como es el caso del análisis sensorial de alimentos. Como se indicara en el Capítulo 1, un caso muy especial de variables cualitativas es el de las variables dicotómicas, que son aquellas que admiten solo dos posibilidades en la clasificación de las unidades de análisis, es decir que se aplica una base de “A” o “no A”, o bien de “todo” o “nada”, como se da, por ejemplo, en los siguientes casos: a. En ensayos biológicos, esto es ensayos de aplicación de un estímulo para observar la res- puesta provocada. Tal sería el caso cuando se investigan dosis letales de insecticidas, donde se aplican diferentes concentraciones del veneno y se observa el estado de los insectos, cla- sificándolos en vivos o muertos. b. En auditorías de sistemas de aseguramiento de la calidad, cuando los resultados se clasifican en: conformes-no conformes o bien no defectuosos-defectuosos. Una de las bondades del método estadístico descriptivo es que pone a disposición un conjun- to de herramientas que permiten resumir la información de muchos datos en sólo unos pocos significativos en el sentido que tales datos resumen, derivados de los medidos u observados, representan o significan algo. En general, el conjunto de datos de una variable estadística observada o medida, se describe a través de las propiedades estadísticas que presenta la masa de datos organizada (distribu- ción de la variable) de acuerdo al siguiente criterio: Variables cuantitativas Tamaño muestral Propiedades Propiedad de posicionamiento Propiedad de dispersión Muestras grandes: n  30 Propiedad de asimetría Propiedad de la curtosis Propiedad de posicionamiento Muestras pequeñas: n x ). Esto explica de otra forma, por qué la media se interpreta físicamente como un punto de equilibrio.  Propiedad 2. La suma del cuadrado de los desvíos de la variable x, con respecto a la media, para el conjunto de n observaciones es un valor mínimo. n  i =1 ( xi − x) 2 = mínimo  Propiedad 3. La media de la suma de varias variables, o media general, es igual a la suma de las medias de cada variable (x + y + z ) = x + y + z  Propiedad 4. Si cada una de las n observaciones muestrales es multiplicada por una constante c, la media de los datos transformados (c.x), es igual a la constante multiplicada por la media de los datos originales cx1 + cx2 +... + cxn = c.x  Propiedad 5. La media conjunta, x c , de dos series simples está dada por: x +x si la cantidad de datos es igual (n1 = n2) xc = 1 2 2 x1 n1 + x 2 n2 si los conjuntos tienen diferente tamaño (n1  n2) xc = n1 + n2 Nótese que se trata de una media ponderada. En el primer caso, no se observa la ponderación en la fórmula porque al ser idénticos los tamaños muestrales (n1 = n2) ambas medias tienen idéntico peso (ponderación unitaria). En el segundo las medias se deben multiplicar por los correspondientes tamaños muestrales (ponderaciones), dado que el valor de la media se ha calculado con diferente cantidad de información. El caso anterior es sólo una situación particular del caso general para k series, donde la media de medias o media general, x g , para series de igual tamaño está dad por: x1 + x 2 +.... + x k xg = k La media es un valor de variable y por tanto debe expresarse numéricamente, acompañada con las mismas unidades que tiene la variable. El valor de la media no es un valor de variable observado. 4.3.2.1.2. Mediana Otra medida de posición bastante utilizada es la mediana, denotada con 𝑥̅𝑑. Este estadígrafo posee un nombre que hace referencia a una posición media bajo ordenamiento, relacionada con igual cantidad de datos a su izquierda (𝑥𝑖 < 𝑥̅𝑑 ) y a su derecha (𝑥𝑖 > 𝑥̅𝑑 ). Para la definición formal de la mediana, y por ende para su cálculo, hay que considerar si la serie de datos es par o impar: 45 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2021 UNIDAD I: ESTADÍSTICA DESCRIPTIVA a) La mediana de una serie simple que tiene un número impar de observaciones, en un arreglo ordenado por magnitud, toma el valor de la observación que ocupa la posición central. b) La mediana de una serie simple que tiene un número par de observaciones, en un arreglo ordenado por magnitud, toma el valor que corresponde a la media de las dos observaciones centrales En consecuencia, se requieren dos definiciones formales de la mediana, según la muestra tenga un tamaño impar, definición 4.4, o bien par, definición 4.5. Definición 4.4: Cuando el tamaño de la muestra es impar, ̅𝒅 = 𝒙𝒏+𝟏 𝒙 la mediana toma el valor numérico que corresponde a la observación 𝟐 que ocupa la posición (n+1)/2, en una serie ordenada por magnitud. Definición 4.5: Cuando el tamaño de la muestra es par 𝒙(𝒏) + 𝒙(𝒏+𝟏) la mediana, toma el valor de la semisuma de los valores que 𝟐 𝟐 ̅𝒅 = 𝒙 corresponden a las dos observaciones centrales, en una serie 𝟐 ordenada por magnitud A continuación se ilustrarán estos conceptos: Muestra con n impar : Sea la serie de datos ordenados (n=5) 500 570 590 600 690 donde las observaciones ocupan el orden 1º 2º 3º 4º 5º El orden de posicionamiento de la mediana es (n+1) / 2, o sea [(5+1) / 2] = 3, es decir que la mediana, en esta serie, toma el valor 590 porque es el valor de la variable que ocupa el 3º lugar: x d = 590, con la unidad de medida correspondiente. Una importante aclaración acerca de la mediana No confundir número de orden con valor de la mediana. El siguiente esquema pretende clarificar el concepto: 1) Ordenamiento de las unidades de análisis por magnitud 2) Asignación del número de orden a las unidades 1º 2º 3º 4º 5º 6º 3) Identificación de la unidad/des que ocupan posición/es central/les, según n sea impar o par. n impar → x(n+1)/2 = 4) Obtener la mediana (valor que tomó la variable en la unidad central, x(n+1)/2, o valor correspondiente a la semisuma de los valores que tomó la variable en las dos x1 x2 x3 x4 x5 x6 x7 unidades centrales, ) = 46 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2021 UNIDAD I: ESTADÍSTICA DESCRIPTIVA Muestra con n par : Sea la serie de datos ordenados (n=6) 12 15 17 23 25 28 donde las observaciones ocupan el orden 1º 2º 3º 4º 5º 6º El orden de posicionamiento de la mediana está entre (n / 2) y (n / 2) + 1, por reemplazo (6/2) y (6/2) + 1, o sea entre 3 y 4, luego, la mediana, para esta serie, toma el valor 20= (17+23)/2, con la unidad de medida correspondiente. Cabe aclarar también que en el cálculo de la mediana, si la muestra tiene observaciones xi repetidas, se las debe incluir tal cual en la serie ordenada repitiendo el valor las veces que sea necesario. Por ejemplo, sea el conjunto de datos arreglados el siguiente: 19,8 20,5 21,6 21,6 22,7 23,1 25,0. Como n=7, resulta que la mediana ocupa el 4º lugar, y entonces es igual a 21,6. La mediana presenta la siguiente ventaja: A diferencia de lo que acontece con la media, no es afectada por los valores extremos de la serie Para aclarar, supóngase que las observaciones muestrales han sido 1, 3, 4, 2, 7, 6 y 8, en tanto la media resulta ser igual a 4,4 en tanto que la mediana resulta ser igual a 4. Ambas medidas dan una idea razonable de la tendencia central de los datos. Ahora supóngase que la penúltima observación de la serie fue 2450. Recalculando se tiene que la media vale 353,6 y que la mediana sigue valiendo 4. En este último caso, una serie con un valor muy extremo, la media no dice mucho con respecto a la tendencia central de la mayoría de los datos, mientras que la mediana resulta más adecuada para representarlos. Del mismo modo que ocurrió con la media, media muestral y media poblacional, además de la mediana muestral se puede definir : Definición 4.6 La mediana poblacional, 𝝁𝒅 como el valor de variable que deja a la mitad de los valores poblacionales por debajo y a la otra mitad por encima. 4.3.2.2. Medidas de dispersión El posicionamiento o la tendencia central es una propiedad que no proporciona información suficiente para describir datos de manera adecuada. Por ejemplo, sean dos muestras en que se ha determinado la presencia de un cierto componente en ppm: Muestra 1: 130 140 145 150 158 165 Muestra 2: 98 128 140 160 165 205 En ambos casos la media es igual a 148 ppm. Sin embargo, si se recurre al diagrama de puntos de la figura 4.4, se observa que los patrones de variabilidad o dispersión son diferentes, la muestra 2 posee más variabilidad que la muestra 1. 90 110 130 150 170 190 210 Figura 4.4: Datos de composición, en ppm, de dos muestras Referencias: (x), datos de la Muestra 1 y, (.), datos de la Muestra 2 4.3.2.2.1. Amplitud La medida más simple de variabilidad es la amplitud de la muestra, también conocida como rango o recorrido de la muestra. La amplitud muestral, es una medida de la extensión o recorrido de la muestra en la recta de los reales. Definición 4.7: Amplitud=∆m = x máx - x mín que se lee ¨La amplitud, de un conjunto de n datos muestrales es igual a la diferencia entre el máximo y mínimo valor que toma la variable observada¨. 47 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2021 UNIDAD I: ESTADÍSTICA DESCRIPTIVA En el par de muestras donde se midieron las ppm de un cierto componente, la amplitud de la primera es igual a 165 ppm – 130 ppm = 35 ppm, mientras que el de la segunda es 205 ppm – 98 ppm = 107 ppm. Según estos resultados se declara la muestra 1 menos variable, con las precauciones que implica basarse en una medida absoluta derivada de sólo dos valores. 4.3.2.2.2. Varianza y desviación típica Las medidas más importantes de la variabilidad son la varianza y la desviación típica. Estas medidas toman en consideraciòn la forma en que se distribuyen todos los valores de la variable con respecto a la media. La varianza muestral, denotada por s2, es un concepto estadístico muy importante, cuya interpretación ofrece grandes dificultades. En principio, hay que pensar en nuevos valores de la variable, los desvíos con respecto a la media, (𝑥𝑖 − 𝑥̅ ). Como se tienen n desvíos muestrales, habrá que pensar en un promedio de desvíos, esto es ∑(𝑥𝑖 − 𝑥̅ )⁄𝑛, pero, si se recuerda la primera propiedad de la media, el resultado de esta expresión siempre será igual a cero. El problema se puede resolver elevando al cuadrado los desvíos, (𝑥𝑖 − 𝑥̅ )2 , y colocando en el numerador la suma de cuadrados de los desvíos de los valores de la variable con respecto a la media muestral, esto es: ∑(𝑥𝑖 − 𝑥̅ )2 ⁄𝑛. Sin embargo, esta expresión sólo sirve para introducir una interpretación intuitiva al verdadero concepto de la varianza muestral y, aunque errática sirve al efecto de entender que la varianza muestral se aproxima a la idea de un promedio de los cuadrados de los desvíos de los valores de la variable respecto a la media. Para llegar a la varianza muestral hay que definir previamente otro concepto que es el de grados de libertad. Los grados de libertad indican ¨porciones¨ de información independiente. Si la muestra tiene n observaciones, se pueden calcular n desvíos con respecto a la media. Nuevamente, recordando la propiedad de la suma de estos desvíos, acerca de que su suma es igual a cero, si se tiene una serie de n desvíos, sólo n-1 de ellos podrán tomar valores con libertad, pero el restante desvío está ¨obligado¨ a tomar un valor tal que se cumpla tal propiedad. Por ejemplo, sean los valores de la variable 1,2,3,4, y 5, por tanto la media es igual a 3. La correspondiente serie de desvíos es -2, -1, 0, +1 y ?. El último desvío, conociendo la citada propiedad, se puede escribir sin necesidad de calcularlo como +2, porque (-2) + (-1) + (0) + (1) + (2) = 0. Es decir, que si la muestra tiene un tamaño de n, se hablará de que sus grados de libertad, para calcular la varianza muestral, son igual a n-1. (𝑥1 − 𝑥̅ )2 + (𝑥2 − 𝑥̅ )2 + ⋯ + (𝑥𝑛 − 𝑥̅ )2 𝑠2 = 𝑛−1 Procedimiento directo para el cálculo: se basa en los valores de los desvíos (𝑥𝑖 − 𝑥̅ ), y las fórmulas que se obtienen son fórmulas de definición, pero su uso no es práctico, por lo que posteriormente se presentará el procedimiento abreviado para el cálculo. La varianza muestral es igual a la suma de cuadrados de desvíos respecto a la media muestral dividida por los grados de libertad de donde, resulta la definición formal de la varianza muestral. Definición 4.8: n 2 ( x - x ) i=1 i 2 s = n-1 que se lee ¨La varianza muestral, s2, de un conjunto de n datos es igual a la suma de cuadrados de desvíos (de los valores xi de la variable estadística x con respecto a su mediax) dividida por los grados de libertad dados por n-1¨. Por su parte, la desviaciòn típica muestral, también denominada desviación estándar mues

Use Quizgecko on...
Browser
Browser