Análisis de Datos Meteorológicos Guía PDF
Document Details
Uploaded by Deleted User
Tags
Summary
This guide provides a comprehensive overview of data analysis, focusing on methodologies for collecting, categorizing and interpreting data for decision making. It covers different data types, sources, and statistical methods, including descriptive and inferential statistics. It emphasizes precision and reliability in data collection to ensure valid results.
Full Transcript
**Análisis de datos meteorológicos** La recolección de datos se refiere al enfoque sistemático de reunir y medir información de diversas fuentes a fin de obtener un panorama completo y preciso de una zona de interés. La recopilación de datos permite a un individuo o empresa responder a preguntas r...
**Análisis de datos meteorológicos** La recolección de datos se refiere al enfoque sistemático de reunir y medir información de diversas fuentes a fin de obtener un panorama completo y preciso de una zona de interés. La recopilación de datos permite a un individuo o empresa responder a preguntas relevantes, evaluar los resultados y anticipar mejor las probabilidades y tendencias futuras. La exactitud en la reunión de datos es esencial para garantizar la integridad de un estudio, las decisiones comerciales acertadas y la garantía de calidad. ***Bases de datos**:* Una base de datos se reconoce como un sistema que almacena datos relacionados, también puede identificarse como aquel repositorio donde una organización, departamento o persona guarda determinada información relacionada que puede recuperarse, consultarse o integrarse. ***Fuentes de datos*** Las fuentes datos es sin duda uno de los aspectos clave a la hora de consultar, documentar y revisar determinado tipo de información. Se comprenden como todos aquellos recursos que contienen datos formales e informales, digitales, orales o escritos. Existen tres tipos de fuentes de información, entre las que se encuentran: **Fuentes de información primaria:** son aquellas que cuentan con información original, de primera mano, que han sido publicadas por primera vez y que no han pasado por filtros, o han sido interpretadas o re significadas por un tercero. **Fuentes de información secundaria**: este tipo de fuente integran o contienen información primaria, pero ya con un tratamiento específico, incluso reclasificada, interpretada u organizada de acuerdo a unos criterios que le establezca el autor que realice dicho documento. Estas fuentes facilitan el acceso a fuentes primarias, ya que en los procesos de edición, ha tenido que consultar variadas fuentes de información primaria. **Fuentes de información terciaria**: pueden encontrar en formato físico o virtual, y esta están estructuradas por fuentes de información secundaria. Facilitan la consulta a toda una variedad de información con diversos repertorios de referencia, obras, autores, investigadores, etc. Es importante tener en cuenta, ciertos criterios a la hora de seleccionar las fuentes de información. A continuación, se explicarán los más importantes, esto será de gran ayuda a la hora sus consultas de información: **Datos precisos y confiables** Debe tener cuidado a la hora de recolectar datos, verifique la fuente, que sea precisa y verídica. Tenga en cuenta centros de investigación, observatorios, entidades académicas reconocidas, ministerios o entidades del Estado. **Datos pertinentes** Tenga en cuenta antes de la consulta, el para qué los datos, en qué le aportarán, por qué los utilizará. Clasifique y verifique su tipología, si son datos de orden demográfico, vincule las sub-categorías que se pueden presentar allí; relación o estadística por edad, género, nivel social, etc. **Datos consistentes** Tenga cuidado en la consulta y clasificación de datos, que estos sean uniformes, que presenten un patrón de selección, que tenga uniformidad y periodicidad. **Datos periódicos** Ubique datos cíclicos, que reporten bien sea un recorrido histórico, un movimiento periódico que le permita reconocer el proceso de determinado fenómeno que indague. **Datos cualitativos**: se denominan datos cualitativos a todos aquellos que buscan caracterizar o resaltar atributos de un hecho, persona, comunidad, organización o situación no medible o sujeta a representación numérica. **Datos Nominales**: Los datos nominales se usan para etiquetar variables sin ningún orden o valor cuantitativo. El color del cabello puede considerarse un dato nominal, ya que un color no se puede comparar con otro color. Color del cabello (Rubio, Rojo, Castaño, Negro, etc.) Estado civil (Soltero, Viudo, Casado) **Datos ordinales**: Los datos ordinales tienen un orden natural en el que un número está presente en algún tipo de escala. Estos datos se utilizan para observaciones como satisfacción del cliente, felicidad, etc., pero no podemos realizar tareas aritméticas con ellos. Calificaciones en un examen (A, B, C, D, etc.) Clasificación de personas en una competencia (Primero, Segundo, Tercero, etc.) Estado Económico (Alto, Medio y Bajo) **Datos cuantitativos:** con aquellos susceptibles a la medición y representación numérica. Generalmente departamentos como los comerciales y financieros centran sus fuentes de información en la consolidación de bases de datos numéricos que faciliten la toma de decisiones y las proyecciones para el caso de las ventas, procesos de contratación, nóminas futuras etc\... **Datos discretos:** datos que solo pueden tomar un conjunto finito de valores, surgen a partir de un conteo, se representan con cantidades enteras. **Datos continuos**: son aquellos datos que pueden tomar un conjunto infinito de valores, estos datos se admiten valores expresados con números decimales o fraccionarios. Estos datos solo se pueden estudiar de uno en uno y se agrupan en intervalos. Por ejemplo, el peso, la estatura o el nivel de glucosa en la sangre de las personas. **Datos representados en escalas de razón:** son datos cuyos valores miden una variable de acuerdo a su magnitud o distancia entre los números de su escala similar. Con este tipo de valores es posible determinar comparaciones de igualdad/ desigualdad entre los datos que se encuentran en la misma escala de valoración. **Datos representados en escalas de rango**: estos datos tienen características similares a los que se representan mediante razones, con la diferencia de que en los casos que el dato es cero este representa ausencia total de una medida. Un ejemplo de estos datos se usa en las empresas para representar pesos, distancias o salarios. **Hardware:** refiere a toda la estructura física que hace posible el almacenamiento y transformación de información. Ejemplo: dispositivo móvil, cámara fotográfica, computador, disco portable etc. **Software:** refiere a toda la estructura lógica e interna de un dispositivo que hace posible la consolidación de un sistema de información empresarial. Actualmente hay varios softwares en línea que posibilita el almacenamiento de grandes volúmenes de información. *[Análisis de datos cuantitativos]* El análisis de datos cuantitativo implica seguir una ruta que inicia por: Depuración de datos: si los datos se encuentran ubicados en una base cuyos filtros no son suficientes para su detalle, se debe entrar a revisar minuciosamente cada instrumento de recolección de la información, revisar su sistematización y el tratamiento que se le va a dar a la misma para su análisis. Se debe detallar los datos recogidos ya que en ocasiones no corresponden con las variables que se están caracterizando o sobre las cuales se intenta tener un referente en la toma de decisiones. Eliminación de datos atípicos: cuando se tiene un grupo amplio de datos es importante organizarlos y clasificarlos acorde a las variables de estudio para reducir el margen de error de estar trabajando con datos que no corresponden a la muestra establecida, o que se salen de las escalas de medición usadas para dicho estudio. Estos datos se deben eliminar y no tenidos en cuenta para el posterior análisis. Aplicación del modelo estadístico (necesario para caracterizar la población de prueba): Bien sea en una lógica de lo descriptivo (inductivo) o inferencial (deductivo) se debe hacer el tratamiento de la información obtenida acorde al propósito de la investigación, indagación o proceso de recolección de datos y a las técnicas propias de cada clase. Elaboración del análisis, a partir del resultado de la estadística realizada. **Inferencia estadística:** habiendo realizado un proceso de recolección de información se puede establecer generalidades de una población teniendo en cuenta las características de la muestra seleccionada para ello. La estadística inferencial cumple con las siguientes funciones: Deduce consecuencias para la población en estudio, siempre y cuando la muestra sea representativa. Acude al muestreo como requisito para determinar el grupo de estudio y sus criterios de representatividad. Se establecen parámetros o valores para los mismos de acuerdo a los valores obtenidos en la muestra seleccionada. **Estadística descriptiva**: corresponde con la caracterización de una muestra teniendo en cuenta las variables definidas para su estudio. La estadística descriptiva permite el tratamiento de información mediante la recolección, tabulación, graficación y análisis de datos. \-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-- En ocasiones la variable a analizar es lo suficientemente grande para que operativamente hablando sea imposible de cubrir al 100%, esto sucede principalmente con el análisis cualitativo. Para ello, se proponen técnicas de muestreo y tamaño de muestra. Donde al analizar dicha muestra se pueden extrapolar los resultados y así tratar de entender el comportamiento de la población. **Tamaño de muestra** - Se requieren de los siguientes parámetros para determinar una muestra: - Población - Nivel de confianza - Margen de error - Distribución **Población** - Tamaño de la población: - Es la cantidad total de individuos/objetos en el grupo que deseas estudiar. - Ejemplo: Se tienen 6330 predios en alta en cuervo. **Nivel de confianza** ![](media/image2.png)El nivel de confianza se expresa en forma de porcentaje (por ejemplo, un nivel de confianza del 95%). Significa que, si se repite un experimento una y otra vez, el 95 por ciento de las veces sus resultados coincidirán con los que se obtienen de una población, es decir, tendrás estadísticas sólidas. **Margen de error** Es un porcentaje que te dice en qué medida puedes esperar que los resultados de tu muestra reflejen lo mismo que la población general por arriba o por abajo (+/-). Un margen de error aceptable utilizado por la mayoría de los investigadores de estudios suele situarse entre el 4% y el 8% con un nivel de confianza del 95%. **Distribución** Distribución estadística o de probabilidad: Una distribución estadística, o distribución de probabilidad, describe cómo se distribuyen los valores para un campo. En otras palabras, la distribución estadística muestra qué valores son comunes y poco comunes. Hay muchos tipos de distribuciones estadísticas, incluyendo la distribución normal en forma de campana. Utilizamos una distribución estadística para determinar la probabilidad de que sea un valor particular. Los tipos de distribución más comunes son: Normal, Binomial, Bernoulli, Poisson, Exponencial, Chicuadrada. Cuando la distribución no es normal, esto puede ser muy complicado y tales formulaciones matemáticas sencillas podrían ser difíciles de encontrar o hasta imposibles en algunos casos. En las investigaciones es común optar por la opción de máxima variabilidad, esto cuando no existen antecedentes sobre la investigación realizada. Para estos casos se establece un valor estándar de p=q=0.5 o 50%. **Cálculo de muestra** - e: margen de error. - N: población - z: valor z según grados de confianza - p: distribución Existen paginas para calcular el tamaño de muestra e inclusive programas o Excel formulado. Algunos ejemplos son los siguientes: raosoft. **Técnicas de muestreo:** La representatividad de una muestra permite extrapolar y por ende generalizar los resultados observados en ésta, a la población accesible con un alto grado de certeza (Dieterich, 1996). Una muestra puede ser obtenida de dos tipos: probabilística y no probabilística. Las técnicas de muestreo probabilísticas permiten conocer la probabilidad que cada individuo a estudio tiene de ser incluido en la muestra a través de una selección al azar. En cambio, en las técnicas de muestreo de tipo no probabilísticas, la selección de los sujetos a estudio dependerá de ciertas características, criterios, etc. que él (los) investigador (es) considere (n) en ese momento; por lo que pueden ser poco válidos y confiables o reproducibles; debido a que este tipo de muestras no se ajustan a un fundamento probabilístico, es decir, no dan certeza que cada sujeto a estudio represente a la población blanco (Walpole & Myers, 1996; Ávila Baray; Arias-Gómez et al.). En la investigación existen dos técnicas principales de muestreo: las que están basadas en la probabilidad y las que no. Vamos a analizar los diferentes tipos de muestreo que puedes crear utilizando ambas técnicas para una eficiente recolección de datos de tu próxima investigación. **Probabilístico** El muestreo probabilístico es una técnica en la cual las muestras son recogidas mediante un proceso que les brinda a todos los individuos de la población la misma oportunidad de ser seleccionados. ![](media/image5.png)Muchos consideran que este es metodológicamente el enfoque más riguroso para el muestreo, ya que elimina los sesgos sociales que podrían moldear la muestra de investigación. Sin embargo, en última instancia la técnica de muestreo que elijas debe ser la que te permita responder mejor a tu pregunta de investigación. a. Aleatorio simple: Garantiza que todos los individuos que componen la población blanca tienen la misma oportunidad de ser incluidos en la muestra. Esta significa que la probabilidad de selección de un sujeto a estudio "x" es independiente de la probabilidad que tienen el resto de los sujetos que integran forman parte de la población blanco. b\) Aleatorio estratificado: Se determina los estratos que conforman la población blanco para seleccionar y extraer de ellos la muestra (se define como estrato a los subgrupos de unidades de análisis que difieren en las características que van a ser analizadas). Entonces en cada uno de estos estratos, se realizan muestreos aleatorios simples. Se dispone de las siguientes opciones: asignación proporcional (el tamaño de la muestra de cada estrato es proporcional al tamaño del estrato que le dio origen, respecto a la población total) y asignación óptima (el tamaño de la muestra de cada estrato, son definidos por quien hace el muestreo) (Bai et al., 2013 ![Texto Descripción generada automáticamente](media/image7.png) c\) Aleatorio sistemático: Es aquel en el que los elementos de la población se ponen en una lista y luego cada enésimo elemento de la lista se selecciona sistemáticamente para su inclusión en la muestra. Este tipo de muestreo suele ser más preciso que el aleatorio simple Por ejemplo, seria enlistar la población y elegir uno si y uno no como la imagen. Texto Descripción generada automáticamente d\) Por conglomerados: Se divide la población en varios grupos de características parecidas entre ellos y luego se analizan completamente algunos de los grupos, descartando los demás. Dentro de cada conglomerado existe una variación importante, pero los distintos conglomerados son parecidos. Requiere una muestra más grande, pero suele simplificar la recogida de muestras. En este caso se elige toda la población de cada grupo elegido aleatoriamente a diferencia del estratificado que se toman todos los grupos, pero solo una muestra con asignación proporcional. ![Texto, Word Descripción generada automáticamente](media/image9.png) **No probabilístico:** El muestreo no probabilístico es una técnica de muestreo donde las muestras se recogen por medio de un proceso que no les brinda a todos los individuos de la población las mismas oportunidades de ser seleccionados. Aunque seleccionar algunos de estos métodos podría resultar en datos sesgados o en una capacidad limitada para hacer conclusiones generales basadas en los hallazgos, también existen algunas situaciones en las que seleccionar este tipo de técnica de muestreo es la mejor opción para cierta pregunta de investigación o para una etapa de la investigación. a. Por cuotas: Es una técnica de muestreo no probabilístico, que consiste en seleccionar la muestra después de que la población se encuentra dividida en estratos. La diferencia entre el método de muestreo por cuotas y el de muestreo estratificado es que, la selección de los elementos de la población para la muestra se realiza a criterio del investigado y no se realiza al azar como en el muestreo estratificado. b\) Bola de nieve: Es adecuado utilizar un muestreo bola de nieve cuando los miembros de una población son difíciles de localizar, como las personas sin hogar, trabajadores migrantes o inmigrantes indocumentados. Una muestra de bola de nieve es aquella en la que el investigador recopila datos sobre los pocos miembros de la población objetivo que puede localizar, y luego les pide que le proporcionen la información necesaria para localizar a otros miembros que conozcan de esa población. c\) Intensional o de conveniencia :Es un método de muestreo no probabilístico, este método consiste en seleccionar los elementos que son convenientes para la investigación para la muestra, dicha conveniencia se produce ya que el investigador se le resulta más sencillo de examinar a los sujetos ya sea por proximidad geográfica. Se caracteriza por el esfuerzo de obtener muestras que sean representativas mediante la inclusión en la muestra de grupos típicos. d\) Por juicioMuestreo probabilístico y no probabilístico gestiopolisEL método de muestreo no probabilístico, el cual consiste en que los sujetos se seleccionan con base del conocimiento y juicio del investigador. Es decir, el investigador utiliza su juicio o experiencia para seleccionar a los elementos que pertenecerán a la muestra, ya que considera que son más representativos de la población en estudio. **Frecuencia:**La **frecuencia** de cualquier valor *x* particular es el número de veces que ocurre un valor en el conjunto de datos. - Existen varios tipos de frecuencia: 1. **Frecuencia.** 2. **Frecuencia relativa** 3. **Frecuencia acumulada.** 4. **Frecuencia porcentual**. **Ejemplo 1**: En un estudio de productividad de autores ("Lotka's Test", *Collection Mgmt*., 1982: 111-118), se clasificó a un gran número de autores de artículos de acuerdo con el número de artículos que publicaron durante cierto periodo. Los resultados se presentaron en la distribución de frecuencia adjunta: **Act 1** Se determinó el número de partículas contaminadas en una oblea de silicio antes de cierto proceso de enjuague por cada oblea en una muestra de tamaño 100 y se obtuvieron las siguientes frecuencias **Actividad 2:** La siguiente tabla muestra la cantidad de casos confirmados de COVID para ciertas fechas. **Introducción:** Las medidas de tendencia central son medidas estadísticas que pretenden resumir en un solo valor a un conjunto de valores. Representan un centro en torno al cual se encuentra ubicado el conjunto de los datos. Las medidas de tendencia central más utilizadas son: media, mediana y moda. **Media muestral (**[\$\\overline{x}\$]{.math.inline}**):** Para un conjunto dado de números x1, x2,... , xn, la medida más conocida y útil del centro es la media o promedio aritmético del conjunto. Como casi siempre se pensará que los números xi constituyen una muestra, a menudo se hará referencia al promedio aritmético como la media muestral y se la denotará por ¯𝑥. ![Interfaz de usuario gráfica, Texto, Aplicación, Correo electrónico Descripción generada automáticamente](media/image13.png) **Media poblacional (**[**μ**]{.math.inline}**):** Así como representa el valor promedio de las observaciones incluidas en una muestra, se puede calcular el promedio de todos los valores incluidos en la población. Este promedio se llama media de la población y está denotada por la letra griega 𝜇 **Mediana muestral (**[*x̃*]{.math.inline}**):** La palabra mediana es sinónimo de "medio" y la mediana muestral es en realidad el valor medio una vez que se ordenan las observaciones de la más pequeña a la más grande. Cuando las observaciones están denotadas por x1,... , xn, se utilizará el símbolo para representar la mediana muestral. La mediana muestral se obtiene ordenando primero las n observaciones de la más pequeña a la más grande (con cualesquiera valores repetidos incluidos de modo que cada observación muestral aparezca en la lista ordenada). Interfaz de usuario gráfica, Texto, Aplicación Descripción generada automáticamente **Ejemplo 2** **Mediana poblacional (**[\$\\widetilde{\\mathbf{\\mu}}\$]{.math.inline}**):** Análogo a la mediana muestral como valor medio de la muestra es un valor medio de la población, la mediana poblacional, denotada por 𝜇 ̃. **Media y Mediana** **Actividad 4** **Moda muestral:** La moda estadística de un conjunto de datos, se define como el número que está representado más veces dentro de esos datos, es decir, aquel número que presenta una mayor frecuencia absoluta dentro de la muestra. **Tipos de modas:** Unimodal Bimodal Multimodal **Ejemplo 3** **ACT 5** **Media geométrica (MG) : U**no de sus principales usos es para calcular medias sobre porcentajes, pues su cálculo ofrece unos resultados más adaptados a la realidad. Su fórmula es![](media/image16.png): - **N: **Se trata del número total de observaciones. Por ejemplo, si tenemos el crecimiento de los beneficios de una empresa durante 4 periodos, N será 4. - **x: **La variable X es sobre la que calculamos la media geométrica. Siguiendo el ejemplo anterior, el crecimiento de los beneficios estará expresado en porcentaje y será la variable X. - **i:** Representa la posición de cada observación. En este ejemplo, podríamos ponerle un número cada periodo. Un 1, al periodo 1, un 2 al periodo 2, etc. De manera que x~1~ es el crecimiento de los beneficios en el periodo 1, x~2~ el crecimiento de los beneficios en el periodo 2, x~3~ el crecimiento de los beneficios en el periodo 3 y x~4~ el crecimiento de los beneficios en el periodo 4. **EJEMPLO 5,EJEMPLO 6,ACT 6,EJEMPLO 7** **Media armónica (Ma):** La media armónica se define como el recíproco de la media aritmética de los recíprocos. \ [\$\$\\mathbf{MA =}\\frac{\\mathbf{n}}{\\frac{\\mathbf{1}}{\\mathbf{x}\_{\\mathbf{1}}}\\mathbf{+}\\frac{\\mathbf{1}}{\\mathbf{x}\_{\\mathbf{2}}}\\mathbf{+ \\ldots +}\\frac{\\mathbf{1}}{\\mathbf{x}\_{\\mathbf{n}}}}\$\$]{.math.display}\ Esta medida se emplea para promediar variaciones con respecto al tiempo tales como productividades, tiempos, rendimientos, cambios, etc., **EJEMPLO 8,EJEMPLO 9,ACT 7** **Media ponderada:** En matemáticas y estadística, el promedio ponderado o media ponderada es la medida de tendencia central obtenida a partir de un conjunto de datos cuya relevancia o importancia dentro del conjunto es relativa respecto de los demás. Es decir, cuando tenemos una serie de datos que no poseen igual relevancia (es decir, no poseen igual ponderación) dentro del conjunto, por lo que no es adecuado obtener simplemente una media aritmética. Así, para obtener un promedio ponderado debemos multiplicar cada dato por su ponderación (o peso) y luego sumándolos (esto se denomina una suma ponderada), para finalmente dividir la cifra obtenida entre la suma de los pesos o ponderaciones. Un ejemplo es el peso de los exámenes parciales y el examen final. \_\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-- Las medidas de dispersión en cambio miden el grado de dispersión de los valores de la variable. Dicho en otros términos las medidas de dispersión pretenden evaluar en qué medida los datos difieren entre sí. De esta forma, ambos tipos de medidas usadas en conjunto permiten describir un conjunto de datos entregando información acerca de su posición y su dispersión. Algunas medidas de dispersión son: Rango, deviación estándar, varianza. **Cuartiles:** Son valores de la variable que dividen los datos ordenados en cuartos; cada conjunto de datos tiene tres cuartiles. El primer cuartil, Q1 ,es un número tal que a lo sumo 25% de los datos son menores en valor que Q1 y a lo sumo 75% son mayores. El segundo cuartil Q2 es la mediana (50%). El tercer cuartil, Q3 , es un número tal que a lo sumo 75% de los datos son valores en valor que Q3 y a lo sumo 25% son mayores. Interfaz de usuario gráfica, Texto, Aplicación Descripción generada automáticamente - **K es el cuartil, n cantidad de datos**![](media/image18.png) **Deciles:** Son valores de la variable que dividen los datos ordenados en diez partes iguales (9 divisiones). Interfaz de usuario gráfica, Aplicación, Word Descripción generada automáticamente - **K es el decil, n cantidad de datos** ![](media/image20.png)**Percentiles:** Son los valores de la variable que dividen un conjunto de datos clasificados en 100 subconjuntos iguales; cada conjunto de datos tiene 99 percentiles. El késimo percentil, Pk , es un valor que a lo sumo k% de los datos son menores en valor que Pk y a lo sumo (100 - k)% de los datos son mayores. - **K es el percentil, n cantidad de datos** Ejemplo 1 Act **Rango muestral:** La medida más simple de variabilidad en una muestra es el rango, el cual es la diferencia entre los valores muestrales más grande y más pequeño. Un defecto del rango, no obstante, es que depende de sólo las dos observaciones más extremas y hace caso omiso de las demás posiciones. **Ejemplo 1** **Actividad 10** **Rango intercuartílico (IQR):** Es una estimación estadística de la dispersión de una distribución de datos. Consiste en la diferencia entre el tercer y el primer cuartil. Mediante esta medida se eliminan los valores extremadamente alejados. El rango intercuartílico es altamente recomendable cuando la medida de tendencia central utilizada es la mediana (ya que este estadístico es insensible a posibles irregularidades en los extremos). Interfaz de usuario gráfica, Texto Descripción generada automáticamente En una distribución, encontramos la mitad de los datos, el 50 %, ubicados dentro del rango intercuartílico. Conforme aumente el IQR, indicará que la dispersión será mayor. Por lo tanto, en distribuciones con una gran asimetría, (alejadas de la distribución normal o campana de Gauss) es más apropiado medir la tendencia central y la dispersión mediante la mediana y el rango intercuartil respectivamente que con la media aritmética y la desviación típica. Con el IQR podremos elaborar los diagramas de caja, que es un instrumento muy visual para evaluar la dispersión de una distribución. **Ejemplo 2** **Diagrama de caja:** Es un gráfico utilizado para representar una variable cuantitativa (variable numérica). El gráfico es una herramienta que permite visualizar, a través de los cuartiles, cómo es la distribución, su grado de asimetría, los valores extremos, la posición de la mediana, etc. Se compone de: Un rectángulo (caja) delimitado por el primer y tercer cuartil (Q1 y Q3). Dentro de la caja una línea indica dónde se encuentra la mediana (segundo cuartil Q2) Dos brazos, uno que empieza en el primer cuartil y acaba en el mínimo, y otro que empieza en el tercer cuartil y acaba en el máximo. Los datos atípicos (o valores extremos) que son los valores distintos que no cumplen ciertos requisitos de heterogeneidad de los datos**.** ![Interfaz de usuario gráfica, Texto, Aplicación, Sitio web Descripción generada automáticamente](media/image22.png) Para construir el diagrama de caja, debemos seguir los siguientes pasos: 1.Ordenar los datos. 2.Calcular los tres cuartiles (Q1, Q2 y Q3). Después, dibujamos el rectángulo (caja) delimitado por el primer y tercer cuartil, dibujando entre los dos cuartiles una línea para indicar donde está la mediana (segundo cuartil). 3.Calcular el rango intercuartílico, que es el tercer cuartil menos el primero. **Ejemplo 3,** Act 11 **Desviación media:** Un problema que presenta el rango es que parte de dos valores, el más alto y el más bajo, es decir, no los toma en cuenta a todos. La desviación media sí lo hace; mide la cantidad media respecto de la cual los valores de una población o muestra varían. En el caso de una muestra, la desviación media, designada DM, se calcula mediante la fórmula: Interfaz de usuario gráfica, Texto, Aplicación Descripción generada automáticamente ![Interfaz de usuario gráfica, Texto Descripción generada automáticamente](media/image24.png) **Ejemplo,Act:** **Varianza muestral (**[**s**^**2**^]{.math.inline}**):** La varianza de una muestra de n mediciones es la suma de las desviaciones cuadradas de las mediciones alrededor la media ¯𝑥 dividida entre (n - 1). La varianza muestral se denota con 𝑠\^2 y está dada por la fórmula: **EJEMPLO** **Varianza poblacional (**[**σ**^**2**^]{.math.inline}**):** La varianza de una población de *N* mediciones es el promedio de los cuadrados de las desviaciones de las mediciones alrededor de su media poblacional [*μ*]{.math.inline}. La varianza poblacional se denota con [*σ*^2^ ]{.math.inline} y está dada por la fórmula: ![](media/image26.png) **Desviación estándar muestral (**[**s)**]{.math.inline}***:** La desviación estándar de un conjunto de mediciones es igual a la raíz cuadrada positiva de la varianza.* \ [\$\$\\mathbf{s =}\\sqrt{\\mathbf{s}\^{\\mathbf{2}}}\$\$]{.math.display}\ **Desviación estándar poblacional (**[**σ):**]{.math.inline}La desviación estándar de un conjunto de mediciones es igual a la raíz cuadrada positiva de la varianza. \ [\$\$\\mathbf{\\sigma =}\\sqrt{\\mathbf{\\sigma}\^{\\mathbf{2}}}\$\$]{.math.display}\ ***EJEMPLO 1,ACT 13,ACT 14,ACT 15*** **Coeficiente de variación:** es una medida de dispersión relativa, no tiene unidades Se define como el cociente de la desviación estándar (o típica) y la media ***EJEMPLO,ACT 16*** ***PORTAFOLIO 2*** *Una distribución de probabilidad muestra los posibles resultados de un experimento y la probabilidad de que cada uno se presente.* *CARACTERÍSTICAS DE UNA DISTRIBUCIÓN DE PROBABILIDAD* *1. La probabilidad de un resultado en particular se encuentra entre 0 y 1, inclusive.* *2. Los resultados son eventos mutuamente excluyentes.* *3. La lista es exhaustiva. Por lo tanto, la suma de las probabilidades de los diversos eventos* *es igual a 1.* *EJEMPLO 1* ***Variable aleatoria discreta:*** *Una variable aleatoria discreta adopta sólo cierto número de valores separados. Si hay 100 empleados, el recuento de la cantidad de ausentes el lunes sólo puede ser 0, 1, 2, 3,..., 100. Una variable discreta suele ser resultado de contar algo. Por definición: A veces, una variable aleatoria discreta asume valores fraccionarios o decimales. Estos valores deben estar separados: debe haber cierta distancia entre ellos. Por ejemplo, las calificaciones de los jueces por destreza técnica y formas artísticas en una competencia de patinaje artístico son valores decimales, como 7.2, 8.9 y 9.7. Dichos valores son discretos, pues hay una distancia entre calificaciones de 8.3 y 8.4. Una calificación no puede tener un valor de 8.34 o de 8.347, por ejemplo**.*** ***Variable aleatoria continua**:* *Por otra parte, si la variable aleatoria es continua, es una distribución de probabilidad continua. Si mide algo, como la anchura de una recámara, la estatura de una persona o la presión de la llanta de un automóvil, se trata de una variable aleatoria continua. Se puede suponer una infinidad de valores, con ciertas limitaciones. Por ejemplo:* * Los tiempos de los vuelos comerciales entre Atlanta y Los Ángeles son de 4.67 horas, 5.13 horas, etc. La variable aleatoria es la cantidad de horas.* * La presión, medida en libras por pulgada cuadrada (psi), de un nuevo neumático Chevy Trail-blazer puede ser de 32.78 psi, 31.62 psi, 33.07 psi, etc. En otras palabras, es razonable que se presente cualquier valor entre 28 y 35. La variable aleatoria es la presión de la llanta.* ***Variable aleatoria vs distribución de probabilidad:*** *Por lógica, si organiza un conjunto de posibles valores de una variable aleatoria en una distribución de probabilidad, el resultado es una distribución de probabilidad. Así, ¿cuál es la diferencia entre una distribución de probabilidad y una variable aleatoria? Una variable aleatoria representa el resultado particular de un experimento. Una distribución de probabilidad representa todos los posibles resultados, así como la correspondiente probabilidad.* ***Distribution binomial:** La distribución de probabilidad binomial es una distribución de probabilidad discreta que se presenta con mucha frecuencia. Una de sus características consiste en que sólo hay dos posibles resultados en un determinado ensayo del experimento.* *Por ejemplo, el enunciado en una pregunta de cierto o falso puede ser o cierto o falso.* *Los resultados son mutuamente excluyentes, lo cual significa que la respuesta a una pregunta de cierto o falso no puede ser al mismo tiempo cierta o falsa. En otro ejemplo, un producto se clasifica como aceptable o inaceptable por el departamento de control de calidad; un trabajador se clasifica como empleado o desempleado, y una llamada da como resultado que el cliente compre el producto o no lo compre. Con frecuencia, se clasifican los dos posibles resultados como éxito y fracaso. Sin embargo, esta clasificación no implica que un resultado sea bueno y el otro malo.* *La última característica de una distribución de probabilidad binomial consiste en que cada ensayo es independiente de cualquier otro. Que sean independientes significa que no existen patrones en los ensayos. El resultado de un ensayo particular no influye en el resultado de otro ensayo. Dos ejemplos de lo anterior son:* * Una joven familia tiene dos niños, ambos varones. La probabilidad de que el tercer hijo sea un varón sigue siendo 0.50. Es decir, el género del tercer hijo es independiente de los otros dos.* * Suponga que 20% de los pacientes atendidos en la sala de urgencias del Waccamaw Hospital no tiene seguro médico. Si el segundo paciente atendido en el turno vespertino hoy no tiene seguro, eso no afecta la probabilidad de que el tercero, el décimo o cualquiera de los otros pacientes cuente o no con seguro.* *Empleamos la letra griega (pi) para representar un parámetro de población binomial. No confundir con la constante matemática 3.1416.* ![Texto Descripción generada automáticamente](media/image28.png) *EJEMPLO 1,ACTIVIDAD* ***Pruebas paramétricas:*** *Se busca estimar los parámetros de una población en base a una muestra.* *Se conoce el modelo de distribución de la población, presenta variables cuantitativas continuas (medibles).* *Mientras más grande sea la muestra más exacta será la estimación, mientras más pequeña, más distorsionada será la media de las muestras.* ***Ventajas de las Pruebas Paramétricas*** *Tienen más poder de eficiencia* *Más sensibles a los rasgos de los datos recolectados* *Menos posibilidad de errores* *Dan estimaciones probabilísticas bastante exactas* ***Desventajas de las Pruebas Paramétricas*** *Más complicadas de calcular* *Limitaciones en los tipos de datos que se pueden evaluar* ***Tipos de pruebas paramétricas:*** *Prueba del valor Z de la distribución normal* *Prueba T de Student para datos relacionados (muestras dependientes)* *Prueba T de Student para datos no relacionados (muestras independientes)* *Prueba T de Student-Welch para dos muestras independientes con varianzas no homogéneas* *Prueba F (análisis de varianza o ANOVA)* ***Pruebas de Valor Z:** Una prueba z es una prueba estadística que se utiliza para determinar si dos recursos poblacionales son diferentes cuando se conocen las variables y el tamaño de muestra grande. Se supone que la estadística de prueba tiene una distribución normal y los parámetros de molestia deben conocerse como desviación estándar para realizar una prueba z precisa.* *La prueba z se utiliza mejor para muestras mayores de 30 porque, según el teorema del límite central, a medida que aumenta el número de muestras, se considera que las muestras tienen una distribución normal.* Interfaz de usuario gráfica, Aplicación Descripción generada automáticamente*Parámetros de estimación: Media Y Desviación estándar* *EJEMPLO 1,EJEMPLO 2* ![](media/image30.png) ACT 3 **Pruebas T student:** Al efectuar un experimento para evaluar un proceso nuevo pero muy costoso para producir diamantes sintéticos, usted puede estudiar sólo seis diamantes generados por el proceso. ¿Cómo puede usar estas seis mediciones para hacer inferencias acerca del peso promedio m de diamantes a partir de este proceso? Desafortunadamente, cuando el tamaño muestral n sea pequeño, el estadístico: ![Interfaz de usuario gráfica, Aplicación Descripción generada automáticamente](media/image29.png) no tiene una distribución normal. Por tanto, todos los valores críticos de z que utilizamos en el capitulo 9 ya no son correctos. Por ejemplo, no se puede decir que x se encontrará a no más de 1.96 errores estándar de 𝜇= 95% del tiempo. Este problema no es nuevo; fue estudiado por expertos en estadística y experimentadores a principios del siglo xx. Para hallar la distribución muestral de esta estadística, hay dos formas de proceder: Use un método empírico. Saque repetidas muestras y calcule para cada muestra. La distribución relativa de frecuencia que usted construya usando estos valores aproximarán la forma y ubicación de la distribución muestral. Use un método matemático para deducir la función real de densidad o curva que describa la distribución muestral. Este segundo método fue utilizado por un inglés llamado W.S. Gosset en 1908. Él dedujo una complicada fórmula para la función de densidad de Interfaz de usuario gráfica, Texto, Aplicación, Correo electrónico Descripción generada automáticamentepara muestras aleatorias de tamaño n desde una población normal y publicó sus resultados bajo el nombre de "Student". Desde entonces, la estadística se conoce como t de Student. ![Tabla Descripción generada automáticamente con confianza media](media/image32.png)Imagen que contiene Gráfico Descripción generada automáticamente ![](media/image34.png) **Datos que se necesitan para t-student** Muestra (n) Grados de libertad (𝒏−𝟏) Media y desviación estándar (¯𝒙 , 𝑺) Alpha (∝) confiabilidad EJEMPLO 1,EJEMPLO 2,EJEMPLO 3 **TABLA F FISHER=Análisis de varianza (ANOVA):** El análisis de varianza (ANOVA) de un factor es un método estadístico para examinar las diferencias en las medias de tres o más grupos. Usualmente, el ANOVA de un factor se emplea cuando tenemos una única variable o factor independiente y el objetivo es investigar si las variaciones o diferentes niveles de ese factor tienen un efecto medible sobre una variable dependiente. El ANOVA de un factor es un método estadístico para probar la hipótesis nula (H0) de que tres o más medias poblacionales son iguales frente a la hipótesis alternativa (Ha) de que al menos una de las medias es diferente. Usando la notación formal de las hipótesis estadísticas con k medias, escribiríamos: Interfaz de usuario gráfica, Texto, Aplicación, Correo electrónico Descripción generada automáticamente Así, un análisis de varianza (ANOVA) sirve para determinar si diferentes tratamientos (por ejemplo, tratamientos psicológicos) muestran diferencias significativas, o si por el contrario, puede establecerse que sus medias poblaciones no difieren (son prácticamente iguales, o su diferencia no es significativa). EJEMPLO 1EJEMPLO 2,ACT 1,PORTAFOLIO 3 **Contraste de hipótesis (Bootstrap):** Una distribución de muestreo describe la probabilidad de obtener cada valor posible de un estadístico de una muestra aleatoria de una población; en otras palabras, qué proporción de todas las muestras aleatorias de ese tamaño ofrecerá ese valor. El procedimiento de bootstrap es un método que estima la distribución de muestreo al tomar múltiples muestras con reemplazo de una sola muestra aleatoria. Estas nuevas muestras se denominan muestras repetidas. Cada muestra tiene el mismo tamaño que la muestra original. La muestra original representa la población de la cual se extrajo. Por lo tanto, las muestras repetidas de esta muestra original representan lo que obtendríamos si tomáramos muchas muestras de la población. La distribución bootstrap de un estadístico, basada en las muestras repetidas, representa la distribución de muestreo del estadístico. https://www.youtube.com/watch?v=btc6rxx6HeA Por ejemplo, usted desea estimar la distribución de muestreo de la proporción de M&M\'s azules. Puede abrir un paquete aleatorio y determinar que hay 102 M&M\'s, de los cuales 23 (22.5%) son azules. El muestreo repetido con reemplazo a partir de esta muestra original imita lo que pudiera ser el aspecto de la población. Para tomar una muestra repetida, se selecciona un M&M aleatoriamente de la muestra original, se registra el color y el M&M es devuelto a la muestra. Esto se realiza 102 veces (el tamaño de la muestra original) para completa una sola muestra repetida. El siguiente gráfico de barras representa una sola muestra bootstrap tomada de la muestra original. ![](media/image36.png) Puesto que la muestra repetida se realiza mediante muestreo con reemplazo, la proporción de la muestra bootstrap generalmente no coincide exactamente con la proporción original. Esta gráfica de barras muestra que la muestra original encontró que aproximadamente 22.5% de los M&M\'s eran azules, mientras que la muestra bootstrap encontró que aproximadamente 28.4% de los M&M\'s eran azules. Para crear una distribución bootstrap, usted toma muchos muestras repetidas. El siguiente histograma muestra la distribución bootstrap para 1,000 muestras repetidas del paquete original de M&M\'s. Gráfico, Histograma Descripción generada automáticamente La distribución bootstrap se centra en aproximadamente 22.5%, que es una estimación de la proporción de la población. Las líneas de referencia rojas representan un intervalo de confianza de 95%. El 95% intermedio de los valores de la distribución bootstrap proporciona un intervalo de confianza de 95% para la proporción de la población de M&M\'s azules. En este ejemplo, usted puede estar 95% seguro de que la proporción de M&M\'s azules se encuentra entre aproximadamente 13.7% y 31.4%. El teorema del límite central es un teorema fundamental de probabilidad y estadística. El teorema establece que la distribución de , que es la media de una muestra aleatoria de una población con varianza finita, tiene una distribución aproximadamente normal cuando el tamaño de la muestra es grande, independientemente de la forma de la distribución de la población. El procedimiento de bootstrap se puede utilizar para entender fácilmente cómo funciona el teorema del límite central. Considere datos que proceden de una distribución exponencial. ![Interfaz de usuario gráfica, Aplicación Descripción generada automáticamente](media/image38.png) Es muy obvio que los datos son no normales. Pero ahora tomaremos una muestra de 50 observaciones y crearemos una distribución bootstrap de las medias de 10 muestras repetidas. Gráfico, Histograma Descripción generada automáticamente La distribución de las medias es muy diferente de la distribución exponencial. Se parece mucho más a una distribución normal. Este parecido aumenta a medida que aumenta el número de muestras repetidas. Con 1,000 muestras repetidas, la distribución de la media de las muestras repetidas es aproximadamente normal. ![Gráfico, Histograma Descripción generada automáticamente](media/image40.png) **Histogramas:** Algunos datos numéricos se obtienen contando para determinar el valor de una variable (el número de citatorios de tráfico que una persona recibió durante el año pasado, el número de personas que solicitan empleo durante un periodo particular), mientras que otros datos se obtienen tomando mediciones (peso de un individuo, tiempo de reacción a un estímulo particular). La prescripción para trazar un histograma es en general diferente en estos dos casos. Un histograma de frecuencia relativa es semejante a una gráfica de barras, pero se usa para graficar cantidades en lugar de datos cualitativos. Ejemplo 1, Ejemplo 3 **Diagrama Hovmoller:**Interfaz de usuario gráfica, Texto, Aplicación, Correo electrónico Descripción generada automáticamente**o** ![Interfaz de usuario gráfica, Texto, Aplicación Descripción generada automáticamente](media/image42.png) **Diagrama dispersión:** Captura de pantalla de computadora Descripción generada automáticamente ![Captura de pantalla de computadora Descripción generada automáticamente](media/image44.png)