Estadística, Grado en Matemáticas y doble Grado en Física y Matemáticas, Facultad de Ciencias, Universidad de Salamanca (PDF)
Document Details
Universidad de Salamanca
2024
Josué M. Polanco-Martínez
Tags
Summary
Este documento es un resumen del tema 1 de un curso de estadística, introductorio a conceptos estadísticos, como población, muestra y variables. Incluye las fases del proceso estadístico y ejemplos. Está dirigido a estudiantes de matemáticas o ciencias de datos.
Full Transcript
Estadística, Grado en Matemáticas y doble Grado en Física y Matemáticas, Facultad de Ciencias, Universidad de Salamanca Josué M. Polanco-Martínez1 (1) Departamento de Estadística e Investigación Operativa, Facultad de Ciencias, Universidad de S...
Estadística, Grado en Matemáticas y doble Grado en Física y Matemáticas, Facultad de Ciencias, Universidad de Salamanca Josué M. Polanco-Martínez1 (1) Departamento de Estadística e Investigación Operativa, Facultad de Ciencias, Universidad de Salamanca, Salamanca, España. josue. polanco@ usal. es,josue. m. polanco@ gmail. com Despacho D1103, Edificio principal Fac. Ciencias (entre Miguel y Mayte) October 16, 2024 1/67 1 / 67 Bloque 1 de Estadística Descriptiva Tema 1. Ordenación y Representación de datos Estadísticos: 1.1 Objeto de la Estadística, conceptos de población, unidad estadística y muestra. 1.2 Fases del proceso estadístico. 1.3 Caracteres estadísticos, variables estadísticas y sus tipos. 1.4 Tablas estadísticas y de frecuencias. 1.5 Representaciones gráficas: Diagramas de barras, de sectores, histogramas, diagramas y polígonos de frecuencias. 2/67 2 / 67 Estadística Descriptiva: bloque 1 1 Objeto de la Estadística, conceptos de población y muestra ¿Qué es la Estadística? Importancia y perspectiva actual Conceptos de población y muestra 2 Fases del proceso estadístico La estadística y el método científico El método estadístico Fases del método estadístico 3 Caracteres estadísticos, variables estadísticas y sus tipos Caracteres estadísticos Variables estadísticas y sus tipos 4 Tablas estadísticas y de frecuencias Tablas de frecuencias Diagramas de tallo y hojas 5 Representaciones gráficas Diagramas de barras Histogramas Diagramas y polígonos de frecuencias Diagrama de sectores Otros tipos de gráficas 3/67 3 / 67 ¿Qué es la Estadística? Definición informal En 1749 el matemático (filósofo, estadística, etc.) alemán Gottfried Achenwall (1749- 1772) acuñó el término statistik para denotar el análisis de datos sobre temas relacionados con el estado. Se le considera el inventor de la estadística. De acuerdo al “Webster’s New Collegiate Dictionary” define a la estadística: como la rama de las matemáticas que estudia la recolección, análisis, interpretación y presentación de masas de información numérica. La Real Academia Española de la Lengua (RAE) la define como: estudio científico que tiene por objeto la recopilación, clasificación y análisis de los datos numéricos concernientes a determinados fenómenos, así como la obtención de conclusiones a partir de ellos, frecuentemente basadas en el cálculo de probabilidades. Ciencia que trata del análisis, interpretación y presentación de datos (Foster 2013). 4/67 4 / 67 ¿Qué es la estadística? Definición más formal “La tecnología del método científico, se ocupa de el diseño de experimentos e investigaciones, y de la inferencia estadística” (Mood, Graybill & Boes 1974). “Disciplina que abarca la ciencia de basar inferencias en datos observados y todo el problema de tomar decisiones frente a una incertidumbre” (Freund & Walpole 1987). “Es la rama del método científico que estudia los datos obtenidos por contar o medir las propiedades de poblaciones” (Stuart & Ord 1991). “Se ocupa esencialmente de procedimientos para analizar información, en especial aquella que en algún sentido vago tenga un carácter aleatorio” (Rice 1995). Una ciencia matemática que se ocupa con la colección, análisis, interpretación y presentación de datos (Foster 2013). 5/67 5 / 67 Estadística: enfocando/sintetizando la definición Estas definiciones aunque relativamente parecidas no son iguales del todo, pero tienen 1 Esta teoría está relacionada con las leyes matemáticas que rigen la transmisión y el procesamiento de la información y se ocupa de la medición de la información y de la representación de la misma, así como también de la capacidad de los sistemas de comunicación para transmitir y procesar información (Claude E. Shannon 1948) 6/67 6 / 67 Estadística: enfocando/sintetizando la definición Estas definiciones aunque relativamente parecidas no son iguales del todo, pero tienen conceptos comunes, como datos, información, aleatorio,... Cada descripción implica que los datos se recolectan, con la inferencia como objetivo (la recopilación de datos que es el objetivo de nuestro interés se denomina población, el subconjunto seleccionado de ella es una muestra). Cada una requiere seleccionar un subconjunto de un gran conjunto de datos, ya sea existente o conceptual, para inferir las características del conjunto completo. Todos los autores implican que la estadística es en cierto punto una teoría de la información1 , siendo la inferencia su objetivo. La meta de la estadística es hacer una inferencia acerca de una población, con base en información contenida en una muestra de esa población y dar una medida de bondad asociada para la inferencia. Fuente: Wackerly et al. (2010), Estadística matemática con aplicaciones, 7a edición, Ed. CENGAGE Learning. Se puede obtener de CIMAT. 1 Esta teoría está relacionada con las leyes matemáticas que rigen la transmisión y el procesamiento de la información y se ocupa de la medición de la información y de la representación de la misma, así como también de la capacidad de los sistemas de comunicación para transmitir y procesar información (Claude E. Shannon 1948) 6/67 6 / 67 Estadística descriptiva e inferencial La estadística se divide de forma general en dos grandes grupos: (1) descriptiva e (2) inferencial. 1 Descriptiva: hace referencia a un grupo de métodos que permiten describir como su propio nombre lo indica, un conjunto de datos de manera reducida y ordenada. 2 inferencial: es la que permite llegar a conclusiones de un conjunto de datos más grande, observando una pequeña porción de ellos conocida como muestra. Fuente: Diz Cruz. (2016). Estadística básica introducción a la estadística con R. ¡Ambas las estudiaremos en este curso! 7/67 7 / 67 Importancia y perspectiva actual La estadística es sumamente importante y útil en prácticamente todas las áreas del conocimiento humano (científico, técnico, ingenieril, social, etc.), desde las biociencias (medicina, farmacia, etc), ingenierías, informática, ciencias ambientales (climatología, oceanografía, etc.), marketing, administración, economía, finanzas, DEFENSA, etc. La estadística/matemática hoy en día es uno de los grados con mayor futuro laboral. El desempleo es muy bajo (∼ 7-8%) para las personas especialistas en ello! (Fuente: INE 2019) Vivimos en la era de los datos y en un mundo digital: Disponibilidad de datos (el nuevo petróleo) + informática (e.g. internet, poder computacional, capacidad de almacenamiento, programación, algoritmia, etc.) + estadística = ciencia de datos! Y ahora con el tema de la inteligencia artificial (IA) (en particular con al machine learning, las redes neuronales, y el aprendizaje profundo) se potenciará aun más el uso y entendimiento de todo lo relacionado con la estadística, las matemáticas y en general con la ciencia de datos! 8/67 8 / 67 Fuente: 9/67 https://mpost.io/es/top-ai-based-mathematics-learning-platforms-for-students/ 9 / 67 Importancia y perspectiva actual Con el tema de la IA es posible que estemos ante un nuevo paradigma no sólo en lo tecnológico y lo científico, también como especie humana! Para pensar: ¿Entonces, es un peligro la IA?, nos quitara el trabajo? 10/67 10 / 67 Importancia y perspectiva actual Con el tema de la IA es posible que estemos ante un nuevo paradigma no sólo en lo tecnológico y lo científico, también como especie humana! Para pensar: ¿Entonces, es un peligro la IA?, nos quitara el trabajo? Es una pregunta difícil de contestar porque depende de muchos factores, como toda tecnología depende de cómo se use (“bien”, “mal”, “regular”, etc). Lo que si está claro, incluso en el caso más pesimista (que la IA es una burbuja, algo hay de eso), nos guste o no vamos a tener que combinar nuestra capacidad humana con el de las máquinas (esto es algo revolucionario). Veamos el siguiente vídeo del famoso filósofo Nick Bostrom: https://www.youtube.com/watch?v=Kktn6BPg1sI ¿Matemáticas puras o estadística muy teórica vs. IA? 10/67 10 / 67 Importancia y perspectiva actual Con el tema de la IA es posible que estemos ante un nuevo paradigma no sólo en lo tecnológico y lo científico, también como especie humana! Para pensar: ¿Entonces, es un peligro la IA?, nos quitara el trabajo? Es una pregunta difícil de contestar porque depende de muchos factores, como toda tecnología depende de cómo se use (“bien”, “mal”, “regular”, etc). Lo que si está claro, incluso en el caso más pesimista (que la IA es una burbuja, algo hay de eso), nos guste o no vamos a tener que combinar nuestra capacidad humana con el de las máquinas (esto es algo revolucionario). Veamos el siguiente vídeo del famoso filósofo Nick Bostrom: https://www.youtube.com/watch?v=Kktn6BPg1sI ¿Matemáticas puras o estadística muy teórica vs. IA? La IA no puede hacer demostraciones matemáticas de alto nivel, aunque ya empiezan a dar sus primeros pasos con demostraciones sencillas. Veamos este vídeo del conocido prof. Andrew Granville: https://www.youtube.com/watch?v=3l1RMiGeTfU 10/67 10 / 67 Fuente: https://www.123rf.com/photo_117777858_ stock-vector-people-and-robot-sit-in-queue-for-job-interview-human-resource-and-mo html 11/67 11 / 67 Conceptos de población y muestra Población: es la colección de toda la posible información que caracteriza un fenómeno. Esto es, una población es cualquier colección ya sea de un número finito de mediciones o una colección grande (virtualmente infinita) de datos acerca de algo de interés. Unidad estadística: es cada elemento de la población y la suma de todas estas unidades forman la población. Parámetros: es una medida usada para describir alguna característica de una población (e.g. la media). Muestra: es un subconjunto representativo seleccionado de una población. Una muestra adecuada es aquella que refleja las características esenciales de la población de la cual se obtuvo. Las observaciones de una muestra (aleatoria) se usan para calcular ciertas características de la muestra denominadas estadísticas (e.g. la media). Éstas se usan como base para hacer inferencias acerca de ciertas características de la población (los parámetros). Fuente: George C. Canavos (2003), Probabilidad y estadística: aplicaciones y métodos, 12/67 651 p, MacGraw-Hill, México. Link biblioteca Fac. Ciencias, USAL. 12 / 67 Representación visual de población y muestra Fuente: https://rea.ceibal.edu.uy/elp/aprendiendo-estadistica/poblacin_ muestra_individuo.html. 13/67 13 / 67 La estadística y el método científico La estadística usa el método científico, por eso es una ciencia! El método científico se basa en dos tipos de razonamientos: 1 El deductivo: procede de lo general a lo particular y se utiliza especialmente en el razonamiento matemático. Aquí se se establecen hipótesis generales que caracterizan un problema y se deducen ciertas propiedades particulares por razonamiento lógico/matemático. 2 El inductivo: realiza el proceso inverso que el deductivo, i.e., a partir de observaciones particulares de ciertos fenómenos se intentan deducir reglas generales. La investigación empírica (como la que hacemos en estadística) utiliza ambos tipos de razonamiento siguiendo un ciclo deductivo-inductivo: las hipótesis implican propiedades observables en los datos cuyo análisis lleva a formular hipótesis más generales, y así sucesivamente. 14/67 14 / 67 El método estadístico El método estadístico es el procedimiento científico mediante el cual se sistematiza y organiza este proceso de aprendizaje iterativo para convertir los datos en información y esta información en conocimiento: La estadística descriptiva se utiliza para sintetizar y resumir los datos transformándolos en información. Esta información es procesada a través de modelos y utilizada para adaptar el modelo a la realidad estudiada, con lo que convertimos la información en conocimiento científico de esa realidad. Fuente: Peña, D. (2014), Fundamentos de estadística, 688 p, Alianza Editorial, Madrid. 15/67 15 / 67 Fases del método/proceso estadístico 1 Planteamiento del problema: (un estudio estadístico comienza con un problema al que dar solución), se formulan hipótesis, objetivos y se define la población objeto del estudio. 2 Determinación de la muestra: teniendo en cuenta la población objeto de estudio se elige (en pr. aleatoriamente) una pequeña porción (tamaño y características) sobre la que se extraerán los datos para estudiar (analizar, modelizar, etc). 3 Recogida de la información muestral (datos): 1) por muestreo (aplicación de técnicas estadísticas para obtener de forma aleatoria un subconjunto de datos de una población) o 2) con un diseño de experimentos (consiste en fijar los valores de ciertas variables y observar la respuesta de otras). 4 Depuración de la muestra: aproximadamente entre un 2 y un 5% de observaciones de una muestra contienen errores de medición, transcripción, etc (Huber, 1981). Por tanto, antes de usar los datos muestrales conviene identificar valores anómalos y eliminar los errores de medición. 16/67 16 / 67 Ejemplo: fases del método/proceso estadístico 5 Tratamiento de datos: en esta fase se suele realizar mediante el ordenador, en esta etapa también se suelen comprobar la consistencia de los datos (búsqueda de errores y depurarlos). Durante esa fase también suelen producirse tablas y gráficas (como los diagramas de barras, histogramas, etc) que resumen toda la información recogida y la presentación de esta información de un modo adecuado. Esto conoce se como Análisis Exploratorio de Datos (Exploratory Data Analysis (EDA); Tukey 1977). 6 Cálculo de estadísticos básicos de la muestra: en esta etapa se estiman los principales estadísticos de posición (como la media, la mediana, la moda, los cuartiles, etc), de dispersión (como la varianza, la desviación media, etc) y de forma (como los momentos, la curtosis, etc). 7 Construcción de un modelo estadístico: desde los más simples (e.g. modelo lineal) hasta más complejos (e.g., utilizando redes neuronales profundas). El modelo permite entender como se relacionan las variables de la muestra (y de la población) así como hacer predicciones. 8 Conclusiones e inferencias. Fuentes: Peña, D. (2014), Fundamentos de estadística, 688 p, Alianza Editorial, Madrid & https://sites.google.com/site/matesfrayluis/extra-credit/ 17/67 estadstica-unidimensional/fases-de-un-estudio-estadstico 17 / 67 Ejemplo: etapas en la construcción de un modelo estadístico (Peña, 2014) 18/67 18 / 67 19/67 19 / 67 John W. Tukey (1915-2000): Tukey es reconocido en particular por su desar- rollo, junto con James Cooley, del algoritmo Coo- ley y Tukey para el cálculo de la transformada rápida de Fourier. En 1970, contribuyó signi- ficativamente en lo que ahora conocemos como la estimación Jackknife. Introdujo los diagramas de caja (Box Plot) en su libro de 1977, deno- minado Análisis exploratorio de datos. En este trabajo también propuso el uso de la mediana móvil (running median) para el análisis de series de tiempo, que derivó en el filtro mediano, usado en el tratamiento de señales en ingeniería, y también en el tratamiento de imágenes como filtro alisador (smoothing filter) (Wikipedia 2024). Fuente: https://pbs.twimg.com/media/ EHAWn2xWkAc471-.jpg Para que el análisis de datos se realice bien, gran parte del mismo debe ser una cuestión de juicio, y la “teoría”, ya sea estadística o no estadística, tendrá que guiar, no ordenar (J. Tukey). Tukey acuñó muchos términos estadísticos que ahora son de uso común. 20/67 20 / 67 Fases método/proceso estadístico: de la teoría a la realidad Siempre (se debe) seguir lo más fielmente posible el método/proceso estadístico aunque no siempre se puede. Por ejemplo, no siempre se tiene una muestra realmente aleatoria de una población o el número de los datos muestra no son lo suficientemente grande o no son muy representativos de la población pero son los únicos que tenemos. Esto último suele ocurrir cuando se estudian fenómenos naturales que no podemos repetir en un laboratorio, como el clima. Desde el incremento vertiginoso de la tecnología en los últimos años, la disponibilidad de ordenadores cada vez más poderosos y accesibles (económicos), y con la creación de las hojas de cálculo (tipo Excel o Calc) y de manera particular con el desarrollo de software estadístico especializado (SPSS, Stata, SAS, Matlab, SciPy (Python), R, R Studio, jamovi, Gretl, etc) casi todo el proceso del ciclo del análisis estadístico de datos se realiza con estas herramientas. Sin embargo, aún es necesario entender y aprender de manera “artesanal” como llevar a cabo esta tarea, para que cuando se utilicen herramientas estadísticas computacionales no se usen como cajas negras. Un fenómeno que se está dando cada vez más, de manera especial en la IA (machine learning, redes neuronales, aprendizaje profundo, etc). 21/67 21 / 67 La caja negra y la XAI: Fuente: https://www.xataka.com/robotica-e-ia/ openai-acaba-emprender-camino-ambicioso-como-desafiante-entender-como-funciona-caja-negra-ia. Aunque ya hay una rama de la IA que está intentando combatir el problema de la caja negra: la IA explicable (Explainable Artificial Intelligence (XAI)). Ver: https://www.ibm.com/es-es/topics/explainable-ai https://www.xataka.com/robotica-e-ia/ openai-acaba-emprender-camino-ambicioso-como-desafiante-entender-como-funciona-caj 22/67 22 / 67 Carácter estadístico: toda propiedad o característica que pueda estudiarse en los elementos de una población (la diferencia con una característica es que se pueda o no medir mediante un número), permite clasificar a los individuos de una población. Hay dos tipos de caracteres estadísticos: cuantitativos (se pueden medir) y cualitativos (no se pueden medir). Al carácter cualitativo se le conoce como atributo, no se pueden describir numéricamente (e.g. color de ojos, estado civil, etc). Al carácter cuantitativo se le conoce como variables (¿cómo pueden ser éstas variables?) 23/67 23 / 67 Carácter estadístico: toda propiedad o característica que pueda estudiarse en los elementos de una población (la diferencia con una característica es que se pueda o no medir mediante un número), permite clasificar a los individuos de una población. Hay dos tipos de caracteres estadísticos: cuantitativos (se pueden medir) y cualitativos (no se pueden medir). Al carácter cualitativo se le conoce como atributo, no se pueden describir numéricamente (e.g. color de ojos, estado civil, etc). Al carácter cuantitativo se le conoce como variables (¿cómo pueden ser éstas variables?) y puede ser discretas (se asocian al conjunto de los números naturales) o continuas (se asocian al conjunto de los números reales). Fuente: https://proyectodescartes.org/iCartesiLibri/materiales_didacticos/ IntroduccionEstadisticaProbabilidad/3ESO/2_2CaracterTipos.html 23/67 23 / 67 Variables estadísticas y sus tipos Variable estadística (v.e.), utilizaremos letras mayúsculas para denotarlas, puede tomar cualquier modalidad de un conjunto determinado (dominio de la variable o rango). Se clasifican en cualitativas (categóricas o atributos) y cuantitativas. Variables cualitativas: no toman valores numéricos (no son cuantificables ni medibles) y describen cualidades, son de tipo nominal. Pueden ser ordinales (se puede establecer un orden entre ellas, e.g., el estamento militar) o no ordinales (no se pueden ordenar, e.g. el color de ojos). Variables cuantitativas: son susceptibles de ser medidas numéricamente, es decir, si a cada una de las modalidades se le asigna un número. E.g., la estatura, la edad, etc. A su vez se subdividen en: Variables discretas: si sus posibles valores están aislados, en número finito o infinito numerable (o contable, i.e., existe una biyección entre este conjunto y el conjunto de los números naturales). E.g., número de alumn@s de este curso de estadística, número de lados de un dado, etc. Variables continuas: puede tomar todos los valores de un intervalo de los reales (no son numerables). E.g., la temperatura de un planeta, etc. Hay otros dos tipos de datos: los lógicos y los datos faltantes (NA=Not Available). Fuente: https://wpd.ugr.es/~bioestad/bioestadistica/tema-1/ 24/67 24 / 67 Datos lógicos y datos faltantes El tipo de dato lógico, es también cono- cido como “booleano” en honor a George Boole (el inventor del álgebra de Boole o booleana y uno de los padres de la computación/informática). Es un tipo de datos que sólo puede tener dos opciones: FALSO (FALSE) o VERDADERO (TRUE); 0 (“apagado”) o 1 (“encendido’). Fuente: https://es.wikipedia.org/wiki/Archivo: George_Boole.jpg Los datos faltantes son aquellos que no constan debido a cualquier acontecimiento, por ejemplo, errores en la transcripción de los datos o la ausencia de disposición a responder a ciertas cuestiones de una encuesta. Los datos pueden faltar de manera aleatoria o no aleatoria (este punto es muy importante!). Los datos faltantes aleatorios pueden perturbar el análisis de datos dado que disminuyen el tamaño de las muestras y en consecuencia la potencia de las pruebas de contraste de hipótesis. Los datos faltantes no aleatorios ocasionan, además, disminución de la representatividad de la muestra. Fuente: https://www.uv.es/webgid/Descriptiva/23_valores_faltantes.html 25/67 25 / 67 Tablas estadísticas y de frecuencias Tablas estadísticas: forma resumida, organizada y útil de presentar información contenida de un conjunto de datos o información, siempre y cuando el número de clases o atributos no sea muy grande (deja de ser práctico). Se suelen usar en reportes, trabajos de investigación, etc. Se clasifican a modo general en tablas simples, como las tablas de una entrada (unidimensionales) o de doble entrada (bidimesionales), hasta mas complejas como las de múltiples entradas. Fuente: https://homework1.com/statistics-homework-help/types-of-table/ La tabla estadística más conocida es la tabla de frecuencias, pero existen otras mas, p. ej.: tablas de contingencia, tablas de medida, tablas lógicas (de verdad), tablas lógicas disyuntivas completas, tablas de preferencias, etc. 26/67 26 / 67 Fuente: https://www.youtube.com/watch?v=2rkVgdpBTPQ. NOTA: Tipos de tablas: no existe una forma definitiva de clasificarlas más allá de que si es simple, compleja, de acuerdo al objetivo o propósito, etc., incluso se puede diseñar un nuevo tipo de tabla de acuerdo a las necesidades! 27/67 27 / 67 Tablas estadísticas: ejemplos + interpretación Vamos a interpretar la siguiente tabla: Fuente: Polanco-Martínez, J. M., Fernández-Macho, J., Neumann, M. B., & Faria, S. H. (2018). A pre-crisis vs. crisis analysis of peripheral EU stock markets by means of wavelet transform and a nonlinear causality test. Physica A: Statistical Mechanics and its Applications, 28/67 490, 1211-1227. 28 / 67 Tablas estadísticas: ejemplos + interpretación Vamos a interpretar las siguientes tablas: 29/67 29 / 67 Tablas estadísticas: ejemplos + interpretación Vamos a interpretar las siguientes tablas: Fuente: Polanco-Martínez, J. M., & López- Martínez, J. L. (2021). A non-parametric method to test the statistical significance in rolling window correlations, and applications to ecological time series. Ecological Informatics, 64, 101379. 29/67 29 / 67 Tablas estadísticas: ejemplos + interpretación Vamos a interpretar las siguientes tablas: Fuente: Polanco-Martínez, J. M., & López- Martínez, J. L. (2021). A non-parametric method to test the statistical significance in rolling window correlations, and applications to ecological time series. Ecological Informatics, 64, 101379. Importancia de leer e interpretar tablas estadísticas: Para leer correctamente una tabla, es importante prestar atención a los encabezados de las columnas y filas, pues indican lo que se está midiendo o comparando. Además, observar el pie de página puede 29/67 proporcionar información adicional o notas explicativas sobre los datos. 29 / 67 Tablas de frecuencias Conceptos importantes a tener en cuenta al hablar de tablas de frecuencias: 1 Frecuencia absoluta (de un suceso A) o simplemente frecuencia: número de veces que se observa A en el número total de datos. 2 Frecuencia relativa (FR) (de un suceso A): número de veces que se observa A entre el número total de datos. Ejemplo: distribución de frecuencias de una variable cualitativa cuyas clases no corresponden a una escala ordinal, se ordenan por su frecuencia de aparición: Fuente: Peña (2014). 30/67 30 / 67 Tablas de frecuencias Ejemplo con una variable discreta. Al igual que en caso anterior el número de valores posibles de cada clase es pequeño: Fuente: Peña (2014). 31/67 31 / 67 Tablas de frecuencias: número de elementos grande ¿Qué haríamos si el número de valores que toma una variable discreta es grande, o ¿cuándo ésta sea continua? 32/67 32 / 67 Tablas de frecuencias: número de elementos grande ¿Qué haríamos si el número de valores que toma una variable discreta es grande, o ¿cuándo ésta sea continua? Solución: agrupar los datos en clases. De acuerdo con Peña (2014) el algoritmo para ello es el siguiente: 1 Redondear los datos a dos o tres cifras significativas eligiendo las unidades para que cada observación contenga dos o tres dígitos, sin coma decimal. 2 Decidir el número de clases (r ) a tener en cuenta. Es común el uso de entre 5 y 20 clases. √ Aunque no hay una regla infalible para hacer esto, una regla muy usada es: r ∼ n (n es el número de elementos del conjunto de datos). Es una regla indicativa y se recomienda probar con distinto número de clases y escoger aquel que proporcione una descripción más clara. 3 Seleccionar los límites de clase que definen los intervalos, de manera que las clases sean de la misma longitud y cada observación se clasifique sin ambigüedad en una sola clase. Al centro del intervalo que define la clase se le conoce como marca de clase. 4 Contar el número de observaciones en cada clase, que llamaremos la frecuencia de clase, y obtener la frecuencia relativa de cada clase dividiendo aquélla por el número total de elementos de los datos. 32/67 32 / 67 Tablas de frecuencias: datos agrupados Por ejemplo, la siguiente tabla, muestra una distribución de frecuencias para una variable continua: Fuente: Peña (2014). 33/67 33 / 67 Ejemplo tabla de frecuencias datos agrupados Hagamos un ejemplo a mano: Sea X las edades de 50 personas: X= {38, 15, 10, 12, 62, 46, 25, 56, 27, 24, 23, 21, 20, 25, 38, 27, 48, 35, 50, 65, 59, 58, 47, 42, 37, 35, 32, 40, 28, 14, 12, 24, 66, 73, 72, 70, 68, 65, 54, 48, 34, 33, 21, 19, 61, 59, 47, 46, 30, 30} 34/67 34 / 67 Ejemplo tabla de frecuencias datos agrupados Hagamos un ejemplo a mano: Sea X las edades de 50 personas: X= {38, 15, 10, 12, 62, 46, 25, 56, 27, 24, 23, 21, 20, 25, 38, 27, 48, 35, 50, 65, 59, 58, 47, 42, 37, 35, 32, 40, 28, 14, 12, 24, 66, 73, 72, 70, 68, 65, 54, 48, 34, 33, 21, 19, 61, 59, 47, 46, 30, 30} Primero: ordenamos los datos de menor a mayor: Xo = 10 12 12 14 15 19 20 21 21 23 24 24 25 25 27 27 28 30 30 32 33 34 35 35 37, 38 38 40 42 46 46 47 47 48 48 50 54 56 58 59 59 61 62 65 65 66 68 70 72 73 Segundo: identificamos el mínimo y el máximo valor, y estimamos el rango (amplitud o recorrido), R = Max − Min, por tanto R = 73 − 10 = 63. Tercero: aplicamos el algoritmo (punto 2) descrito en la diapositiva 32, calculamos el número de clases o intervalos, r = sqrt(50) ∼ 7, por tanto el ancho o amplitud de clase es 63/7 = 9. Cuarto: seleccionamos los límites de clase que defines los intervalos: [10-19), [19-28), [28-37), [37-46), [46-55), [55-64), [64-73]. Estimamos las marcas de clase para cada intervalo: 14.5, 23.5, 32.5, 41.5, 50.5, 59.5, 68.5. Quinto: identificamos y contamos el número de observaciones (frecuencias) en cada clase: [10-19) tiene 5, [19-28) tiene 11, [28-37) tiene 8, [37-46) tiene 5, [46-55) tiene 8, [55-64) tiene 6, [64-73] tiene 7. Comprobamos que la suma de las frecuncias sea igual al número total de observaciones, 50. 34/67 34 / 67 Ejemplo tabla de frecuencias datos agrupados Edad Marca de Clase Frec. abs. Frec. abs. acum. Freq. Rel. Freq. rel. acum. [10-19) 14.5 5 5 0.10 0.10 [19-28) 23.5 11 16 0.22 0.32 [28-37) 32.5 8 24 0.16 0.48 [37-46) 41.5 5 29 0.10 0.58 [46-55) 50.5 8 37 0.16 0.74 [55-64) 59.5 6 43 0.12 0.86 [64-73] 68.5 7 50 0.14 1 Total 50 Total 1 35/67 35 / 67 Diagramas de tallo y hojas (tipo especial de tabla) Diagrama (de Tukey) de tallo y hojas (stem and leaf diagram): es un tipo de gráfico primitivo (semigráfico) y una forma ingeniosa de presentar datos en modo tabla. Es útil cuando el número de elementos es menor de 50 (Peña 2014) o 100 (Ugarte et al. 2016) elementos. Lo creó John Tukey (aunque se inspiró en Arthur Bowley) en 1972 cuando los ordenadores aun estaban en pañales. El algoritmo para construirlos es el siguiente (Peña 2014): 1 Redondear los datos a dos o tres cifras significativas, expresándolos en unidades convenientes. (Ordenarlos de menor a mayor) 2 Disponerlos en una tabla con dos columnas separadas por una línea como sigue: 1 Para datos con dos dígitos, escribir a la izquierda de la línea los dígitos de las decenas (que forman el tallo) y a la derecha las unidades, que serán las hojas. Por ejemplo, 87 se escribe 8|7. 2 Para datos con tres dígitos el tallo estará formado por los dígitos de las centenas y decenas, que se escribirán a la izquierda, separados de las unidades. Por ejemplo, 127 será 12|7. 3 Cada tallo define una clase, y se escribe sólo una vez. El número de hojas representa la frecuencia de dicha clase. 36/67 36 / 67 Diagramas de tallo y hojas (tipo especial de tabla) Veamos un ejemplo: Fuente: Peña (2014). Cuando el primer dígito de la clasificación varía poco, la mayoría de los datos tienden a agruparse alrededor de un tallo y el diagrama resultante tiene poco detalle. En ese caso es conveniente subdividir cada tallo en dos o más partes introduciendo algún signo arbitrario, como se indica en la siguiente tabla: 37/67 37 / 67 Diagramas de tallo y hojas (tipo especial de tabla) Fuente: Peña (2014). 38/67 38 / 67 Diagramas de tallo y hojas en el tren de Yokohama Fuente: https://es.wikipedia.org/wiki/Diagrama_de_tallos_y_hojas. 39/67 39 / 67 Ejemplo artesanal Diagramas de tallo y hojas Vamos a hacerlo a mano: 40/67 40 / 67 Ejemplo artesanal Diagramas de tallo y hojas Vamos a hacerlo a mano: X = {11.357, 12.542, 11.384, 12.431, 14.212, 15.213, 13.300, 11.300, 17.206, 12.710, 13.455, 16.143, 12.162, 12.721, 13.420, 14.698} 40/67 40 / 67 Ejemplo artesanal Diagramas de tallo y hojas Vamos a hacerlo a mano: X = {11.357, 12.542, 11.384, 12.431, 14.212, 15.213, 13.300, 11.300, 17.206, 12.710, 13.455, 16.143, 12.162, 12.721, 13.420, 14.698} Transformamos a mm: X = {113.57, 125.42, 113.84, 124.31, 142.12, 152.13, 133.00, 113.00, 172.06, 127.10, 134.55, 161.43, 121.62, 127.21, 134.20, 146.98} Ordenamos de menor a mayor : X = {113.0, 113.6, 113.8, 121.6, 124.3, 125.4, 127.1, 127.2, 133.0, 134.2, 134.6, 142.1, 147.0, 152.1, 161.4, 172.1} Redondeamos a un dígito: X = {113, 114, 114, 122, 124, 125, 127, 127, 133, 134, 135, 142, 147, 152, 161, 172} Et voilà ! :-) 11 | 344 12 | 24577 13 | 345 14 | 27 15 | 2 16 | 1 40/67 17 | 2 40 / 67 Representaciones gráficas: descripción gráfica de los datos Las tablas aunque son muy útiles y aún se siguen usando, pueden ser un poco aburridas. Otra forma de presentar información es el uso de gráficas. Actualmente existen muchos tipos de gráficos para visualizar datos y con el auge de la ciencias de datos es un campo muy activo, en particular, en el diseño y desarrollo de nuevas formas de visualizar ciertas características de grandes bases de datos y de conjuntos de datos o de estadísticos que no son fáciles de visualizar. Aquí veremos las más comunes. Fuente: https: 41/67 //blog.revolutionanalytics.com/2011/09/the-r-graph-gallery-goes-social.html 41 / 67 Fu e nt e: ht tp s: // ww w. te ch ta rg et.c om /se ar ch bu si ne ssa na ly ti cs /d ef in iti on /d at a- vi su al iz at io n Evolución de la descripción gráfica de datos 42 / 67 42/67 En este curso usaremos el software libre de nombre R que es la lengua franca para el análisis estadístico de datos (este jueves y viernes es la primera clase! Aulas Informáticas 3 y 0, no te lo pierdas :-)): Fuente: https://oasishub.co/dataset/the-r-project-for-statistical-computing 43/67 43 / 67 Diagrama de barras: diagrama de Pareto Tipo especial de diagrama de barras, en el cual se organizan los datos de forma que estos queden en orden descendente (de izquierda a derecha), se suele usar con datos cualitativos. Ejemplo: defectos en libros en imprenta (ver diapo. 30): Fuente: Peña (2014). Se construyen de la siguiente manera (Peña 2014): 1 Se ordenan las categorías o clases por su frecuencia relativa de aparición. 2 Cada categoría se representa por un rectángulo cuya altura es su FR. Estos diagramas se basan en la regla del 80/20: aproximadamente el 80% de los problemas se derivan del 20% de las causas (principio de Pareto). 44/67 44 / 67 Diagrama de barras (barplots) Es probablemente uno de los tipos más conocidos de gráficos estadísticos, se usa para variables discretas y en general para distribuciones de frecuencias de datos sin agrupar. Este diagrama representa los valores de la variable en el eje de abscisas levantando en cada punto una barra de longitud igual a la FR. Fuente: Peña (2014). 45/67 45 / 67 Histogramas: datos agrupados (n grande) Es quizá el tipo de gráfico estadístico más conocido y utilizado para datos agrupados (el número de elementos es grande). Un histograma es un conjunto de rectángulos, cada uno de los cuales representa un intervalo de agrupación o clase. Sus bases son iguales a la amplitud del intervalo, y las alturas se determinan de manera que su área sea proporcional a la frecuencia de cada clase (Peña 2014, Ugarte et al. 2016). La diferencia entre diagrama de barras e histograma: en la primera las alturas miden el tamaño de la variable y generalmente se dibujan separadas (dejan espacio entre ellas); en la segunda las frecuencias quedan representadas por el área de los rectángulos y las barras se dibujan sin dejar espacios entre ellas. Los histogramas muestran las formas (como se distribuyen) de los datos! 46/67 Fuente: Peña (2014). 46 / 67 Algunos histogramas típicos: estos proporcionan información relevante respecto a la estructura y características de los datos (a) muestra una distribución asimétrica, típica de datos económicos (distribuciones de renta, consumo de electricidad, etc). (b) muestra una distribución simétrica que aparece en muchos procesos de fabricación al estudiar la distribu- ción de una medida de calidad. (c) aparece al mezclar elementos de varias poblaciones cada uno de ellos con distribución tipo (b), caso “extremo” se produce (d). (e) representa una distribución truncada, por ejemplo, al medir el peso de ciertos elementos en un control de cal- idad que tiene límites de especificaciones. (f) Fuente: Peña (2014). es muy asimétrica y surge al estudiar tiempos entre averías, entre llegadas, entre accidentes, etc. 47/67 47 / 67 Construcción de un Histograma: puntos importantes Aunque es sencillo crear y dibujar un histograma utilizando el ordenador, incluso hecho a mano, no se debe subestimar esta técnica estadística explotoria pues tiene sus puntos clave de importancia, entre estos hay dos puntos relevantes (están relacionados): ¿Cuántos bins debe tener? Número óptimo de bins. ¿De qué tamaño o ancho debe ser el intervalo de clase? Usar un número muy bajo de bins hará que no se pueda apreciar la distribución, mientras que emplear un número muy alto puede generar ruido. Veamos: 48/67 48 / 67 Calculando el ancho o tamaño de clase (h) Aunque no existe un método general para determinar h existen algunas reglas: R 1 Sturges: hSturges = 1+log2n. Asume que los datos están normalmente distribuidos (podría no ser adecuado para datos multimodales o con mucho sesgo). 2∗IQR 2 Freedman-Diaconis: hFD = n1/3 2∗31/3 ∗π 1/6 ∗σ̂ 3 Scott: hScott = n1/3 Donde h es la ancho o tamaño de la clase, R es el rango de los datos (valor mayor - valor menor), IQR es el rango intercuartil (Q3 − Q1 ), σ̂ es la desviación estandar muestral, y n el número de elementos de los datos. El método por defecto en R se usa Sturges, pero se pueden usar otras reglas. Teniendo el ancho de clase podemos determinar el número de bins o números de intervalos de clase de la siguiente forma: Rh. 49/67 49 / 67 Construyamos un histograma artesanalmente X = {54, 48, 59, 65, 58, 56, 43, 69, 66, 55, 59, 46, 62, 53, 50, 59, 54, 52, 50, 50, 55, 60, 48, 47, 51, 53, 53, 53, 54, 52, 63, 51, 62, 47, 49, 49, 55, 49, 60, 64, 55, 50, 52, 54, 49, 45, 64, 46, 58, 59, 51, 47, 59, 60, 46, 57, 46, 52, 59, 60, 53, 52, 47, 55, 59, 62, 60, 50, 48, 69, 45, 62, 56, 65, 58, 55, 67, 45, 51, 65, 54, 54, 54, 54, 51, 56, 63, 51, 64, 60, 46, 66, 57, 58, 49, 64, 53, 56, 54, 57, 68, 63, 53} 50/67 50 / 67 Construyamos un histograma artesanalmente X = {54, 48, 59, 65, 58, 56, 43, 69, 66, 55, 59, 46, 62, 53, 50, 59, 54, 52, 50, 50, 55, 60, 48, 47, 51, 53, 53, 53, 54, 52, 63, 51, 62, 47, 49, 49, 55, 49, 60, 64, 55, 50, 52, 54, 49, 45, 64, 46, 58, 59, 51, 47, 59, 60, 46, 57, 46, 52, 59, 60, 53, 52, 47, 55, 59, 62, 60, 50, 48, 69, 45, 62, 56, 65, 58, 55, 67, 45, 51, 65, 54, 54, 54, 54, 51, 56, 63, 51, 64, 60, 46, 66, 57, 58, 49, 64, 53, 56, 54, 57, 68, 63, 53} Ordenamos los datos: X_o = {43, 45, 45, 45, 46, 46, 46, 46, 46, 47, 47, 47, 47, 48, 48, 48, 49, 49, 49, 49, 49, 50, 50, 50, 50, 50, 51, 51, 51, 51, 51, 51, 52, 52, 52, 52, 52, 53, 53, 53, 53, 53, 53, 53, 54, 54, 54, 54, 54, 54, 54, 54, 54, 55, 55, 55, 55, 55, 55, 56, 56, 56, 56, 57, 57, 57, 58, 58, 58, 58, 59, 59, 59, 59, 59, 59, 59, 60, 60, 60, 60, 60, 60, 62, 62, 62, 62, 63, 63, 63, 64, 64, 64, 64, 65, 65, 65, 66, 66, 67, 68, 69, 69} 50/67 50 / 67 Construyamos un histograma artesanalmente X = {54, 48, 59, 65, 58, 56, 43, 69, 66, 55, 59, 46, 62, 53, 50, 59, 54, 52, 50, 50, 55, 60, 48, 47, 51, 53, 53, 53, 54, 52, 63, 51, 62, 47, 49, 49, 55, 49, 60, 64, 55, 50, 52, 54, 49, 45, 64, 46, 58, 59, 51, 47, 59, 60, 46, 57, 46, 52, 59, 60, 53, 52, 47, 55, 59, 62, 60, 50, 48, 69, 45, 62, 56, 65, 58, 55, 67, 45, 51, 65, 54, 54, 54, 54, 51, 56, 63, 51, 64, 60, 46, 66, 57, 58, 49, 64, 53, 56, 54, 57, 68, 63, 53} Ordenamos los datos: X_o = {43, 45, 45, 45, 46, 46, 46, 46, 46, 47, 47, 47, 47, 48, 48, 48, 49, 49, 49, 49, 49, 50, 50, 50, 50, 50, 51, 51, 51, 51, 51, 51, 52, 52, 52, 52, 52, 53, 53, 53, 53, 53, 53, 53, 54, 54, 54, 54, 54, 54, 54, 54, 54, 55, 55, 55, 55, 55, 55, 56, 56, 56, 56, 57, 57, 57, 58, 58, 58, 58, 59, 59, 59, 59, 59, 59, 59, 60, 60, 60, 60, 60, 60, 62, 62, 62, 62, 63, 63, 63, 64, 64, 64, 64, 65, 65, 65, 66, 66, 67, 68, 69, 69} Calculamos el rango: R = 69 − 43 = 26 y el tamaño de clase: R 26 hSturges = 1+log2 n = 1+log (103) ∼ 3.4. 2∗IQR 2∗9 hFD = n1/3 = 1031/3 ∼ 4. Donde IQR = Q3 − Q1 = 59.5 − 50.5 = 9. 2∗31/3 ∗π 1/6 ∗σ̂ 2∗31/3 ∗pi 1/6 ∗6.27 hScott = n1/3 = 1031/3 ∼ 5. 50/67 50 / 67 Construyamos un histograma artesanalmente Calculamos el número de clases o bins (usemos h = 4) R/h = 26/4 ∼ 6.5 ∼ 7. Determinamos los intervalos de clases: [43,47), [47,51), [51,55), [55, 59), [59,63], [63,67), [67,71] y dibujamos el histograma: 51/67 51 / 67 Construyamos un histograma artesanalmente Calculamos el número de clases o bins (usemos h = 4) R/h = 26/4 ∼ 6.5 ∼ 7. Determinamos los intervalos de clases: [43,47), [47,51), [51,55), [55, 59), [59,63], [63,67), [67,71] y dibujamos el histograma: Dibujamos el histograma creado por un “profesional” o sea R :-) (derecha), ahora sus intervalos son: [40,45), [45,50), [50,55), [55, 60), [60,65], [65,70]. ¿Qué diferencias hay? 51/67 51 / 67 Construyamos un histograma artesanalmente Calculamos el número de clases o bins (usemos h = 4) R/h = 26/4 ∼ 6.5 ∼ 7. Determinamos los intervalos de clases: [43,47), [47,51), [51,55), [55, 59), [59,63], [63,67), [67,71] y dibujamos el histograma: Dibujamos el histograma creado por un “profesional” o sea R :-) (derecha), ahora sus intervalos son: [40,45), [45,50), [50,55), [55, 60), [60,65], [65,70]. ¿Qué diferencias hay? No es muy estético (izquierda), está mas “aplanado”, etc. 51/67 51 / 67 Construyamos un histograma artesanalmente Calculamos el número de clases o bins (usemos h=5), R/h, 26/5 ∼ 5. Determinamos los intervalos de clases: [43,48), [48,53), [53,58), [58, 63), [68,73] y dibujamos el histograma artesanal (izquierda), pero también el histograma que genera R (centro) y finalmente una versión mejorada del artesanal (derecha). En el primer histograma hay algo que NO convence, ¿qué es? 52/67 52 / 67 Construyamos un histograma artesanalmente Calculamos el número de clases o bins (usemos h=5), R/h, 26/5 ∼ 5. Determinamos los intervalos de clases: [43,48), [48,53), [53,58), [58, 63), [68,73] y dibujamos el histograma artesanal (izquierda), pero también el histograma que genera R (centro) y finalmente una versión mejorada del artesanal (derecha). En el primer histograma hay algo que NO convence, ¿qué es? No es muy estético, también hay áreas que no son representativas, de hecho el tercer histograma corrige estos errores utilizando la densidad en lugar de la frecuencia. 52/67 52 / 67 Uso del histograma para estudiar un fenómeno geofísico. Patrones de erupción: Old Faithful (Viejo fiel) Es uno de los géiseres más conocidos (hay unos 100 géiseres activos) del parque nacional de Yellowstone, en Wyoming, Estados Unidos, y es probablemente el géiser más conocido del mundo. Expulsa agua en promedio cada 90 (oscila entre 43 y 125) minutos durante ∼ 5 minutos y alcanza alturas entre 55 y 75 metros (Wikipedia 2024). Click me :-) Fuente: https://rpubs.com/schutzd1/249593 53/67 53 / 67 Uso del histograma para estudiar un fenómeno geofísico Tiempos de espera: 79 54 74 62 85 55 88 85 51 85 54 84 78 47 83 52 62 84 52 79 51 47 78 69 74 83 55 76 78 79 73 77 66 80 74 52 48 80 59 90 80 58 84 58 73 83 64 53 82 59 75 90 54 80 54 83 71 64 77 81 59 84 48 82 60 92 78 78 65 73 82 56 79 71 62 76 60 78 76 83 75 82 70 65 73 88 76 80 48 86 60 90 50 78 63 72 84 75 51 82 62 88 49 83 81 47 84 52 86 81 75 59 89 79 59 81 50 85 59 87 53 69 77 56 88 81 45 82 55 90 45 83 56 89 46 82 51 86 53 79 81 60 82 77 76 59 80 49 96 53 77 77 65 81 71 70 81 93 53 89 45 86 58 78 66 76 63 88 52 93 49 57 77 68 81 81 73 50 85 74 55 77 83 83 51 78 84 46 83 55 81 57 76 84 77 81 87 77 51 78 60 82 91 53 78 46 77 84 49 83 71 80 49 75 64 76 53 94 55 76 50 82 54 75 78 79 78 78 70 79 70 54 86 50 90 54 54 77 79 64 75 47 86 63 85 82 57 82 67 74 54 83 73 73 88 80 71 83 56 79 78 84 58 83 43 60 75 81 46 90 46 74 Dibujamos los datos y su correspondiente histograma: 54/67 54 / 67 Uso del histograma para estudiar un fenómeno geofísico Tiempos de espera: 79 54 74 62 85 55 88 85 51 85 54 84 78 47 83 52 62 84 52 79 51 47 78 69 74 83 55 76 78 79 73 77 66 80 74 52 48 80 59 90 80 58 84 58 73 83 64 53 82 59 75 90 54 80 54 83 71 64 77 81 59 84 48 82 60 92 78 78 65 73 82 56 79 71 62 76 60 78 76 83 75 82 70 65 73 88 76 80 48 86 60 90 50 78 63 72 84 75 51 82 62 88 49 83 81 47 84 52 86 81 75 59 89 79 59 81 50 85 59 87 53 69 77 56 88 81 45 82 55 90 45 83 56 89 46 82 51 86 53 79 81 60 82 77 76 59 80 49 96 53 77 77 65 81 71 70 81 93 53 89 45 86 58 78 66 76 63 88 52 93 49 57 77 68 81 81 73 50 85 74 55 77 83 83 51 78 84 46 83 55 81 57 76 84 77 81 87 77 51 78 60 82 91 53 78 46 77 84 49 83 71 80 49 75 64 76 53 94 55 76 50 82 54 75 78 79 78 78 70 79 70 54 86 50 90 54 54 77 79 64 75 47 86 63 85 82 57 82 67 74 54 83 73 73 88 80 71 83 56 79 78 84 58 83 43 60 75 81 46 90 46 74 Dibujamos los datos y su correspondiente histograma: 54/67 54 / 67 Patrones de erupción: Old Faithful (Viejo fiel) ¿Qué sucede con estos datos? 55/67 55 / 67 Patrones de erupción: Old Faithful (Viejo fiel) ¿Qué sucede con estos datos? ¿Por qué piensan que hay dos modas? 55/67 55 / 67 Patrones de erupción: Old Faithful (Viejo fiel) ¿Qué sucede con estos datos? ¿Por qué piensan que hay dos modas? Hipótesis: esto podría indicar dos modos “físicos” que generan las erupciones! Old Faithful se encuentra en una zona en la que existen dos depósitos activos de magma a profundidades de 5 a 40 km, que provocan las altas temperaturas de las aguas subterráneas que alimentan el géiser. Explicación: hasta no hace mucho no se conocían todos los detalles de su estructura geológica y por ello los detalles de los temblores de tierra que se asocian a cada una de las erupciones de agua. Apenas en 2017 un grupo de investigadores de la universidad de Utah (USA) han estudiado el interior de Old Faithful gracias a sismógrafos portátiles y técnicas de análisis sísmico (aquí hay estadística/matemáticas), publicaron sus resultados en una de las revistas científicas mas relevantes del área Geophysical Research Letter. Los sensores utilizados en la investigación captaron temblores sísmicos alrededor del géiser de 60 minutos de duración, separados por 30 minutos en pausa. Después de la erupción de agua, Old Faithful se llena otra vez de agua caliente y gases a presión. Cuando son expulsados el géiser se enfría provocando un derrumbamiento que causa el temblor (Click para más info.). 55/67 55 / 67 Histograma + densidad: para finalizar esta sección añadiremos al histograma la densidad, concepto teórico, grosso modo representa una forma suavizada como se distribuyen unos datos (lo veremos en el Tema 6). En un histograma, la altura de cada rectángulo de clase representa cuantos puntos fueron observados en el intervalo de clase por unidad, i.e. la densidad de puntos por unidad y el área total es 1. Si los valores que obtenemos provienen de una variable continua, y aumentamos el tamaño de la muestra (aleatoriamente) podremos reducir la longitud de los intervalos de clase. De esta manera, a medida que aumenta la cantidad de datos las alturas de los intervalos va formando una curva cada vez más suave. La curva límite es llamada curva de densidad de la variable correspondiente. Fuente: chick! La densidad es la curva en azul! 56/67 56 / 67 Diagrama de barras y polígonos de frecuencias En muchos análisis se presentan un polígono de frecuencia además de un histograma. La figura siguiente muestra un polígono de frecuencia de este tipo para la variable de espera del géiser Old Faithful. Para dibujarlo seleccionamos los intervalos (todos del mismo tamaño) y encontramos las frecuencias, como lo haríamos para el histograma. Sin embargo, en lugar de dibujar una barra, dibujamos un punto en el punto medio del intervalo con la altura dada por la frecuencia, luego conectamos estos puntos con líneas rectas para formar un polígono (Verzani 2005). 57/67 57 / 67 Diagrama de sectores o de tarta (pie chart) Se usan para representar proporciones, se construyen de manera que el área de cada porción sea proporcional a la FR. A estas representaciones se le denomina pictogramas (Peña 2014). También es otro tipo de gráfico estadístico muy conocido y utilizado. Pero este tipo de gráficos en muchos casos no son la mejor manera de desplegar información debido a que a menudo distorsionan la información y dificultan que los responsables de la toma de decisiones comprendan los mensajes que contienen. Fuentes: Peña (2014) (izquierda) & https://crea-portaldemedios.siemens-stiftung.org/ 58/67 distribucion-de-la-tierra-y-el-agua-en-el-planeta-tierra-102386 (derecha) 58 / 67 El problema con los diagramas de tarta (no sólo es el azúcar :-)) Los gráficos circulares presentan tantos inconvenientes como herramienta de comunicación de información cuantitativa, que muchos expertos en presentación visual de información (William Clevaland, Edward Tufte, Howard Wainer, Stephen Few, etc.) desaconsejan completamente su uso, a favor de otros tipos de gráficos, como los de líneas o los de barras, o incluso las tablas (Alvarez-Marañón 2011). Son especialmente malos para ayudarnos a comparar diferentes conjuntos de datos cuando tienen valores similares, esto por la forma de como procesamos la información en nuestro cerebro (Verzani 2014). Fuente: https://www.elartedepresentar.com/2011/11/ las-tartas-son-para-el-postre-5-razones-por-las-que-no-uso-graficos-circulares/ 59/67 59 / 67 El problema con los diagramas de tarta (no sólo es el azúcar :-)) 1 Los gráficos circulares no permiten transmitir cantidades exactas: Fuente: https://www.elartedepresentar.com/2011/11/ las-tartas-son-para-el-postre-5-razones-por-las-que-no-uso-graficos-circulares/ 60/67 60 / 67 El problema con los diagramas de tarta (no sólo es el azúcar :-)) 2 Cuando existen demasiados sectores, los gráficos circulares aparecen abarrotados: Fuente: https://www.elartedepresentar.com/2011/11/ las-tartas-son-para-el-postre-5-razones-por-las-que-no-uso-graficos-circulares/ 61/67 61 / 67 El problema con los diagramas de tarta (no sólo es el azúcar :-)) 3 Somos incapaces de comparar con precisión los tamaños relativos entre sectores de un gráfico circular: Fuente: https://www.elartedepresentar.com/2011/11/ las-tartas-son-para-el-postre-5-razones-por-las-que-no-uso-graficos-circulares/ 62/67 62 / 67 El problema con los diagramas de tarta (no sólo es el azúcar :-)) 4 No podemos comparar con precisión gráficos circulares entre sí: Fuente: https://www.elartedepresentar.com/2011/11/ las-tartas-son-para-el-postre-5-razones-por-las-que-no-uso-graficos-circulares/ 63/67 63 / 67 El problema con los diagramas de tarta (no sólo es el azúcar :-)) 5 Los abusos frecuentes a que se someten los gráficos circulares disminuyen drásticamente su legibilidad: Fuente: https://www.elartedepresentar.com/2011/11/ las-tartas-son-para-el-postre-5-razones-por-las-que-no-uso-graficos-circulares/ 64/67 64 / 67 Otros tipos de gráficas: diagrama de puntos Diagrama de puntos (dot charts/plots), también conocido como diagrama de Cleveland: es útil cuando el número de puntos o elementos contenidos en unos datos bajo estudio es pequeño, incluso más útil que el histograma o un gráfico de barras. Fueron introducidos por William S. Cleveland (pionero en la visualización de datos) en los años ochenta, a pesar de sus ventajas (e.g. una representación bastante limpia lo cual implica el uso de menos tinta o permite resolver el problema de la representación de varias observaciones por sujeto más elegantemente que yuxtaponiendo barras), no gozan de la popularidad de otros métodos de representación gráfica (Gil Bellosta 2011). 65/67 65 / 67 Otros tipos de gráficas: series temporales y gráficos de dispersión Las series de tiempo son variables (univariantes o multivariantes) tomadas cada cierto tiempo, son muy usadas en todas las áreas de las ciencias e ingenierías. P. Ej: Barril 8 M.Casas Saline I.Piana P.Scuso 6 P.Paglia Bonagia Formica Captures (number of individuals) Giuliano 4 EOF1 captures reconstructed 2 0 −2 −4 1700 1750 1800 1850 1900 Time (years) Fuente: Ganzedo, U., Polanco-Martínez, J. M., et al. (2016). Climate effects on historic bluefin tuna captures in the Gibraltar Strait and Western Mediterranean. Journal of Marine Systems, 158, 84-92. Ejemplo de gráfico de dispersión (scater plot): Fuente: Medina-Elizalde, M., Burns, S. J., Polanco- Martínez, J. M., et al. (2016). High-resolution speleothem record of precipitation from the Yucatan Peninsula spanning the Maya Preclassic Period. Global and Planetary Change, 138, 93-102. 66/67 66 / 67 Otros tipos de gráficas: gráficos de burbuja (bubble chart) Un gráfico de burbujas es un tipo de gráfico de dispersión donde los puntos se escalan en base a una variable. Veamos este ejemplo realizado con ggplot2 en R: Fuente: https://r-graph-gallery.com/320-the-basis-of-bubble-plot.html 67/67 67 / 67