big_data_analytics.pdf
Document Details
Uploaded by DeliciousAgate5352
Universidad Internacional de La Rioja
Tags
Full Transcript
Maestría en Industria 4.0 Big Data y Analytics Tema 1. Big data e industria 4.0 Índice Es...
Maestría en Industria 4.0 Big Data y Analytics Tema 1. Big data e industria 4.0 Índice Esquema 3 Ideas clave 4 1.1. Introducción y objetivos 4 1.2. Aproximación a los sistemas big data 5 1.3. Oportunidades y retos de los sistemas big data en entornos de industria 4.0 15 1.4. Referencias bibliográficas 18 © Universidad Internacional de La Rioja (UNIR) 2 © Universidad Internacional de La Rioja (UNIR) BIG DATA E INDUSTRIA 4.0 Incremento Inteligencia Heterogeneidad 7 Vs Visualización exponencial artificial RETOS Y OPORTUNIDADES Soporte a Mantenimiento Optimización de Información en Automatización marketing y predictivo procesos tiempo real ventas Big Data y Analytics Tema 1. Esquema Esquema 3 Ideas clave 1.1. Introducción y objetivos Accede al vídeo «Introducción y objetivos» a través del aula virtual Hablar de las nuevas tecnologías, la evolución de las comunicaciones, la adopción en nuestro día a día del uso de dispositivos móviles, el cada vez más extendido uso de dispositivos inteligentes o la explosión de los sistemas IoT (Internet de las cosas, de sus siglas en inglés Internet of the Things) ha dejado de ser algo novedoso para pasar a formar parte de nuestras vidas cotidianas. No en vano, estamos inmersos en un fenómeno de aceleración tecnológica y digitalización sin precedentes. Este fenómeno ha dado lugar a la generación de volúmenes de información difícilmente manejables por los sistemas tradicionales, de ahí que el paradigma del big data haya irrumpido con fuerza, más como una necesidad que como una alternativa. Como cabe esperar, las empresas y, más en concreto, los entornos de industria 4.0 están inmersas en esta vorágine de digitalización, cambios, evolución y, en definitiva, proceso de profunda transformación. A lo largo de este tema se introduce el paradigma del big data, definiéndolo, identificando los problemas que trata de resolver, enfatizando los retos a los que se enfrenta, identificando las oportunidades que ofrece y mencionando algunas de las tecnologías que están involucradas en él. © Universidad Internacional de La Rioja (UNIR) Tras el planteamiento general, el tema se centra en el contexto de interés del máster y esta asignatura, la industria 4.0, identificando algunos de los retos a los que los sistemas de big data se enfrentan dentro de ella. 4 De forma más concreta, el presente tema busca la consecución de los siguientes objetivos: Entender el significado del término big data, así como identificar los problemas, retos, oportunidades y tecnologías que están incluidas en él. Identificar las oportunidades que la evolución tecnológica y la explosión de los datos presentan para la mejora de los entornos empresariales y, más concretamente, para la industria 4.0. Entender los sistemas big data como pieza fundamental en los procesos de digitalización. Identificar y entender los retos que el big data presenta en los entornos de industria 4.0. Accede a los ejercicios de autoevaluación a través del aula virtual 1.2. Aproximación a los sistemas big data Accede al vídeo «Aproximación a los sistemas big data» a través del aula virtual Durante los últimos años la tecnología ha evolucionado a un ritmo muy rápido provocando, entre otros efectos, que los volúmenes de información que manejamos hayan crecido exponencialmente (Deloitte, 2016). Sirva como ejemplo la estimación recogida en la figura 1, en la que se calcula que el volumen de datos/información generados, copiados y consumidos en 2025 será de 175 zettabytes, aumentando de © Universidad Internacional de La Rioja (UNIR) forma exponencial a los 612 en 2030 y a 2142 en 2035. Además, es importante señalar que la información generada es acumulativa, siendo mucho menor el porcentaje de información que se elimina que la nueva generada, en parte gracias al abaratamiento que el almacenamiento de la información ha Big Data y Analytics 5 Tema 1. Ideas clave experimentado. Es aquí donde aparece y se instala el big data como paradigma que trata de resolver los problemas que supone el manejo de estos volúmenes tan elevados de información. Los datos por sí mismos y la resolución de los problemas que plantea su manejo dan lugar a una serie de retos y múltiples oportunidades a los que el big data trata de dar respuesta. En definitiva, el objetivo último de un sistema big data concreto será hacer un uso eficiente y efectivo de los datos, de forma que podamos tomar mejores decisiones, y de ahí que estos jueguen un importante papel en los sistemas de soporte de decisiones guiados por datos (DSS – data-driven Decision Support Systems) (Poleto, de Carvalho y Costa, 2015). Figura 1. Cantidad real y prevista de datos generados en todo el mundo (en zettabytes). Fuente: https://cdn.statcdn.com/Infographic/images/normal/17734.jpeg El primer problema al que se enfrentan los sistemas big data se presenta con el uso de las infraestructuras de datos tradicionales. La solución tradicional a los problemas de escalado, cuando se requieren más recursos de almacenamiento o © Universidad Internacional de La Rioja (UNIR) procesamiento, se lleva a cabo mediante el escalado vertical (scale up). Esta aproximación consiste en aumentar el tamaño del servidor o máquina que nos presta el servicio. Sin embargo, a pesar de las ventajas que presenta al trabajar con sistemas Big Data y Analytics 6 Tema 1. Ideas clave en producción, este crecimiento es limitado, puede ser caro y, además, aumenta el riesgo de no disponibilidad antes fallos. Tratando de solventar estos problemas, los sistemas big data suelen hacer uso del escalado horizontal (scale out), fomentando el uso de soluciones en clúster. Esta solución, la cual puede combinarse con el escalado vertical, presenta múltiples ventajas como su potencial de crecimiento, el uso de dispositivos más baratos, la alta disponibilidad, el balanceo de carga o el mejor comportamiento ante fallos en los nodos. Sin embargo, su configuración y mantenimiento es más complejo. Figura 2. Escalado vertical y escalado horizontal: en el primero se aumenta el tamaño del servidor frente al aumento de los nodos en el segundo. Por otro lado, el crecimiento de los datos ha sido producido (y fomentado) por la aparición de múltiples estándares de comunicación, almacenamiento y gestión de datos e información, así como de infinidad de proveedores de soluciones para la recogida, manejo y análisis de datos. Aparece entonces el primer reto que afrontan los sistemas big data: la estandarización (Al-Qaseemi, Almulhim, Almulhim, y Chaudhry, 2016). La gestión de información proveniente de diferentes fuentes heterogéneas es © Universidad Internacional de La Rioja (UNIR) actualmente tediosa y costosa: por ejemplo, si se utiliza un sensor de temperatura de un fabricante y un sistema de iluminación inteligente de otro, la integración de la información de ambos requerirá trabajar con dos sistemas diferentes para recibir su información y manejarlos. De forma más concreta, algunas de las fuentes de datos que nutren a los sistemas big data pueden ser sensores, wearables, vehículos, Big Data y Analytics 7 Tema 1. Ideas clave maquinaria, cámaras, bases de datos, fuentes públicas de datos, observaciones, personas, animales, dispositivos energéticos y un largo etcétera. Esta heterogeneidad no solo viene dada por el tipo de persona, dispositivo o software que nos esté proporcionando la información, sino también en la forma en la que esta se facilite. Así, podemos clasificar los conjuntos de datos por la estructura en la que estos se encuentran o son proporcionados. En este punto, podemos identificar tres tipos de datos (Holden, 2020): Datos estructurados Son aquellos que se adhieren a un modelo de datos predefinido y, por lo tanto, son fáciles de analizar. Se ajustan a un formato tabular con relación entre las diferentes filas y columnas. Los ejemplos más comunes son archivos de Excel o bases de datos relacionales SQL. Datos no estructurados Son información que no está organizada de una manera predefinida o que no sigue un modelo para tal fin. La información no estructurada suele contener texto, pero también puede contener datos como fechas, números y hechos. Los ejemplos comunes de datos no estructurados incluyen archivos de audio, vídeo o bases de datos NoSQL. La capacidad de almacenar y procesar datos no estructurados ha crecido enormemente en los últimos años gracias a las nuevas tecnologías y herramientas que permiten manejar este tipo de datos (por ejemplo, MongoDB para almacenar © Universidad Internacional de La Rioja (UNIR) documentos). La capacidad de analizar datos no estructurados es especialmente relevante en el contexto de big data, ya que una gran parte de los datos en las organizaciones no está estructurada (imágenes, vídeos o documentos). La capacidad Big Data y Analytics 8 Tema 1. Ideas clave de extraer valor de los datos no estructurados es uno de los principales impulsores del rápido crecimiento del big data. Datos semiestructurados Son una forma de datos estructurados que no se ajusta a la estructura formal de los modelos asociados con bases de datos relacionales u otros tipos de tablas de datos, pero que contienen etiquetas o marcadores para separar elementos semánticos y hacer cumplir las jerarquías de registros y campos (estructura autodescriptiva). Algunos ejemplos de datos semiestructurados incluyen los formatos CSV, JSON y XML. Estos son más fáciles de analizar que los no estructurados, existiendo muchas soluciones y herramientas con la capacidad de leer y procesar CSV, JSON o XML. Nota: Un CSV, a pesar de representar una tabla, de por sí no es capaz de representar datos jerárquicos o relacionales, al menos no gracias a su formato. Se han de emplear varios archivos CSV y claves externas en varios archivos para representar estas relaciones. De ahí que se consideren semiestructurados. Metainformación Aunque no se considere como una estructura de datos como tal, la metainformación es uno de los elementos más importantes para el análisis de datos. Podemos considerar que los metadatos son datos sobre datos, proporcionando información adicional sobre un conjunto específico de estos. En un conjunto de fotografías, por ejemplo, los metadatos podrían describir cuándo y dónde se tomaron las fotografías. De este modo, proporcionan campos para fechas y ubicaciones que, por sí mismos, © Universidad Internacional de La Rioja (UNIR) pueden considerarse datos estructurados. Además de todo lo anterior, el big data no solo está relacionado con la cantidad de datos, su formato o su heterogeneidad. Los sistemas big data van más allá y se Big Data y Analytics 9 Tema 1. Ideas clave caracterizan de forma más completa por los retos que tratan de resolver, los cuales se conocen como las «V» del big data. Esta aproximación comenzó con tres «V», siguió con cinco y pueden encontrarse referencias en las que se identifican hasta 17 (Arockia Panimalar, Varnekha Shree y Veneshia Kathrine, 2017). A continuación presentamos la versión de las siete «V» del big data, tal y como muestra la figura 3: Figura 3. Las siete «V» del big data. Volumen Es el más obvio y se refiere a la gran cantidad de datos que han de manejar los sistemas big data. Velocidad Se refiere a la capacidad de recopilar, procesar y acceder a los datos en el menor tiempo posible. Por ejemplo, los sistemas de monitorización en tiempo real son © Universidad Internacional de La Rioja (UNIR) críticos en este sentido. Variedad Big Data y Analytics 10 Tema 1. Ideas clave Este reto está relacionado con la heterogeneidad de fuentes y formatos. Los sistemas big data deben resolver este reto de forma transparente y eficiente. Un ejemplo podría ser un sistema de monitorización de cultivos en el que dispongamos de información sobre los tratamientos aplicados desde una base de datos, información de sensores ambientales en formato semiestructurado e información no estructurada como podría ser la toma de imágenes de dicho cultivo. Veracidad La veracidad está relacionada con la fiabilidad y precisión de los datos recogidos. Disponer de fuentes fiables (como podrían considerarse las fuentes oficiales de datos) y que faciliten información precisa permitirá a nuestro sistema alejarse de las imprecisiones que generan los datos de mala calidad. Variabilidad La variabilidad (no debe confundirse con la variedad) se refiere al carácter cambiante de los datos, centrándose principalmente en entender el significado de estos. Sirva como ejemplo el vino que se elabora en una bodega: un vino elaborado con la misma proporción de cada tipo de uva, año tras año, manteniendo las condiciones ambientales de la bodega y, sin embargo, presenta variabilidad entre añadas al tener diferentes matices en el sabor entre ellas. Visualización La visualización se ha convertido en uno de los aspectos clave de los sistemas big data actuales. El uso de infografías, gráficas, dashboards u otros recursos para mostrar la © Universidad Internacional de La Rioja (UNIR) información extraída de datos complejos ha demostrado ser mucho más efectiva que la transmisión de los datos en crudo. Valor Big Data y Analytics 11 Tema 1. Ideas clave El objetivo último de todo sistema big data es proporcionar valor añadido tras el análisis de los datos. No solamente debemos disponer de cantidades ingentes de información, sino que debemos ser capaces de procesarla, organizarla y analizarla para que su comprensión sea fácil y mejore el proceso de toma de decisiones. Un análisis preciso y rápido de los datos requiere de técnicas complejas de inteligencia artificial (artificial intelligence) y, dentro de esta, de aprendizaje automático (machine learning). La integración de este tipo de técnicas permite acelerar el proceso de análisis y, sobre todo, la posibilidad de trabajar con grandes volúmenes de datos que no podrían ser manejados con los sistemas tradicionales. Las redes neuronales para el reconocimiento de imágenes, los sistemas de recomendación de productos a los clientes o la aplicación de técnicas de clustering para clasificar al público objetivo en una campaña de marketing son algunos de los múltiples ejemplos que pueden encontrarse de su aplicación. Ámbitos A tenor de lo expuesto anteriormente, puede concluirse que los ámbitos en los que puede aplicarse el big data son innumerables, algunos de los cuales son los siguientes: Retail El auge del e-commerce ha hecho que las empresas de retail tengan en el big data a su gran aliado. Gracias a los recursos que ofrece, son capaces de desarrollar estrategias centradas en el usuario (customer centric), optimizar los precios y optimizar la producción. © Universidad Internacional de La Rioja (UNIR) Logística y transporte La logística y el transporte conforman uno de los primeros ámbitos que se beneficiaron de los sistemas big data. Así, la trazabilidad de flotas, la optimización de Big Data y Analytics 12 Tema 1. Ideas clave rutas, la predicción de demanda para la gestión de almacenes o la monitorización del estado de los vehículos en tiempo real son algunos de los problemas que se han visto más beneficiados. Banca A pesar de ser uno de los sectores más tradicionales y reticentes a los cambios (debido, como cabe esperar, a las grandes medidas de seguridad), la banca también ha sucumbido a la implantación y utilización de sistemas big data. Por ejemplo, la aparición de las Fintech basa gran parte de su valor añadido en la resolución de problemas de nicho mediante la aplicación de big data. Por otra parte, los propios bancos son capaces de mejorar sus previsiones de rentabilidad y riesgos mediante un uso intensivo de datos y algoritmos. Marketing La revolución digital y, sobre todo, la aparición de las redes sociales y los motores de búsqueda en Internet han cambiado el mundo del marketing de tal forma que no puede entenderse sin que sea asociado al big data. La gran cantidad de información que generamos facilita que recibamos un marketing más personalizado que, como cabe esperar, intenta maximizar el número de conversiones. Salud Al igual que los ejemplos anteriores, los sistemas sanitarios se han visto beneficiados por el paradigma del big data. Además de por la mejora que pueda haber en los sistemas de detección de enfermedades, gracias al uso de una cantidad mayor de © Universidad Internacional de La Rioja (UNIR) datos y las mejoras computacionales y algorítmicas, la digitalización del sistema sanitario y su gestión como un sistema big data permite que nuestro expediente médico esté disponible en cualquier consulta o que podamos disfrutar de la comodidad que ofrece la receta electrónica. Big Data y Analytics 13 Tema 1. Ideas clave Educación La educación no permanece impasible a la revolución de los datos, y sirva como ejemplo de digitalización y gestión bajo premisas big data la propia UNIR. Gracias a los sistemas big data se ha conseguido mejorar los servicios a los estudiantes, facilitar el trabajo remoto, así como permitir una mejor categorización de los estudiantes o adaptación de los planes de estudio. Gobierno electrónico La implantación de los sistemas de gobierno electrónico (e-government) ha requerido solucionar muchos de los retos que proponen los sistemas big data. Por ejemplo, el desarrollo de un registro electrónico de documentos requiere la aplicación de medidas de seguridad y almacenamiento y gestión de datos que los sistemas big data facilitan. Seguros El sector de las aseguradoras también ha dado un giro relativamente importante gracias al big data. Parece obvio que gracias a la posibilidad de gestionar más cantidad de información el cálculo de riesgos resultará más preciso y, además, muchas aseguradoras están incluyendo información de sus clientes a través de dispositivos inteligentes, como pueden ser los smartwatches, para recoger datos que les permitan identificar sus hábitos y ser aún más precisos. De la breve descripción de algunos de los ámbitos que se benefician del big data, pueden identificarse, entre muchas otras, las siguientes oportunidades: © Universidad Internacional de La Rioja (UNIR) Mejora en la monitorización de procesos. Optimización de campañas de marketing. Mejora de las ventas. Mejora de la satisfacción y la experiencia del cliente. Big Data y Analytics 14 Tema 1. Ideas clave Mejora de la gestión logística y de almacén. Identificación de productos, tendencias y ventajas competitivas. Ahorro de costes. Mejora del proceso de toma de decisiones (más rápida y con más criterios). Aumento de la capacidad de pronosticar la demanda con mayor precisión. Resolución de problemas de redes de distribución más complejos. Mejora de la eficiencia de la planificación. Mejora de la planificación de los recursos humanos. Colaboración en la cadena de suministro. Monitorización de vehículos y maquinaria. Llegados a este punto es fácil intuir que muchos de los ámbitos de actuación y de las oportunidades descritas anteriormente son aplicables al ámbito de la industria 4.0. La siguiente sección se centra en este aspecto, destacando los retos más importantes de los sistemas big data en entornos de industria 4.0. Accede a los ejercicios de autoevaluación a través del aula virtual 1.3. Oportunidades y retos de los sistemas big data en entornos de industria 4.0 Accede al vídeo «Oportunidades y retos de los sistemas big data en entornos de industria 4.0» a través del aula virtual Tal y como se ha avanzado en la sección anterior, la industria 4.0 no ha permanecido © Universidad Internacional de La Rioja (UNIR) impasible a la irrupción del big data. Sin embargo, es importante destacar que ambos son paradigmas diferentes pero complementarios. Big Data y Analytics 15 Tema 1. Ideas clave En el caso concreto que nos atañe, el big data juega un rol fundamental en algunas de las áreas más relevantes de la industria 4.0 como, por ejemplo, en fabricación inteligente los datos de los sensores de la maquinaria de producción se analizan para predecir cuándo se necesitarán operaciones de mantenimiento y reparación. Mediante su aplicación, los fabricantes mejoran la eficiencia de la producción, analizan datos en tiempo real, optimizan el mantenimiento predictivo y automatizan la gestión de la producción (Bordeleau, Mosconi y Santa-Eulalia, 2018). La generación de datos en los entornos de industria 4.0 no es algo novedoso. Sin embargo, hasta la irrupción de los sistemas big data, muchos de estos datos quedaban almacenados en data lakes o silos sin que se sacase partido de ellos, debido a que no se disponía de herramientas que permitiesen su análisis. Los sistemas big data solucionan el problema real: la extracción de valor a partir de datos ya existentes. Además, la industria 4.0 no busca la aplicación de big data para solucionar problemas aislados, sino que se enfoca en lograr una verdadera inteligencia empresarial mediante la recopilación, el análisis y el intercambio de datos en todos los ámbitos empresariales, no solamente en la fabricación (Bordeleau et al., 2018). De este modo trata de buscar sistemas de producción más eficientes, respuestas más apropiadas a las necesidades comerciales de cada momento o reaccionar a tiempo ante un imprevisto en la cadena de suministro (Schundelfrei, 2019). Para ello, la industria 4.0 está haciendo uso de los recursos tecnológicos que ofrecen tanto el big data como otros paradigmas como el IoT o la robótica, los cuales también están íntimamente ligados entre ellos. Uno de los principales objetivos es optimizar © Universidad Internacional de La Rioja (UNIR) y automatizar la producción, incluidos los procesos de la cadena de suministro. Desde el punto de vista de la sensorización, el objetivo final de la industria 4.0 es que los sensores integrados en maquinaria, edificios, objetos y personas, los componentes y los trabajos en curso transmitan datos en tiempo real a los sistemas de información puestos en marcha. Big Data y Analytics 16 Tema 1. Ideas clave A su vez, la industria 4.0 se beneficiará de la aplicación de algoritmos de inteligencia artificial y, más concretamente, aprendizaje automático con el objeto de analizar y obtener información a partir de los datos recopilados y ajustar los procesos manual o automáticamente según sea necesario. Sin que los ejemplos tengan que ser entendidos como una lista cerrada, el big data da soporte a los entornos de industria 4.0 en los siguientes casos: Descubrimiento de variables ocultas. Es bastante habitual que aparezcan variables ocultas tanto en los procesos de producción como en cualquier otro. La aplicación de técnicas big data permite identificarlas de modo que se eviten los cuellos de botella que causan en la producción. Mejora del rendimiento en tiempo real. El procesamiento de la información en tiempo real es clave en la industria 4.0. Con ello se consigue la optimización de la cadena de suministro, de los precios, la predicción de fallos, el desarrollo de productos o el diseño de fábricas inteligentes. Sistemas de autoservicio. La adopción de análisis de autoservicio en ingeniería puede ayudar a consolidar grandes cantidades de macrodatos de las plantas de producción. Por ejemplo, Intel tiene equipos en su fábrica inteligente que envían datos a un sistema de autoservicio, este procesa y analiza los datos en tiempo real, encontrando patrones, detectando fallos y creando visualizaciones para la gerencia (The Role of Big Data Analytics in Industry 4.0, S. f.). Mantenimiento predictivo. Es un ejemplo de uso de los datos para la toma de decisiones. La información permite priorizan los cambios y las acciones que se © Universidad Internacional de La Rioja (UNIR) deben tomar para evitar tiempos de inactividad no programados o el mal funcionamiento del equipo. El análisis de datos en entornos de Industria 4.0 es sinónimo de mantenimiento predictivo (The Role of Big Data Analytics in Industry 4.0, S. f.). Big Data y Analytics 17 Tema 1. Ideas clave Automatización de la gestión de la producción. Esto implica reducir la cantidad de aportaciones y acciones humanas necesarias en la producción. Su aplicación hace uso del análisis de datos históricos del proceso de producción, combinándolos con información en tiempo real de ese proceso en particular y automatizando los cambios físicos en los equipos mediante actuadores y robótica avanzada que están conectados al software de control. Este toma inferencias hechas a partir del análisis de big data y envía comandos específicos a estos actuadores y robots, que alterarán físicamente la configuración del equipo y la maquinaria sin ninguna intervención humana (The Role of Big Data Analytics in Industry 4.0, S. f.). Mejora del proceso logístico. No solo a nivel intraempresarial, sino gracias a la integración con datos de terceros, como pueden ser repartidores, proveedores, etc. A lo largo de los siguientes temas profundizaremos en gran parte de los componentes que forman parte de los sistemas big data como son la recogida de datos, las arquitecturas en la nube que facilitan este proceso, las técnicas de inteligencia artificial que pueden aplicarse, las herramientas de visualización más extendidas, así como otros aspectos relacionados con la inteligencia empresarial o legales. Accede a los ejercicios de autoevaluación a través del aula virtual 1.4. Referencias bibliográficas © Universidad Internacional de La Rioja (UNIR) Al-Qaseemi, S. A., Almulhim, H. A., Almulhim, M. F. y Chaudhry, S. R. (2016). IoT architecture challenges and issues: Lack of standardization. En IEEE (Ed.), 2016 Future Technologies Conference (FTC) (pp. 731-738). https://doi.org/10.1109/FTC.2016.7821686 Big Data y Analytics 18 Tema 1. Ideas clave Arockia Panimalar, S., Varnekha Shree, S. y Veneshia Kathrine, A. (2017). The 17 V’s of big data. International Research Journal of Engineering and Technology, 4(9), 329– 33. https://www.irjet.net/archives/V4/i9/IRJET-V4I957.pdf Bordeleau, F. E., Mosconi, E. y Santa-Eulalia, L. A. (2018). Business Intelligence in Industry 4.0: State of the art and research opportunities. Proceedings of the 51st Hawaii International Conference on System Sciences. http://hdl.handle.net/10125/50383 Deloitte. (24 de febrero de 2016). IoT applications: From sensing to doing. Deloitte Insights. https://www2.deloitte.com/us/en/insights/focus/tech- trends/2016/internet-of-things-iot-applications-sensing-to-doing.html Holden, P. (9 de julio de 2020). Defining Structured, Semi-Structured, and Unstructured Data. Blog Industrie Expertise + Technology thought leadership. https://www.convergeone.com/blog/defining-unstructured-data Poleto T., de Carvalho V. D. H., Costa A. P. C. S. (2015) The Roles of Big Data in the Decision-Support Process: An Empirical Investigation. En B. Delibašić et al. (Eds.) Decision Support Systems V – Big Data Analytics for Decision Making. ICDSST 2015. Lecture Notes in Business Information Processing, (vol. 216, pp. 10-21). Springer. https://doi.org/10.1007/978-3-319-18533-0_2 Schundelfrei, M. (25 de abril 2019). Big Data Challenges of Industry 4.0. Datanami. https://www.datanami.com/2019/04/25/big-data-challenges-of-industry-4-0/ The Role of Big Data Analytics in Industry 4.0. (S. f.). Blog RGBSI. © Universidad Internacional de La Rioja (UNIR) https://blog.rgbsi.com/big-data-analytics-in-industry-4.0 Accede al vídeo «Resumen» a través del aula virtual Big Data y Analytics 19 Tema 1. Ideas clave Tema 2. Conceptos básicos para el análisis de datos Índice Esquema 21 Ideas clave 22 2.1. Introducción y objetivos 22 2.2. Conceptos básicos 23 2.3. Técnicas de análisis univariante 42 2.4. Técnicas de análisis bivariante 55 2.5. Otras técnicas 69 2.6. Gráficos 71 2.7. Análisis de datos en industria 4.0 83 2.8. Referencias bibliográficas 90 © Universidad Internacional de La Rioja (UNIR) C O N C E P T O S B Á S I C O S PA R A E L A N Á L I S I S D E D AT O S Conceptos básicos Gráficas Dato, población, muestra y muestreo. Mapas. Dispersión. Tipos de variables. Diagrama de barras. Serie temporales. Diseños de experimentos. Gráfico de Pareto. Mekko. Contraste de hipótesis. Sectores. Cajas y bigotes. Medidas de precisión de la clasificación. Pictograma. Razonamiento estadístico. Burbujas. Distribución de frecuencias. Histograma. Tabulación de variables. TÉCNICAS DE ANÁLISIS TÉCNICAS DE ANÁLISIS OTRAS TÉCNICAS DE UNIVARIANTE BIVARIANTE ANÁLISIS 1. Tablas de frecuencia. 1. Distribución de frecuencias. 2. Covarianza. 1. Multivariante. 2. Medidas que resumen la 3. Correlación. 2. Problemas de clasificación. información. 4. Regresión. 3. Redes neuronales. 3. Datos atípicos. 5. Pruebas de análisis y 4. Test A/B. 4. Distribución normal. comparación. Big Data y Analytics Tema 2. Esquema Esquema 21 Ideas clave 2.1. Introducción y objetivos Accede al vídeo «Introducción y objetivos» a través del aula virtual El análisis de datos es un área fundamental para los sistemas big data y, de forma más concreta, para la industria 4.0. Los análisis de producciones, las predicciones y la optimización del consumo de energía, así como un largo etcétera de casos de uso en entornos industriales, basan sus resultados en la estadística y las diferentes técnicas de análisis a las que esta da lugar. Siendo la estadística uno de los cimientos del análisis de datos, en el presente tema se hace una breve introducción a los conceptos básicos de esta y su relación con el big data. El texto consta de una primera parte, en la que se repasan los conceptos y técnicas clave sobre los que trabaja la estadística, además de afrontar la primera necesidad que plantea el análisis de los datos: su organización y presentación para comprender la información que contienen. También se introducen varios conceptos estadísticos, incluyendo técnicas concretas, que son utilizados para el análisis de variables, tanto de forma individual como conjunta, así como para la evaluación de clasificaciones. El objetivo principal es conocer estos conceptos de forma que el lector pueda profundizar en los mismos, tanto a través de las referencias como de las lecturas adicionales que se proporcionan al final del tema. Por otro lado, podría afirmarse que los gráficos son la forma más intuitiva y fácil de entender y analizar datos. Por este motivo, se incluye en este tema una sección en la que se describen los tipos de gráficos más comunes y algunas pautas para elegir el formato más apropiado en función del tipo de datos de los que se disponga y del objetivo del análisis. Por último, se desarrolla una sección en la que trata de evidenciar la importancia de la estadística y las técnicas de análisis de datos en los entornos de industria 4.0. En este sentido, dicha sección consta de dos partes: una primera en la que se identifican retos que han de resolverse en los entornos big data con la ayuda de las técnicas de análisis de datos y una segunda en la que se presentan casos de uso concretos. Accede a los ejercicios de autoevaluación a través del aula virtual 2.2. Conceptos básicos Accede al vídeo «Conceptos básicos» a través del aula virtual La estadística es una de las ciencias básicas a la hora de analizar datos e información. Una primera y simplista aproximación de la estadística podría entenderse como una colección de datos cualquiera. Referencias comunes a ella son las estadísticas de ventas de coches, de paro, etc. Sin embargo, esta aproximación informal hace referencia a estudios concretos, no facilitando una visión de la estadística como ciencia que estudia los datos. De forma más exhaustiva, podría definirse la estadística como la ciencia que maneja los datos a través de un proceso que va desde el diseño del estudio, pasando por la recogida de los datos, hasta su análisis para, finalmente, organizar, resumir y mostrar © Universidad Internacional de La Rioja (UNIR) la información contenida en ellos y extraer conclusiones. De forma más resumida podemos adoptar la definición de Moore, McCabe, y Craig (2017): «La estadística es la ciencia que nos permite aprender de los datos». Big Data y Analytics 23 Tema 2. Ideas clave La figura 1 ilustra las fases de un estudio estadístico completo: el diseño del estudio estadístico, la recogida de datos, su análisis y, finalmente, la extracción de conclusiones en función de los resultados que se han obtenido del análisis. Figura 1. Fases de un estudio estadístico completo. Todas las fases de un estudio estadístico son igualmente importantes, pero es necesario destacar que los datos deben recogerse siguiendo unos criterios estadísticos mínimos, siendo esta etapa muy importante y delicada. Existen autores que incluyen una fase extra al inicio de las aquí indicadas: la identificación del problema de estudio. Entonces, ¿para qué sirve la estadística? Siguiendo nuevamente la definición de Moore, el objetivo de la estadística es «ganar en compresión de un fenómeno a partir de los datos que se manejan sobre este» (Moore et al., 2017). Dependiendo del uso que se haga de esta, la estadística podrá ser de dos clases: Estadística descriptiva: se limita a describir una población basándose en la información recogida de su muestra. Estadística inferencial: extrae conclusiones sobra la población de estudio. El siguiente apartado aborda conceptos básicos de estadística, centrándose en el enfoque descriptivo de esta. Dato, población, muestra y muestreo © Universidad Internacional de La Rioja (UNIR) Dato: es el primer concepto que emplea la definición de estadística. A nivel estadístico, los datos no son solo números, sino que son números contextualizados, constituyéndose en información sobre algo. Ese «algo» es lo que se denomina Big Data y Analytics 24 Tema 2. Ideas clave individuo, conformando con un conjunto de individuos, acotado con base en ciertos criterios, un colectivo llamado población. Población: la población de individuos será, generalmente, aquellos sobre los que interese realizar un estudio y extraer conclusiones. Por lo tanto, la estadística no se encarga de cualquier fenómeno, sino de aquéllos que son colectivos y que no atienden a leyes deterministas (de las cuales se encargan las ciencias exactas), es decir, aquellos que contienen algún elemento de incertidumbre. Muestreo: es el proceso mediante el cual se realiza la selección de individuos que formarán parte de una muestra. Este proceso garantiza un mínimo de calidad de los datos obtenidos que ayude a validar futuros análisis y conclusiones. Los individuos elegidos para representar a la población deben presentar una diversidad lo más similar posible a dicha población de origen, de forma que su selección forme una muestra representativa de la misma. Error de muestreo: el hecho de utilizar una parte de la población como es la muestra para representar a la población entera implica que pueda aparecer error de muestreo. Este error es inherente al proceso de muestreo debido a la inferencia y extrapolación de datos llevada a cabo, por lo que su minimización será un aspecto clave. Inferencia estadística: es como se conoce al proceso de extrapolar las características y propiedades de la muestra a las de la población y forma por sí misma una rama de la estadística (estadística descriptiva y estadística inferencial). Un ejemplo de todo lo anterior son las mediciones de audiencias en la televisión. A © Universidad Internacional de La Rioja (UNIR) través de una selección de la población (muestra representativa), se intenta responder a la pregunta, entre otras, ¿qué canales de televisión son los más vistos? Big Data y Analytics 25 Tema 2. Ideas clave Tipos de variables Categóricas y cuantitativas Existen dos tipos de variables estadísticas: Categóricas: en este tipo de variable, sus valores (o modalidades) no se asocian de forma natural a un valor numérico. Está dividida, a su vez, en dos clases: Nominales: las categorías son meramente cualitativas (colores, formas, estado civil). Ordinales: las categorías se pueden ordenar (niveles de asistencia técnica –tier– , tallas en letras, niveles de satisfacción). Cuantitativas: los valores que toman son numéricos (pueden realizarse operaciones algebraicas). Se dividen, a su vez, en dos clases: Discretas: aquellas que toman un número finito de valores (valores enteros, por ejemplo, puntuaciones numéricas de rating, número de piezas producidas, número de artículos vendidos). Continuas: cuando pueden tomar infinitos valores (por ejemplo, las magnitudes físicas, el tiempo). Dependientes e independientes También podemos clasificar las variables según su enfoque metodológico: Dependientes: aquellas cuyos valores dependen de los que tomen otros, de acuerdo con un determinado rol hipotético que asumimos juega cada variable y © Universidad Internacional de La Rioja (UNIR) que hará que planteemos un modelo estadístico u otro en nuestros análisis estadísticos (como cuando planteamos una regresión lineal). Independientes: aquellas cuyos valores no dependen de los valores que tomen otras. Por ejemplo, «el aprobado de una asignatura», como variable Big Data y Analytics 26 Tema 2. Ideas clave independiente, será dependiente de otra variable independiente, que es «el número de horas de estudio». Intermediarias u omitidas Se trata de variables que no son contempladas por el estudio o el modelo planteado en cuestión y, sin embargo, estarían actuando como variables explicativas de nuestra variable dependiente de un modo, podría decirse, oculto. Conviene identificarlas para no establecer asociaciones y presuponer causalidades infundadas. Por ejemplo, la variable «nivel de estudios de los padres» y su influencia en los aprobados de los alumnos. En ocasiones, los análisis estadísticos se realizan controlando el efecto de dichas variables para eliminar determinado influjo sobre la variable «respuesta» en el cual no estamos interesados. Otros ejemplos, siempre dependiendo del modelo, podrían ser la dependencia de la demanda de un componente automovilístico con las condiciones meteorológicas o la dependencia del precio de una determinada materia prima por la situación política del país de origen. Dicotómicas Otro tipo de variable muy empleado en estadística es el de las variables dicotómicas, las cuales pueden tomar solamente dos valores. Son muy útiles para describir el hecho de que ocurra algo (1) o no ocurra (0), como, por ejemplo, el que un sensor detecte presencia o no, encontrándose entre ellas las variables binarias. En la práctica una misma variable puede ser recodificada de diferentes modos como, © Universidad Internacional de La Rioja (UNIR) por ejemplo, la variable «edad». En teoría se trata de una variable continua que, sin embargo, suele ser recogida en su dimensión puramente categórica ordinal, ya que codificamos los intervalos de edad (menor de edad, entre 30 y 40 años, mayor de 65 años, etc.). Big Data y Analytics 27 Tema 2. Ideas clave Diseño de experimentos Los estudios estadísticos pueden ser de dos clases: Observacionales: aquellos en los recogemos datos a partir de observaciones, por lo que no intervenimos ni alteramos a los individuos de ningún modo. Experimentales: aquellos en los que aplicamos tratamientos y luego observamos sus efectos sobre sus sujetos, que aquí pasan a llamarse unidades experimentales. Un estudio observacional es cualquier encuesta en la que no se apliquen cambios ni se someta a ningún tratamiento a los encuestados. Los diseños experimentales se emplean muy a menudo en la rama de la bioestadística, ya que es habitual aplicar tratamientos médicos y luego observar las diferencias entre ellos. Razonamiento estadístico Para aprender a pensar estadísticamente debemos desarrollar un pensamiento crítico basado en varias preguntas adaptadas de Estadística de Triola (2009): 1. ¿Cuál es el objetivo del estudio? 2. ¿Quién es la fuente de los datos? 3. ¿Con qué tipo de muestreo han sido obtenidos los datos? 4. ¿Existen variables que influyan en los resultados y que se hayan omitido? 5. ¿Las gráficas resumen adecuadamente los datos? 6. ¿Las conclusiones se extraen directa y naturalmente de los datos? 7. ¿Se ha cumplido el objetivo marcado al principio del estudio y tienen sentido y utilidad práctica las conclusiones obtenidas? © Universidad Internacional de La Rioja (UNIR) El conocer la fuente de datos es un aspecto importante pues, en un momento dado, puede no ser neutral con los objetivos del estudio, alterando los resultados de este en propio interés. A este efecto se le conoce como «cocinado de datos», pequeña o gran Big Data y Analytics 28 Tema 2. Ideas clave manipulación y preparación que sufren las conclusiones extraídas para beneficio de quien presenta los resultados del estudio. Se puede afirmar entonces que el estudio estadístico tiene un sesgo. Este concepto es fundamental para el pensamiento estadístico y todas las preguntas anteriores deben ir enfocadas a plantearnos si existe o no sesgo. Por supuesto, existen muchas fuentes de sesgo donde la anterior es tan solo la más coloquial. El ejemplo más claro de este tipo de análisis estadísticos son las encuestas de opinión de los medios de comunicación. Contraste de hipótesis El contraste de hipótesis es un procedimiento formal estadístico para decidir si una afirmación sobre una población parece manifestarse como verosímil o no a partir de los datos. Se trata de una herramienta muy poderosa, pues va enfocada directamente a poder decidir sobre cuestiones, lo que le da un carácter fuertemente aplicado. Para poder resolver la veracidad o no de estas afirmaciones o, como decimos en lenguaje estadístico, contrastarlas, se establece que una afirmación de partida, la llamada hipótesis nula 𝑯𝑯𝟎𝟎 , y otra de negación, que se da en caso de no ocurrir la primera (o, mejor dicho, de ser rechazada la 𝐻𝐻0 ), que es la hipótesis alternativa 𝑯𝑯𝟏𝟏. La hipótesis nula se suele escoger porque es lo que se piensa; es lo que, en principio, ya está establecido, bien porque cierta teoría lo apoya, o bien porque empíricamente está consolidado; también puede establecerse porque tenemos una fuerte intuición de que algo es cierto, etc. El lenguaje empleado cuando aceptamos la 𝑯𝑯𝟎𝟎 suele ser del tipo: «no se han encontrado evidencias estadísticamente significativas de que la tasa de cáncer © Universidad Internacional de La Rioja (UNIR) en las viviendas con antenas de repetición no se encuentre fuera de los valores normales». Big Data y Analytics 29 Tema 2. Ideas clave Por otro lado, la hipótesis alternativa se plantea como lo novedoso, lo que rompe con algo establecido o conservador, aquello que se pretende que sea demostrado, podríamos decir. De rechazar la 𝐻𝐻0 y quedándonos, por tanto, con la 𝐻𝐻1 decimos: «se han encontrado evidencias estadísticamente significativas de que existen diferencias en la tasa de…». También se suele omitir el término «evidencias», afirmando directamente: «…diferencias estadísticamente significativas». El concepto de significancia es fundamental en los contrastes de hipótesis y está íntimamente relacionado con los niveles de significación que hemos visto en los intervalos de confianza. La significancia estadística se da cuando los estadísticos que se emplean para el contraste de hipótesis toman valores a partir de los cuales rechazaremos 𝐻𝐻0. El nivel de significación α marcará el punto en el que, de ser alcanzado por el estadístico, rechazaremos 𝐻𝐻0. Cualquier número basado en la muestra de los datos que nos ayude a decidirnos sobre 𝐻𝐻0 y 𝐻𝐻1 será el estadístico de contraste. Pongamos como ejemplo el caso de antenas de repetición y su influencia en caso de cáncer. Para contrastar la 𝐻𝐻0 podríamos partir del estudio de la incidencia del cáncer en forma de tasa o proporción de presencia de cáncer, así sabríamos, por estudios anteriores, que la tasa normal de presencia de cáncer (su prevalencia) es del 0.7 % de la población, de modo que: 𝐻𝐻0 : 𝑝𝑝 ≤ 0.007 © Universidad Internacional de La Rioja (UNIR) 𝐻𝐻1 : 𝑝𝑝 > 0.007 Así, nuestro estadístico de contraste viene determinado por lo que tiene que ser una variable que nos permita medir tal proporción y tal variable aleatoria es la proporción Big Data y Analytics 30 Tema 2. Ideas clave muestral 𝑝𝑝̂ que se distribuye como 𝑋𝑋/𝑛𝑛, donde 𝑋𝑋 sigue una distribución binomial 𝐵𝐵𝐵𝐵(𝑛𝑛, 𝑝𝑝). De esta manera recogeríamos una muestra aleatoria de vecinos en bloques de viviendas con antenas de repetición próximas y calcularíamos 𝑝𝑝̂. Si esta resulta diferente a 0.007 rechazaremos 𝐻𝐻0. De todos modos, obviamente no seremos tan exigentes de rechazar si no toma el valor 0.007 exactamente, pues de lo contrario no aceptaríamos prácticamente nunca la 𝐻𝐻0. Lo que hacemos generalmente es establecer un rango de valores que, de tomarlos el estadístico, aceptaremos 𝐻𝐻0 : es la llamada región de aceptación. Por el contrario, de no tomar el estadístico un valor «razonable» para la 𝐻𝐻0 , caerá en la región complementaria a esta, la región de rechazo. La distribución de probabilidad que supondremos que tiene el estadístico de contraste es precisamente aquella que resulta de suponer que 𝐻𝐻0 es verdadera. Esto es lógico, pues se trata de partir de que 𝐻𝐻0 es cierta y, entonces, tras recoger la muestra y calcular el estadístico veremos si (de acuerdo con el valor que ha tomado) parece probable que 𝐻𝐻0 sea cierta o si, por el contrario, la deberemos rechazar y quedarnos con la 𝐻𝐻1. Pasos a seguir en un contraste de hipótesis Existen multitud de formas que pueden ser adoptadas por un contraste de hipótesis, por ello, es fundamental tener claros los pasos que sigue el procedimiento del test: © Universidad Internacional de La Rioja (UNIR) 1. Sintetizar la hipótesis que se desea probar y ser capaz de expresarla en forma simbólica. Esta hipótesis será la nula. 2. Delimitar la hipótesis alternativa basada en la nula que ya se ha determinado. Tener en cuenta que han de ser complementarias y, por tanto, no puede existir Big Data y Analytics 31 Tema 2. Ideas clave ningún valor del parámetro que no esté contenido en una u otra hipótesis. Dicho de otra manera, cuando una de las hipótesis sea falsa, la otra deberá ser necesariamente verdadera y viceversa. 3. Fijar un error α que se está dispuesto a cometer y para lo que se tendrá en cuenta la naturaleza del estudio estadístico y la gravedad (las consecuencias) de cometer este error de tipo I. Interesa que este error sea lo menor posible para minimizar la probabilidad de rechazar 𝐻𝐻0 cuando sea cierta. 4. Elegir el estadístico de prueba adecuado para contrastar las hipótesis planteadas. Hay que tener en cuenta que deberá ser conocida la distribución muestral de este bajo 𝐻𝐻0 (es decir, suponiendo 𝐻𝐻0 cierta). 5. Se recoge una muestra aleatoria, se calcula el estadístico y, entonces, se procede de dos maneras, dependiendo de si se usa el método tradicional o el del 𝑝𝑝 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑟𝑟, aunque como hemos visto son equivalentes: En el tradicional, a través del estadístico resulta una región de aceptación y otra crítica o de rechazo. El cálculo del estadístico nos genera un 𝑝𝑝 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 o probabilidad de que tome ese valor bajo 𝐻𝐻0. Esta fase se realiza a través de un programa informático generalmente estadístico, ya que el cálculo del 𝑝𝑝 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 es más sencillo. 6. En el caso de haber empleado el método de la región de aceptación/rechazo, aceptaremos 𝐻𝐻0 si el valor del estadístico cae dentro de la región de aceptación. Por el contrario, si cae fuera de la región de aceptación, por tanto está dentro de la región de rechazo y lo rechazaremos. 7. Tomaremos la decisión de: Rechazar 𝐻𝐻0 si el 𝑝𝑝 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 es menor o igual que el α fijado. Si el 𝑝𝑝 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 es mayor que el 𝛼𝛼 fijado (usualmente mayor que 0.05 o 0.1, depende del que haya sido utilizado), entonces aceptamos la 𝐻𝐻0. © Universidad Internacional de La Rioja (UNIR) Conviene puntualizar que hoy en día prácticamente solo se emplea el método del 𝑝𝑝 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣, sin embargo, es preferible no ignorar el método tradicional, pues en él reside la lógica de base de los contrastes de hipótesis. Además, tiene una mayor facilidad para imaginarnos visual o gráficamente el contraste que se plantea al situar Big Data y Analytics 32 Tema 2. Ideas clave directamente los valores críticos que toman los estadísticos de contraste sobre la gráfica de la distribución. Medidas de precisión de la clasificación En los entornos de la industria 4.0 es muy habitual la utilización de técnicas de clasificación, muchas de las cuales se basan en sistemas de machine learning (ML) o inteligencia artificial (IA) (el aprendizaje automático o machine learning es una rama dentro de la IA), por lo que es necesario que seamos capaces de determinar cómo de bien funciona el mismo. En este sentido, a lo largo de esta sección se presentan diferentes medidas que ayudan a determinar la precisión de un sistema de clasificación para, así, poder determinar su calidad y desempeño. Matriz de confusión Es una tabla resumen que se utiliza para evaluar el desempeño de un modelo de clasificación (generalmente de aprendizaje supervisado). En dicha tabla se recuentan el número de predicciones correctas e incorrectas del modelo. Más formalmente, dadas 𝑛𝑛 clases, la matriz de confusión tiene un tamaño de 𝑛𝑛 × 𝑛𝑛 y sus elementos 𝑝𝑝𝑖𝑖𝑖𝑖 indican el número de instancias de la clase 𝑖𝑖 que han sido clasificadas en el modelo como de la clase 𝑗𝑗. De forma general, las filas indican la clase real de la instancia y las columnas, la clase estimada por el clasificador. Por ejemplo, la figura 2 muestra una matriz de confusión en la que: 8 instancias han sido clasificadas correctamente como de la clase «a = yes». © Universidad Internacional de La Rioja (UNIR) 4 han sido clasificadas correctamente como de la clase «b = no». 1 instancia (posición superior derecha de la matriz) ha sido clasificada incorrectamente como de la clase «b = no», cuando realmente pertenece a la clase «a = yes». Big Data y Analytics 33 Tema 2. Ideas clave Otra instancia (posición inferior izquierda de la matriz) ha sido clasificada incorrectamente como de la clase «a = yes», cuando realmente pertenece a la clase «b = no». Figura 2. Ejemplo de matriz de confusión obtenido tras aplicar un algoritmo de aprendizaje con Weka. Fuente: https://www.cs.waikato.ac.nz/ml/weka/ La figura 3 muestra un ejemplo sencillo de una matriz de confusión 2 × 2. Para entenderla deben definirse los siguientes términos: Positivo (P): la observación es positiva (por ejemplo