Curso Big Data v1 PDF
Document Details
Uploaded by LyricalCalcium
CIP ETI Tudela
Francisco Garrido
Tags
Summary
This document is a course on Big Data. It covers various aspects of big data, including its definition, history, and applications. It also touches on big data's impact on industry, business, and society. The document also discusses the five Vs of Big Data, which are volume, velocity, variety, value, and veracity.
Full Transcript
Autor: Francisco Garrido BIG DATA: Aspectos transversales en el tratamiento y la ingeniería del dato BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato Índice 1. ¿Qué es exactamente “big data”? Las “5V” de la big data: hacía el valor y...
Autor: Francisco Garrido BIG DATA: Aspectos transversales en el tratamiento y la ingeniería del dato BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato Índice 1. ¿Qué es exactamente “big data”? Las “5V” de la big data: hacía el valor y la veracidad Tipología del dato Casos de Uso Desventajas ¿Cómo funciona? Herramientas Best Practices 2. Hacía la ingeniería del dato Data mining o minería del dato Predyctive Analitics 3. Big Data y el Customer Journey 4. Big Data y el Big Analytics : Datawarehouse BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 1.- ¿Qué es exactamente Big Data? Definamos big data como el conjunto de técnicas y tecnologías para el tratamiento y el almacenamiento de datos, en entornos de gran volumen, variedad de orígenes y en los que la velocidad de respuesta es crítica. Breve Historia de big data Si bien el concepto "big data" en sí mismo es relativamente nuevo, los orígenes de los grandes conjuntos de datos se remontan a las décadas de 1960 y 1970, cuando el mundo de los datos acababa de empezar con los primeros centros de datos y el desarrollo de las bases de datos relacionales. Alrededor de 2005, la gente empezó a darse cuenta de la cantidad de datos que generaban los usuarios a través de Facebook, YouTube y otros servicios online. Ese mismo año, se desarrollaría Hadoop, un marco de código abierto creado específicamente para almacenar y analizar grandes conjuntos de datos. En esta época, también empezaría a adquirir popularidad NoSQL. El desarrollo de marcos de código abierto tales como Hadoop* (y, más recientemente, Spark) sería esencial para el crecimiento del big data, pues estos hacían que el big data resultase más fácil de usar y más barato de almacenar. En los años transcurridos desde entonces, el volumen de big data se ha disparado. Los usuarios continúan generando enormes cantidades de datos, pero ahora los humanos no son los únicos que lo hacen, con la llegada del Internet de las cosas (IoT), hay un mayor número de objetos y dispositivos conectados a Internet que generan datos sobre patrones de uso de los clientes y el rendimiento de los productos. El surgimiento del aprendizaje automático ha producido aún más datos. Aunque el big data ha llegado lejos, su utilidad no ha hecho más que empezar. El Cloud Computing ha ampliado aún más las posibilidades del big data. La nube ofrece una escalabilidad realmente elástica, donde los desarrolladores pueden simplemente agilizar clústeres ad hoc para probar un subconjunto de datos. *: sobre este tema trabajaremos a lo largo de este módulo BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 1.- ¿Qué es exactamente Big Data? El Big Data es una de las claves fundamentales para mejorar la gestión de las empresas. Y es que ya se generan más datos en dos días que en toda nuestra historia contemporánea. Según la consultora Gartner, en el año 2022 habrá más de 55 mil millones de dispositivos conectados a Internet, lo que nos deja entrever que el volumen de datos contenidos en Big Data va a crecer exponencialmente. La importancia de BigData radica en su alto impacto en la industria, en el negocio e incluso en nuestra sociedad y además ofrece una ventaja competitiva considerable. Big Data nace de la exigencia de dar respuesta a toda una serie de necesidades del mercado actual, requerimientos que los avances han impulsado y a los que sólo se puede dar satisfacción por medios tecnológicos. Hoy en día los clientes quieren ser tratados de forma totalmente personalizada. Es por esto que, ser capaces de detectar sus gustos, se ha convertido en una necesidad de primer nivel para poder aumentar el volumen de ventas, dirigiéndolas de forma mucho más directa para lograr el éxito esperado. Además, hay que tener en cuenta que cada individuo se relaciona con otras personas, cuyo análisis permite tanto conocer más a fondo al propio cliente, como aumentar el número de clientes potenciales. Estos datos se transforman en un conocimiento de valor incalculable para el negocio. En la actualidad, la cantidad de datos que se generan es abismal y de una casuística extremadamente compleja para su análisis. Las empresas cada vez exigen que el análisis sea lo más cercano posible al tiempo real, y en la BigData está la solución, al traducirse al mismo tiempo las variables de velocidad, variedad y volumen, que componen las 3V principales. BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 1.- ¿Qué es exactamente Big Data? LAS CINCO “V” DE LA BIG DATA El Big Data se compone de tres dimensiones principales que lo caracterizan: velocidad, variedad y volumen, pero actualmente se han incorporado dos más que son valor y veracidad, dando como resultado las cinco dimensiones que lo caracterizan, conocidas como las 5 V’s del Big Data. Veamos en qué consiste cada uno de estos aspectos: Lo que conocemos como las cinco dimensiones del dato. BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 1.- ¿Qué es exactamente Big Data? LAS CINCO “V” DE LA BIG DATA 1.- VOLUMEN: La cantidad de datos importa. Con big data, se procesará grandes volúmenes de datos no estructurados de baja densidad. Puede tratarse de datos de valor desconocido, como feeds de datos de Twitter, flujos de clics de una página web o aplicación para móviles, o equipo con sensores. Para algunas organizaciones, esto puede suponer decenas de terabytes de datos. Para otras, incluso cientos de petabytes. Una de las características del Big Data es que nuevos datos se generan constantemente. Además, como las fuentes son diversas, el volumen de datos tiende a ser inmenso BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 1.- ¿Qué es exactamente Big Data? LAS CINCO “V” DE LA BIG DATA 2.- VELOCIDAD: La velocidad es el ritmo al que se reciben los datos y (posiblemente) al que se aplica alguna acción. La mayor velocidad de los datos normalmente se transmite directamente a la memoria, en vez de escribirse en un disco. Algunos productos inteligentes habilitados para Internet funcionan en tiempo real o prácticamente en tiempo real y requieren una evaluación y actuación en tiempo real.. No sólo se generan muchos datos y desde muchas fuentes, sino que lo normal es que la velocidad a la que se generan estos datos sea muy alta. Esto provoca un flujo de datos muy difícil de gestionar con software tradicional. BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 1.- ¿Qué es exactamente Big Data? LAS CINCO “V” DE LA BIG DATA 3.- VARIEDAD: La variedad hace referencia a los diversos tipos de datos disponibles. Los tipos de datos convencionales eran estructurados y podían organizarse claramente en una base de datos relacional. Con el auge del big data, los datos se presentan en nuevos tipos de datos no estructurados. Los tipos de datos no estructurados y semiestructurados, como el texto, audio o vídeo, requieren un preprocesamiento adicional para poder obtener significado y habilitar los metadatos. Debido a la naturaleza unificadora del Big Data, se debe gestionar la información que llega de fuentes muy diferentes. Esto supone que, incluso siendo datos estructurados, tal estructura sea diferente en cada fuente, lo que supone un nuevo reto a solventar para la empresa. BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 1.- ¿Qué es exactamente Big Data? LAS CINCO “V” DE LA BIG DATA 4 y 5: VALOR Y VERACIDAD: En los últimos años, han surgido otras "dos V": valor y veracidad. Los datos poseen un valor intrínseco. Sin embargo, no tienen ninguna utilidad hasta que dicho valor se descubre. Resulta igualmente importante: ¿cuál es la veracidad de sus datos y cuánto puede confiar en ellos? Hoy en día, el big data se ha convertido en un activo crucial. Piense en algunas de las mayores empresas tecnológicas del mundo. Gran parte del valor que ofrecen procede de sus datos, que analizan constantemente para generar una mayor eficiencia y desarrollar nuevos productos. Avances tecnológicos recientes han reducido exponencialmente el coste del almacenamiento y la computación de datos, haciendo que almacenar datos resulte más fácil y barato que nunca. Actualmente, con un mayor volumen de big data más barato y accesible, puede tomar decisiones empresariales más acertadas y precisas. Identificar el valor del big data no pasa solo por analizarlo (que es ya una ventaja en sí misma). Se trata de todo un proceso de descubrimiento que requiere que los analistas, usuarios empresariales y ejecutivos se planteen las preguntas correctas, identifiquen patrones, tomen decisiones informadas y predigan comportamientos. El Big Data debe alimentarse con datos relevantes y verdaderos. No podremos realizar analíticas útiles si muchos de los datos entrantes provienen de fuentes falsas o con errores en su información. BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 1.- ¿Qué es exactamente Big Data? LAS CINCO “V” DE LA BIG DATA Evolución hacía las 10V´s Últimamente muchas biografías trabajan con una evolución hacías las 10V siendo realmente una evolución de las anteriormente trabajadas, os adjunto una infografía sobre las 10V´s BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 1.- ¿Qué es exactamente Big Data? TIPOLOGÍA DEL DATO según formato del dato Analicemos ahora y pongamos en contexto a qué nos referimos cuando hablamos de datos. Como «datos» entenderemos cualquier información relevante para la empresa. Para el resto del módulo asumiremos que estos datos son digitales, aunque en la realidad no siempre es así. Si hacemos una clasificación basada en el formato tendremos: Datos Estructurados: Son los datos que forman parte de una estructura predefinida. Como ejemplos encontramos una hoja de Excel o una base de datos SQL (lenguaje de programación). Estos datos son fácilmente catalogables, y pueden ser utilizados para posteriores análisis y predicciones fiables. Datos no Estructurados: Son aquellos datos que no tienen ni forman parte de una estructura definida. Como ejemplos encontramos el cuerpo de un email, una conversación por skype, datos escritos en un fichero word, o incluso bases de datos NoSQL. Estos datos contienen mucha información valiosa, pero al no estar bien estructurada y catalogada, su uso resulta complicado a la hora de crear informes y realizar análisis. Datos semi-Estructurados: Datos binarios que no tienen estructura interna identificable. Es un conglomerado masivo y desorganizado de datos que no tienen valor hasta que se organizan, identificándolos y almacenándolos. Algunos ejemplos de datos no estructurados son imágenes, vídeos, audios, PDFs, RRSS o.txt. BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 1.- ¿Qué es exactamente Big Data? TIPOLOGÍA DEL DATO Si hacemos una clasificación basada en el origen del dato tendremos: “Clasificación IBM” Los datos de grandes transacciones (Big Transaction Data): Son los registros de facturación, de las llamadas, telecomunicaciones, etc. Datos que podemos encontrar en formatos semiestructurado o no estructurado. Se incluyen los datos empresariales que se refieren a la información del cliente, la cual proviene de sistemas como el CRM; inventarios de ventas; datos transaccionales del ERP, etc. Redes sociales y páginas web. Se refiere a toda aquella información que se obtiene a través de las transacciones web, y el contenido que se adquieren de las redes sociales como LinkedIn, Facebook, Twitter, Instagram, etc. Biométricas. Es aquella información que incluye escaneo de la retina, huellas digitales, reconocimiento genético o facial, etc. Generados por los seres humanos. Se refiere a todos aquellos datos que generamos los humanos cuando llamamos a un call center, escribimos correos electrónicos, documentos electrónicos, notas de voz, telecomunicaciones, uso de tarjetas de crédito o débito, etc. Máquinas (Machine to Machine M2M). Es decir, aquellas tecnologías que se conectan a otros dispositivos, y los utiliza como sensores o medidores, los cuales generan un gran volumen de datos, que necesitan ser analizados. Por ejemplo, cuando las compañías de servicios públicos miden el consumo de agua, gas o electricidad a través de medidores inteligentes y se obtienen después unos datos que normalmente se monitorizan para conocer mejor ciertas características como la frecuencia o el voltaje. Nota del profesor: el origen de los datos (fuente) y su trazabilidad con los datos de carácter personal, será uno de los elementos que trataremos en el webinar sobre privacidad y protección del dato, y actualmente son grandes fuentes de controversia entre las grandes empresas tech y los estados (Caso Google en la UE). BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 1.- ¿Qué es exactamente Big Data? CASOS DE USO Big data puede ayudar a nuestras empresas a abordar una serie de actividades empresariales, desde la experiencia de cliente hasta la analítica. A continuación, recopilamos algunos de los casos de uso. Desarrollo de Productos: Empresas como Netflix y Procter & Gamble usan big data para prever la demanda de los clientes. Construyen modelos predictivos para nuevos productos y servicios clasificando atributos clave de productos anteriores y actuales, y modelando la relación entre dichos atributos y el éxito comercial de las ofertas. Mantenimiento Predictivo: Los factores capaces de predecir fallos mecánicos pueden estar profundamente ocultos entre datos estructurados (año del equipo, marca o modelo de una máquina) o entre datos no estructurados que cubren millones de entradas de registros, datos de sensores, mensajes de error y temperaturas de motor. Al analizar estos indicadores de problemas potenciales antes de que estos se produzcan, las organizaciones pueden implantar el mantenimiento de una forma más rentable y optimizar el tiempo de servicio de componentes y equipos Experiencia de cliente: La carrera por conseguir clientes está en marcha. Disponer de una vista clara de la experiencia del cliente es más posible que nunca. El big data le permite recopilar datos de redes sociales, visitas a páginas web, registros de llamadas y otras fuentes para mejorar la experiencia de interacción, así como maximizar el valor ofrecido. Empiece a formular ofertas personalizadas, reducir las tasas de abandono de los clientes y gestionar las incidencias de manera proactiva. BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 1.- ¿Qué es exactamente Big Data? CASOS DE USO Fraude y Conformidad: En lo que a seguridad se refiere, no se enfrenta a simples piratas informáticos deshonestos, sino a equipos completos de expertos. Los contextos de seguridad y requisitos de conformidad están en constante evolución. El big data le ayuda a identificar patrones en los datos que pueden ser indicativos de fraude, al tiempo que concentra grandes volúmenes de información para agilizar la generación de informes normativos. Aprendizaje automático: El machine learning o aprendizaje automático es un tema candente en la actualidad. Los datos, concretamente big data, es uno de los motivos de que así sea. Ahora, en lugar de programarse, las máquinas pueden aprender. Esto es posible gracias a la disponibilidad de big data para crear modelos de machine learning. Eficiencia Operativa: Puede que la eficiencia operativa no sea el aspecto más destacado en los titulares, pero es el área en que big data tiene un mayor impacto. El big data le permite analizar y evaluar la producción, la opinión de los clientes, las devoluciones y otros factores para reducir las situaciones de falta de stock y anticipar la demanda futura. El big data también puede utilizarse para mejorar la toma de decisiones en función de la demanda de mercado en cada momento. Innovación: El big data puede ayudar a innovar mediante el estudio de las interdependencias entre seres humanos, instituciones, entidades y procesos, y, posteriormente, mediante la determinación de nuevas formas de usar dicha información. Utilizando las perspectivas que ofrecen los datos para mejorar las decisiones financieras y consideraciones de planificación. BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 1.- ¿Qué es exactamente Big Data? DESVENTAJAS Así como esta herramienta posee grandes beneficios, no está exento de algunas desventajas: El rechazo a su implementación. La tecnofobia no es inherente a todas las personas, pero si para quienes no entienden muy bien cómo funcionan ciertas innovaciones. Mientras que hay dudas razonables sobre cómo el manejo de macrodatos puede incidir sobre la privacidad, hay que realizar una labor informativa. Su aplicación pretende generar avances importantes y facilitar procesos para su bienestar. Problemas con la ciberseguridad. La seguridad en la red representa uno de los mayores desafíos para la administración de grandes cantidades de datos. Las técnicas de protección y los protocolos de almacenamiento deben contrarrestar lo más posible los ataques sofisticados de los hackers. Aunque no se puede garantizar un resguardo 100% efectivo, hace falta fortalecer los sistemas para reducir al mínimo los posibles daños. Demasiada acumulación de datos. Puede parecer contradictorio, pero se puede dar un escenario en que una organización se quede sin la capacidad para procesar la ingente generación de datos. Puede ocurrir si no se cuenta con un servicio en la nube o servidores apropiados para este propósito. Además, si no se cuenta con el equipo de especialistas para extraer el valor, la acumulación de información podría obstaculizar y hacer más lentas las labores estratégicas relevantes. Políticas que protegen la información. Los gobiernos están en su justo derecho de proteger a sus ciudadanos de cualquier acción que ponga en riesgo su privacidad. Si bien los datos suelen ser anónimos, su recolección puede darse sin conocimiento de causa, transgrediendo derechos fundamentales. El uso del big data es positivo en muchos aspectos, pero debe tener limitaciones para evitar su manipulación indebida. BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 1.- ¿Qué es exactamente Big Data? ¿Cómo funciona Big Data? Sus herramientas El big data le aporta nuevas perspectivas que abren paso a nuevas oportunidades y modelos de negocio. Iniciarse en ello requiere de tres acciones clave: Cada vez que hacemos clic en un botón al navegar por internet, cada vez que hacemos scroll en una página, cada vez que hacemos una transacción bancaria o que leemos una newsletter, generamos un dato. Cada vez que un móvil envía una llamada a un smartwatch o que compartimos contenido entre la tablet y la televisión, nuestros dispositivos generan un dato. Explicado de forma muy simplificada, el Big Data: Recibe los datos. Los almacena. Los distribuye entre distintos procesadores (para poder procesarlos a mayor velocidad). Procesa los datos. Reúne de nuevo los datos. Utiliza algoritmos predictivos y prescriptivos para interpretarlos (mediante técnicas de Ciencia de Datos). Extrae la información requerida (patrones de comportamiento, oportunidades de negocio, predicciones de venta, etcétera). El factor humano entra en el siguiente paso: el Big Data no toma las decisiones finales, sino que da información a las personas para que estas puedan tomar resoluciones más satisfactorias. No obstante, la industria 4.0 trabaja desde hace tiempo en cerrar el círculo mediante la aplicación de modelos predictivos y prescriptivos. BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 1.- ¿Qué es exactamente Big Data? ¿Cómo funciona Big Data? Sus herramientas Como hemos visto en los “casos de uso” la big data aporta nuevas perspectivas que abren paso a nuevas oportunidades y modelos de negocio. Pero como funciona … INTEGRAR GESTIONAR ANALIZAR El big data concentra datos de numerosas El big data requiere almacenamiento. Su La inversión en big data se fuentes y aplicaciones distintas. Los solución de almacenamiento puede residir rentabiliza en cuanto se analizan y mecanismos de integración de datos en la nube, on premises o en ambos. Puede utilizan los datos. Adquiera una convencionales, tales como ETL (extract, almacenar sus datos de cualquier forma que nueva claridad con un análisis visual transform, load [extraer, transformar, desee e incorporar los requisitos de de sus diversos conjuntos de datos. cargar]), generalmente no están a la procesamiento de su preferencia y los Continúe explorando los datos para altura de dicha tarea. Analizar conjuntos motores de procesamiento necesarios a realizar nuevos descubrimientos. de big data de uno o más terabytes, o dichos conjuntos de datos on-demand. Comparta sus hallazgos con otras incluso petabytes, de tamaño requiere de Muchas personas eligen su solución de personas. Construya modelos de nuevas estrategias y tecnologías. almacenamiento en función de dónde datos con aprendizaje automático e Durante la integración, es necesario residan sus datos en cada momento. La inteligencia artificial. Ponga sus incorporar los datos, procesarlos y nube está aumentando progresivamente su datos a trabajar. asegurarse de que estén formateados y popularidad porque es compatible con sus disponibles de tal forma que los analistas requisitos tecnológicos actuales y porque le empresariales puedan empezar a permite incorporar recursos a medida que utilizarlos. los necesita. BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 1.- ¿Qué es exactamente Big Data? ¿Arquitectura de un Sistema de Big Data Desde un punto de vista de arquitectura y tecnología, 05 04 se puede estructurar un sistema de Big Data en cinco capas principales: CAPA 03 CAPA PRESENTACIÓN Y 02 APLICACIÓN CAPA ANÁLISIS Y 01 MODELOS Incluye las CAPA tecnologías de Esta capa incluye visualización tales ALMACENAMIENTO diversas como dispositivos CAPA herramientas de móviles, INTEGRACIÓN manejo de datos, navegadores.. Conjunto de que operan Una vez obtenido recursos sobre los el conocimiento, adecuados recursos de éste se puede FUENTE DE DATOS Aquí se para el almacenamiento aplicar en distintos adquieren los alamcenamien e incluyen la En esta capa procesos datos y se to de grandes gestion de los estarían todos los integran en volúmenes de datos y los orígenes de la conjuntos con datos modelos de información, datos el formato programación estructurados o no adecuado BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 1.- ¿Qué es exactamente Big Data? ¿Cómo funciona Big Data? Sus herramientas Como el Big Data es algo que no deja de crecer, las herramientas que se usan para gestionarlo evolucionan con él y se perfeccionan permanentemente. Se emplean herramientas como Hadoop, Pig, Hive, Cassandra, Spark, Kafka, etc., dependiendo de los requisitos de cada organización. Hay muchísimas soluciones, y buena parte de ellas son de código abierto. Como esas herramientas son muy importantes para el Big Data, vamos a explicar un poco en qué consisten. Quizá una de las más afianzadas para analizar Big Data sea Apache Hadoop, un marco de trabajo de código abierto para almacenar y procesar grandes conjuntos de datos, aún así en este módulo revisaremos las dos principales herramientas del mercado. BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 1.- ¿Qué es exactamente Big Data? ¿Cómo funciona Big Data? Sus herramientas Apache Hadoop es un framework de código abierto que permite el almacenamiento distribuido y el procesamiento de grandes conjuntos de datos en base a un hardware comercial. En otras palabras, Hadoop hace posible a las organizaciones obtener conocimiento rápidamente a partir de cantidades masivas de datos, estructurados y no estructurados, posicionándolas al nivel de las exigencias actuales de los mercados en términos de dinamismo y capacidad. El ecosistema Hadoop cuenta con soluciones de todo tipo para cubrir cualquier necesidad que pueda presentarse al negocio en materia de: Gestión de datos , Acceso a los datos , Gobernabilidad e integración de datos, Seguridad de la información , Operaciones. Cómo Trabaja: Hadoop, basado en el modelo map reduce, es un sistema de código abierto basada en una arquitectura que trabaja con el nodo maestro y los nodos esclavos para la creación de un clúster (explicado de forma simple es un grupo de ordenadores unidos mediante una red de alta velocidad, de tal forma que el conjunto es visto como un único ordenador), siempre a partir de un sólo nodo maestro y varios esclavos. Se trata de una tecnología que almacena volúmenes enormes de información y permite implementar análisis predictivos a partir de datos estructurados y desestructurados, que se ejecutan en un clúster de Hadoop de una determinada cantidad de nodos. El mercado de Hadoop superará los 50.000 millones de dólares en 2020 BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 1.- ¿Qué es exactamente Big Data? ¿Cómo funciona Big Data? Sus herramientas Spark es una plataforma open source * (licencia Apache 2.0) para procesamiento paralelo en clusters. Está orientada a manejar grandes volúmenes de datos y ejecutar cómputo intensivo sobre ellos. Spark está suponiendo una revolución en el mundo del Big Data, podemos verlo como una evolución de Hadoop MapReduce, que nos ofrece varias ventajas y reduce significativamente los tiempos de ejecución. El nacimiento de Spark surge en los laboratorios AMPLab de la Universidad de Berkeley en 2009, su evolución ha sido espectacular, incrementándose notablemente la comunidad y el número de contribuciones. Finalmente en 2014 Spark fue acogido como un proyecto “Top-Level” de la Apache Software Foundation y nació la compañía Databricks para dar soporte al desarrollo de Spark. Algunas de las ventajas más notables de Spark son: Procesamiento en memoria de los resultados parciales. Soporte para múltiples lenguajes. Tolerancia a fallos implícita. 100% Open Source. Hasta 100 veces más rápido que Hadoop Módulos que lo extienden para streaming, Machine Learning, acceso a datos, grafo *: “Open Source” o código abierto es una modalidad colaborativa y pública de desarrollo de programas cuyo código fuente se distribuye con una licencia que permite a cualquiera y de forma gratuita estudiarlo, modificarlo y redistribuirlo, requiriendo generalmente que los cambios sean a su vez publicados y limitado o prohibiendo cobrar por los mismos BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 1.- ¿Qué es exactamente Big Data? ¿Cómo funciona Big Data? Sus herramientas El Universo de aplicaciones Big Data es casi ilimitado y una de las grandes preguntas que me suelen hacer mis alumnos es sobre que perfiles trabajan en temas de Big data, en la siguiente ilustración podéis ver cuáles son las herramientas principales utilizadas por cada uno de los roles en el mundo Big Data. Es importante que cada perfil los conozca y esté al tanto de nuevas versiones y nuevos productos que ayudarán en su trabajo diario. BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 1.- ¿Qué es exactamente Big Data? ¿Cómo funciona Big Data? Sus herramientas ¿Cómo utilizan los ejecutivos de alto nivel Big Data? De acuerdo a la información que pone a nuestra disposición Microsoft Marketing, 49 por ciento de los altos ejecutivos utilizan Big Data para información de valor sobre los clientes, segmentación o selección de grupos meta; y 39 por ciento lo utilizan en la actualidad para presupuestos, predicciones o planeación. La variedad de usos que le dan las empresas a los datos y los beneficios que estos generan dependen de la capacidad de los negocios para almacenarlos, analizarlos e interpretarlos, no importa si son estructurados o no. Contar con una plataforma flexible, que se adapte a las necesidades del negocio y que permita obtener dividendo de esos datos es lo que permitirá a las empresas obtener la información de valor y el conocimiento necesarios para mirar adelante, anticiparse a los retos futuros y satisfacer a sus clientes de la mejor manera posible. BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 1.- ¿Qué es exactamente Big Data? Best Practices Para ayudarle en su transición a big data, hemos recopilado una serie de mejores prácticas que debe tener en cuenta. A continuación, detallamos nuestras pautas para crear con éxito una base de big data. Alinear Big Data con Objetivos Empresariales específico. La disponibilidad de conjuntos de datos más amplios le permite realizar nuevos hallazgos. A tal efecto, es importante basar las nuevas inversiones en habilidades, organización o infraestructura con un marcado contexto empresarial para garantizar la constancia en la financiación e inversión en proyectos. Para determinar si se encuentra en el camino correcto, pregúntese en qué medida el big data respalda y habilita sus principales prioridades empresariales y de TI. Algunos ejemplos incluyen entender cómo filtrar los registros web para comprender el comportamiento del comercio electrónico, extraer el sentimiento de las redes sociales y de las interacciones de atención al cliente, así como entender los métodos de correlación estadística y su relevancia para los datos de clientes, productos, fabricación e ingeniería. Mitigar la escasez de conocimientos y habilidades. Uno de los mayores obstáculos para beneficiarse de su inversión en big data es la escasez de habilidades. Puede mitigar el riesgo asegurándose de incorporar a su programa de administración de TI tecnologías, consideraciones y decisiones relativas a big data. Normalizar su enfoque le permitirá gestionar los costes y aprovechar los recursos. Las organizaciones que implanten soluciones y estrategias de big data deben evaluar sus necesidades de habilidades de forma temprana y frecuente, e identificar de manera proactiva las posibles carencias de habilidades. Esto puede lograrse mediante la impartición de formación o la formación cruzada entre recursos existentes, la contratación de nuevos recursos y el uso de empresas de consultoría. Optimizar la trasferencia de conocimientos. Utilice un enfoque basado en un centro de excelencia para compartir conocimientos, supervisar el control y gestionar las comunicaciones de proyectos. Tanto si el big data es una inversión nueva o en expansión, los costes directos e indirectos pueden distribuirse en toda la empresa. Utilizar este enfoque puede contribuir a incrementar las capacidades de big data y la madurez del conjunto de la arquitectura de información de una forma más sistemática y estructurada. BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 1.- ¿Qué es exactamente Big Data? Best Practices La principal ventaja reside en alinear los datos estructurados y no estructurados. Analizar el big data de forma aislada sin duda aporta valor. Sin embargo, puede obtener una perspectiva empresarial aún más valiosa relacionando e integrando el big data de baja densidad con los datos estructurados que ya usa actualmente. Tanto si está recopilando big data de clientes, de productos, de equipos o ambientales, el objetivo es añadir puntos de datos más relevantes a sus resúmenes maestros y analíticos, lo que le permitirá obtener mejores conclusiones. Por ejemplo, existe una diferencia en distinguir la percepción de todos los clientes de la de solo sus mejores clientes. Por eso, muchos consideran que big data constituye una extensión integral de sus capacidades existentes de inteligencia empresarial, de su plataforma de almacenamiento de datos y de su arquitectura de información. Tenga en cuenta que los modelos y procesos analíticos de big data pueden ser tanto humanos como automáticos. Las capacidades de análisis de big data incluyen estadísticas, análisis especiales, semántica, detección interactiva y visualización. Mediante el uso de modelos analíticos, puede relacionar distintos tipos y fuentes de datos para realizar asociaciones y hallazgos significativos. Alinear con el modelo operativo en la nube. Los usuarios y procesos de big data requieren acceso a una amplia variedad de recursos de experimentación reiterativa y ejecución de tareas de producción. Una solución de big data incluye todos los ámbitos de los datos, incluidas transacciones, datos principales, datos de referencia y datos resumidos. Los entornos de pruebas (sandboxes) analíticos deben crearse on-demand. La gestión de recursos es fundamental para garantizar el control de todo el flujo de datos, incluido el procesamiento previo y posterior, la integración, el resumen dentro de la base de datos y la creación de modelos analíticos. Disponer de una estrategia bien definida de aprovisionamiento y seguridad en la nube pública y privada es fundamental para respaldar estos requisitos cambiantes. BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 2.- Hacia la ingeniería del Dato Data mining o minería del dato Relación entre Big Data y Data mining: El Big Data, como hemos visto, se centra en analizar los grandes volúmenes de datos que superan la capacidad de los procesamientos informáticos habituales. Su objetivo es el de analizar en el menor tiempo posible y de forma eficaz toda la información. En cambio, la minería de datos analiza los grandes volúmenes de datos. Sintetiza, identifica y agrupa patrones de comportamiento entre los datos. Generalmente los datos que analiza pertenecen a clientes y consumidores. Gracias a la minería de datos, podemos conocer patrones de conducta de clientes, periodos de contratación de un servicio determinado o periodos de compra, fuga a otras compañías, o incluso riesgos de estafas a partir de patrones sospechosos o inusuales. Big Data y Minería de datos podrían ser definidos como el “activo” y el “manejo”, respectivamente. BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 2.- Hacia la ingeniería del Dato Data mining o minería del dato Ventajas y desventajas Data mining: Los análisis de datos mediante el Data Mining pueden aportar numerosas ventajas a las empresas para la optimización de su gestión y tiempo, pero también para la captación y fidelización de clientes, que les permitirá aumentar sus ventas. Vemos algunas ventajas que nos puede aportar. 1. Permite descubrir información que no esperábamos obtener. Esto se debe a su funcionamiento con algoritmos, ya que permite hacer muchas combinaciones distintas. 2. Es capaz de analizar bases de datos con una enorme cantidad de datos. 3.Los resultados son muy fáciles de interpretar y no es necesario tener conocimientos en ingeniería informática. 4.Permite encontrar, atraer y retener clientes. 5.La empresa puede mejorar la atención al cliente a partir de la información obtenida. 6.Da a las empresas la posibilidad de ofrecer a los clientes los productos o servicios que necesitan. 7.Antes de usar los modelos, estos son comprobados mediante estadísticas para verificar que las predicciones obtenidas son válidas. 8.Ahorra costes a la empresa y abre nuevas oportunidades de negocio. Sin embargo, también puede aparecer algún inconveniente a la hora de utilizar técnicas de Data Mining, por ejemplo, dependiendo del tipo de datos que se quieran recopilar, nos puede llevar mucho trabajo, o a veces la inversión inicial para obtener las tecnologías necesarias para la recopilación de datos puede tener un coste elevado. BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 2.- Hacia la ingeniería del Dato Data mining o minería del dato BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 2.- Hacia la ingeniería del Dato Data mining o minería del dato Aplicaciones de la minería de datos: Las áreas donde la minería de datos puede aplicarse, es prácticamente en todas las actividades humanas que generen datos como: Comercio y banca: segmentación de clientes, previsión de ventas, análisis de riesgo. Medicina y Farmacia: diagnóstico de enfermedades y la efectividad de los tratamientos. Seguridad y detección de fraude: reconocimiento facial, identificaciones biométricas, accesos a redes no permitidos, etc. Recuperación de información no numérica: minería de texto, minería web, búsqueda e identificación de imagen, video, voz y texto de bases de datos multimedia. Astronomía: identificación de nuevas estrellas y galaxias. Geología, minería, agricultura y pesca: identificación de áreas de uso para distintos cultivos o de pesca o de explotación minera en bases de datos de imágenes de satélites. Ciencias Ambientales: identificación de modelos de funcionamiento de ecosistemas naturales y/o artificiales para mejorar su observación, gestión y/o control. Ciencias Sociales: Estudio de los flujos de la opinión pública. Planificación de ciudades: identificar barrios con conflicto en función de valores sociodemográficos. ¿Cómo saben tanto de mí? BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 2.- Hacia la ingeniería del Dato Data mining o minería del dato Cómo funciona Data Mining: Básicamente, la función del Data Mining es utilizar las grandes bases de datos para traer insights sobre comportamientos que se repiten de manera consistente. Eso se debe a la elaboración de algoritmos que consiguen identificar patrones en medio a de los datos y establecer correlaciones entre ellos. Para que el Data Mining funcione precisamos, en primer lugar, de datos, que después de serán debidamente “limpios” y distribuidos de manera uniforme, serán sujetos a un software especializado que hará una manipulación y comparación de ellos a fin de establecer relaciones entre sus comportamientos. Por fin, el resultado del proceso va a ser la transformación de datos brutos en insights que podrán ser utilizados para el alcance de diferentes objetivos organizacionales. BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 2.- Hacia la ingeniería del Dato Data mining o minería del dato Herramientas de Data mining: El Data Mining, es un conjunto de técnicas que se realizan para explorar grandes cantidades de datos. El objetivo es el de encontrar una aguja en un pajar, y para alcanzar este objetivo, existen múltiples métodos matemáticos y estadísticos encapsulados en algoritmos que hoy en día también llamamos machine learning o inteligencia artificial. Durante los últimos años se ha establecido la metodología CRISP-DM para realizar proyectos de este tipo, la cual se puede resumir en cinco pasos generales, aunque es un proceso circular en el que las fases se van retroalimentando: BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 2.- Hacia la ingeniería del Dato Data mining o minería del dato Herramientas de Data mining: Durante los últimos años han aparecido varias Plataformas de Data Science y Machine Learning creando un mercado muy dinámico que está evolucionando rápidamente. Aunque grandes empresas como IBM, SAP o Microsoft hayan lanzado sus propias herramientas, hasta ahora no han conseguido dominar el mercado dejando espacio a nuevas empresas innovadoras. La famosísima empresa consultora y de investigación de IT, GARTNER, ha analizado el mercado de estas herramientas incluyendo las más importantes en el cuadrante mágico. Actualmente con más empuje en el mercado: BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 2.- Hacia la ingeniería del Dato Predyctive Analytics Relación entre Big Data y Análisis Predictivo El análisis predictivo es, un área del Big Data que se ocupa de analizar los datos en base a un conjunto de técnicas estadísticas y de aprendizaje automático que se construyen creando modelos matemáticos y de inteligencia artificial y denominados modelos predictivos. Con el análisis de estos datos previos podemos establecer y conocer diferentes comportamientos de la variable analizada. Por lo tanto, la clave está en detectar las variables que más influyen en nuestra predicción, para poder cambiarlas y así utilizarlas para el beneficio de la empresa. El análisis predictivo es un término paraguas para referirnos al conjunto de procesos que implican aplicar diferentes técnicas computacionales con el objetivo de realizar predicciones sobre el futuro basándonos en datos pasados. Las variedad de técnicas empleadas incluyen minería de datos (data mining), modelado, reconocimiento de patrones, graph analytics, … BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 2.- Hacia la ingeniería del Dato Predyctive Analytics Relación entre Big Data y Análisis Predictivo El mercado está en constante cambio y cualquier información que nos ayude a saber cuál será el siguiente paso, por ejemplo, qué productos o servicios serán más populares y cuáles menos, es de extrema utilidad. En pequeñas diferencias está el abismo entre el éxito y la bancarrota. Imagínate el poder de conocer las próximas modas o qué preferencias tendrán la mayoría los compradores el siguiente verano. Big data y modelos predictivos son una combinación que cualquier empresa importante tiene muy presente para hacer sus análisis de mercado. Muchas actividades económicas utilizan constantemente predicciones para establecer sus precios, como las aerolíneas y los hoteles. Nunca se puede saber con total certeza cuál será el volumen de ventas y encontrar el precio al que el beneficio sea máximo es el objetivo de toda empresa. La analítica predictiva es una herramienta magnífica para ello. Los modelos predictivos aplican resultados conocidos con el fin de entrenar al modelo para predecir valores, con datos diferentes o completamente nuevos, en un proceso repetitivo. El modelado proporciona los resultados en forma de predicciones representadas mediante el grado de probabilidad de la variable objetivo basado en la significación estimada a partir de un conjunto de variables de entrada. La variable objetivo puede tratarse de las ventas, la cara de una persona, las coordenadas de un yacimiento petrolífero, o cualquier cosa que se nos ocurra. Realmente no existe limitación en los usos de aplicar predictive analytics, dependerán de qué queremos obtener. Se aplican ampliamente en casi cualquier sector, no sólo de negocio, ya sea para detectar oportunidades comerciales, detectar y reducir fraude, retención de clientes, predecir fallos en sistemas, sino también en otros campos en los que todos nos beneficiamos como detectar cáncer en pacientes, evolución de epidemias, ahorro de costes en organismos públicos, reconocimiento del habla, la lista es interminable. BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 2.- Hacia la ingeniería del Dato Predyctive Analytics Proceso de un Análisis Predictivo 01 RECOPILAR DATOS: El desarrollo de un modelo de análisis predictivo comienza con la obtención de los datos en función de los que se va a realizar las predicciones. Los datos podrán proceder de diferentes fuentes, tales como archivos, BBDD, sensores, etc. y se exploran para conocer su naturaleza, estructura, la calidad de los mismos… ORDENAR Y ADAPTAR LOS DATOS: eL siguiente paso consiste en realizar un procesado inicial de los mismos para ordenarlos, 02 transformarlos y adecuarlos a las necesidades del modelo. En este punto se suelen eliminar los valores extremos que distorsionan el funcionamiento del modelo y se crea una única estructura con los datos procesados de las distintas fuentes. 03 ANALIZAR LOS DATOS: Una vez creada la estructura de datos se analizan los mismos para identificar sus características, detectar los patrones y tendencias en sus valores y obtener información relevante para el desarrollo del algoritmo predictivo, que es la base del modelo.. 04 ELEGIR EL MODELO MATEMÁTICO: Para el desarrollo del algoritmo se utilizará la información obtenida del análisis de los datos y, en función de ella, se decidirán las técnicas matemáticas que permitirán procesar los datos de entrada al modelo y realizar las predicciones (salidas). 05 OPTIMIZAR: Finalmente, se optimizarán los parámetros del algoritmo mediante un conjunto de datos de entrenamiento (datos reales de las variables de entrada y de salida del modelo) y se verificará su exactitud con un conjunto de datos de prueba (datos reales de las variables de entrada y predicciones del modelo que se comparan con los datos reales con los que deberían coincidir las predicciones). BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 2.- Hacia la ingeniería del Dato El análisis predictivo y los modelos matemáticos La analítica predictiva se basa, aparte de los datos, en series de tiempo que están hechas de uno o más componentes como tendencias, ciclos, temporalidad y residuales. Cada uno de estos elementos permite tomar decisiones a corto, mediano y largo plazo. Las tendencias son patrones a largo plazo; los ciclos reflejan los movimientos a la alza y a la baja dentro de una tendencia; la temporalidad es la fluctuación recurrente durante un año; y los residuales son los componentes impredecibles e inexplicables. Los elementos antes mencionados permiten que se lleve a cabo el proceso de predicción, que muchas empresas utilizan para conseguir sus objetivos de negocios y aprovechar mejor los datos y la información de valor que se genera a partir de ellos. Modelos matemáticos Existen dos tipos de modelos matemáticos utilizados para el análisis predictivo de datos. El modelo determinístico es aquel donde la relación completa de las entradas y los resultados son determinados de manera concluyente. Las mismas entradas obtienen los mismos resultados cada vez, como ejemplo, el cálculo del área dentro de un círculo a través de fórmulas matemáticas. El otro modelo es el estocástico (o fortuito) donde las entradas son variables aleatorias y el resultado es una distribución de probabilidad estimada de resultados potenciales. En finanzas por ejemplo, se utiliza el método Monte Carlo para simular el modelo estocástico, que determina la probabilidad de un resultado basado en el número de ocurrencias dentro de una serie de eventos simulados. Un ejemplo de esto sería lanzar dardos a un círculo para estimar el porcentaje de la figura que ocupa el área dentro de un círculo. BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 2.- Hacia la ingeniería del Dato Flujo de trabajo de un proceso predictivo Todos estamos familiarizados con los modelos predictivos para la previsión meteorológica. Una de las aplicaciones cruciales de los modelos predictivos está relacionada con la predicción de la carga energética para pronosticar la demanda. En este caso, los productores de energía, los operadores de la red de suministro y los distribuidores necesitan predicciones precisas sobre la carga energética para tomar decisiones encaminadas a la gestión de las cargas en la red eléctrica. Hay disponibles grandes cantidades de datos y, mediante el análisis predictivo, los operadores pueden convertir esta información en conocimiento que permite pasar a la acción. BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 2.- Hacia la ingeniería del Dato Predyctive Analytics Herramientas y software usado para Análisis predictivo Os comento en esta presentación algunas de las herramientas más usadas en el análisis predictivo, la decisión del uso de esta herramienta es una decisión que deberéis alinear con el modelo de datos ERP y CRM que utilice la compañía, os comento algunas de las más frecuentes. IBM SPSS Statistics. Si bien existen muchos programas de análisis estadístico, SPSS es el único en el que es 100% sencillo editar los datos recogidos. La manipulación de datos es el principal valor de SPSS. Cuestiones como la capacidad de importar y exportar datos en una amplia variedad de formatos de datos es también relevante a la hora de decidirse por este software. RAPIDMINER. Este programa ya os comenté que era de los más usados en data mining, posee como virtud principal una interfaz de usuario muy intuitiva. Debido a ello, si eres un principiante en análisis predictivo puedes aprender los pasos básicos de utilización muy rápidamente. Rapidminer coincide con varios de sus competidores en la gran capacidad para importar los datos de diversas fuentes y formatos, así como algunas herramientas de visualización de datos muy potentes. Además, permite una licencia académica muy fácil de obtener, es decir, no requiere de una gran burocracia para contar con ella. AMAZON MACHINE LEARNING. Hay personas que utilizan esta herramienta para predecir los precios de las acciones. Sin duda, uno de los programas más intuitivos y una alternativa de bajo coste en comparación con otras opciones mucho más caras en el mercado. Además, sólo se paga por uso, no hay un fee mensual. BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 3.- Big Data y el Customer Journey Las personas y su conectividad En la actualidad las personas están constantemente conectadas, el teléfono móvil ha dejado de ser un objeto de lujo y sus posibilidades van mucho más allá de la llamada, ofreciendo servicios basados en la geolocalización o permitiendo incluso detectar cuál ha sido la última interacción realizada y dónde se ha producido. Lo mismo sucede con las viviendas que cada vez presentan mayores funcionalidades, inspiradas en la domótica o los vehículos, muchos de los cuales ya cuentan con varios sistemas de sensores, generando todos ellos información muy completa, perfecta para crear nuevos servicios de valor. Big Data aprovecha todas estas nuevas fuentes de información provenientes de los dispositivos de última generación. BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 3.- Big Data y el Customer Journey El viaje del Cliente y tu big data Customers Journey o “viaje del cliente” se define como un proceso que ilustra cada uno de los pasos por los cuales atraviesa tu cliente desde que no conoce tu marca hasta que se convierte en un portavoz de la misma, los momentos de emoción/tensión que suceden durante este viaje y las personas que intervienen en él para hacerlo placentero. Entre dichos estadios críticos se encuentra la toma de consciencia del producto o servicio, la comparativa de opciones, la decisión de compra, el engagement, la fidelización, etc. Obviamente, estas vías predefinidas hacia la compra son escenarios ideales. En la realidad, cualquier distracción o factor completamente fuera de nuestro control puede alterar el Customer Journey y provocar que nuestros prospectos den pasos hacia atrás o hacia adelante en el mismo. Incluso dentro de nuestra propia estrategia, el mensaje equivocado o en el momento incorrecto puede hacer que alguien a punto de concretar una compre cambie de opinión en el último momento. El análisis de Big Data es, hasta el momento, la mejor herramienta disponible para hacer un buen mapeo de tu Buyers Journey. Este te permite saber desde dónde están llegando tus clientes, cuántos días les toma cambiar de un estadio al siguiente, cuáles son los factores que los hacen retroceder, cómo se comporta cada segmento, etc. El Big Data toma en consideración el objetivo de la marca, el objetivo del comprador, la etapa del funnel, los canales que se utilizan y el mapa de calor del sitio web o e-commerce, entre muchos otros. BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 3.- Big Data y el Customer Journey Análisis y beneficios de la Big Data en la Cx (Customer Experience) Vivimos en una era digital donde se genera Big Data tanto en la base de datos de la empresa como de manera pública. El poder entender ese Big data permite explorar el comportamiento del cliente, patrones de uso y preferencias. La tecnología del big data te ayuda a una segmentación avanzada, pudiendo llegar a detectar áreas de interés completamente nuevas de tus clientes. Y con esto, obtener insights para crear ofertas personalizadas, en el correcto punto de contacto, dirigidas a la audiencia correcta y en tiempo real. La inteligencia artificial y aprendizaje de máquina ayudan a la comprensión de estas métricas creando tendencias significativas que indiquen futuros cambios en la estrategia de marketing y ventas. Beneficios: Optimizar la experiencia del cliente Aumentar la tasa de conversión Aumentar la interacción y el compromiso con los clientes potenciales Resolver problemas de manera más eficiente Hacer su experiencia fácil y conveniente Mejores campañas Los mismos consumidores pueden no saber lo que quieren. Pero la tecnología del Big data ayuda a conocerlo para que la empresa actue. Aunque el consumidor cambie de manera constante, este analisis continuo evitará errores y se mejorara la experiencia. BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 3.- Big Data y el Customer Journey ¿Cómo aplicamos la Big Data en la CX? Un informe de Forbes Insights y EY muestra que las empresas que usan esta estrategia aumentan un 15% sus beneficios. Los frutos del Big Data pueden recogerse en muchas de las vertientes de una empresa: desde la reducción de costes, la adaptación de procesos, la elección de proveedores… La experiencia del cliente no iba a ser menos, y aquí el análisis de datos tiene un papel más que significativo. El Big Data es un sistema analítico convencional que convierte los datos en información. Si la información es poder, también lo es en lo que atañe a nuestros clientes. Las compañías que hacen uso del Big Data consiguen un incremento de ingresos, un aumento de clientes prescriptores y operaciones más competentes. Entender cómo se sienten nuestros clientes, cómo se comportan y cuáles son sus necesidades es un arma perfecta para aprender a relacionarnos con ellos. La experiencia del cliente nace de todas y cada una de las interacciones con la empresa, desde la decisión de la compra, la entrega del producto o servicio, la atención al cliente a la satisfacción emocional. Todo cuenta, y por eso es fundamental detectar en qué puntos puede estar fallando y adaptar esta relación para conseguir una experiencia óptima. El Big Data puede ayudarte en este proceso. Personalización: Hacer sentir a nuestros clientes únicos y especiales, personalizando y adecuando la oferta, mejora la experiencia del cliente. Según la encuesta Rethinking Retail, un 59% de los compradores que han experimentado la personalización creen que es un factor destacado que influye en la compra. Adaptación: El Big Data ayuda a conocer a los clientes a los que nos dirigimos y permite adaptar los contenidos, los tiempos o incluso los precios, dependiendo de quién esté al otro lado. Análisis: Existen patrones ocultos que el Big Data puede extraer, para aprovecharlos y adaptar, si fuese necesario, la estructura logística de la empresa o sus plataformas (apps, webs, etc.) a lo que los clientes demandan con sus modelos de comportamiento. Automatización: Se pueden generar procesos y relaciones de forma automática acordes con las necesidades del cliente, previamente analizadas. Esto también permite optimizar las tarifas de publicidad según la demanda, los picos de audiencia, la localización u otros factores. BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 3.- Big Data y el Customer Journey Estrategias de aplicación de la big Data en CX Netflix empezó siendo una empresa que alquilaba películas en formato de DVD por correo. En 2009 comenzó a usar un algoritmo para predecir los ¿Qué resultados obtiene? gustos de sus suscriptores. De cara al cuarto trimestre de 2020Netflix espera incrementar un 20,2% interanual sus ingresos, Hoy día tiene más de 203 millones de hasta 6.572 millones de dólares (5.541 millones usuarios en todo el mundo. de euros), con un beneficio neto de 615 millones de dólares (518 millones de euros) ¿Qué datos de clientes recoge? Gracias a: Horarios de visualización Dispositivos que usan Hipersegmentar el cliente y adaptar las Tipos de búsquedas que realizan series y películas a su demanda Su comportamiento durante la serie (pausa, Ofrecer a sus clientes recomendaciones de rebobinado, créditos, etc.) contenido afín a sus gustos Etiquetado de las películas (taggers) Generar contenido en función de las Valoraciones de los usuarios preferencias de sus clientes BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 3.- Big Data y el Customer Journey Estrategias de aplicación de la big Data en CX La plataforma de música en streaming se lanzó en 2008 y en 2019 cerró con 271 millones de usuarios activos, un 31 % más que el año anterior, de los cuales 124 millones son premium. En 2006 Spotify compró The Echo Nest (compañía ¿Qué resultados obtiene? especializada en Big Data musical) con la que extrae datos 50 millones de suscriptores de pago para reconocer las preferencias de los usuarios y las tendencias musicales. Aumento de 5 millones en altas de usuarios en 2018 respecto a 2017 ¿Qué datos de clientes recoge? Gracias a: Géneros más escuchados Establecer patrones de conducta para A qué hora escuchan música poder hacer recomendaciones y listas de Dónde la escuchan descubrimiento en función de los gustos Suscripciones a una playlists concreta musicales de cada usuario Popularidad de los artistas Tiempo de reproducción (si pasas la canción antes de 30seg es un “no me gusta”) BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 3.- Big Data y el Customer Journey Estrategias de aplicación de la big Data en CX ¿Qué resultados obtiene? Es el mayor marketplace del mundo. Utiliza una estrategia Amazon cuadruplicó su beneficio en 2018, basada en el análisis predictivo capaz de construir un sistema hasta los 2.371 millones de dólares Sus de recomendación de productos para las personas que ventas crecieron un 27% en 2019, 135.987 visitan la web. millones de dólares. Gracias a: En 2016 cerró con 152 millones de Ofrecer a los clientes una experiencia de cuentas de clientes. compra personalizada Los motores de recomendación con los que logran el 29% de sus ventas ¿Qué datos de clientes recoge? Secuencias de clics (valoraciones y likes) Datos históricos de compra de los usuarios Tiempo en el sitio web Duración de la vista Comparación de compras similares con otros clientes Ítems en los carritos de compra virtuales BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 3.- Big Data y el Customer Journey Estrategias de aplicación de la big Data en CX ¿Qué datos de clientes recoge? ¿Has visto alguna vez cuatro Starbucks a pocos metros de Localización de la tienda: distancia? No están ahí por casualidad. La famosa cadena de - Datos demográficos de los clientes cafeterías utiliza el BigData para determinar cuál es el - Populación preciso lugar donde abrir una tienda. - Patrones de tráfico - Paradas de transporte público A día de hoy, más de 6 millones de personas están - Tipos de negocio en los alrededores registradas en su loyalty program. Ofertas personalizadas - Productos que gustan a los clientes ¿Qué resultados obtiene? - Cómo toman el producto (con leche, sin azúcar...) Un 10% más de ingresos en 2018 - Horario Gracias a: - Lugar Determinar la rentabilidad de abrir una tienda en un lugar u en otro Ofrecer a sus clientes ofertas y promociones que les resulten interesantes BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 3.- Big Data y el Customer Journey Las personas y su conectividad En la actualidad las personas están constantemente conectadas, el teléfono móvil ha dejado de ser un objeto de lujo y sus posibilidades van mucho más allá de la llamada, ofreciendo servicios basados en la geolocalización o permitiendo incluso detectar cuál ha sido la última interacción realizada y dónde se ha producido. Lo mismo sucede con las viviendas que cada vez presentan mayores funcionalidades, inspiradas en la domótica o los vehículos, muchos de los cuales ya cuentan con varios sistemas de sensores, generando todos ellos información muy completa, perfecta para crear nuevos servicios de valor. Big Data aprovecha todas estas nuevas fuentes de información provenientes de los dispositivos de última generación. BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 4.- Big Data y el Big Analytics : Datawarehouse Big Data requiere big Analytics Estamos acostumbrados a saber lo que pasó, pero hoy nos interesa más conocer lo que pasará: si la empresa, con su producto o servicio, seguirá siendo el gusto de los consumidores o si se hablará de ella bien o mal en las redes sociales; aspectos todos ellos que requieren de nuevos modelos de análisis mucho más complejos que lo que se podía experimentar hasta ahora.. Esta nueva realidad ha motivado nuevos requerimientos por parte de las empresas en relación con el análisis de datos. Y, precisamente, para poder analizar toda esa información de que hoy se dispone, lo que anteriormente se conocía como Business Intelligence actualmente requiere de un nuevo modelo de análisis: Big analytics, el único que permite dar forma al Big Data. Esta necesaria aparición tiene que ver con el hecho de que, para poder hacer un análisis predictivo o una “clusterización” de los perfiles de clientes, se requiere de algo más que la propia inteligencia de negocio, y ese algo más se concreta precisamente en Big Analytics. Analytics permite la aplicación de procesos matemáticos complejos. Sus técnicas hacen posible trabajar con los datos al nivel de granularidad más bajo disponible, en crudo, y empleando para ello modelos mucho más ágiles que los actuales modelos de BI. BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 4.- Big Data y el Big Analytics : Datawarehouse Las limitaciones del business inteligence tradicional El Business Intelligence con el que las empresas han crecido y se han externalizado, tiene unas limitaciones bastante claras, basadas en la falta de agilidad en sus procesos. En efecto, con el sistema tradicional, los procesos necesarios para el procesamiento y análisis de información carecen de dinamismo. Por ejemplo, la inversión de tiempo necesaria para proceder a la carga de modelos era excesiva y provocaba que, con frecuencia, al finalizar dicho proceso hubiese perdido utilidad, por haber evolucionado el negocio. Realizar los cambios pertinentes para alinearlo de nuevo con las necesidades corporativas era una tarea costosa, larga, poco ágil e ineficaz, al no poder tampoco aplicarse los algoritmos que hoy día se utilizan para el análisis. La llegada de esta cantidad de datos ha provocado que las infraestructuras actuales no sean capaces de soportar esas volumetrías, variabilidad en los datos, ni de hacer los deseados análisis en tiempo real. Esto ha llevado a la inevitable búsqueda de infraestructuras capaces de soportar ese nuevo paradigma de datos al que las empresas se enfrentan. Además, en cualquier compañía es importante poder calcular los costes en materia de infraestructura. Cuando la interacción con Big Data se realiza en términos de escalabilidad, la predicción del gasto se simplifica y se hace accesible la estimación del coste asociado al crecimiento de negocio. De este modo, es posible proyectar y determinar la inversión necesaria para seguir creciendo, algo que resulta impensable en términos de infraestructuras actuales y en un entorno de business intelligence tradicional. BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 4.- Big Data y el Big Analytics : Datawarehouse ¿Qué es un Datawarehouse? Un Datawarehouse (en adelante DWH) es una base de datos corporativa que se caracteriza por integrar y depurar información de una o más fuentes distintas, para luego procesarla permitiendo su análisis desde infinidad de pespectivas y con grandes velocidades de respuesta. La creación de un datawarehouse representa en la mayoría de las ocasiones el primer paso, desde el punto de vista técnico, para implantar una solución completa y fiable de Business Intelligence. La ventaja principal de este tipo de bases de datos radica en las estructuras en las que se almacena la información (modelos de tablas en estrella, en copo de nieve, cubos relacionales... etc). Este tipo de persistencia de la información es homogénea y fiable, y permite la consulta y el tratamiento jerarquizado de la misma (siempre en un entorno diferente a los sistemas operacionales). El término Datawarehouse fue acuñado por primera vez por Bill Inmon, y se traduce literalmente como almacén de datos. No obstante, y como cabe suponer, es mucho más que eso. BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 4.- Big Data y el Big Analytics : Datawarehouse ¿Qué es un Datawarehouse? Un modelo datawarehouse, se caracteriza por ser: 1. Integrado: los datos almacenados en el datawarehouse deben integrarse en una estructura consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas. La información suele estructurarse también en distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios. 2. Temático: sólo los datos necesarios para el proceso de generación del conocimiento del negocio se integran desde el entorno operacional. Los datos se organizan por temas para facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser consolidados en una única tabla del datawarehouse. De esta forma, las peticiones de información sobre clientes serán más fáciles de responder dado que toda la información reside en el mismo lugar. 3. Histórico: el tiempo es parte implícita de la información contenida en un datawarehouse. En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente. Por el contrario, la información almacenada en el datawarehouse sirve, entre otras cosas, para realizar análisis de tendencias. Por lo tanto, el datawarehouse se carga con los distintos valores que toma una variable en el tiempo para permitir comparaciones. 4. No volátil: el almacén de información de un datawarehouse existe para ser leído, pero no modificado. La información es por tanto permanente, significando la actualización del datawarehouse la incorporación de los últimos valores que tomaron las distintas variables contenidas en él sin ningún tipo de acción sobre lo que ya existía. Otra característica del DWH es que contiene metadatos, es decir, datos sobre los datos. Los metadatos permiten saber la procedencia de la información, su periodicidad de refresco, fiabilidad, forma de cálculo, etc. Los metadatos serán los que permitan simplificar y automatizar la obtención de la información desde los sistemas operacionales a los sistemas informacionales. BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 4.- Big Data y el Big Analytics : Datawarehouse ¿Qué es un Analytic Datawarehouse? Hasta ahora, las estructuras usadas para la analítica de datos y su procesamiento se basaban en unos modelos que habían sido predefinidos según las verticales correspondientes, caracterizándose por su gran rigidez, lo que provocaba que la empresa no se pudiera adaptar a las nuevas necesidades. Con la llegada de Big Analytics este panorama cambia: los data warehouse pueden evolucionar a la medida de las necesidades, sin perjuicio de la posibilidad de disfrutar de unas capacidades ilimitadas tanto para incorporar datos de cualquier tipo, como para llevar a cabo su procesamiento. Esta evolución tiene su razón de ser en que no es lo mismo aplicar determinados algoritmos complejos sobre grandes volúmenes de datos, que aplicar estos mismos sobre un conjunto reducido de ellos. BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 4.- Big Data y el Big Analytics : Datawarehouse Beneficios de un Datawarehouse (DWH) Un data warehouse es un proceso para guarda grandes cantidades de datos que han sido recopilados e integrados de múltiples fuentes. Principalmente, es el núcleo del sistema de BI (Business Intelligence) creado para el análisis de datos y la generación de informes. Orientada al negocio: El Data Warehouse se organiza alrededor de temas específicos de un problema de negocio y no a las aplicaciones de estas. Integrada: Se integran diversas fuentes operacionales a través de un proceso ETL (extracción, transformación y carga). Variante en el tiempo: En un Data Warehouse se mantiene un registro de los datos históricos para diferentes periodos de tiempo. A diferencia de los datos transaccionales que comúnmente mantienen el registro más reciente. No volátil: La información una vez ingresada en el Data Warehouse no se modifica, ni se elimina, solo se puede leer y realizar consultas a esta BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 4.- Big Data y el Big Analytics : Datawarehouse Beneficios de un Datawarehouse (DWH) En líneas generales, el Data Warehouse es un almacén centralizado de datos, que integra las diversas transacciones en una empresa. Para la creación de un Data Warehouse es necesario conocer bien el proceso ETL (Extract, Transform and Load es el proceso que permite a las organizaciones mover datos desde múltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de datos, data mart, o data warehouse para analizar, o en otro sistema operacional para apoyar un proceso de negocio) bajo el cual se construye un Almacén de Datos: Extracción: Corresponde a la extracción de los datos desde las diversas fuentes de datos (CRM, ERP, etc) a una base de datos intermedia llamada Data Staging Area (DSA), Transformación: Es la etapa donde se homogeniza los datos de las diferentes fuentes, se limpian y se transforman de acuerdo a los indicadores que se quieran almacenar, Carga: Los datos una vez limpios y transformados son cargados en el Data Warehouse. Con este proceso pasamos de diversas fuentes de datos a una base de datos confiable, centralizada y con información relevante para el negocio. Presentándonos los siguientes beneficios: Facilidad de acceso a la información Mayor flexibilidad y rapidez de respuesta Consolidación y homogeneización de la información Mejor comunicación entre departamentos de la empresa Entrega de información relevante que antes no se almacenaba Se tiene una base confiable para aplicar técnicas de analytics BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato 4.- Big Data y el Big Analytics : Datawarehouse Mejores soluciones DWH del mercado BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato