Tema 3 Data Warehouse - PDF

Data warehouse o almacén de datos [3.1] ¿Cómo estudiar este tema? [3.2] Almacén de datos (data warehouse) [3.3] Procesos ETL [3.4] OLAP [3.5] Referencias bibliográficas 3 TEMA TEMA 3 – Esquema Esquema Características (Inmon, 1992) Data warehouse Objetivos (DW) Data marts Estructura Metadata Impacto Extracción Limpieza Business Intelligence para la Toma de Decisiones Fuentes Transformación de datos Procesos ETL Carga © Universidad Internacional de La Rioja (UNIR) Archivos planos Estructura de datos Archivos XML del proceso ETL Bases de datos FASMI OLAP Doce reglas de Codd (1993) Beneficios Los cubos Business Intelligence para la Toma de Decisiones Ideas clave 3.1. ¿Cómo estudiar este tema? Para estudiar este tema es suficiente con que leas las siguientes ideas clave. 3.2. Almacén de datos (data warehouse o DW) A través del data warehouse, conocido también como el almacén de datos en el diccionario de datos, se busca almacenar los datos de forma que facilite y maximice su flexibilidad, facilidad de acceso y administración. Surge como respuesta a las necesidades de los usuarios que necesitan información consistente, integrada, histórica y preparada para ser analizada y poder tomar decisiones. Al recuperar la información de los distintos sistemas, transaccionales, departamentales o externos, y almacenarlos en un entorno integrado de información diseñado por los usuarios, el data warehouse permitirá analizar la información contextualmente y relacionarla dentro de la organización. Figura 1. Componentes del data warehouse. Fuente: Cano, 2007. TEMA 3 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Business Intelligence para la Toma de Decisiones Fuentes de datos Se parte de las fuentes para sostener la información del data warehouse. Las fuentes de información externas en algunos casos son compradas a otras empresas que gestionan información comercial, encuestas de satisfacción, estudios de mercado, entre otros. Las fuentes de información externas son esenciales para enriquecer la información que se tiene de los clientes. En otras ocasiones es favorable para la empresa incorporar información como, por ejemplo, la población, el número de habitantes y los presupuestos públicos. El autor Bill Inmon definió las características que debe cumplir un data warehouse: debe estar orientado sobre un área, integrado, indexado al tiempo; es un conjunto no volátil de información que soporta la toma de decisiones. (Inmon, 1992). » Orientado a un área: significa que cada parte del data warehouse está construida para resolver un problema de negocio, que ha sido definido por quienes toman las decisiones. Por ejemplo, entender los hábitos de compra de los adolescentes, analizar la calidad de los productos, analizar la productividad de una línea de producción. Para poder analizar un problema de negocio se necesita información que pueda venir de distintos sistemas: ventas, clientes y elementos de transporte, entre otros. » Integrado: la información debe ser convertida en medidas comunes, códigos comunes y formatos comunes para que pueda ser útil. La integración permite a las organizaciones implementar la estandarización de conceptos, por ejemplo: la moneda, las fechas, etc. » Indexado en el tiempo: significa que la información histórica se mantiene y se almacena en determinadas unidades de tiempo, tales como horas, días, semanas, meses, trimestres o años. Ello nos permitirá analizar, por ejemplo, la evolución de las ventas, los inventarios en los periodos que se definan. » No volátil: esta información no es mantenida por los usuarios, como se realizaría en los entornos transaccionales. La información se almacena para la toma de decisiones. La actualización no se realiza de forma continua, sino periódicamente, como lo defina la empresa. TEMA 3 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Business Intelligence para la Toma de Decisiones El data warehouse debe cumplir con algunos objetivos. Ralph Kimbal define los siguientes objetivos (1996): » Acceder a la información de la empresa o del área funcional. » Ser consistente. » Separar la información para ser analizada a nivel individual o de manera conjunta. » Utilizar herramientas de presentación de la información. » Facilitar la publicación de la información. » Tener alta calidad para soportar procesos de reutilización. Los usuarios de negocio necesitan tomar decisiones basadas en la información del data warehouse, por lo que se debe asegurar las siguientes características según Barrer (1998): » Alta disponibilidad. » Rendimiento. » Copias de seguridad y recuperación. » Recuperación física en caliente. Modelos de un data warehouse Existen varias estructuras bajo las cuales se construye un data warehouse, las más utilizadas son el modelo estrella y copo de nieves, sus nombres se basan en el dibujo que forman al crearse. 1. Modelo estrella Este modelo es el más sencillo. Está formado por una tabla central de «hechos» y varias «dimensiones», incluida una dimensión de «tiempo». Lo más representativo de la arquitectura de estrella es que solo existe una tabla de dimensiones para cada dimensión. Esto quiere decir que la única tabla que tiene relación con otra es la de hechos, esto es, que toda la información relacionada con una dimensión debe estar en una sola tabla. En la figura 2 se observa un ejemplo de este modelo. TEMA 3 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Business Intelligence para la Toma de Decisiones Figura 2. Ejemplo de modelo estrella. Fuente: https://es.wikipedia.org/wiki/Esquema_en_estrella En un data warehouse de ventas, los hechos son las ventas. En uno financiero, los elementos del balance. En uno de análisis de la bolsa, los hechos serían los conceptos de apertura y precio de cierre. En la tabla de hechos la clave está conformada por las claves foráneas que apuntan a las dimensiones, idProducto, idTienda, idTiempo, esto quiere decir, que para una tienda, un día y un producto solo puede existir un valor de precio y unidad. Un modelo estrella, es un modelo desnormalizado, ya que lo que se busca es una mejora en el rendimiento de las consultas. Los join en las bases de datos relacionales pueden ser muy pesados. Ventajas y desventajas de este modelo: » Simple y rápido para un análisis multidimensional. Permite consultar datos agregados y detalles. » Permite implementar la funcionalidad de los datos multidimensionales y a la vez las ventajas de una base de datos relacional. » En cuanto a rendimiento es la mejor opción, ya que permite indexar las dimensiones de forma individualizada sin que el rendimiento de la base de datos se vea afectado. TEMA 3 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Business Intelligence para la Toma de Decisiones 2. Modelo copo de nieve Es una variante del modelo anterior. En este modelo la tabla de hechos ya no es la única que se relaciona con otras tablas ya que existen otras tablas que se relacionan con las dimensiones y que no tienen relación directa con la tabla de hechos. El modelo fue concebido para facilitar el mantenimiento de las dimensiones, sin embargo esto permite que se vinculen más tablas a las secuencias SQL. Este modelo es complejo de mantener ya que permite la vinculación de muchas tablas. Figura 3. Ejemplo de modelo copo de nieve. Fuente: https://es.wikipedia.org/wiki/Esquema_en_estrella Ventajas y desventajas de este modelo: » Algo positivo de este esquema es que al estar normalizado se evita la redundancia de datos. » El tiempo de respuesta es muy elevado, por lo que si es necesaria una respuesta rápida y es crítico para el sistema, puede no ser la mejor opción. Los data warehouse se representan normalmente como una gran base de datos, que en algunas ocasiones pueden estar distribuidas en distintas bases de datos, es decir, centralizar toda la información que posee la empresa en un solo sitio, esto permite manejar la información fácilmente (ver figura 4). El trabajo de construir un data warehouse colectivo puede generar inflexibilidades, o ser costoso y requerir plazos de tiempo elevados. TEMA 3 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Business Intelligence para la Toma de Decisiones Veamos algunas arquitecturas: Figura 4. Almacenes de datos antes (A) y después de aplicar data warehouse (B). Fuente: Abella, Cóppola y Olave, 2000. Arquitecturas Para la realización del data warehouse se adoptan dos clasificaciones diferentes para su arquitectura: » La primera clasificación está orientada a la estructura y depende del número de capas utilizadas por la arquitectura. » La segunda clasificación depende de cómo se empleen las diferentes capas para crear vistas orientadas a los departamentos. Arquitectura de una sola capa: no se utiliza con frecuencia en la práctica. Su objetivo es minimizar la cantidad de datos almacenados; para alcanzar este objetivo, se eliminan las redundancias de datos. Esto significa que un almacén de datos se implementa como una vista multidimensional de datos operacionales creados por un middleware específico o una capa de procesamiento intermedio (Devlin, 1997). La debilidad de esta arquitectura radica en que no cumple con los requisitos de separación entre procesamiento analítico y transaccional. Las consultas de análisis se envían a los datos operativos después de que el middleware los interpreta. De esta manera, las consultas afectan a las cargas de trabajo transaccionales regulares. Además, aunque esta arquitectura puede cumplir los requisitos de integración y exactitud de los datos, no puede registrar más que las fuentes. TEMA 3 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Business Intelligence para la Toma de Decisiones Por estas razones, un enfoque de este tipo para los almacenes de datos puede ser exitoso solo si las necesidades de análisis son particularmente restringidas y el volumen de datos a analizar es enorme (Rizzi y Golfarelli, 2009). Arquitectura de dos capas: aunque normalmente se nombra arquitectura de dos capas para destacar la separación entre las fuentes físicamente disponibles y los almacenes de datos, en realidad consta de cuatro etapas de flujo de datos posteriores (Husemann, Lechtenborger y Vossen, 2000): » Capa de origen: es el sistema de almacén de datos que utiliza fuentes heterogéneas de datos. Los datos se guardan originalmente en bases de datos relacionales corporativas, o pueden provenir de sistemas de información fuera de los muros corporativos. La prioridad en este tipo de sistema es la actualización y mantienen pocos datos históricos. » Capa de almacenamiento de datos: los datos almacenados en las diferentes fuentes deben extraerse, limpiarse para eliminar inconsistencias y rellenar espacios, e integrarse para convertirlas en fuentes heterogéneas en un esquema común, proceso ETL. Pueden combinar esquemas heterogéneos, extraer, transformar, limpiar, validar, filtrar, quitar duplicados, archivar y cargar los datos fuente para ser utilizados en el data warehouse (Jarke et al., 2013). » Capa de depósito de datos: la información se almacena en un solo depósito lógicamente centralizado. Se puede acceder directamente al almacén de datos, pero también se puede utilizar como fuente para crear nuevos productos de datos, que replican parcialmente los contenidos del almacén de datos y están diseñados para departamentos empresariales específicos. Los repositorios de metadatos almacenan información sobre fuentes, procedimientos de acceso, usuarios, esquemas de data mart (estos y los metadatos se amplían más adelante). Un data warehouse está constituido por la integración de varios data marts. » Capa de análisis: se accede de manera eficiente y flexible a los datos integrados para emitir informes, analizar la información y representar escenarios hipotéticos de negocios (adecuados para cada empresa). Tecnológicamente hablando, aquí se utilizan diferentes herramientas de visualización datos, optimizadores de consultas para el apoyo para la toma de decisiones. TEMA 3 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Business Intelligence para la Toma de Decisiones Impacto del data warehouse (Mendez et al., 2003) El éxito del data warehouse está enfocado en mejorar los procesos empresariales, operacionales y de toma de decisiones, para que esto funcione se deben tener en cuenta los impactos producidos en los diferentes ámbitos de la empresa: 1. Impacto en las personas La construcción del data warehouse requiere de la participación activa de quienes lo utilizarán, depende de la realidad de la empresa y de las condiciones que existan en el momento de la creación, las cuales determinarán cuál será su contenido. Como se ha visto en el módulo, el data warehouse provee los datos que posibilitará a los usuarios acceder a la propia información en el momento que la necesiten, para que se realice esta entrega hay que tener en cuenta: » Los usuarios deberán adquirir nuevas destrezas; por lo tanto, van a necesitar programas de capacitación adecuados. » Los largos tiempos de análisis y programación se reducen para usuarios pertenecientes a las áreas de tecnología, y se reduce también el tiempo de espera para los usuarios de negocio. » Como la información estará lista para ser utilizada, es probable que aumenten las expectativas. Se reducirá considerablemente la gran cantidad de reportes en papel. 2. Impactos en los procesos empresariales y de toma de decisiones » Mejora del proceso para la toma de decisiones, ya que facilita la disponibilidad de la información. Las decisiones son tomadas más rápidamente y la gente entiende más del porqué de las decisiones. » Los procesos empresariales se optimizan, se elimina el tiempo de espera de la información al encontrarse almacenada en un solo sitio. » Se reducen los costos de los procesos, una vez desarrollado el data warehouse y en múltiples ocasiones se esclarecen sus conexiones y dependencias, lo que aumenta la eficiencia en dichos procesos. TEMA 3 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Business Intelligence para la Toma de Decisiones » El data warehouse permite que los datos de los sistemas sean utilizados y examinados al estar organizados para tener un significado para la empresa. » Aumenta la confianza en las decisiones tomadas con base en la información del data warehouse, tanto los responsables de la toma de decisiones como los afectados conocen la información, que tendrá que ser de buena calidad, clara, precisa y concisa. » La información que se comparte lleva a un lenguaje común, conocimiento común y mejora de la comunicación en la empresa. Data mart El data warehouse es un conjunto de gran tamaño de información. En muchas ocasiones, para facilitar el manejo de los datos, es necesario utilizar un conjunto de datos más pequeño llamado data mart (ver figura 5). El propósito es ayudar a que un departamento específico dentro de la empresa pueda tomar mejores decisiones. Los datos existentes en este contexto pueden ser resumidos, agrupados y explotados de múltiples formas para diversos grupos de usuarios. Figura 5. Ejemplo de data mart. Los data mart están dirigidos a un conjunto de usuarios dentro de la empresa, que puede estar formada por los miembros de un departamento, por los usuarios de un determinado nivel administrativo o por un grupo de trabajo multidisciplinar con objetivos comunes. TEMA 3 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Business Intelligence para la Toma de Decisiones Los data mart están compuestos por partes del data warehouse primario, que en algunas casos pueden ser: Dependientes: utilizan los datos y metadatos del data warehouse directamente en lugar de obtenerlos de los sistemas de producción. Independientes: los datos son tomados de cada área de la empresa, siempre manteniendo los datos alineados con el data warehouse, si este existe. Aunque los data mart no son estrictamente necesarios, son muy útiles para los sistemas de almacenamiento de datos en medianas y grandes empresas debido a que: » Se usan como bloques de construcción mientras se desarrollan depósitos de datos de forma incremental. » Marcan la información requerida por un grupo específico de usuarios para resolver consultas más rápidas por el menor volumen de datos. » Pueden ofrecer un mejor rendimiento porque son más pequeños que los data warehouse primarios, por lo tanto son más fáciles de implementar. » Al ser pequeños los conjuntos de datos consumen menos recursos. Los metadata Un componente esencial de un data warehouse es el metadata. El metadata es el repositorio central de información que abarca todos los niveles. Da el significado de cada uno de los componentes, variables y atributos que residen en el data warehouse o data mart. La información que contiene el metadata es útil para los departamentos y los propios usuarios. Este incluye las definiciones de negocio, descripciones minuciosas de los tipos de datos, formatos, la cantidad y otras características, como los valores máximos y mínimos de los datos. La información más importante va dirigida hacia: » El usuario: información sobre el significado de los datos utilizados y su localización en el data warehouse. » Equipo responsable de los procesos de transformación de los datos: información sobre la ubicación del dato en los sistemas de producción y los procesos de transformación. » Equipo responsable de los procesos de creación de nuevos datos a partir de los datos detallados. TEMA 3 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Business Intelligence para la Toma de Decisiones 3.3. Procesos ETL Como sus siglas indican, consiste en la extracción, transformación y carga de los datos en el data warehouse, de modo que se puede afirmar que es una parte fundamental de este. Antes de guardar los datos, deben ser transformados, limpiados, filtrados y redefinidos. Como se mencionó anteriormente, la información que tienen las empresas en los sistemas no está preparada para la toma de decisiones (Toan C. Ong, 2017). El proceso de ETL consume entre el 60 y el 80 % del tiempo de un proyecto de business intelligence, por lo que es un proceso fundamental en el ciclo de vida del proyecto (Eckerson y White, 2003). Esta parte del proceso de construcción del data warehouse es costosa y consume una parte significativa de todo el proceso, razón por la que utilizan recursos, estrategias, habilidades especializadas y tecnologías. El proceso ETL va más allá del transporte de los datos de las fuentes a la carga dentro del data warehouse, ya que añade un valor significativo a los datos. Una parte del proceso ETL se encarga de (Villanueva, 2011): » Remover errores y corregir datos faltantes. » Proporcionar medidas documentadas de la calidad de los datos. » Supervisar el flujo de los datos transaccionales. » Ajustar y transformar los datos de múltiples fuentes en uno solo. » Organizar los datos para su fácil uso por los usuarios y las herramientas. El proceso ETL es intuitivo y fácil de entender. La idea fundamental del proceso ETL es tomar los datos de las diferentes fuentes de información y depositarla sin errores en el data warehouse. Los procesos de limpieza y transformación de esa información son mucho más complejos de lo que se cree. Se pueden dividir en tareas específicas, dependiendo de las características de las fuentes de datos, los objetivos de la empresa, las herramientas existentes y las características del data warehouse final. El desafío para un correcto desarrollo del proceso ETL es planificar adecuadamente la cantidad de tareas, para lo cual es preciso conservar la perspectiva sencilla e intuitiva del proceso. El proceso ETL es obligatorio para acceder a los datos que formarán parte del data warehouse. El proceso ETL se divide en cuatro etapas: TEMA 3 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Business Intelligence para la Toma de Decisiones Bases de datos Bases de datos n Otros archivos Limpieza y Extracción Carga transformación Figura 6. Etapas del proceso ETL. Etapas » Extracción Este proceso extrae los datos físicamente de las distintas fuentes de información. En este momento los datos están en la forma como se almacenan, en bruto. La extracción de los datos se puede realizar de forma manual o utilizando herramientas de ETL. Durante el proceso de ETL, una de las primeras tareas que debe realizarse es la extracción de la información más relevante, es generalizar al data warehouse (Theodoratos, Ligoudistianos y Sellis, 2001). Para la extracción se pueden usar los siguientes métodos: 1. La extracción estática, que tiene lugar cuando el data warehouse necesita ser rellenado por primera vez, la detección de cambios se realiza físicamente mediante la comparación de dos imágenes (una correspondiente a la extracción anterior y la otra a la actual). 2. La extracción incremental, que es utilizada para actualizar los data warehouse de forma regular, aprovecha los cambios aplicados a los datos de origen desde la última extracción. TEMA 3 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Business Intelligence para la Toma de Decisiones Finalmente, conviene recordar que el objetivo principal de la extracción es extraer tan solo aquellos datos de los sistemas transaccionales que son necesarios y prepararlos para el resto de los subprocesos de ETL. Para ello se deben determinar las mejores fuentes de información y de mejor calidad. » Limpieza Este proceso recupera los datos de la base de datos u otro tipo de fuente y comprueba la calidad, elimina los duplicados y, cuando es posible, corrige los valores erróneos y completa los valores incompletos etc. Ejemplo de algunos errores más comunes: o Datos duplicados: un cliente es registrado varias veces en la misma empresa. o Inconsistencia en los datos: en la dirección de una persona, poner un código postal que no corresponde a la ciudad donde vive. o Inconsistencia de valores: poner en primer lugar un valor y posteriormente poner el mismo valor de otra forma. Por ejemplo: por el país USA, y luego digitarlo completo (Estados Unidos de Norteamérica). En particular, hay que tener en cuenta que estos tipos de errores son muy frecuentes cuando se manejan múltiples fuentes e ingresan datos manualmente. Las principales características de limpieza de datos que se encuentran en las herramientas de ETL son la rectificación y la homogenización. Utilizan diccionarios específicos para rectificar errores de digitalización y para reconocer sinónimos, además la limpieza basada en reglas para imponer normas específicas de dominio y definir asociaciones apropiadas entre valores. » Transformación Este proceso recupera los datos limpios y de alta calidad, los organiza y resume en los distintos modelos de análisis. El resultado de este proceso es la obtención de datos limpios, consistentes, resumidos y útiles. La transformación incluye: cambios de formato, sustitución de códigos, valores derivados y agregados. La transformación es el núcleo del proceso. Convierte los datos de su formato original a un formato de almacén de datos específico. Si se implementa una arquitectura de dos capas, esta fase genera su capa de datos conciliados. TEMA 3 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Business Intelligence para la Toma de Decisiones Independientemente de la presencia de una capa de datos conciliados, establecer una correspondencia entre la capa de datos de origen y la de depósito de datos generalmente se dificulta, debido a la presencia de muchas fuentes diferentes y heterogéneas. Los siguientes puntos deben rectificarse en esta fase: o Los textos sueltos pueden ocultar información valiosa. Por ejemplo, Zapatos Zoe LTD no muestra explícitamente que se trata de una sociedad de sociedad limitada, ya que la sigla estándar en España es (SL). o Se pueden usar diferentes formatos para datos individuales. Por ejemplo, una fecha se puede guardar como una cadena de caracteres o como tres enteros. Dependiendo de la fuente de los datos será necesario realizar un manejo de los datos, algunas veces se pueden aplicar algunas de las siguientes transformaciones: o Seleccionar ciertas columnas para su carga (por ejemplo, que las columnas con valores vacíos no se carguen o se completen). o Traducir códigos (por ejemplo, cuando se almacena una «H» para «Hombre» y «M» para «Mujer» pero luego se cambia a formato numérico: «1» para Hombre y “2″ para Mujer). Otro ejemplo: «V» para vivo y «M» para muertos, se cambia «1» para vivo y «O» para muerto. o Codificar valores libres, como, por ejemplo, convertir «Hombre» en «1», «Mujer» en «2» o «Niños» en «3». o Obtener nuevos valores calculados (por ejemplo, el índice de masa corporal = peso/altura). o Calcular totales de múltiples filas de datos (por ejemplo, el total de una población, total de años, etc.). o Dividir una columna en varias (por ejemplo, la columna de «Diagnóstico: pasar a tres columnas Diagnóstico_1, Diagnóstico_2, Diagnóstico_3»). o Datos erróneos: se pueden corregir o eliminar. Esto va a depender del valor que aporte las variables y los datos al data warehouse. TEMA 3 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Business Intelligence para la Toma de Decisiones » La carga y actualización Es la última etapa del proceso y valida que los datos cargados en el data warehouse sean consistentes con las definiciones y formatos; los integra en los distintos modelos de las distintas áreas de negocio que se han definido. Estos procesos suelen ser complejos, por tanto es necesario tener personal experto que ayude en el proceso. Aquí es esencial comprobar que se ha desarrollado correctamente, ya que en caso contrario pueden llevar a decisiones erróneas a los usuarios. En esta etapa es el momento en el que se cargan los datos y se comprueba si los elementos que se cargaron son equivalentes a la información que había en el sistema transaccional, así como los valores que tienen los registros cargados corresponde a los definidos en el data warehouse. Es importante comprobar que se ha desarrollado correctamente, ya que, de lo contrario puede llevar a tomas de decisiones equivocadas. La carga en un almacén de datos es el último paso a seguir. La diferencia fundamental entre carga y actualización radica en el hecho que la carga se realiza cuando el data warehouse está vacío, mientras que la actualización se hace cuando ya existen datos en el mismo. En cualquier caso, tanto la carga como la actualización se pueden llevar a cabo de dos maneras: 1. Actualizar datos del almacén de datos completamente reescrito: esto significa que los datos más antiguos se reemplazan. La actualización se usa normalmente en combinación con la extracción estática para poblar inicialmente un depósito de datos. 2. Actualización de datos solo con los cambios aplicados a los datos fuente: la actualización generalmente se lleva a cabo sin eliminar o modificar datos preexistentes. Esta técnica se usa en combinación con la extracción incremental para actualizar los almacenes de datos regularmente. Estructuras de datos del proceso ETL La parte trasera del data warehouse es comúnmente conocida como el área de staging, que en este ámbito tiene el significado de ‘escritura a disco’ (Villanueva, 2011). TEMA 3 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Business Intelligence para la Toma de Decisiones El proceso ETL envuelve el manejo de diversas estructuras de datos que se leen y escriben en diversos dispositivos de almacenamiento, por tal motivo estudian las estructuras de datos más frecuentes que se presentan a lo largo del proceso de data warehouse. » Archivos de texto plano Los archivos de texto plano (ver figura 7) son aquellos que almacenan la información en filas y columnas para simular la estructura de una tabla de una base de datos y que están separados por un separador de columnas, generalmente punto y coma (;), comas (,) llamados Comma-Separated Value o CSV, tabuladores (→) llamados Tab-Separated Value o TSV, o pipes (|). Si se usa en plataformas Windows o UNIX, los archivos están codificados en el estándar ASCII (American Standard Code for Information Interchange). Los archivos planos pueden ser manejados y procesados por algunas herramientas ETL o por lenguajes de secuencias de comandos (SQL) como si se usaran tablas de bases de datos, y en algunas ocasiones es mucho más rápido. Figura 7. Ejemplo de archivo de texto plano de datos médicos en ETL. Estos archivos son una buena elección, puesto que tiene un mejor desempeño y facilitan tareas tales como (Villanueva, 2011): o Escritura de los datos para su monitoreo y seguimiento en el disco. o Organización de la información. o Filtrado de los datos. TEMA 3 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Business Intelligence para la Toma de Decisiones o Remplazo y substitución de cadenas de texto. o Aplicación de operaciones de añadidura. o Referencias a fuentes de información. » Archivos XML El XML (lenguaje extensible de marcado) es un metalenguaje que permite definir la gramática de lenguajes específicos, que ha sido simplificado y adaptado a Internet. Fue creado para representar los datos, lo que le permite la lectura de datos a través de aplicaciones; en la actualidad es ampliamente usado para que sea de fácil entendimiento por los lenguajes de programación y para el almacenamiento e intercambio de información entre sistemas de información. Un documento XML se estructura de forma jerárquica con base en etiquetas, almacena los datos con la extensión XML y puede incluir varios flujos de datos. Los documentos XML están compuestos por los siguientes elementos: o El prólogo. o El cuerpo. TEMA 3 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Business Intelligence para la Toma de Decisiones < !DOCTYPE StyleSheet [ < !entidad nbsp " PROLOGO EL CUERPO Belgian Waffles $5.95 Two of our famous Belgian Waffles with plenty of real maple syrup 650 Strawberry Belgian Waffles $7.95 Light Belgian waffles covered with strawberries and whipped cream 900 Berry-Berry Belgian Waffles $8.95 Light Belgian waffles covered with an assortment of fresh berries and whipped cream 900 FIN DEL CUERPO Tabla 1. Modelo de documento XML. Ventajas de XML: o Fácilmente procesable por cualquier programa. o Separa el contenido y el formato de presentación. o Diseñado para cualquier lenguaje y alfabeto. Bases de datos relacionales Este modelo de datos fue propuesto por E. F. Codd (Codd, 1970) y está definido como un conjunto de filas y columnas agrupadas en una o varias tablas que entre ellas guardan una relación. La estructura básica del modelo relacional es la relación, es decir, una tabla bidimensional constituida por filas y columnas. Las relaciones representan las entidades que se consideran importantes en la base de datos. TEMA 3 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Business Intelligence para la Toma de Decisiones Por ejemplo, si en la base de datos se tiene que incorporar personas, podrá definirse una relación llamada «Personas», cuyos atributos describen las características de las personas, es decir, un nombre, un apellido, la fecha de nacimiento, el lugar donde vive, etc. Cada fila de la tabla «Personas» representará a una persona en particular (Quiroz, 2003). Figura 8. Ejemplo de bases de datos relacional de ventas. Fuente: http://basededatosi.blogspot.com.es/2011/06/laboratorio-1-con-postgresql.html 3.4. OLAP Las herramientas OLAP (siglas de On Line Analytical Processing) proveen capacidad de cálculo, consultas, funciones de planeamiento, pronóstico y análisis en escenarios de grandes volúmenes de datos. En la actualidad existen otras alternativas tecnológicas al OLAP (procesamiento analítico en línea), como Agile-BI. El «Agile BI» (White Paper de Balanced Insight) se basa en la premisa de ofrecer a los usuarios finales, incluso los que no tienen conocimientos técnicos o de programación avanzada, la capacidad para llevar a cabo sus propios análisis y liberar a los usuarios del negocio de su dependencia de TI. Soluciones como el procesamiento In-Memory y de su sucesor In-Chip Technology, está mostrando una gran promesa, la de proporcionar a las empresas el tipo de análisis que hoy necesitan, en escenarios altamente complejos y con abundante cantidad de datos. TEMA 3 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Business Intelligence para la Toma de Decisiones Por lo tanto, se deben analizar las tecnologías que permitirán tratar y visualizar la información que reside en un data warehouse. En este apartado también se tratarán las herramientas de visualización, ya que en muchas ocasiones van ligadas. Los usuarios necesitan analizar información a distintos niveles de agregación y de múltiples dimensiones: por ejemplo, ventas por zona, por tiempo, por clientes o tipo de cliente y por zona geográfica. Los usuarios pueden hacer este análisis al máximo nivel de detalle. Las herramientas OLAP proveen funcionalidades con la flexibilidad necesaria para descubrir las relaciones y las tendencias que otras herramientas menos flexibles no pueden aportar (Inmon, 1992). OLAP puede ser la vía principal de explotar la información en un almacén de datos; además, es la más popular, y les brinda a los usuarios finales, cuyas necesidades de análisis no son fáciles de definir de antemano, la oportunidad de analizar y explorar datos de manera interactiva sobre la base del modelo multidimensional. El OLAP Council resumió las doce reglas de Codd en lo que ellos llamaban el concepto FASMI (por sus siglas en inglés, Fast Analysis of Shared Multidimensional Information) que todos los productos OLAP deben cumplir: » Rápido (fast): debe ser rápido, para que la respuesta a las consultas se pueda ver de forma inmediata. » Análisis (analysis): debe soportar la lógica del negocio y el análisis estadísticos que sean obligatorios para los usuarios. » Compartido (shared): tiene que manejar múltiples actualizaciones de forma segura y rápida. » Multidimensional (multidimensional): tiene que proveer de una visión global de la información a través de distintas dimensiones. » Información (information): debe poder manejar toda la información necesaria, relevante y derivada. Las 12 reglas OLAP de E.F. Codd (Codd, 1993) » Información: la información de las diferentes fuentes se representa claramente en el nivel lógico y de una sola manera. » La regla de acceso garantizado: garantiza que todos los datos son accesibles. » Tratamiento de valores nulos: los valores nulos o campos vacíos se usa para representar la información faltante en un grupo de datos. » Catálogo dinámico en línea basado en el modelo relacional. TEMA 3 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Business Intelligence para la Toma de Decisiones » La regla del sublenguaje de datos: debe soportar varios lenguajes para la manipulación de los datos. » Actualización de vistas: todas las vistas deben ser fáciles de actualizar por el sistema. » Insertar, actualizar y eliminar a alto nivel: capacidad de manejar las bases de datos relacionales. » Independencia de datos físicos: los cambios en los datos físicos deben estar separados de los datos lógicos. » Independencia de datos lógicos: los cambios en los datos (tabla, filas y columnas) no afectan a los datos lógicos. » Independencia de integridad: se debe conservar las restricciones de las diferentes tablas. » Independencia de distribución: la distribución de los datos debe ser transparente para los usuarios. » La regla de no subversión: si un sistema relacional tiene un lenguaje de bajo nivel no puede utilizarse para trastornar las reglas de integridad y las restricciones. Beneficios que presenta el OLAP » Flexible y fácil uso para los usuarios. » Facilita el análisis, ya que los datos están organizados en dimensiones. » Historia de los datos al alcance de los usuarios. » Mayor aprendizaje. Los cubos Vamos a verlo con un ejemplo: en la figura 9 podemos ver una vista general del modelo entidad relación de un área de negocio. TEMA 3 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Business Intelligence para la Toma de Decisiones Figura 9. Vista general de un modelo entidad relación. Los cubos están formados por la tabla de hechos, que almacena indicadores numéricos tanto básicos como elementos calculados y por las tablas de dimensiones, que almacenan los datos descriptivos, por lo general tienen pocas filas, pero pueden contener muchas columnas. Las tablas de dimensiones son muy importantes para obtener análisis robustos. En la figura 10 se puede ver le modelo estrella para este ejemplo. Figura 10. Modelo estrella. TEMA 3 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Business Intelligence para la Toma de Decisiones Figura 11. Modelo copo de nieve. Un ejemplo de una vista en forma de cubo y cómo se pueden estudiar los datos por separado se muestran en las figuras 12 y 13. Figura 12. Vista en forma de cubo con tres dimensiones, productos, ubicación y tiempo (meses). Fuente: Ibarra, 2006. Figura 13. Vista de partes del cubo. Fuente: Ibarra, 2006. TEMA 3 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Business Intelligence para la Toma de Decisiones Existen distintos tipos de almacenamiento OLAP y su diferencia se basa en cómo se accede a los datos: ROLAP: el Relational OLAP (figura 14) o las capacidades OLAP acceden directamente a la base de datos relacional; por lo tanto, es escalable, lo que puede ocasionar dificultades a la hora de consultas muy grandes. Se accede, así, a una base de datos relacional. Es un modelo «estrella». La principal ventaja es que no tiene limitaciones en cuanto al tamaño, pero es más lento que el MOLAP, aunque algunos productos comerciales nos permiten cargar cubos virtuales para acelerar los tiempos de acceso. Figura 14. Estructura de un ROLAP. MOLAP: el multidimensional OLAP (figura 15) accede directamente sobre una base de datos multidimensional. Se crea un archivo que alberga una gran cantidad de consultas preseleccionadas y calculadas. A diferencia del modelo ROLAP, el almacenamiento está optimizado para mejorar la velocidad de cálculo, así como la recuperación de patrones jerárquicos de acceso. Las dimensiones del cubo por lo general son atributos como, por ejemplo, periodos de tiempo, ubicaciones (países, regiones, autonomías, etc.). La integración de las dimensiones se realiza por adelantado. Es ideal para realizar consultas pequeñas. Figura 15. Estructura de un MOLAP. TEMA 3 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Business Intelligence para la Toma de Decisiones HOLAP: el Hybrid OLAP (figura 16) accede a los datos de alto nivel en una base de datos multidimensional y sobre la base de datos relacional. Este modelo consiste en utilizar las tablas de las bases de datos para almacenar una mayor cantidad de datos mejor organizados incorporando el modelo multidimensional para recoger los datos más pequeños que estén menos detallados. Figura 16. Estructura de un HOLAP. DOLAP (Desktop OLAP): su uso está dirigido a equipos de escritorio. Los datos de las bases de datos relacionales son consultados y almacenados en el escritorio, lo que facilita su acceso. In-memory: facilita el acceso a los datos ya que se carga la base de datos en la memoria del PC donde se están ejecutando las consultas para que tarden menos en ejecutarse. 3.5. Referencias bibliográficas Balanced Insight. Enabling Agile Business Intelligence with Balenced Insight Consensus®. White Paper. Recuperado de: https://www.balancedinsight.com/wp- content/files/BIWhitepaper_EnablingAgileBI.pdf Cano, J. L. (2007). Business Intelligence: competir con información (pp. 392). Madrid: ESADE Business School. Recuperado de: http://itemsweb.esade.edu/biblioteca/archivo/Business_Intelligence_competir_con_i nformacion.pdf TEMA 3 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Business Intelligence para la Toma de Decisiones Codd, E. F. (1970). A relational model of data for large shared databanks, Communications of the AMC, 13(6), 377-387. Recuperado de: https://www.seas.upenn.edu/~zives/03f/cis550/codd.pdf Codd, E. F., Codd, S. B. y Salley, C. T. (1993). Providing OLAP to User-Analysts: An IT Mandata. Recuperado de: https://pdfs.semanticscholar.org/0a93/e70589fbeab43edf65de61ffbe6cd3696c4a.pdf Devlin, B. (1997). Data Warehouse: From Architecture to Implementation. Estados Unidos: Addison-Wesley. Eckerson, W. y White. C., (2003). Evaluating ETL and Data Integration Platforms. TDWI Report Series. Ibarra. M. (2006). Procedimiento analítico en línea. Trabajo del Grado de Informática. Universidad Nacional del Nordeste, Argentina. Inmon, W. H. (1992). Building the data warehouse (1ª edición). New York: Wiley and Sons. Recuperado de: https://epdf.tips/building-the-data-warehouse.html Jarke, M., Jeusfeld, M. A., Quix, C. J., Vassiliadis, P., y Vassiliou, Y. (2013). Data warehouse architecture and quality: impact and open challenges. En Seminal Contributions to Information Systems Engineering (pp. 183-189). Berlín: Springer. Mendez, A., Mártire, A., Britos, P. y Garcia-Martínez, R. (2003). Fundamentos de data warehouse, Reportes técnicos en ingeniería del software, 5(1), 19-26. Recuperado de: http://www.itba.edu.ar/capis/rtis Quiroz, J. (2003). El modelo relacional de bases de datos. Boletín de Política Informática, 6, 53-61. Rizzi. S., Golfarelli. M., (2009). Data Warehouse Design: Modern Principles and Methodologies (pp. 480). India: McGraw-Hill Education. Theodoratos, D., Ligoudistianos, S. y Sellis, T. (2001). View selection for designing the global data warehouse. Data & Knowledge Engineering, 39(3), 219-240. TEMA 3 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Business Intelligence para la Toma de Decisiones Toan C. Ong, M. G. (2017). Dynamic-ETL: a hybrid approach for health data extraction, transformation and loading. BMC Medical Informatics and Decision Making, 134. Villanueva, J. (2011). Marco de trabajo basado en ontologías para el proceso ETL (trabajo de fin de máster, pp. 111). Unidad Zacatenco del Departamento de Computación, Instituto Politécnico Nacional, México. TEMA 3 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Business Intelligence para la Toma de Decisiones Lo + recomendado No dejes de leer… Microsoft Business Intelligence: vea el cubo medio lleno Ramos, S. (2016). Microsoft Business Intelligence: vea el cubo medio lleno (serie Inteligencia de Negocios). Alicante: SolidQ Press. El autor nos habla de un acompañamiento en la transición hacia el mundo del BI, el BA y el Big Data. Salvador tiene amplia experiencia en bases de datos, data warehouse, ETL y técnicas de visualización, y quiere poner al servicio de los demás sus conocimientos a través de este libro didáctico. Accede al artículo a través del aula virtual o desde la siguiente dirección web: https://www.solidq.com/es/libros-y-publicaciones/microsoft-business-intelligence- vea-el-cubo-medio-lleno No dejes de ver… Creando una ETL con las herramientas de Pentaho 6 Vídeo tutorial demostrativo para crear una ETL a partir de una base de datos transaccional, tomando como modelo un negocio de tipo tienda. Accede al vídeo a través del aula virtual o desde la siguiente dirección web: https://www.youtube.com/watch?v=a6nMj6M7IUU&t=23s TEMA 3 – Lo + recomendado © Universidad Internacional de La Rioja (UNIR) Business Intelligence para la Toma de Decisiones Desarrollo de un cubo OLAP con Schema Workbench de Pentaho En este vídeo podrás observar paso a paso la creación de un cubo con la herramienta Pentaho, de tipo open source que integra todas las etapas de una estrategia BI. Accede al vídeo a través del aula virtual o desde la siguiente dirección web: https://www.youtube.com/watch?v=eYAgvsT5dd4 TEMA 3 – Lo + recomendado © Universidad Internacional de La Rioja (UNIR) Business Intelligence para la Toma de Decisiones + Información Webgrafía El código ASCII En esta web tienes la oportunidad de conocer más datos sobre este código con el objetivo de saber interpretar las distintas tablas. Accede a la página web a través del aula virtual o desde la siguiente dirección: https://elcodigoascii.com.ar/ W3im Esta web es muy recomendable para profundizar en los conceptos relacionados con el HTML y ver sus diferentes aplicaciones. También puedes encontrar modelos como el que muestra en el enlace. Accede a la página web a través del aula virtual o desde la siguiente dirección: http://www.w3im.com/xml/simple.xml TEMA 3 – + Información © Universidad Internacional de La Rioja (UNIR) Business Intelligence para la Toma de Decisiones Bibliografía Mohammadhossein-Barkhordari, M. N. (2017). Atrak: a MapReduce-based data warehouse for big data. The Journal of Supercomputing, 4596-4610. Sebastian-Busch, V. N. (2017). Automatic classification of data-warehouse-data for information lifecycle management using machine learning techniques. Information Systems Frontiers; New York, 1085-1099. Ramos, S. (2016). Proceso de negocio, data mart, data warehouse. En Business Intelligence (BI) y Analytics: el arte de convertir los datos en conocimiento. Alicante: SolidQ Press. TEMA 3 – + Información © Universidad Internacional de La Rioja (UNIR) Business Intelligence para la Toma de Decisiones Actividades Trabajo: Diseño de un data warehouse Descripción La empresa SCALE MODELS S.A. se dedica hace 5 años a la producción y distribución de modelos a escala de coches y motos. Ubicada en la ciudad de Salamanca – España, cuenta con un grupo de 5 empleados, quienes llevan a cabo procesos de producción y distribución. Con el almacén de datos la empresa desea poder identificar lo siguiente: » Conocer la evolución de las ventas a lo largo del tiempo: cuántas ventas se han realizado en un periodo de tiempo dado. » Conocer la evolución de las ventas por producto a lo largo del tiempo: Qué tipo de demanda se asocia a cada uno de los productos. Tenemos el siguiente diagrama entidad relación: TEMA 3 – Actividades © Universidad Internacional de La Rioja (UNIR) Business Intelligence para la Toma de Decisiones La base de datos Classicmodels es un minorista de modelos a escala de la base de datos de autos clásicos. Contiene datos comerciales típicos, como clientes, productos, pedidos de ventas, líneas de pedido de ventas, etc. Se puede descargar del siguiente link: https://www.mysqltutorial.org/mysql-sample-database.aspx Teniendo en cuenta esta base de datos: » Especifica cuáles son los pasos que debe seguir la empresa para implementar su almacén de datos para el departamento de ventas. » Diseña la tabla de hechos con sus dimensiones para poder dar respuestas a los interrogantes de la empresa e indique que tipo de tipología utilizó justificando su respuesta. Puedes hacer uso de la herramienta Pentaho Schema Workbench. » Como experto en business intelligence, que pautas le daría a la empresa para implementar su modelo business intelligence. » En tu opinión, ¿debería la empresa invertir en personal cualificado para el proceso? » ¿Qué herramientas podría utilizar? Objetivos A través de esta actividad se pretende aplicar y medir los conocimientos adquiridos en el diseño de un data warehouse y los modelos existentes, a través de un caso práctico. TEMA 3 – Actividades © Universidad Internacional de La Rioja (UNIR) Business Intelligence para la Toma de Decisiones Test 1. ¿Es obligatorio realizar la extracción de datos para construir el data warehouse? A. Sí. B. No. 2. ¿Cuáles son dos etapas del proceso ETL? A. Transformación. B. Limpieza. C. Consulta. D. A y B son correctas. 3. Los data mart hacen parte del proceso data warehouse: A. Verdadero. B. Falso. 4. ¿Para la realización del data warehouse existen dos clasificaciones diferentes de arquitectura? A. Arquitectura mecánica. B. Arquitectura de una sola capa. C. Arquitectura de dos capas. D. B y C son correctas. 5. ¿Cuáles pueden ser dos posibles fuentes de datos? A. Bases de datos relacionales y archivos de texto plano. B. Archivos XML y codificación de archivos HTML. C. Archivos PDF y documentos en papel. D. Ninguna de las anteriores. 6. ROLAP y HOLAP son tipo del modelo OLAP: A. Verdadero. B. Falso. TEMA 3 – Test © Universidad Internacional de La Rioja (UNIR) Business Intelligence para la Toma de Decisiones 7. El modelo ROLAP es aquel donde el acceso se hace directamente a las bases de datos relacionales y las dimensionales: A. Verdadero. B. Falso. 8. El autor Bill Inmon definió las características que debe cumplir un data warehouse. A. Orientado a un área, integrado. B. Portátiles, fáciles de manejar. C. Indexado en el tiempo. No volátil. D. A y C son correctas. 9. ¿Cuál es la función del data warehouse? A. Aumentar el trabajo de los usuarios. B. Ayudar en la toma de decisiones. C. Centralizar los datos para facilitar el manejo. D. Ninguna de las anteriores. 10. Siempre deben existir los data marts: A. Verdadero. B. Falso. TEMA 3 – Test © Universidad Internacional de La Rioja (UNIR)

Tema 3 Data Warehouse - PDF

Document Details

Tags

Related

Summary

Full Transcript