Sistemas de Inteligencia de Negocios (Business Intelligence) Datawarehouse PDF

Document Details

ProlificLogic

Uploaded by ProlificLogic

null

Tags

business intelligence data warehouse business analysis data management

Summary

This document discusses business intelligence (BI) and data warehouses. It explains how BI is used to turn data into actionable insights for business decision-making. Topics include the definition of BI, business models, and the different stages of the BI process, along with the role of data warehouses in storing and analyzing large datasets.

Full Transcript

Oposiciones TIC Sistemas de inteligencia Datawarehouse de negocio (business intelligence): Tabla de contenidos Business Intelligence Actualmente, en las actividades diarias de cualquier organización, se generan datos como producto secundario, que son el resultado de todas las transacciones que...

Oposiciones TIC Sistemas de inteligencia Datawarehouse de negocio (business intelligence): Tabla de contenidos Business Intelligence Actualmente, en las actividades diarias de cualquier organización, se generan datos como producto secundario, que son el resultado de todas las transacciones que se realizan. Es muy común, que los mismos se almacenen y administren a través de sistemas transaccionales en bases de datos relacionales. Pero la idea central de este tema es que estos dejen de solo ser simples datos, para convertirse en información que enriquezca las decisiones de los usuarios. Precisamente, la inteligencia de negocios (Business Intelligence BI), permite que el proceso de toma de decisiones esté fundamentado sobre un amplio conocimiento de sí mismo y del entorno, minimizando de esta manera el riesgo y la incertidumbre. Además, propicia que las organizaciones puedan traducir sus objetivos en indicadores de estudio, y que estos puedan ser analizados desde diferentes perspectivas, con el fin de encontrar información que no solo se encargue de responder a preguntas de lo que está sucediendo o ya sucedió, sino también, que posibilite la construcción de modelos, mediante los cuales se podrán predecir eventos futuros. Cuando se nombra el término inteligencia, se refiere a la aplicación combinada de información, habilidad, experiencia y razonamientos, para resolver un problema de negocio. Cabe destacar, que la aplicación de soluciones BI no es solo para grandes-medianas empresas, sino para quien desee tomar decisiones a través del análisis de sus datos. Es por ello que las soluciones BI no solo se enfocarán a resolver temas relacionados a aumentar la rentabilidad, disminuir costes y obtener la famosa ventaja competitiva. De acuerdo con lo planteado anteriormente se presentarán dos grandes ejemplos de la aplicación de BI, una en una empresa de ventas de productos, la otra en una biblioteca vecinal: Empresa de venta de productos; en este caso la aplicación de BI podrá resolver las siguientes preguntas: ¿Quiénes son los mejores clientes? ¿Cómo minimizar costes y maximizar las prestaciones? ¿Cuál será el pronóstico de ventas del próximo mes? Biblioteca; en este caso la aplicación de BI podrá resolver las siguientes preguntas: ¿Cuál es la temática más consultada? ¿Qué días hay mayor concurrencia y por qué? ¿Qué libros deben ser adquiridos? Definición Se puede describir BI, como un concepto que integra por un lado el almacenamiento y por el otro el procesamiento de grandes cantidades de datos, con el principal objetivo de transformarlos en conocimiento y en decisiones en tiempo real, a través de un sencillo análisis y exploración. La definición antes expuesta puede representarse a través de la siguiente fórmula: Datos + Análisis = Conocimiento. Este conocimiento debe ser oportuno, relevante, útil y debe estar adaptado al contexto de la organización. Existe una frase muy popular acerca de BI, que dice: “Inteligencia de Negocios es el proceso de convertir datos en conocimiento y el conocimiento en acción, para la toma de decisiones”. BI hace hincapié en los procesos de recolectar y utilizar efectivamente la información, con el fin de mejorar la forma de operar de una organización, brindando a sus usuarios, el acceso a la información clave que necesitan para llevar a cabo sus tareas habituales y más precisamente, para poder tomar decisiones oportunas basadas en datos correctos y certeros. Al contar con la información exacta y en tiempo real, es posible, aparte de lo ya mencionado, identificar y corregir situaciones antes de que se conviertan en problemas y en potenciales pérdidas de control de la empresa, pudiendo conseguir nuevas oportunidades o readaptarse frente a la ocurrencia de sucesos inesperados. La Inteligencia de Negocios tiene sus raíces en los Sistemas de Información Ejecutiva (Executive Information Systems – EIS) y en los Sistemas para la Toma de Decisiones (Decision Support Systems – DSS que son una clase especial de sistemas de información cuyo objetivo es analizar datos de diferentes procedencias y brindar soporte para la toma de decisiones), pero ha evolucionado y se ha transformado en todo un conjunto de tecnologías capaces de satisfacer a una gran gama de usuarios junto a sus necesidades específicas en cuanto al análisis de información. Proceso de BI A fin de comprender cómo una organización puede crear inteligencia de sus datos para, como ya se ha mencionado, proveer a los usuarios finales oportuna y acertadamente acceso a esta información, se describirá a continuación el proceso de BI. El mismo está dividido en cinco fases, las cuales serán explicadas teniendo como referencia el siguiente gráfico, que sintetiza todo el proceso: Fases del proceso de BI FASE 1: Dirigir y Planear. En esta fase inicial es donde se deberán recolectar los requerimientos de información específicos de los diferentes usuarios, así como entender sus diversas necesidades, para que luego en conjunto con ellos se generen las preguntas que les ayudarán a alcanzar sus objetivos. FASE 2: Recolección de Información. Es aquí en donde se realiza el proceso de extraer desde las diferentes fuentes de información de la empresa, tanto internas como externas, los datos que serán necesarios para encontrar las respuestas a las preguntas planteadas en el paso anterior. FASE 3: Procesamiento de Datos. En esta fase es donde se integran y cargan los datos en crudo en un formato utilizable para el análisis. Esta actividad puede realizarse mediante la creación de una nueva base de datos, agregando datos a una base de datos ya existente o bien consolidando la información. FASE 4: Análisis y Producción. Ahora, se procederá a trabajar sobre los datos extraídos e integrados, utilizando herramientas y técnicas propias de la tecnología BI, para crear inteligencia. Como resultado final de esta fase se obtendrán las respuestas a las preguntas, mediante la creación de reportes, indicadores de rendimiento, cuadros de mando, gráficos estadísticos, etc. FASE 5: Difusión. Finalmente, se les entregará a los usuarios que lo requieran las herramientas necesarias, que les permitirán explorar los datos de manera sencilla e intuitiva. Beneficios Entre los beneficios más importantes que BI proporciona a las organizaciones, vale la pena destacar los siguientes: Reduce el tiempo mínimo que se requiere para recoger toda la información relevante de un tema en particular, ya que la misma se encontrará integrada en una fuente única de fácil acceso. Automatiza la asimilación de la información, debido a que la extracción y carga de los datos necesarios se realizará a través de procesos predefinidos. Proporciona herramientas de análisis para establecer comparaciones y tomar decisiones. Cierra el círculo que hace pasar de la decisión a la acción. Permite a los usuarios no depender de reportes o informes programados, porque los mismos serán generados de manera dinámica. Posibilita la formulación y respuesta de preguntas que son claves para el desempeño de la organización. Permite acceder y analizar directamente los indicadores de éxito. Se pueden identificar cuáles son los factores que inciden en el buen o mal funcionamiento de la organización. Se podrán detectar situaciones fuera de lo normal. Permitirá predecir el comportamiento futuro con un alto porcentaje de certeza, basado en el entendimiento del pasado. Los usuarios podrán consultar y analizar los datos de manera sencilla e intuitiva. Data Warehouse Debido a que, para llevar a cabo BI, es necesario gestionar datos guardados en diversos formatos, fuentes y tipos, para luego depurarlos e integrarlos, además de almacenarlos en un solo destino o base de datos que permita su posterior análisis y exploración, es imperativo y de vital importancia contar con un proceso que satisfaga todas estas necesidades. Este proceso se denomina Data Warehousing El Data Warehouse (DWH), es el encargado de extraer, transformar, consolidar, integrar y centralizar los datos que una organización genera en todos los ámbitos de su actividad diaria (compras, ventas, producción, etc.) y/o información externa relacionada. Permitiendo de esta manera el acceso y exploración de la información requerida, a través de una amplia gama de posibilidades de análisis multivariables, con el objetivo final de dar soporte al proceso de toma de decisiones estratégico y táctico. Definición El Data Warehouse posibilita la extracción de datos de sistemas operacionales y fuentes externas, permite la integración y homogeneización de los datos de toda la empresa, provee información que ha sido transformada y sumarizada, para que ayude en el proceso de toma de decisiones estratégicas y tácticas. El Data Warehouse, convertirá entonces los datos operacionales de la empresa en una herramienta competitiva, debido a que pondrá a disposición de los usuarios indicados la información pertinente, correcta e integrada, en el momento que se necesita. Pero para que el Data Warehouse pueda cumplir con sus objetivos, es necesario que la información que se extrae, transforma y consolida, sea almacenada de manera centralizada en una base de datos con estructura multidimensional denominada Data Warehouse (DW). Una de las definiciones más famosas sobre DW es: “Un Data Warehouse es una colección de datos orientada al negocio, integrada, variante en el tiempo y no volátil para el soporte del proceso de toma de decisiones de la gerencia”. William Harvey Inmon Debido a que W. H. Inmon, es reconocido mundialmente como el padre del DW, la explicación de las características más sobresalientes de este concepto se basó en su definición. Características de un Data Warehouse Cabe aclarar que los términos almacén de datos y depósito de datos, son análogos a DW y se utilizarán de aquí en adelante para referirse al mismo. Características Orientada al negocio La primera característica del DW es que la información se clasifica en base a los aspectos que son de interés para la organización. Esta clasificación afecta el diseño y la implementación de los datos encontrados en el almacén de datos, debido a que la estructura del mismo difiere considerablemente a la de los clásicos procesos operacionales orientados a las aplicaciones. A continuación y con el fin de obtener una mejor comprensión de las diferencias existentes entre estos dos tipos de orientación, se realizará un análisis comparativo. Con respecto al nivel de detalle de los datos, el DW excluye la información que no será utilizada exclusivamente en el proceso de toma de decisiones; mientras que en los procesos orientados a las aplicaciones, se incluyen todos aquellos datos que son necesarios para satisfacer de manera inmediata los requerimientos funcionales de la actividad que soporten. Por ejemplo, los datos comunes referidos a los clientes, como su dirección de correo electrónico, fax, teléfono, D.N.I., código postal, etc., que son tan importantes de almacenar en cualquier sistema operacional, no son tenidos en cuenta en el depósito de datos por carecer de valor para la toma de decisiones, pero sí lo serán aquellos que indiquen el tipo de cliente, su clasificación, ubicación geográfica, edad, etc. En lo que concierne a la interacción de la información, los datos operacionales mantienen una relación continua entre dos o más tablas, basadas en alguna regla comercial vigente; en cambio las relaciones encontradas en los datos residentes del DW son muchas, debido a que por lo general cada tabla del mismo estará conformada por la integración de varias tablas u otras fuentes del ambiente operacional, cada una con sus propias reglas de negocio inherentes. El origen de este contraste es totalmente lógico, ya que el ambiente operacional se diseña alrededor de las aplicaciones o programas que necesite la organización para llevar a cabo sus actividades diarias y funciones específicas. Por ejemplo, una aplicación de una empresa minorista manejará: stock, lista de precios, cuentas corrientes, pagos diferidos, impuestos, retenciones, ventas, notas de crédito, compras, etc. De esta manera, la base de datos combinará estos elementos en una estructura que se adapte a sus necesidades. En contraposición, siguiendo con el ejemplo anterior, en una empresa minorista el ambiente DW se organizará alrededor de entidades de alto nivel tales como: clientes, productos, rubros, proveedores, vendedores, zonas, etc., que son precisamente aquellos sujetos mediante los cuales se desea analizar la información. Esto se debe a que el depósito de datos se diseña para realizar consultas e investigaciones sobre las actividades de la organización y no para soportar los procesos que se realizan en ella. En síntesis, la ventaja de contar con procesos orientados a la aplicación, está fundamentada en la alta accesibilidad de los datos, lo que implica un elevado desempeño y velocidad en la ejecución de consultas, ya que las mismas están predeterminadas; mientras que en el DW para satisfacer esta ventaja se requiere que la información este desnormalizada, es decir, con redundancia y que la misma esté dimensionada, para evitar tener que recorrer toda la base de datos cuando se necesite realizar algún análisis determinado, sino que simplemente la consulta sea enfocada por variables de análisis que permitan localizar los datos de manera rápida y eficaz, para poder de esta manera satisfacer una alta demanda de complejos exámenes en un mínimo tiempo de respuesta. Integrada La integración implica que todos los datos de diversas fuentes que son producidos por distintos departamentos, secciones y aplicaciones, tanto internos como externos, deben ser consolidados en una instancia antes de ser agregados al DW y deben por lo tanto ser analizados para asegurar su calidad y limpieza, entre otras cosas. A este proceso se lo conoce como Integración de Datos, y cuenta con diversas técnicas y subprocesos para llevar a cabo sus tareas. Una de estas técnicas son los procesos ETL: Extracción, Transformación y Carga de Datos (Extraction, Transformation and Load). Si bien el proceso ETL es solo una de las muchas técnicas de la Integración de Datos, el resto de estas técnicas puede agruparse muy bien en sus diferentes etapas. Es decir, en el proceso de Extracción tendremos un grupo de técnicas enfocadas por ejemplo en tomar solo los datos indicados y mantenerlos en un almacenamiento intermedio; en el proceso de Transformación por ejemplo estarán aquellas técnicas que analizarán los datos para verificar que sean correctos y válidos; en el proceso de Carga de Datos se agruparán por ejemplo técnicas propias de la carga y actualización del DW. La integración de datos resuelve diferentes tipos de problemas relacionados con las convenciones de nombres, unidades de medidas, codificaciones, fuentes múltiples, etc., cada uno de los cuales será correctamente detallado y ejemplificado más adelante. La causa de dichos problemas se debe principalmente a que a través de los años los diseñadores y programadores no se han basado en ningún estándar concreto para definir nombres de variables, tipos de datos, etc., ya sea por carecer de ellos o por no creer que sean necesarios. Por lo cual, cada uno por su parte ha dejado en cada aplicación, módulo, tabla, etc., su propio estilo personalizado, confluyendo de esta manera en la creación de modelos muy inconsistentes e incompatibles entre sí. Los puntos de integración afectan casi todos los aspectos de diseño y cualquiera sea su forma, el resultado es el mismo, ya que la información será almacenada en el DW en un modelo globalmente aceptable y singular, aun cuando los sistemas operacionales y demás fuentes almacenen los datos de maneras disímiles, para que de esta manera los usuarios finales estén enfocados en la utilización de los datos del depósito y no deban cuestionarse sobre la confiabilidad o solidez de los mismos. Variante en el tiempo Debido al gran volumen de información que se manejará en el DW, cuando se le realiza una consulta, los resultados deseados demorarán en originarse. Este espacio de tiempo que se produce desde la búsqueda de datos hasta su consecución es del todo normal en este ambiente y es precisamente por ello que la información que se encuentra dentro del depósito de datos se denomina de tiempo variable. Esta característica básica es muy diferente de la información encontrada en el ambiente operacional, en el cual los datos se requieren en el momento de acceder, es decir, que se espera que los valores procurados se obtengan a partir del momento mismo de acceso. Además, toda la información en el DW posee su propio sello de tiempo: DW variante en el tiempo Esto contribuye a una de las principales ventajas del almacén de datos: los datos son almacenados junto a sus respectivos históricos. Esta cualidad que no se encuentra en fuentes de datos operacionales, garantiza poder desarrollar análisis de la dinámica de la información, pues ella es procesada como una serie de instantáneas, cada una representando un periodo de tiempo. Es decir, que gracias al sello de tiempo se podrá tener acceso a diferentes versiones de la misma información. Es importante tener en cuenta la granularidad de los datos, así como también la intensidad de cambio natural del comportamiento de los fenómenos de la actividad que se desarrolle, para evitar crecimientos incontrolables y desbordamientos de la base de datos. El intervalo de tiempo y periodicidad de los datos debe definirse de acuerdo con la necesidad y requisitos de los usuarios. Es elemental aclarar que el almacenamiento de datos históricos es lo que permite al DW desarrollar pronósticos y análisis de tendencias y patrones, a partir de una base estadística de información. No volátil La información es útil para el análisis y la toma de decisiones solo cuando es estable. Los datos operacionales varían momento a momento, en cambio, los datos una vez que entran en el DW no cambian. La actualización, o sea, insertar, eliminar y modificar, se hace de forma muy habitual en el ambiente operacional sobre una base, registro por registro, en cambio en el depósito de datos la manipulación básica de los datos es mucho más simple, debido a que solo existen dos tipos de operaciones: la carga de datos y el acceso a los mismos. Por esta razón es que en el DW no se requieren mecanismos de control de concurrencia y recuperación. DW no volátil Cualidades Una de las primeras cualidades que se puede mencionar del DW, es que maneja un gran volumen de datos, debido a que consolida en su estructura la información recolectada durante años, proveniente de diversas fuentes y áreas, en un solo lugar centralizado. Es por esta razón que el depósito puede ser soportado y mantenido sobre diversos medios de almacenamiento. Además, como ya se ha mencionado, el almacén de datos presenta la información sumariada y agregada desde múltiples versiones y maneja información histórica. Organiza y almacena los datos que se necesitan para realizar consultas y procesos analíticos, con el propósito de responder a preguntas complejas y brindarles a los usuarios finales la posibilidad de que, mediante una interface amigable, intuitiva y fácil de utilizar, puedan tomar decisiones sobre los datos sin tener que poseer demasiados conocimientos informáticos. El DW permite un acceso más directo, es decir, la información gira en torno al negocio y es por ello por lo que también los usuarios pueden sentirse cómodos al explorar los datos y encontrar relaciones complejas entre los mismos. Cabe aclarar que el Data Warehouse no se compone solo de datos, ni tampoco solo se trata de un depósito de datos aislado. El Data Warehouse hace referencia a un conjunto de herramientas para consultar, analizar y presentar información, que permiten obtener o realizar análisis, reporting, extracción y explotación de los datos, con alto rendimiento, para transformar dichos datos en información valiosa para la organización. Con respecto a las tecnologías que son empleadas, se pueden encontrar las siguientes: Arquitectura cliente/servidor. Técnicas avanzadas para replicar, refrescar y actualizar datos. Software front-end, para acceso y análisis de datos. Herramientas para extraer, transformar y cargar datos en el depósito, desde múltiples fuentes muy heterogéneas. Sistema de Gestión de Base de Datos (SGBD). Todas las cualidades expuestas anteriormente, son imposibles de saldar en un típico ambiente operacional, y esto es una de las razones de ser del Data Warehouse. Ventajas A continuación se enumerarán algunas de las ventajas más sobresalientes que trae aparejada la implementación de un Data Warehouse y que ejemplifican de mejor modo sus características y cualidades: Transforma datos orientados a las aplicaciones en información orientada a la toma de decisiones. Integra y consolida diferentes fuentes de datos (internas y/o externas) y departamentos empresariales, que anteriormente formaban islas, en una única plataforma sólida y centralizada. Provee la capacidad de analizar y explotar las diferentes áreas de trabajo y de realizar un análisis inmediato de las mismas. Permite reaccionar rápidamente a los cambios del mercado. Aumenta la competitividad en el mercado. Elimina la producción y el procesamiento de datos que no son utilizados ni necesarios, producto de aplicaciones mal diseñadas o ya no utilizadas. Mejora la entrega de información, es decir, información completa, correcta, consistente, oportuna y accesible. Información que los usuarios necesitan, en el momento adecuado y en el formato apropiado. Logra un impacto positivo sobre los procesos de toma de decisiones. Cuando los usuarios tienen acceso a una mejor calidad de información, la empresa puede lograr por sí misma: aprovechar el enorme valor potencial de sus recursos de información y transformarlo en valor verdadero; eliminar los retardos de los procesos que resultan de información incorrecta, inconsistente y/o inexistente; integrar y optimizar procesos a través del uso compartido e integrado de las fuentes de información; permitir a los usuarios adquirir mayor confianza acerca de sus propias decisiones y de las del resto, y lograr así, un mayor entendimiento de los impactos ocasionados. Aumento de la eficiencia de los encargados de tomar decisiones. Los usuarios pueden acceder directamente a la información en línea, lo que contribuye a su capacidad para operar con mayor efectividad en las tareas rutinarias o no. Además, pueden tener a su disposición una gran cantidad de valiosa información multidimensional, presentada coherentemente como fuente única, confiable y disponible en sus estaciones de trabajo. Así mismo, los usuarios tienen la facilidad de contar con herramientas que les son familiares para manipular y evaluar la información obtenida en el DW, tales como: hojas de cálculo, procesadores de texto, software de análisis de datos, software de análisis estadístico, reportes, tableros, etc. Permite la toma de decisiones estratégicas y tácticas. Desventajas A continuación se enumerarán algunas de las desventajas más comunes que se pueden presentar en la implementación de un Data Warehouse: Requiere una gran inversión, debido a que su correcta construcción no es tarea sencilla y consume muchos recursos, además, su misma implementación implica desde la adquisición de herramientas de consulta y análisis, hasta la capacitación de los usuarios. Existe resistencia al cambio por parte de los usuarios. Los beneficios del almacén de datos son apreciados en el mediano y largo plazo. Este punto deriva del anterior, y básicamente se refiere a que no todos los usuarios confiarán en el DW en una primera instancia, pero sí lo harán una vez que comprueben su efectividad y ventajas. Además, su correcta utilización surge de la propia experiencia. Si se incluyen datos propios y confidenciales de clientes, proveedores, etc., el depósito de datos atentará contra la privacidad de los mismos, ya que cualquier usuario podrá tener acceso a ellos. Infravaloración de los recursos necesarios para la captura, carga y almacenamiento de los datos. Infravaloración del esfuerzo necesario para su diseño y creación. Incremento continuo de los requerimientos de los usuarios. Subestimación de las capacidades que puede brindar la correcta utilización del DWH y de las herramientas de BI en general. Redundancia Debido a que el DW recibe información histórica de diferentes fuentes, sencillamente se podría suponer que existe una repetición de datos masiva entre el ambiente DW y el operacional. Por supuesto, este razonamiento es superficial y erróneo, de hecho, hay una mínima redundancia de datos entre ambos ambientes. Para entender claramente lo antes expuesto, se debe considerar lo siguiente: Los datos del ambiente operacional se filtran antes de pertenecer al DW. Existen muchos datos que nunca ingresarán, ya que no conforman información necesaria o suficientemente relevante para la toma de decisiones. El horizonte de tiempo es muy diferente entre los dos ambientes. El almacén de datos contiene un resumen de la información que no se encuentra en el ambiente operacional. Los datos experimentan una considerable transformación, antes de ser cargados al DW. La mayor parte de los datos se alteran significativamente al ser seleccionados, consolidados y movidos al depósito. En vista de estos factores, se puede afirmar que, la redundancia encontrada al cotejar los datos de ambos ambientes es mínima, ya que generalmente resulta en un porcentaje menor del 1%. Estructura Los DW estructuran los datos de manera muy particular y existen diferentes niveles de esquematización y detalle que los delimitan. En la siguiente figura se puede apreciar mejor su respectiva estructura. Estructura de un DW Como se puede observar, los almacenes de datos están compuestos por diversos tipos de datos, que se organizan y dividen de acuerdo con el nivel de detalle o granularidad que posean. A continuación, se explicarán cada uno de estos tipos de datos: Detalle de datos actuales: son aquellos que reflejan las ocurrencias más recientes. Generalmente se almacenan en disco, aunque su administración sea costosa y compleja, con el fin de conseguir que el acceso a la información sea sencillo y veloz, ya que son bastante voluminosos. Su gran tamaño se debe a que los datos residentes poseen el más bajo nivel de granularidad, o sea, se almacenan a nivel de detalle. Por ejemplo, aquí es donde se guardaría el detalle de una venta realizada en tal fecha. Detalle de datos históricos: representan aquellos datos antiguos, que no son frecuentemente consultados. También se almacenan a nivel de detalle, normalmente sobre alguna forma de almacenamiento externa, ya que son muy pesados y en adición a esto, no son requeridos con mucha periodicidad. Este tipo de datos son consistentes con los de Detalle de datos actuales. Por ejemplo, en este nivel, al igual que en el anterior, se encontraría el detalle de una venta realizada en tal fecha, pero con la particularidad de que el día en que se registró la venta debe ser lo suficientemente antigua, para que se considere como histórica. Datos ligeramente resumidos: son los que provienen desde un bajo nivel de detalle y sumarizan o agrupan los datos bajo algún criterio o condición de análisis. Habitualmente son almacenados en disco. Por ejemplo, en este caso se almacenaría la sumarización del detalle de las ventas realizadas en cada mes. Datos altamente resumidos: son aquellos que compactan aún más a los datos ligeramente resumidos. Se guardan en disco y son muy fáciles de acceder. Por ejemplo, aquí se encontraría la sumarización de las ventas realizadas en cada año. Metadatos: representan la información acerca de los datos. De muchas maneras se sitúa en una dimensión diferente al de otros datos del DW, ya que su contenido no es tomado directamente desde el ambiente operacional. Estos diferentes niveles de detalle o granularidad se obtienen a través de tablas de hechos agregadas y/o preagregadas. Flujo de Datos El DW posee un flujo de datos estándar y generalizado, el cual puede apreciarse mejor en la siguiente figura. Flujo de datos de un DW Cuando la información ingresa al depósito de datos se almacena a nivel de Detalle de datos actuales. Los datos permanecerán allí hasta que ocurra alguno de los tres eventos siguientes: Sean borrados del depósito de datos. Sean resumidos, ya sea a nivel de Datos ligeramente resumidos o a nivel de Datos altamente resumidos. Sean archivados a nivel de Detalle de datos históricos. Otros conceptos relacionados con los DW Data Mart Ver tema de Data Marts. SGBD Los SGBD (Sistema de Gestión de Base de Datos) son un tipo de software muy específico, dedicados a servir de interfaz entre la base de datos, los usuarios y las aplicaciones que lo utilizan. Se compone de lenguajes de definición, manipulación, consulta y seguridad de datos. El propósito general de los SGBD es el de manejar de manera clara, sencilla y ordenada un conjunto de datos. Existen diferentes objetivos que deben cumplir los SGBD: Hacer transparente a los usuarios los detalles del almacenamiento físico de los datos, mediante varios niveles de abstracción de la información. Permitir la realización de cambios a la estructura de la base de datos, sin tener que modificar la aplicación que la emplea. Proveer a los usuarios la seguridad de que sus datos no podrán ser accedidos, ni manipulados por quien no tenga permiso para ello. Debido a esto, debe poseer un complejo sistema que maneje grupos, usuarios y permisos para las diferentes actividades que se pueden realizar dentro del mismo. Mantener la integridad de los datos. Proporcionar una manera eficiente de realizar copias de seguridad de la información almacenada en ellos, y permitir a partir de estas copias restaurar los datos. Controlar el acceso concurrente de los usuarios. Facilitar el manejo de grandes volúmenes de información. Existen dos tipos de SGBD: 1. SGBD Multidimensionales: estos aportan mucho rendimiento al DW en cuanto a la velocidad de respuesta, ya que los datos son almacenados en forma multidimensional, sin embargo son difíciles de gestionar y de mantener. 2. SGBD Relacionales: estos son cada vez más potentes y poseen una interfaz gráfica más avanzada. Particionamiento En un DW, el particionamiento se utiliza mayormente para dividir una tabla de hechos, en varias tablas más pequeñas, a través de un criterio preestablecido. Usualmente, existen dos razones principales, por las cuales se emplea esta práctica: Posibilitar un fácil y optimizado mantenimiento del DW y de sus correspondientes ETL. Aumentar el rendimiento de las consultas. Las particiones mejoran los resultados de las consultas, ya que reducen al mínimo el número de registros de una tabla que deben leerse para satisfacer las consultas. Mediante la distribución de los datos en varias tablas, las particiones mejoran la velocidad y la eficacia de las consultas al almacén. El tiempo es el criterio más comúnmente utilizado para realizar particiones, ya que de esta manera se limita el crecimiento de las tablas y se aumenta la estabilidad. Las particiones pueden ser lógicas, físicas, horizontales o verticales. Business Models Un Business Model es una representación de los datos desde una perspectiva empresarial, que permite que se pueda visualizar la información del negocio y su respectiva interrelación. Se compone de entidades, atributos y relaciones, que están enfocados en dar respuesta a las preguntas de la información que se desea conocer. El Business Model permite definir el comportamiento que tendrá cada miembro dentro de este, como por ejemplo indicar cuáles campos serán utilizados para realizar sumarizaciones y cuál será el criterio empleado a tal fin y cuáles serán los campos que se utilizarán para analizar la información. Pero lo más importante de este tipo de estructura de datos, es que el mismo se define a través de reglas de negocio y teniendo en cuenta las áreas temáticas que son de interés en la empresa. A continuación se listarán algunas de sus características más sobresalientes: Es completamente independiente de las estructuras organizacionales. Plantea la información de la empresa como si fuesen piezas que encajan entre sí. Áreas de Datos Dentro del diseño de la arquitectura de un sistema de Data Warehouse es conveniente tener en consideración los diferentes entornos por los que han de pasar los datos en su camino hacia el DW o hacia los Data Marts de destino. Dada la cantidad de transformaciones que se han de realizar, y que normalmente el DW, además de cumplir su función de soporte a los requerimientos analíticos, realiza una función de integración de datos que van a conformar el Almacén Corporativo y que van a tener que ser consultados también de la manera tradicional por los sistemas operacionales, es muy recomendable crear diferentes áreas de datos en el camino entre los sistemas origen y las herramientas OLAP. Cada una de estas áreas se distingue por las funciones que realiza, de qué manera se organizan los datos en la misma, y a qué tipo de necesidad pueden dar servicio. El área que se encuentra ’al final del camino’ es importante, pero no va a ser la única que almacene los datos que van a explotar las herramientas de reporting. Tampoco hay una convención estándar sobre lo que abarca exactamente cada área, y la obligatoriedad de utilizar cada una de ellas. Cada proyecto es diferente, e influyen muchos factores como la complejidad, el volumen de información del mismo, si realmente se quiere utilizar el Data Warehouse como almacén corporativo o Sistema Maestro de Datos, o si existen necesidades reales de soporte al reporting operacional. En los siguientes puntos se explican las áreas de datos que suelen utilizarse, y se perfila una propuesta de arquitectura que hay que adaptar a las necesidades de cada proyecto, y teniendo en cuenta que la utilización de cada área de datos ha de estar justificada. No siempre todas son necesarias. Áreas de datos Staging Area Es un área temporal donde se recogen los datos que se necesitan de los sistemas origen. Se recogen los datos estrictamente necesarios para las cargas y se aplica el mínimo de transformaciones a los mismos. No se aplican restricciones de integridad ni se utilizan claves, los datos se tratan como si las tablas fueran ficheros planos. De esta manera se minimiza la afectación a los sistemas origen, la carga es lo más rápida posible para acotar la ventana horaria necesaria, y se reduce también al mínimo la posibilidad de error. Una vez que los datos han sido traspasados, el DW se independiza de los sistemas origen hasta la siguiente carga. Lo único que se suele añadir es algún campo que almacene la fecha de la carga. Obviamente estos datos no van a dar servicio a ninguna aplicación de reporting, son datos temporales que una vez hayan cumplido su función son eliminados. De hecho, en el esquema lógico de la arquitectura muchas veces no aparece, ya que su función es meramente operativa. Algunos autores consideran que la Staging Area abarca más de lo comentado, o incluso que engloba todo el entorno donde se realizan los procesos de ETL, en este documento se considera sólo como área temporal. Operational Data Store Como su nombre indica, esta área es la que da soporte a los sistemas operacionales. El modelo de datos del Almacén de Datos Operacional (ODS) sigue una estructura relacional y normalizada, para que cualquier herramienta de reporting o sistema operacional pueda consultar sus datos. Está dentro del Data Warehouse porque se aprovecha el esfuerzo de integración que supone la creación del Almacén de Datos Corporativo para poder atender también a necesidades operacionales, pero no es obligatorio. Ni siquiera es algo específico del BI, los ODS ya existían antes de que surgieran los conceptos de Data Warehouse y Business Intelligence. No almacena datos históricos, muestra la imagen del momento actual, aunque eso no significa que no se puedan registrar los cambios. Los datos del ODS se recogen de la Staging Area, y en este proceso sí que se realizan transformaciones, limpieza de datos y controles de integridad referencial para que los datos estén perfectamente integrados en el modelo relacional normalizado. Se debe tener en cuenta que la actualización de los datos del ODS no es instantánea, los cambios en los datos de los sistemas origen no se ven reflejados hasta que finaliza la carga correspondiente. Es decir, que los datos se refrescan cada cierto tiempo, cosa que hay que explicar a los usuarios finales, porque los informes que se lancen contra el ODS siempre devolverán información a fecha de la última carga. Por esta razón es recomendable definir una mayor frecuencia de carga para el ODS que para el Almacén Corporativo. Se puede refrescar el ODS cada 15 minutos, y el resto cada día, por ejemplo. Almacén de Datos Corporativo El Almacén de Datos Corporativo (DW) sí que contiene datos históricos, y está orientado a la explotación analítica de la información que recoge. Las herramientas DSS o de reporting analítico consultan tanto los Data Marts como el Almacén de Datos Corporativo. El DW puede servir consultas en las que se precisa mostrar a la vez información que se encuentre en diferentes Data Marts. En él se almacenan datos que pueden provenir tanto de la Staging Area como del ODS. Si ya se realizan procesos de transformación e integración en el ODS no se repiten para pasar los mismos datos al Almacén Corporativo. Lo que no se pueda recoger desde el ODS sí que hay que ir a buscarlo a la Staging Area. El esquema se parece al de un modelo relacional normalizado, pero en él ya se aplican técnicas de desnormalización. No debería contener un número excesivo de tablas ni de relaciones ya que, por ejemplo, muchas relaciones jerárquicas que en un modelo normalizado se implementarían con tablas separadas aquí ya deberían crearse en una misma tabla, que después representará una dimensión. Otra particularidad es que la mayoría de las tablas han de incorporar campos de fecha para controlar la fecha de carga, la fecha en que se produce un hecho, o el periodo de validez del registro. Si el Data Warehouse no es demasiado grande, o el nivel de exigencia no es muy elevado en cuanto a los requerimientos ’operacionales’, para simplificar la estructura se puede optar por prescindir del ODS, y si es necesario adecuar el Almacén de Datos Corporativo para servir tanto al reporting operacional como al analítico. En este caso, el área resultante sería el DW Corporativo, pero en ocasiones también se denomina como ODS. Data Mart Otra área de datos es el lugar donde se crean los Data Marts. Éstos acostumbran a obtenerse a partir de la información recopilada en el área del Almacén Corporativo, aunque también puede ser a la inversa. Cada Data Mart es como un subconjunto de este almacén, pero orientado a un tema de análisis, normalmente asociado a un departamento de la empresa. El Data Mart se diseña con estructura multidimensional, cada objeto de análisis es una tabla de hechos enlazada con diversas tablas de dimensiones. Si se diseña siguiendo el Modelo en Estrella habrá prácticamente una tabla para cada dimensión, es la versión más desnormalizada. Si se sigue un modelo de Copo de Nieve las tablas de dimensiones estarán menos desnormalizadas y para cada dimensión se podrán utilizar varias tablas enlazadas jerárquicamente. Esta área puede residir en la misma base de datos que las demás si la herramienta de explotación es de tipo ROLAP, o también puede crearse ya fuera de la BD, en la estructura de datos propia que generan las aplicaciones de tipo MOLAP, más conocida como los cubos multidimensionales. Si se sigue una aproximación Top-down para la creación de los Data Mart, el paso del área de DW a esta ha de ser bastante simple, cosa que además proporciona una cierta independencia sobre el software que se utiliza para el reporting analítico. Si por cualquier razón es necesario cambiar la herramienta de OLAP hay que hacer poco más que redefinir los metadatos y regenerar los cubos, y si el cambio es entre dos de tipo ROLAP ni siquiera esto último sería necesario. En cualquier caso, las áreas anteriores no tienen por qué ser modificadas. Herramientas Business Intelligence A continuación, enumeramos algunas herramientas BI clasificadas en productos de fuente abierta o productos comerciales. También se incluye el cuadrante mágico de Gartner en el que se visualizan posicionados todos los actores en relación a sus capacidades. Productos de fuente abierta de inteligencia de negocios Eclipse BIRT (Business Intelligence Reporting Tool) Project: Generador de informes para aplicaciones Web de código abierto basado en Eclipse. El proyecto BIRT también incluye un motor de gráficos que está integrado en el diseñador de informes y además puede ser usado por separado para incluir gráficas en una aplicación. JasperReports: es una biblioteca de creación de informes que tiene la habilidad de entregar contenido enriquecido. JasperReports se usa junto a un front end gráfico de código abierto llamado JasperSoft (antes iReport). Logi Report: Aplicación de BI gratuita basada en Web de la empresa Logi Analytics con 4 líneas de productos, una plataforma de Business Analitycs (Logi Info), una aplicación de descubrimiento de datos (Logi Vision) y una aplicación para crear cuadros de mando, informes y análisis (Logi Adhoc). Palo: incluye un servidor OLAP, un servidor ETL e integración con Excel. El producto pertenece a Jedox que ofrece la versión comercial. Pentaho: ofrece una suite con herramientas analíticas BI y para Big Data con capacidades de minería de datos, informes y cuadros de mando. Pentaho tiene una versión comercial con características más avanzadas e integradas que la versión Community que es la versión libre. RapidMiner (antes llamado YALE): Permite el desarrollo de procesos de análisis de datos mediante el encadenamiento de operadores a través de un entorno gráfico. SpagoBI: desarrollada enteramente de acuerdo a la filosofía de software libre. Ofrece soluciones para la presentación de informes, análisis multidimensional (OLAP), minería de datos (Data Mining), tableros de mando (Dashboard) y consultas ad-hoc. Añade módulos originales para la gestión de procesos de colaboración a través de análisis dossiers y el análisis de geo-referencia. Cuenta con herramientas para la extracción de datos, transformación y carga (ETL), aprobación de flujos de trabajo (workflow) etc. Otros: Talend, Knime, Openl. Productos comerciales Microsoft SQL Server – Suite de Herramienta de BI (Analysis Services, Integration Services y Reporting Services): Microsoft integra sus herramientas de BI con su servidor de Base de Datos y sus herramientas ofimáticas como Excel. Ofrece las siguientes modalidades: SQL Server Integration Services: Una herramienta de ETL que posibilita la extracción de datos de distintos orígenes (no solo SQL Server). SQL Server Analysis Services: Una herramienta para crear Bases de Datos Multidimensionales (no relacionales) que utiliza MDX (un lenguaje parecido a SQL, adaptado a bases de datos multidimensionales). SQL Server Reporting Services: Una herramienta para crear, distribuir y dar formato a informes. MicroStrategy: software OLAP, de inteligencia de negocio y de informes para empresas basados en un OLAP relacional, aunque también soporta MOLAP. Se integra con Hadoop y otros motores orientados a Big Data. QlikView: Destaca por su sencillez, su rapidez y ser muy visual. El producto no cubre todas las necesidades de BI (no compite en el terreno del reporting por ejemplo), pero cubre construcción de cuadros de mando, soluciones analíticas. No emplea modelos relacionales ni cubos en su solución, obteniendo tiempos de respuesta tan altos gracias a Bases de datos basadas en columnas. Tableau: Ofrece 5 productos: Tableau Desktop, Tableau Server, Tableau Reader y Tableau Public, siendo estos 2 últimos servicios gratuitos. Tableu se caracteriza por tener una conexión directa a los datos sin tener que crear cubos o tablas temporales. Oracle Corporation (Oracle Business Intelligence Server): Es un servidor de análisis, generación de informes y consultas. Su suite de BI consiste en los sistemas adquiridos a Siebel, Hyperion y otras empresas. Otros: Alteryx, Applix, SAP Business Information Warehouse y SAP Lumira, SAS Institute, BIRST, Board International, Business Objects, IBM Cognos, ClearStory Data, DOMO, DataWatch, GoodData, Pentaho BI_SW, Pyramid analytics, Platfora, Jedox, Teradata TIBCO Software, Yellowfin Business Intelligence, SPSS, Sales Force. Cuadrante Mágico de Gartner para plataformas de BI Oposiciones TIC WP Notes theme by VitaThemes Inicio Acerca de Blog Contacto Mapa del sitio web

Use Quizgecko on...
Browser
Browser