3 Datawarehouse

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

¿Es obligatorio realizar la extracción de datos para construir el data warehouse?

  • Sí (correct)
  • No

¿Cuáles son dos etapas del proceso ETL?

  • Limpieza
  • Consulta
  • A y B son correctas (correct)
  • Transformación

Los data mart hacen parte del proceso data warehouse

True (A)

¿Para la realización del data warehouse existen dos clasificaciones diferentes de arquitectura?

<p>B y C son correctas (B)</p> Signup and view all the answers

¿Cuáles pueden ser dos posibles fuentes de datos?

<p>Bases de datos relacionales y archivos de texto plano (B)</p> Signup and view all the answers

ROLAP y HOLAP son tipo del modelo OLAP

<p>True (A)</p> Signup and view all the answers

El modelo ROLAP es aquel donde el acceso se hace directamente a las bases de datos relacionales y las dimensionales.

<p>True (A)</p> Signup and view all the answers

El autor Bill Inmon definió las características que debe cumplir un data warehouse.

<p>A y C son correctas. (C)</p> Signup and view all the answers

¿Cuál es la función del data warehouse?

<p>Ayudar en la toma de decisiones. (B), Centralizar los datos para facilitar el manejo. (C)</p> Signup and view all the answers

Siempre deben existir los data marts

<p>False (B)</p> Signup and view all the answers

Flashcards

¿Qué es un Data Warehouse?

Almacena datos para facilitar su acceso, flexibilidad y administración, respondiendo a las necesidades de información consistente e integrada.

¿Qué son las fuentes externas de datos?

Información comercial, encuestas, estudios de mercado que enriquecen los datos internos de la empresa.

¿Cuáles son las características de un Data Warehouse según Inmon?

Orientado a un área, integrado, indexado en el tiempo y no volátil.

¿Qué significa 'Orientado a un área' en un Data Warehouse?

Que cada parte resuelva un problema de negocio definido por los responsables de la toma de decisiones.

Signup and view all the flashcards

¿Qué significa 'Integrado' en un Data Warehouse?

Convertir la información a medidas, códigos y formatos comunes para su utilidad.

Signup and view all the flashcards

¿Qué significa 'Indexado en el tiempo' en un Data Warehouse?

Mantener y almacenar información histórica en unidades de tiempo específicas.

Signup and view all the flashcards

¿Qué significa 'No volátil' en un Data Warehouse?

La información se almacena para la toma de decisiones y no es mantenida por los usuarios.

Signup and view all the flashcards

¿Cuáles son los objetivos de un Data Warehouse según Kimbal?

Acceder a la información, ser consistente, separar información para análisis, usar herramientas de presentación, facilitar la publicación y tener alta calidad.

Signup and view all the flashcards

¿Qué características debe asegurar un Data Warehouse según Barrer?

Alta disponibilidad, rendimiento, copias de seguridad, recuperación y recuperación física en caliente.

Signup and view all the flashcards

¿Cuáles son los modelos de Data Warehouse más utilizados?

Modelo estrella y modelo copo de nieve.

Signup and view all the flashcards

¿Qué forma el modelo estrella?

Tabla central de 'hechos' y varias 'dimensiones', incluyendo una dimensión de 'tiempo'.

Signup and view all the flashcards

¿Qué son los 'hechos' en un modelo estrella?

Las ventas en un data warehouse de ventas, o los elementos del balance en uno financiero.

Signup and view all the flashcards

¿Qué tipo de modelo es el modelo estrella?

Modelo desnormalizado que busca una mejora en el rendimiento de las consultas.

Signup and view all the flashcards

¿Qué diferencia al modelo copo de nieve del modelo estrella?

La tabla de hechos ya no es la única que se relaciona con otras tablas.

Signup and view all the flashcards

¿Cuál es una ventaja del modelo copo de nieve?

Evita la redundancia de datos debido a que está normalizado.

Signup and view all the flashcards

¿Cómo se representan los Data Warehouses normalmente?

Almacenes de datos centralizados para facilitar el manejo de la información.

Signup and view all the flashcards

¿Cuáles son las dos clasificaciones para la arquitectura de un Data Warehouse?

Orientada a la estructura (capas) o a cómo se emplean las capas para crear vistas departamentales.

Signup and view all the flashcards

¿Cuál es la debilidad de la arquitectura de una sola capa?

No cumple con los requisitos de separación entre procesamiento analítico y transaccional.

Signup and view all the flashcards

¿Cuáles son las etapas de flujo de datos en una arquitectura de dos capas?

Capa de origen, almacenamiento de datos, depósito de datos y análisis.

Signup and view all the flashcards

¿Qué caracteriza la capa de origen?

Fuentes heterogéneas de datos, actualización y pocos datos históricos.

Signup and view all the flashcards

¿Qué sucede en la capa de almacenamiento de datos?

Extraer, limpiar, integrar y transformar datos en un esquema común (proceso ETL).

Signup and view all the flashcards

¿Qué es la capa de depósito de datos?

Información almacenada centralizadamente, acceso directo y fuente para crear data marts.

Signup and view all the flashcards

¿Qué se hace en la capa de análisis?

Acceso eficiente a los datos integrados para generar informes, análisis y escenarios de negocio.

Signup and view all the flashcards

¿En qué se enfoca el éxito de un Data Warehouse?

Mejorar procesos empresariales, operacionales y de toma de decisiones.

Signup and view all the flashcards

¿Qué se requiere de los usuarios al implementar un Data Warehouse?

Adquirir nuevas destrezas y capacitación adecuada.

Signup and view all the flashcards

¿Cómo impacta el Data Warehouse en los procesos de toma de decisiones?

Mejora la disponibilidad de la información y la rapidez en la toma de decisiones.

Signup and view all the flashcards

¿Qué es un data mart?

Conjunto de datos más pequeño que facilita el manejo de la información para un departamento específico.

Signup and view all the flashcards

¿A quiénes están dirigidos los data marts?

Dirigidos a un conjunto de usuarios dentro de la empresa (departamento, nivel administrativo, grupo de trabajo).

Signup and view all the flashcards

¿Cómo pueden ser los data marts?

Utilizan datos y metadatos del data warehouse directamente (dependientes) o tomados de cada área (independientes).

Signup and view all the flashcards

¿Qué es el metadata?

Repositorio central de información que abarca todos los niveles del Data Warehouse o data mart.

Signup and view all the flashcards

Study Notes

Almacén de Datos (Data Warehouse)

  • Un data warehouse busca almacenar datos de forma que sea fácil de acceder, flexible y de fácil administración.
  • Surge de las necesidades de usuarios que necesitan información integrada, consistente, histórica y preparada para la toma de decisiones.
  • Un data warehouse permite analizar la información contextualizada y relacionada dentro la organización.

Fuentes de Datos

  • Las fuentes de datos soportan la información del data warehouse.
  • Las fuentes externas son esenciales para mejorar la información que se tiene de clientes.
  • Se pueden incorporar datos como la población, el número de habitantes y los presupuestos públicos.
  • Bill Inmon define las características que debe cumplir un data warehouse:
    • Debe estar orientado a un área.
    • Integrado.
    • Indexado al tiempo.
    • Conjunto no volátil de información que soporta la toma de decisiones.
  • Cada parte del data warehouse está construida para resolver un problema de negocio, que ha sido definido por los que toman decisiones.
  • La información debe ser convertida a medidas, códigos y formatos comunes.
  • La información histórica se mantiene y se almacena en unidades de tiempo (horas, días, semanas etc).
  • La información no es mantenida por los usuarios, sino que se almacena para la toma de decisiones y la actualización no se realiza de forma continua, sino periódicamente.

Objetivos del Data Warehouse

  • Acceder a la información de la empresa o del área funcional.
  • Ser consistente.
  • Separar la información para analizarla a nivel individual o de manera conjunta.
  • Utilizar herramientas de presentación de la información.
  • Facilitar la publicación de la información.
  • Tener alta calidad para soportar procesos de reutilización.
  • Los usuarios de negocio necesitan tomar decisiones basadas en la información del data warehouse, por lo que se debe asegurar:
    • Alta disponibilidad.
    • Rendimiento.
    • Copias de seguridad y recuperación.
    • Recuperación física en caliente.

Modelos de Data Warehouse

  • El modelo estrella y copo de nieve son las estructuras más utilizadas, con nombres basados en el dibujo que forman al crearse.

Modelo Estrella

  • Es el modelo más sencillo.
  • Está formado por una tabla central de «hechos» y varias «dimensiones», incluida una dimensión de «tiempo».
  • Solo existe una tabla de dimensiones para cada dimensión.
  • La única tabla que tiene relación con otra es la de hechos, de modo que, toda la información relacionada con una dimensión debe estar en una sola tabla.

Modelo Estrella en Ventas

  • Los hechos son las ventas.
  • Los elementos del balance en uno financiero.
  • Los conceptos de apertura y precio de cierre en uno de análisis de la bolsa.
  • En la tabla de hechos la clave está conformada por las claves foráneas que apuntan a las dimensiones.
  • Para una tienda, un día y un producto solo puede existir un valor de precio y unidad.
  • Es un modelo desnormalizado que busca una mejora en el rendimiento de las consultas, ya que los join en las bases de datos relacionales pueden ser muy pesados.

Ventajas y desventajas del modelo Estrella:

  • Simple y rápido para un análisis multidimensional que permite consultar datos agregados y detalles.
  • Permite implementar la funcionalidad de los datos multidimensionales y las ventajas de una base de datos relacional.
  • En cuanto a rendimiento es la mejor opción, ya que permite indexar las dimensiones de forma individualizada sin que el rendimiento de la base de datos se vea afectado.

Modelo Copo de Nieve

  • En este modelo la tabla de hechos ya no es la única que se relaciona con otras tablas, ya que existen otras tablas que se relacionan con las dimensiones y que no tienen relación directa con la tabla de hechos.
  • Facilita el mantenimiento de las dimensiones, pero permite que se vinculen más tablas a las secuencias SQL.
  • Es complejo de mantener debido a la vinculación de muchas tablas.

Ventajas y Desventajas del Modelo Copo de Nieve

  • Algo positivo de este esquema es que al estar normalizado se evita la redundancia de datos.
  • El tiempo de respuesta es muy elevado, por lo que si es necesaria una respuesta rápida y es crítico para el sistema, puede no ser la mejor opción.
  • Los data warehouse se representan normalmente como una gran base de datos, que en algunas ocasiones pueden estar distribuidas en distintas bases de datos
  • Permite centralizar toda la información que posee la empresa en un solo sitio permite manejar la información fácilmente.
  • Construir un data warehouse colectivo puede generar inflexibilidades, o ser costoso y requerir plazos de tiempo elevados.

Arquitecturas

  • Para la realización del data warehouse se adoptan dos clasificaciones diferentes para su arquitectura:
    • La primera clasificación está orientada a la estructura y depende del número de capas utilizadas por la arquitectura.
    • La segunda clasificación depende de cómo se empleen las diferentes capas para crear vistas orientadas a los departamentos.

Arquitectura de una Sola Capa

  • No se utiliza con frecuencia en la práctica.
  • El objetivo es minimizar la cantidad de datos almacenados, lo que se logra eliminando las redundancias de datos.
  • Un almacén de datos se implementa como una vista multidimensional de datos operacionales creados por un middleware específico o una capa de procesamiento intermedio.
  • No cumple con los requisitos de separación entre procesamiento analítico y transaccional, ya que las consultas de análisis se envían a los datos operativos después de que el middleware los interpreta.
  • Aunque esta arquitectura puede cumplir los requisitos de integración y exactitud de los datos, no puede registrar más que las fuentes.

Arquitectura de Dos Capas

  • Normalmente se nombra arquitectura de dos capas para destacar la separación entre las fuentes físicamente disponibles y los almacenes de datos, pero en realidad consta de cuatro etapas de flujo de datos posteriores:
    • Capa de origen: sistema de almacén de datos que utiliza fuentes heterogéneas de datos. Los datos se guardan originalmente en bases de datos relacionales corporativas, o pueden provenir de sistemas de información fuera de los muros corporativos. La prioridad en este tipo de sistema es la actualización y mantienen pocos datos históricos.
    • Capa de almacenamiento de datos: los datos almacenados en las diferentes fuentes deben extraerse, limpiarse para eliminar inconsistencias y rellenar espacios, e integrarse para convertirlas en fuentes heterogéneas en un esquema común.
    • Capa de depósito de datos: la información se almacena en un solo depósito lógicamente centralizado. Se puede acceder directamente al almacén de datos, pero también se puede utilizar como fuente para crear nuevos productos de datos, que replican parcialmente los contenidos del almacén de datos y están diseñados para departamentos empresariales específicos. Los repositorios de metadatos almacenan información sobre fuentes, procedimientos de acceso, usuarios, esquemas de data mart (estos y los metadatos se amplían más adelante). Un data warehouse está constituido por la integración de varios data marts.
    • Capa de análisis: se accede de manera eficiente y flexible a los datos integrados para emitir informes, analizar la información y representar escenarios hipotéticos de negocios (adecuados para cada empresa). Aquí se utilizan diferentes herramientas de visualización datos, optimizadores de consultas para el apoyo para la toma de decisiones.

Impacto del Data Warehouse

  • El éxito del data warehouse se enfoca en mejorar los procesos empresariales, operacionales y de toma de decisiones.

Impacto en las Personas

  • Determinar cuál será su contenido depende de la realidad de la empresa y de las condiciones que existan al momento de la creación.
  • El data warehouse provee los datos que posibilitará a los usuarios acceder a la propia información en el momento que la necesiten, por lo que se debe tener en cuenta:
    • Los usuarios deberán adquirir nuevas destrezas, por lo tanto, van a necesitar programas de capacitación adecuados.
    • Los largos tiempos de análisis y programación se reducen para usuarios pertenecientes a las áreas de tecnología, y se reduce también el tiempo de espera para los usuarios de negocio.
    • Como la información estará lista para ser utilizada, es probable que aumenten las expectativas. Se reducirá considerablemente la gran cantidad de reportes en papel.

Impactos en los Procesos Empresariales y de Toma de Decisiones

  • Mejora el proceso para la toma de decisiones, facilitando la disponibilidad de la información. Las decisiones son tomadas más rápidamente.
  • Los procesos empresariales se optimizan, eliminando el tiempo de espera de la información al encontrarse almacenada en un solo sitio.
  • Se reducen los costos de los procesos, una vez desarrollado el data warehouse y se esclarecen sus conexiones y dependencias, lo que aumenta la eficiencia en dichos procesos.
  • Permite que los datos de los sistemas sean utilizados y examinados al estar organizados para tener un significado para la empresa.
  • Aumenta la confianza en las decisiones tomadas con base en la información del data warehouse.
  • La información que se comparte lleva a un lenguaje común, conocimiento común y mejora de la comunicación en la empresa.

Data Mart

  • Es un subconjunto de información de gran tamaño.
  • Facilita el manejo de los datos y ayuda un departamento específico dentro de la empresa a tomar mejores decisiones.
  • Los datos existentes en este contexto pueden ser resumidos, agrupados y explotados de múltiples formas para diversos grupos de usuarios.
  • Están dirigidos a un conjunto de usuarios dentro de la empresa, formada por miembros de un departamento, usuarios de un determinado nivel administrativo o por un grupo de trabajo multidisciplinar con objetivos comunes.
  • Los data mart están compuestos por partes del data warehouse primario, que en algunos casos pueden ser:
    • Dependientes: utilizan los datos y metadatos del data warehouse directamente en lugar de obtenerlos de los sistemas de producción.
    • Independientes: los datos son tomados de cada área de la empresa, siempre manteniendo los datos alineados con el data warehouse, si este existe.
  • Aunque los data mart no son estrictamente necesarios, son muy útiles para los sistemas de almacenamiento de datos en medianas y grandes empresas.
  • Se usan como bloques de construcción mientras se desarrollan depósitos de datos de forma incremental.
  • Marcan la información requerida por un grupo específico de usuarios para resolver consultas más rápidas por el menor volumen de datos.
  • Pueden ofrecer un mejor rendimiento y son más fáciles de implementar.
  • Al ser pequeños los conjuntos de datos consumen menos recursos.

Los Metadatos

  • Es un componente esencial de un data warehouse.
  • Es el repositorio central de información que abarca todos los niveles. Da el significado de cada uno de los componentes, variables y atributos que residen en el data warehouse o data mart.
  • La información es útil para los departamentos y los propios usuarios, e incluye las definiciones de negocio, descripciones minuciosas de los tipos de datos, formatos, la cantidad, los valores máximos y mínimos de los datos.
  • La información está dirigida hacia:
    • El usuario: información sobre el significado de los datos utilizados y su localización en el data warehouse.
    • Equipo responsable de los procesos de transformación de los datos: información sobre la ubicación del dato en los sistemas de producción y los procesos de transformación.
    • Equipo responsable de los procesos de creación de nuevos datos a partir de los datos detallados.

Procesos ETL

  • Consiste en la extracción, transformación y carga de los datos en el data warehouse.
  • Antes de guardar los datos, deben ser transformados, limpiados, filtrados y redefinidos.
  • La información que tienen las empresas en los sistemas no está preparada para la toma de decisiones.
  • Consume entre el 60 y el 80 % del tiempo de un proyecto de business intelligence, es un proceso fundamental en el ciclo de vida del proyecto.
  • Esta parte de construcción del data warehouse es costosa y consume una parte significativa de todo el proceso, razón por la que utilizan recursos, estrategias, habilidades especializadas y tecnologías.
  • Va más allá del transporte de los datos de las fuentes a la carga dentro del data warehouse, ya que añade un valor significativo a los datos.
  • Una parte del proceso se encarga de:
    • Remover errores y corregir datos faltantes.
    • Proporcionar medidas documentadas de la calidad de los datos.
    • Supervisar el flujo de los datos transaccionales.
    • Ajustar y transformar los datos de múltiples fuentes en uno solo.
    • Organizar los datos para su fácil uso por los usuarios y las herramientas.
  • El proceso es tomar los datos de las diferentes fuentes de información y depositarla sin errores en el data warehouse.
  • Los procesos de limpieza y transformación de esa información son mucho más complejos de lo que se cree. Se pueden dividir en tareas específicas.
  • El desafío es planificar adecuadamente la cantidad de tareas, conservando la perspectiva sencilla e intuitiva del proceso.
  • El proceso es obligatorio para acceder a los datos que formarán parte del data warehouse y se divide en cuatro etapas:

Extracción

  • Extrae físicamente los datos de las distintas fuentes de información, en su forma bruta.
  • La extracción de los datos se puede realizar de forma manual o utilizando herramientas de ETL.
  • Una de las primeras tareas es generalizar la información más relevante al data warehouse.
  • Para la extracción se pueden usar los métodos:
    • La extracción estática, se realiza cuando el data warehouse necesita ser rellenado por primera vez. La detección de cambios se realiza físicamente mediante la comparación de dos imágenes (una correspondiente a la extracción anterior y la otra a la actual).
    • La extracción incremental, se utiliza para actualizar los data warehouse de forma regular y aprovecha los cambios aplicados a los datos de origen desde la última extracción.
  • El objetivo principal es extraer tan solo aquellos datos de los sistemas transaccionales que son necesarios y prepararlos para el resto de los subprocesos de ETL, determinando las mejores fuentes de información y de mejor calidad.

Limpieza

  • Recupera los datos de la base de datos u otro tipo de fuente y comprueba la calidad, eliminando los duplicados y, cuando es posible, corrige los valores erróneos y completa los valores incompletos.
  • Ejemplos comunes de errores:
    • Datos duplicados: un cliente es registrado varias veces en la misma empresa.
    • Inconsistencia en los datos: en la dirección de una persona, poner un código postal que no corresponde a la ciudad donde vive.
    • Inconsistencia de valores: poner en primer lugar un valor y posteriormente poner el mismo valor de otra forma sin abreviar.
  • Los errores son frecuentes al manejar múltiples fuentes e ingresar datos manualmente.
  • Las principales características de limpieza de datos son la rectificación y la homogenización. Utilizan diccionarios específicos.

Transformación

  • Recupera los datos limpios y de alta calidad, los organiza y resume en los distintos modelos de análisis.
  • El resultado es la obtención de datos limpios, consistentes, resumidos y útiles.
  • La transformación incluye:
    • Cambios de formato, sustitución de códigos, valores derivados y agregados.
  • Es el núcleo del proceso, ya que convierte los datos de su formato original a un formato de almacén de datos específico.

Rectificación en la Transformación

  • Los textos sueltos pueden ocultar información valiosa como la sigla estándar en España es (SL).
  • Se pueden usar diferentes formatos para datos individuales, por ejemplo, una fecha se puede guardar como una cadena de caracteres o como tres enteros.
  • Algunas transformaciones se puede aplicar:
    • Seleccionar ciertas columnas para su carga.
    • Traducir códigos.
    • Codificar valores libres.
    • Obtener nuevos valores calculados.
    • Calcular totales de múltiples filas de datos.
    • Dividir una columna en varias.
    • Los datos erróneos se pueden corregir o eliminar.

Carga y Actualización

  • Se valida que los datos cargados en el data warehouse sean consistentes con las definiciones y formatos, y se integra en los distintos modelos de las distintas áreas de negocio que se han definido.
  • Se cargan los datos y se comprueba si los elementos que se cargaron son equivalentes a la información que había en el sistema transaccional, así como los valores que tienen los registros cargados.
  • Es importante comprobar que se ha desarrollado correctamente, ya que puede llevar a tomas de decisiones equivocadas
  • La carga en un almacén de datos es el último paso a seguir.
  • La diferencia fundamental entre carga y actualización radica en el hecho que la carga se realiza cuando el data warehouse está vacío, mientras que la actualización se hace cuando ya existen datos en el mismo.
  • En cualquier caso, tanto la carga como la actualización se pueden llevar a cabo de dos maneras:
    • Actualizar datos del almacén de datos completamente reescrito: se reemplazan los datos más antiguos. Se usa normalmente en combinación con la extracción estática para poblar inicialmente un depósito de datos.
    • Actualización de datos solo con los cambios aplicados a los datos fuente: generalmente se lleva a cabo sin eliminar o modificar datos preexistentes. Se usa en combinación con la extracción incremental para actualizar los almacenes de datos regularmente.
  • La parte trasera del data warehouse es comúnmente conocida como el área de staging, que tiene el significado de 'escritura a disco'.

Estructuras de Datos del Proceso ETL

Maneja diversas estructuras de datos que se leen y escriben en diversos dispositivos de almacenamiento y estudia las estructuras de datos más frecuentes.

  • Archivos de texto plano

    • Almacenan la información en filas y columnas para simular la estructura de una tabla y están separados por un separador de columnas, generalmente punto y coma (;), o comas (,) llamados Comma-Separated Value o CSV, tabuladores (→) llamados Tab-Separated Value o TSV, o pipes (|).
    • Si se usa en plataformas Windows o UNIX, los archivos están codificados en el estándar ASCII.
    • Pueden ser manejados y procesados por algunas herramientas ETL o por lenguajes de secuencias de comandos (SQL).
    • Tiene un mejor desempeño y facilitan tareas:
      • Escritura de los datos para su monitoreo y seguimiento en el disco
      • Organización de la información
      • Filtrado de los datos
      • Remplazo y substitución de cadenas de texto
      • Aplicación de operaciones de añadidura
      • Referencias a fuentes de información
  • Archivos XML: Es un metalenguaje que permite definir la gramática de lenguajes específicos, que ha sido simplificado y adaptado a Internet y permite la lectura de datos a través de aplicaciones; en la actualidad es ampliamente usado para que sea de fácil entendimiento. - Estructura de forma jerárquica con base en etiquetas. - Almacena los datos con la extensión XML puede incluir varios flujos de datos. - Compuestos por el prólogo, el cuerpo. - Fácilmente procesable por cualquier programa. - Separa el contenido y el formato de presentación. - Diseñado para cualquier lenguaje y alfabeto.

Bases de Datos Relacionales

  • Propuesto por E. F. Codd (Codd, 1970)
  • Definido como un conjunto de filas y columnas agrupadas en una o varias tablas que entre ellas guardan una relación.
  • Estructura básica del modelo relacional es la relación, tabla bidimensional constituida por filas y columnas.
  • Las relaciones representan las entidades que consideran importantes en la base de datos.

OLAP

  • Las herramientas OLAP (siglas de On Line Analytical Processing) proveen capacidad de cálculo, consultas, funciones de planeamiento, pronóstico y análisis en escenarios de grandes volúmenes de datos.
  • El «Agile BI» se basa en la premisa de ofrecer a los usuarios finales, incluso los que no tienen conocimientos técnicos o de programación avanzada, la capacidad para liberar a los usuarios del negocio de su dependencia de TI.
  • Puede ser la vía principal de explotar la información en un almacén de datos y brinda la oportunidad de analizar y explorar datos de manera interactiva sobre la base del modelo multidimensional.
  • El OLAP Council resumió las doce reglas de Codd en lo que ellos llamaban el concepto FASMI, que todos los productos OLAP deben cumplir:
    • Rápido (fast): la respuesta a las consultas se pueda ver de forma inmediata.
    • Análisis (analysis): debe soportar la lógica del negocio y el análisis estadísticos que sean obligatorios para los usuarios.
    • Compartido (shared): tiene que manejar múltiples actualizaciones de forma segura y rápida.
    • Multidimensional (multidimensional): tiene que proveer de una visión global de la información a través de distintas dimensiones.
    • Información (information): debe poder manejar toda la información necesaria, relevante y derivada.

Las 12 Reglas OLAP de E.F. Codd (Codd, 1993)

  • Información: la información de las diferentes fuentes se representa claramente en el nivel lógico y de una sola manera.
  • La regla de acceso garantizado: garantiza que todos los datos son accesibles.
  • Tratamiento de valores nulos: los valores nulos o campos vacíos se usa para representar la información faltante en un grupo de datos.
  • Catálogo dinámico en línea basado en el modelo relacional.
  • La regla del sublenguaje de datos: debe soportar varios lenguajes para la manipulación de los datos.
  • Actualización de vistas: todas las vistas deben ser fáciles de actualizar por el sistema.
  • Insertar, actualizar y eliminar a alto nivel: capacidad de manejar las bases de datos relacionales.
  • Independencia de datos físicos: los cambios en los datos físicos deben estar separados de los datos lógicos.
  • Independencia de datos lógicos: los cambios en los datos (tabla, filas y columnas) no afectan a los datos lógicos.
  • Independencia de integridad: se debe conservar las restricciones de las diferentes tablas.
  • Independencia de distribución: la distribución de los datos debe ser transparente para los usuarios.
  • La regla de no subversión: si un sistema relacional tiene un lenguaje de bajo nivel no puede utilizarse para trastornar las reglas de integridad y las restricciones.

Beneficios Que Presenta el OLAP

  • Flexible y fácil uso para los usuarios.
  • Facilita el análisis, ayuda a organizar los datos en dimensiones.
  • Tiene historia de datos al alcance de los usuarios.
  • Mayor aprendizaje

Los Cubos

  • Están formados por la tabla de hechos, que almacena indicadores numéricos tanto básicos como elementos calculados
  • Por las tablas de dimensiones, que almacenan los datos descriptivos, por lo general tienen pocas filas, pero pueden contener muchas columnas.

Tipos de Almacenamiento OLAP

  • Existen distintos tipos y su diferencia se basa en cómo se accede a los datos:
    • ROLAP: el Relational OLAP (figura 14) o las capacidades OLAP acceden directamente a la base de datos relacional; por lo tanto, es escalable, lo que puede ocasionar dificultades a la hora de consultas muy grandes. Se accede, así, a una base de datos relacional. Es un modelo «estrella» con principal ventaja en que no tiene limitaciones y es más lento que el MOLAP.
    • MOLAP: el multidimensional OLAP (figura 15) accede directamente sobre una base de datos multidimensional. Se crea un archivo que alberga una gran cantidad de consultas preseleccionadas y calculadas. La integración de las dimensiones se realiza por adelantado.
    • HOLAP: el Hybrid OLAP (figura 16) accede a los datos de alto nivel en una base de datos multidimensional y sobre la base de datos relacional. Este modelo utiliza las tablas de las bases de datos para almacenar una mayor cantidad de datos mejor organizados.
    • DOLAP (Desktop OLAP): su uso está dirigido a equipos de escritorio.
    • In-memory: facilita el acceso a los datos ya que se carga la base de datos en la memoria del PC.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

Tema 3 Data Warehouse - PDF

More Like This

Use Quizgecko on...
Browser
Browser