Podcast
Questions and Answers
¿Cuál de las siguientes opciones describe mejor el propósito principal de un Data Warehouse?
¿Cuál de las siguientes opciones describe mejor el propósito principal de un Data Warehouse?
- Automatizar los procesos de negocio.
- Almacenar los datos de forma que facilite su flexibilidad, fácil acceso y administración para el análisis y la toma de decisiones. (correct)
- Almacenar datos transaccionales en tiempo real.
- Gestionar las transacciones diarias de una empresa.
Según Bill Inmon, ¿qué característica NO es esencial en un Data Warehouse?
Según Bill Inmon, ¿qué característica NO es esencial en un Data Warehouse?
- Orientado a un área específica de negocio.
- Volátil, permitiendo la actualización constante por los usuarios. (correct)
- Indexado en el tiempo para análisis histórico.
- Integrado con diversas fuentes de datos.
¿Cuál es el objetivo principal de seguir un modelo estrella al diseñar un Data Warehouse?
¿Cuál es el objetivo principal de seguir un modelo estrella al diseñar un Data Warehouse?
- Optimizar el espacio de almacenamiento.
- Maximizar la normalización de la base de datos para evitar la redundancia.
- Facilitar la vinculación de muchas tablas a las secuencias SQL.
- Mejorar el rendimiento de las consultas para análisis multidimensional. (correct)
En un modelo copo de nieve, ¿cuál es la principal diferencia con respecto al modelo estrella?
En un modelo copo de nieve, ¿cuál es la principal diferencia con respecto al modelo estrella?
¿Cuál es la principal desventaja de la arquitectura de Data Warehouse de una sola capa?
¿Cuál es la principal desventaja de la arquitectura de Data Warehouse de una sola capa?
En una arquitectura de Data Warehouse de dos capas, ¿cuál es la función principal de la capa de almacenamiento de datos?
En una arquitectura de Data Warehouse de dos capas, ¿cuál es la función principal de la capa de almacenamiento de datos?
¿Cuál de las siguientes NO es una etapa típica del proceso ETL (Extracción, Transformación, Carga)?
¿Cuál de las siguientes NO es una etapa típica del proceso ETL (Extracción, Transformación, Carga)?
¿Qué tipo de archivo almacena la información en filas y columnas separadas por comas o puntos y comas?
¿Qué tipo de archivo almacena la información en filas y columnas separadas por comas o puntos y comas?
¿Cuál es la principal ventaja de utilizar archivos XML en el contexto de Data Warehousing?
¿Cuál es la principal ventaja de utilizar archivos XML en el contexto de Data Warehousing?
¿Cuál de los siguientes NO es un tipo de almacenamiento OLAP?
¿Cuál de los siguientes NO es un tipo de almacenamiento OLAP?
Flashcards
¿Qué es un Data Warehouse?
¿Qué es un Data Warehouse?
Un sistema de almacenamiento de datos diseñado para facilitar la flexibilidad, el acceso y la administración de la información.
¿Cuáles son las características de un Data Warehouse?
¿Cuáles son las características de un Data Warehouse?
Orientado a un área, integrado, indexado en el tiempo y no volátil.
¿Qué es un Modelo Estrella?
¿Qué es un Modelo Estrella?
Un modelo que consiste en una tabla central de hechos y varias tablas de dimensiones.
¿Qué son los Procesos ETL?
¿Qué son los Procesos ETL?
Signup and view all the flashcards
¿Qué implica la Limpieza de Datos?
¿Qué implica la Limpieza de Datos?
Signup and view all the flashcards
¿Qué implica la Transformación de Datos?
¿Qué implica la Transformación de Datos?
Signup and view all the flashcards
¿Qué es la Carga y Actualización en ETL?
¿Qué es la Carga y Actualización en ETL?
Signup and view all the flashcards
¿Qué son los Archivos de Texto Plano?
¿Qué son los Archivos de Texto Plano?
Signup and view all the flashcards
¿Qué es XML?
¿Qué es XML?
Signup and view all the flashcards
¿Qué son las Herramientas OLAP?
¿Qué son las Herramientas OLAP?
Signup and view all the flashcards
Study Notes
Almacén de Datos (Data Warehouse o DW)
- Busca facilitar y maximizar la flexibilidad, el acceso y la administración de los datos.
- Responde a la necesidad de información consistente, integrada e histórica para el análisis y la toma de decisiones.
- Permite analizar la información contextual y relacionarla dentro de la organización al recuperar datos de diversos sistemas.
Componentes del Data Warehouse
- Sistemas de información, fuentes externas y sistemas departamentales (fuente de datos).
- Extracción de la información.
- Servidor, con procesos ETL, bases de datos, metadatos y servidor OLAP.
- Data Mart
- Software de acceso.
Fuentes de Datos
- Pueden ser información externa comprada a otras empresas.
- Esenciales para enriquecer la información de los clientes.
- La información sobre la población, el número de habitantes y los presupuestos públicos, a veces es incorporada.
Características de un Data Warehouse (Bill Inmon)
- Orientado a un área, integrado, indexado en el tiempo y no volátil.
- Debe estar orientado a resolver un problema de negocio definido por quienes toman las decisiones.
- La información debe ser convertida a medidas, códigos y formatos comunes para ser útil.
- La información histórica se mantiene y se almacena en unidades de tiempo específicas.
- No se mantiene por los usuarios en entornos transaccionales. Se actualiza periódicamente.
Objetivos de un Data Warehouse (Ralph Kimbal)
- Acceder a la información de la empresa o del área funcional.
- Ser consistente
- Separa la información para ser analizada a nivel individual o de manera conjunta.
- Utilizar herramientas de presentación de la Información
- Facilitar la publicación de la información
- Tener alta calidad para soportar procesos de reutilización.
Características según Barrer (1998)
- Alta disponibilidad.
- Rendimiento.
- Copias de seguridad y recuperación.
- Recuperación física en caliente.
Modelos de Data Warehouse
- Modelo estrella y modelo copo de nieve son las estructuras más utilizadas.
Modelo Estrella
- Formado por una tabla central de "hechos" y varias tablas de "dimensiones".
- Solo existe una tabla de dimensiones para cada dimensión.
- La única tabla que tiene relación con otra es la de hechos.
- En un data warehouse de ventas, los hechos son las ventas; en uno financiero, los elementos del balance.
Ventajas y Desventajas Modelo Estrella
- Simple y rápido para análisis multidimensionales, permite consultar datos agregados y detalles.
- Permite implementar la funcionalidad de los datos multidimensionales y las ventajas de una base de datos relacional.
- Ofrece el mayor rendimiento por permitir indexar las dimensiones individualmente, sin afectar la base de datos.
Modelo Copo de Nieve
- Variante del modelo estrella donde la tabla de hechos no es la única que se relaciona con otras tablas.
- Existen tablas que se relacionan con las dimensiones y que no tienen relación directa con la tabla de hechos.
- Se creó para facilitar el mantenimiento de las dimensiones, pero es complejo de mantener debido a la vinculación de muchas tablas.
Ventajas y Desventajas Modelo Copo de Nieve
- Evita la redundancia de datos al estar normalizado.
- Tiene un tiempo de respuesta elevado, lo que puede no ser óptimo para respuestas rápidas y críticas.
Arquitecturas de Data Warehouse
- La primera clasificación depende de la estructura y el número de capas utilizadas.
- La segunda clasificación depende de cómo se emplean las capas para crear vistas orientadas a los departamentos.
Arquitectura de Una Sola Capa
- Minimiza la cantidad de datos almacenados eliminando redundancias.
- Implementa un almacén de datos como una vista multidimensional de datos operacionales, creada por un middleware específico.
- No cumple con la separación entre procesamiento analítico y transaccional
Arquitectura de Dos Capas
- Consta de cuatro etapas de flujo de datos: capa de origen, capa de almacenamiento, capa de depósito de datos y capa de análisis.
- Capa de origen: Utiliza fuentes heterogéneas, priorizando la actualización con pocos datos históricos.
- Capa de almacenamiento de datos: Extrae, limpia e integra datos de diferentes fuentes heterogéneas usando el proceso ETL.
- Capa de depósito de datos: Almacena la información en un solo depósito lógicamente centralizado.
- Capa de análisis: Permite un acceso eficiente y flexible a los datos para informes, análisis y escenarios hipotéticos.
Impacto de Data Warehouse
- Mejora los procesos empresariales, operacionales y de toma de decisiones.
- Requiere la participación activa de los usuarios y depende de la realidad de la empresa.
Impacto en las Personas
- Los usuarios deben adquirir nuevas destrezas y recibir capacitación.
- Reduce los tiempos de análisis y programación y también el tiempo de espera para los usuarios de negocio.
- Pueden aumentar las expectativas al estar lista para ser utilizada.
- Disminuye los reportes en papel.
Impactos en los Procesos Empresariales y Toma de Decisiones
- Mejora la toma de decisiones al facilitar la disponibilidad de la información.
- La optimización de los procesos empresariales elimina el tiempo de espera de la información.
- Se reduce costos y aumentar eficacia.
- Permite que los datos de los sistemas sean utilizados y examinados, dándoles significado.
- Aumenta la confianza en las decisiones.
- Lleva a un lenguaje común, conocimiento común y mejora la comunicación.
Data Mart
- Es un conjunto de datos más pequeño que el data warehouse, diseñado para ayudar a un departamento específico a tomar mejores decisiones.
- Los datos se resumen, agrupan y explotan de múltiples formas.
- Dirigidos a usuarios dentro de la empresa, como miembros de un departamento o grupos multidisciplinarios.
Tipos de Data Mart
- Dependientes: Usan datos y metadatos directamente del data warehouse.
- Independientes: Toman datos de cada área de la empresa, manteniendo los datos alineados con el data warehouse.
Ventajas de los Data Mart
- Se usan como bloques de construcción incremental.
- Definen la información requerida.
- Pueden ofrecer un mejor rendimiento.
- Consumen menos recursos.
Metadatos
- Es un componente esencial del data warehouse, actuando como un repositorio central de información.
- La información más importante va dirigida al usuario.
- Incluye información sobre los procesos de transformación y creación de nuevos datos.
Procesos ETL (Extracción, Transformación y Carga)
- Fundamental en el data warehouse; transforma, limpia, filtra y redefine los datos antes de guardarlos.
- Consume entre el 60 y el 80% del tiempo de un proyecto de business intelligence.
- Añade valor significativo a los datos.
Tareas de un Proceso ETL
- Remover errores y corregir datos faltantes.
- Proporcionar medidas documentadas de la calidad de los datos.
- Supervisar el flujo de los datos transaccionales.
- Ajustar y transformar los datos de múltiples fuentes en uno solo.
- Organizar los datos para su fácil uso por los usuarios y las herramientas.
- Se planifica la cantidad de tareas para conservar la perspectiva sencilla e intuitiva del proceso. Lo cual es importante para acceder a los datos que formarán parte del data warehouse.
Etapas del Proceso ETL
- Extracción, limpieza, transformación y carga.
Extracción
- Extrae los datos de las distintas fuentes de información.
- Puede ser manual o utilizar herramientas de ETL.
Métodos de Extracción
- Estática: Detecta cambios comparando dos imágenes (extracción anterior y actual).
- Incremental: Aprovecha los cambios aplicados a los datos de origen desde la última extracción.
Limpieza
- Recupera los datos de la base de datos y comprueba la calidad.
- Elimina duplicados, corrige valores erróneos y completa valores incompletos.
Características de la Limpieza
- Rectificación y homogenización con diccionarios y reglas específicas.
Transformación
- Organiza y resume los datos en los distintos modelos de análisis.
- Incluye cambios de formato, sustitución de códigos, valores derivados y agregados.
- Convierte los datos a un formato de almacén de datos específico.
Puntos a Rectificar en la Transformación
- Los textos sueltos pueden ocultar información.
- Se pueden usar diferentes formatos para datos individuales.
Transformaciones Comunes
- Seleccionar ciertas columnas.
- Traducir códigos a formato numérico.
- Codificar valores libres.
- Obtener nuevos valores calculados.
- Calcular totales de filas múltiples.
- Dividir una columna en varias.
- Corregir o eliminar datos erróneos.
Carga y Actualización
- Valida que los datos cargados en el data warehouse sean consistentes con las definiciones y formatos.
- Integra los datos en los distintos modelos.
- Comprueba que los elementos cargados sean equivalentes a la información del sistema transaccional.
Tipos según la Existencia de Datos
- Carga: se realiza cuando el data warehouse está vacío.
- Actualización: se realiza cuando ya existen datos.
Formas de Actualización
- Reescritura Completa: Reemplaza los datos más antiguos, combinada con extracción estática.
- Cambios Aplicados a Datos Fuente: Se lleva a cabo sin eliminar o modificar datos, combinada con extracción incremental.
Estructuras de Datos del Proceso ETL
- La parte trasera del data warehouse se conoce como el área de staging.
Archivos de Texto Plano
- Almacenan la información en filas y columnas, separados por un delimitador (;, ,, tabuladores, pipes).
- Codificados en estándar ASCII.
- Pueden ser manejados por herramientas ETL o lenguajes SQL.
- Facilitan tareas como escritura, organización y filtrado de datos.
Archivos XML (Extensible Markup Language)
- Metelenguaje que permite definir la gramática de lenguajes específicos.
- Creado para representar los datos y facilitar la lectura a través de aplicaciones.
- Se estructura de forma jerárquica con base en etique
Bases de Datos Relacionales
- Modelo de datos propuesto por E. F. Codd, definido como un conjunto de filas y columnas agrupadas en tablas relacionadas.
Herramientas OLAP (On Line Analytical Processing)
- Proveen capacidad de cálculo, consultas, planeamiento, pronóstico y análisis en escenarios de grandes volúmenes de datos.
- Analizar la información a distintos niveles de agregación y de múltiples dimensiones.
- Proveen flexibilidad para descubrir relaciones y tendencias.
Concepto FASMI
- Fast Analysis of Shared Multidimensional Information
Las 12 Reglas OLAP de E.F. Codd
- Información.
- La regla de acceso garantizado.
- Tratamiento de valores nulos.
- Catálogo dinámico en línea basado en el modelo relacional
- La regla del sublenguaje de datos
- Actualización de vistas,
- Insertar, actualizar y eliminar a alto nivel
- Independencia de datos físicos
- Independencia de datos lógicos
- Independencia de integridad
- Independencia de distribución
- La regla de no subversión
Beneficios de OLAP
- Flexible y fácil uso
- Facilita el análisis
- Historia de los datos
- Mayor aprendizaje
Cubos
- Formados por la tabla de hechos (indicadores numéricos) y las tablas de dimensiones (datos descriptivos).
- Las tablas de dimensiones contienen pocas filas, pero muchas columnas.
Tipos de Almacenamiento OLAP
- ROLAP (Relational OLAP)
- MOLAP (Multidimensional OLAP)
- HOLAP (Hybrid OLAP)
- DOLAP (Desktop OLAP)
- In-memory.
ROLAP
- Accede directamente a la base de datos relacional.
- Escalable pero puede tener dificultades con consultas grandes.
- Modelo "estrella".
- Ventaja: no tiene limitaciones en cuanto al tamaño..
MOLAP
- Accede directamente a una base de datos multidimensional.
- Almacenamiento optimizado.
- Ideal para consultas pequeñas.
HOLAP
- Accede a datos de alto nivel en una base de datos multidimensional y a detalles en la base de datos relacional.
- Las dimensiones del cubo por lo general son atributos como, por ejemplo, periodos de tiempo, ubicaciones (países, regiones, autonomías, etc.).
DOLAP
- Dirigido a equipos de escritorio.
- Facilita el acceso almacenando los datos relacionales en el escritorio.
In-memory
- Facilita el acceso cargando la base de datos en la memoria del PC.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.