A19.docx
Document Details
Uploaded by OutstandingNovaculite8320
Tags
Full Transcript
Tema 19 Gobernanza del dato. Metodología DAMA (Data Management Association) para la gobernanza del dato. ***Mª Isabel Jiménez Rodríguez\ Colegiado 20190002*** 1. Introducción al Gobierno del Dato ================================= 1. La evolución del Gobierno del Dato -----------...
Tema 19 Gobernanza del dato. Metodología DAMA (Data Management Association) para la gobernanza del dato. ***Mª Isabel Jiménez Rodríguez\ Colegiado 20190002*** 1. Introducción al Gobierno del Dato ================================= 1. La evolución del Gobierno del Dato ---------------------------------- Debido a la crisis financiera del año 2008, se puso el foco en la gestión de la información en las entidades financieras: qué información se tiene, cómo se explota... Por ello, actualmente, el sector financiero es uno de los sectores más regulados, lo que le convierte también en uno de los más avanzados con respecto a la aplicabilidad de estas prácticas. Sin embargo, el auge de las nuevas tecnologías asociadas al procesamiento de los datos, comenzaron a cambiar la concepción de estas actividades de gestión. Ya no se veían tanto como un mero control de la información, sino que considerar los datos como activos estratégicos suponía grandes avances en el negocio. Gracias a esta nueva concepción, organizaciones privadas y públicas de todo tipo se han interesado por esta materia y no es extraño ver como se comienza a profesionalizar el gobierno del dato mediante iniciativas focalizadas en ofrecer al ciudadano una atención más personalizada y eficaz. ### El camino hacia la cultura del dato Nos encontramos inmersos en un mundo digital globalizado en constante evolución y los datos no son ajenos a ello. Constantemente están surgiendo nuevas iniciativas de datos ante las que se hace necesario un gobierno del dato eficiente capaz de dar respuesta a estos cambios. Por ello, el camino hacia una cultura del dato es una realidad que todas las organizaciones y organismos públicos deben tomar en el corto plazo. El uso de una metodología de gobierno del dato, como el de DAMA, sin duda, será un gran apoyo durante todo el trayecto. Definición del Gobierno del Dato -------------------------------- Según el Data Governance Institute: "El Gobierno del dato es el ejercicio de la toma de decisiones y autoridad para asuntos relacionados con los datos". El gobierno del dato es una iniciativa que se desarrolla dentro de las organizaciones y que no tiene fecha de finalización; es un proceso de mejora continua cuyo objetivo es la gestión del dato y con este, solventar los principales problemas y retos con los que se encuentran las organizaciones. Entre los principales problemas con los que se encuentran las organizaciones son: - Datos disgregados en diferentes fuentes de datos que es necesario consolidar. - Datos duplicados y con valores dispares que es necesario consolidar. - Fuentes de orígenes de datos poco accesibles. - Datos desactualizados o con frecuencia de actualización insuficiente. - Datos sensibles que es necesario anonimizar para cumplir la normativa vigente. - Datos sin un responsable de negocio que entienda lo que significa y los valide. - Datos con formato incorrecto. - Datos incompletos. - Datos no estandarizados. - Datos no documentados. \(1) Existe un concepto muy gráfico y ampliamente manejado en el ámbito tanto del desarrollo software como en el de la gestión de datos que es el GIGO (Garbage In -- Garbage Out) que viene a resumir la idea de que el resultado o valor que puedas extraer de tus datos es nulo si los datos de entrada con los que trabajas no disponen de la calidad suficiente. Esto es, no podemos pretender crear un modelo predictivo que nos arroje resultados valiosos para una organización (pública o privada) a partir de datos de mala calidad. Todas estas dificultades en torno a la calidad de los datos generan una serie de retos a la hora de conseguir orientar a las organizaciones, a la toma de decisiones basadas en datos: - Se desconfía de los datos y exige procesos de verificación manuales y costosos. - No existe una única versión de la verdad, existen silos de información e inconsistencias entre los datos de los diferentes sistemas que hay que conciliar manualmente. - La baja calidad en los datos puede afectar tanto, a nivel interno como externo. - La responsabilidad del dato recae en las áreas de sistemas que no conocen el negocio y por tanto, no pueden asegurar su calidad al 100%. - Cumplimiento de regulación (GDPR) en materia de seguridad en el acceso, manejo y compartición de datos. - Muchas herramientas y proyectos de BI (Business Intelligence) fracasan y caen en desuso debido a la baja confianza en la calidad de los datos que se generan. - Procesos de extracción y tratamiento de datos heterogéneos y complejos. Desarrollo muy a medida de los sistemas, poco ágiles y que tienen un mantenimiento costoso. - Es complicado encontrar datos, existe poca información asociada a los datos y por tanto se pierde tiempo en preguntar, analizar, validar etc. - Datos corporativos comprensibles, correctos, completos, confiables y seguros. La finalidad del Gobierno del dato es coordinar la administración, los procesos, la tecnología y las personas, para que las organizaciones superen los problemas y los retos arriba indicados y puedan gestionar los datos como un activo que facilite la toma de decisiones, incremente la confianza en los datos, garantice su protección y el cumplimiento de requerimientos legales y regulatorios. Los datos son un activo lleno de valor para las organizaciones y por ello, es importante tratarlos de forma que se conviertan en una ventaja diferencial. En este contexto encontramos el gobierno del dato (Data Governance) como una iniciativa que pretende cambiar las organizaciones, a nivel cultura y personas, procesos y tecnologías; para así modificar y mejorar la forma en que éstas gestionan sus datos y convertirlos en información útil y estratégica. Conceptos Esenciales ==================== De cara a una correcta comprensión del tema, trabajaremos sobre conceptos fundamentales en la Gobernanza del Dato. Datos ----- Definiciones antiguas de datos enfatizan su relevante papel en la representación de hechos sobre el mundo. En relación con las tecnologías de la información, los datos se entienden como información que se ha almacenado en formato digital e información no digitalizada, por tanto, os principios de gestión de datos se aplican tanto a los datos capturados en papel como a los de las bases de datos. Dichos datos sobre entes individuales pueden agregarse, analizarse y utilizarse para obtener conocimiento. Para aprovechar la variedad de datos sin verse abrumado por su volumen y velocidad, se requieren prácticas de administración de datos confiables y extensibles; así como la creación de un contexto que les dé sentido y sean significativos, mejorando con ello, el éxito de la organización. Debido a que las personas a menudo toman decisiones diferentes sobre cómo representar los conceptos, se crean diferentes formas de representar los mismos conceptos o incluso, dentro de una sola organización, lo que hace favorece que a menudo haya múltiples formas de representar la misma idea; de ahí que surja la necesidad de la arquitectura de datos, modelado, gobierno y administración, y gestión de calidad de datos y metadatos, todo lo cual ayuda a las personas a comprender y utilizar los datos. Este contexto incluye un vocabulario común y un conjunto de relaciones entre los componentes. Si conocemos las convenciones de dicho sistema, entonces podemos interpretar los datos dentro de él. Estas convenciones, a menudo, se documentan en un tipo específico de datos denominado Metadatos. Datos e Información ------------------- Mucha tinta se ha derramado sobre la relación entre datos e información. Los datos han sido llamados la "materia prima de la información" y la información ha sido llamada "datos en contexto". A menudo, se utiliza una pirámide en capas para describir la relación entre los datos (en la base), la información, el conocimiento y la sabiduría (en la parte superior). Diagrama Descripción generada automáticamente Figura 1: Pirámide D-I-K-W (2) Si bien la pirámide puede ser útil para describir por qué es necesario administrar bien los datos, esta representación presenta varios desafíos para la gestión de datos: - Reconocer que los datos y la información deben estar preparados para diferentes propósitos, lo que destaca un principio central de la gestión de datos: tanto los datos como la información deben gestionarse. - Ambos serán de mayor calidad si se gestionan conjuntamente teniendo en cuenta los usos y los requisitos del cliente. Como veremos más adelante, El DAMA DMBOK, usa ambos términos indistintamente. Los Datos como un activo organizacional --------------------------------------- Un activo es un recurso económico, que se puede poseer o controlar, y que tiene o produce valor. Los activos se pueden convertir en dinero. Los datos son ampliamente reconocidos como un activo organizacional, aunque la comprensión de lo que significa administrar los datos como un activo aún está evolucionando. Las organizaciones de hoy confían en sus activos de datos para tomar decisiones más efectivas y operar de manera más eficiente. Las empresas usan datos para comprender a sus clientes, crear nuevos productos y servicios y mejorar la eficiencia operativa mediante la reducción de costos y el control de riesgos. Las agencias gubernamentales, las instituciones educativas y las organizaciones sin fines de lucro también necesitan datos de alta calidad para guiar sus actividades operativas, tácticas y estratégicas. A medida que las organizaciones dependen cada vez más de los datos, el valor de los activos de datos se puede establecer con mayor claridad. Muchas organizaciones se identifican a sí mismas como \"basadas en datos\". Las empresas que aspiran a seguir siendo competitivas deben dejar de tomar decisiones basadas en instintos y, en su lugar, utilizar datos y aplicar análisis para obtener información procesable. Las organizaciones "data-driven" o que pretendan llegar a ello, deben interiorizar que los datos deben administrarse de manera eficiente, de manera disciplinada y procedimentada y estableciendo un espacio de colaboración entre la línea de negocio y la parte técnica. De todo ello se desprende que los datos y la información no son sólo activos que generarán valor en un futuro, sino que son vitales para el día a día de las operaciones de la mayoría de las organizaciones. Se les ha llamado la «moneda», la «sangre vital», e incluso el «nuevo petróleo» de la economía de la información. Y esto es así porque la información y el conocimiento son la clave de la ventaja competitiva. Las organizaciones que tienen datos confiables y de alta calidad sobre sus clientes, productos, servicios y operaciones pueden tomar mejores decisiones que aquellas que no tienen datos o que tienen datos poco confiables. La falla en la gestión de datos es similar a la falla en la gestión del capital. Gestión de Datos ---------------- *Gestión de datos es el desarrollo, ejecución y supervisión de planes, políticas, programas y* prácticas que entregan, controlan, protegen y mejoran el valor de los datos y los activos de información a lo largo de sus ciclos de vida. ### Principios de la Gestión de Datos La gestión de datos comparte características con otras formas de gestión de activos y al igual que otros procesos de gestión, debe equilibrar las necesidades estratégicas y operativas. La mejor manera de alcanzar este equilibrio es seguir un conjunto de principios que reconozcan las características más destacadas de la gestión de datos y guíen la práctica de la gestión de datos. - Los datos son un activo con propiedades únicas. - El valor de los datos puede y debe expresarse en términos económicos. - Gestionar datos significa gestionar la calidad de los datos. - Se necesita planificación y metadatos para administrar los datos. - La gestión de datos es un proceso complejo y multifuncional; requiere una variedad de habilidades y experiencia. - La gestión de datos requiere una perspectiva empresarial "máster" y debe tener en cuenta una variedad de sub-perspectivas. - En la gestión de datos se debe tener en cuenta la gestión del ciclo de vida. - La gestión de datos incluye la gestión de los riesgos asociados con los datos, la priorización y dependencias entre ellos. - La gestión eficaz de datos requiere liderazgo, compromiso. 2. ### Metas de la Gestión de Datos Dentro de una organización, los objetivos de gestión de datos incluyen: - Comprender y respaldar las necesidades de información de la organización y sus partes interesadas, incluidos clientes, empleados y socios. - Capturar, almacenar, proteger y garantizar la integridad de los activos de datos. - Garantizar la calidad de los datos y la información. - Garantizar la privacidad y confidencialidad de los datos de las partes interesadas Evitar el acceso, la manipulación o el uso no autorizado o inapropiado de datos e información. - Asegurar que los datos se puedan usar de manera efectiva para agregar valor a la empresa. 3. ### Marcos de Gestión de Datos La gestión de datos implica un conjunto de funciones interdependientes, cada una con sus propios objetivos, actividades y responsabilidades. Los profesionales de gestión de datos deben tener en cuenta los desafíos inherentes al tratar de obtener valor de un activo empresarial abstracto mientras se equilibran los objetivos estratégicos y operativos, los requisitos comerciales y técnicos específicos, las demandas de riesgo y cumplimiento, y las interpretaciones conflictivas de lo que representan los datos y si son de alta calidad. De ahí que se haga imprescindible disponer de un marco para comprender la gestión de datos de manera integral y ver las relaciones entre sus componentes. Debido a que las funciones dependen unas de otras y deben estar alineadas, las personas responsables de los diferentes aspectos de la gestión de datos deben colaborar para que la organización obtenga valor de sus datos. Como adelantamos anteriormente, en este capítulo nos centraremos en el marco internacional DAMA como framework del Gobierno de dato. ¿Qué es DAMA? ============= DAMA, por sus siglas en inglés Data Management Association, es una asociación internacional para profesionales de la gestión de datos que, desde marzo de 2019, cuenta con un capítulo en España "DAMA España". La asociación se compone de profesionales de la gestión de datos de diferentes sectores. DAMA en España -------------- - **Misión:** Es una asociación nacional, sin ánimo de lucro de profesionales, técnicos y de negocio, dedicada al avance de los conceptos y prácticas de gestión de la información y los datos. - **Visión:** Ser un recurso esencial para quienes se dedican a la gestión de la información y los datos. - **Propósitos:** - Promover la comprensión, el desarrollo y la práctica de la gestión de los datos y la información como un activo clave de la empresa para apoyar la organización. - Concienciar a las compañías españolas de la ventaja que supone operar centrado en los datos/información y ofrecer los medios necesarios para liderar los mercados globales. - Contribuir de forma ágil a cumplir con la visión de la arquitectura empresarial, lo que conlleva cumplir con la visión estratégica de la compañía. En líneas generales, su principal objetivo es promover y facilitar el desarrollo de la cultura de gestión de los datos, convirtiéndose en la referencia para las organizaciones y profesionales en la gestión de la información, aportando recursos, formación y conocimiento sobre la materia. DAMA presenta las mejores prácticas para garantizar el control sobre la información, independientemente del negocio de aplicación, y para ello, posiciona al Gobierno del Dato como principal actividad alrededor de la cual se gestionan el resto de las actividades, como puedan ser arquitectura, interoperabilidad, calidad o metadato, como veremos más adelante. Según DAMA: "Un dato ubicado en un contexto da lugar a información. Si le añadimos inteligencia obtenemos conocimiento que, combinado con una buena estrategia, genera poder". DAMA define el Data Management como un conjunto de 11 áreas de conocimiento y gracias a la referencia del DMBOK2 ha creado un marco de excelencia y buenas prácticas que es referencia en todo el mundo. DMBOK2 ------ En 2017 la asociación de profesionales en gerencia de Datos (DAMA Internacional) publica la segunda versión del DMBOK (Data Management Body Of Knowledge), Un marco que busca unificar conceptos, buenas prácticas y ser una referencia sobre la gestión de datos para profesionales y empresas. Y es que, desde la publicación de la primera edición en 2009, se han producido avances significativos en el campo de la gestión de datos: - El Gobierno de Datos se ha convertido en una estructura estándar en muchas organizaciones. - Las tecnologías han permitido la recopilación y el uso de \'Big Data\' (datos semiestructurados y no estructurados en una amplia gama de formatos). - La importancia de la ética de los datos ha crecido junto con nuestra capacidad para explorar y explotar la gran cantidad de datos e información producidos, como parte de nuestra vida diaria. Estos cambios imponen nuevas exigencias reformulando el marco de gestión de datos de DAMA, agregando detalles y aclaraciones, y ampliando el alcance de DMBOK. Además, la segunda edición incluye un conjunto de principios de administración de datos (recientemente formulado) que favorece la capacidad de las organizaciones de administrar sus datos de manera efectiva y obtener valor de sus activos de datos. Marco de DAMA-DMBOK2 ==================== Según el DMBOK2: - El Gobierno del dato se define como el ejercicio de autoridad y control (planificación, monitorización y aplicación) sobre la gestión de los activos de datos. - La función del gobierno del dato guía el resto de las funciones de gestión del dato. - El propósito del gobierno del dato es asegurar que los datos están gestionados correctamente, de acuerdo con las políticas y mejores prácticas definidas. - Gobierno del dato vs. Gestión del dato = Supervisión vs. Ejecución. - El Gobierno del dato requiere planificación, no solo para representar el cambio organizacional sino también simplemente porque incluye muchas actividades complejas que necesitan ser coordinadas. - Una implementación escalable e interactiva basada en casos de uso acotados maximiza las probabilidades de éxito y reduce la frustración potencial en los equipos involucrados. - Y algo también MUY IMPORTANTE: La tecnología es un facilitador y un acelerador para el gobierno del dato, pero no resuelve las necesidades básicas por sí misma, necesita estrategia, personas y procesos. Si seguimos en enfoque de DAMA sobre el Data Management: - El Data Governance es el elemento central. No hay Data Management sin ella. - El Data Governance nos prepara en el proceso de transformación digital. - El Data Governance nos ayuda en la toma de decisiones eficientes. - El Data Governance nos permite mejorar los procesos. - Maximiza el potencial de generación de ingresos de los datos y aprovecha el linaje de los datos. Cada una de las dimensiones propuestas en el framework DAMA en Data Management detalla las diferentes actividades que deberían ser llevadas a cabo para cubrir todos los aspectos relacionados con ese ámbito de la gestión del gobierno del dato. Las ideas y conceptos presentados en el DMBOK2 se aplicarán de manera diferente en las organizaciones. El enfoque de una organización para la gestión de datos depende de factores clave como su industria, el rango de datos que utiliza, su cultura, nivel de madurez, estrategia, visión y los desafíos específicos que enfrenta. La implementación de iniciativas de gobierno de datos es parte del proceso de madurez de las organizaciones y no harán que desaparezcan lo que teníamos antes, sino que coexistirán, se crearán equipos nuevos que participarán en el proceso productivo del dato. Lo que hay que conseguir es aumentar el nivel de madurez de la organización de manera gradual y que los nuevos datos obtenidos aporten cada vez más valor a lo que ya tenemos. En este marco, el gobierno, el control, la calidad, la gestión y el conocimiento de los datos son la clave del éxito y, para ello, se debe cumplir con los siguientes principios: Este marco DAMA-DMBOK2 profundiza en las áreas de conocimiento que conforman el alcance general de la gestión de datos y se representa a través de tres imágenes: - La Rueda DAMA. - El Hexágono de Factores Ambientales. - El Diagrama de Contexto del Área de Conocimiento. En los capítulos siguientes, se analizarán cada uno de ellos. 9. Componentes de DAMA ------------------- 4. ### Rueda DAMA La rueda DAMA define 11 áreas de conocimiento de gestión de datos. ![Gráfico, Diagrama Descripción generada automáticamente](media/image3.png) Figura 3: Rueda DAMA Coloca el gobierno de datos en el centro de las actividades de gestión de datos, ya que se requiere gobierno para la coherencia y el equilibrio entre las funciones. Las otras Áreas de Conocimiento (Arquitectura de Datos, Modelado de Datos, etc.) se equilibran alrededor de la Rueda. Todas son partes necesarias de una función de gestión de datos madura, pero pueden implementarse en diferentes momentos, según los requisitos de la organización. En cualquier caso, se requerirá establecer un marco metodológico para la implementación de una estrategia completa y trabajar en el entorno de Gobierno en torno a los componentes y disciplinas que constituyen el modelo de la Información. ### Hexágono de Factores Ambientales El hexágono de factores ambientales muestra la relación entre personas, procesos y tecnología y proporciona una clave para leer los diagramas de contexto DMBOK. Además, sitúa los objetivos y los principios en el centro, ya que estos brindan orientación sobre cómo las personas deben ejecutar actividades y usar de manera efectiva las herramientas necesarias para una gestión de datos exitosa. Figura 4: Hexágono de Factores Ambientales ### Diagramas de contexto del Área de Conocimiento Los Diagramas de Contexto del Área de Conocimiento describen el detalle de las Áreas de Conocimiento, incluyendo detalles relacionados con personas, procesos y tecnología. Estos diagramas se basan en el concepto de un diagrama SIPOC (Suppliers, Inputs, Process, Outputs Customers) utilizado para la gestión de productos (Proveedores, Entradas, Procesos, Salidas y Consumidores). El diagrama SIPOC es una herramienta que ayuda a las organizaciones a comprender cómo funciona un proceso y cómo está conectado a las partes interesadas y a las entradas y salidas del proceso. Los diagramas de contexto ponen las actividades en el centro, ya que producen los entregables que cumplen con los requisitos de las partes interesadas. Componentes de un Diagrama de Contexto: - **Definición** - En esta sección se define de manera concisa el Área de Conocimiento. - **Objetivos del Área de conocimiento** - Describe el propósito del Área de Conocimiento y los principios fundamentales que guían el desempeño de las actividades dentro de cada Área de Conocimiento. - **Actividades** - Son las acciones y tareas requeridas para cumplir con los objetivos del Área de Conocimiento. Algunas actividades se describen en términos de subactividades, tareas y pasos. - Las actividades se clasifican en cuatro categorías: - Planificación. - Desarrollo. - Operacionales. - Control. - **Entradas** - Están en el lado izquierdo y fluyen hacia las actividades. - Son las cosas tangibles que cada Área de Conocimiento requiere para iniciar sus actividades. - Muchas actividades requieren los mismos insumos. Ejemplo de insumo demandado por varias actividades: conocimiento de la estrategia de la organización. - **Entregables** - Están en el lado derecho y fluyen de las actividades. - Son los resultados de las actividades dentro del Área de Conocimiento, las cosas tangibles que cada función produce. - **Roles y Responsabilidades** - Describen cómo los individuos y los equipos contribuyen a las actividades dentro del Área de Conocimiento. - Los roles de las personas se definen en términos de habilidades y requisitos de calificación. - Estos roles están definidos atendiendo al framework SFIA que define las habilidades y competencias requeridas por los profesionales que diseñan, desarrollan, implementan, administran y protegen los datos y la tecnología que impulsan el mundo digital. - **Proveedores** - Están en el lado izquierdo y fluyen hacia las actividades. - Son las personas responsables de proporcionar o facilitar el acceso a los insumos o entradas para las actividades. - **Consumidores** - Están en el lado derecho y fluyen de las actividades. - Son aquellos que se benefician directamente de los entregables primarios creados por las actividades de gestión de datos. - **Participantes** - Los participantes se enumeran debajo de las actividades. - Son las personas que realizan, gestionan la realización o aprueban las actividades del Área de Conocimiento. - **Herramientas** - Son las aplicaciones y otras tecnologías que posibilitan los objetivos del Área de Conocimiento. - **Técnicas** - Son los métodos y procedimientos utilizados para realizar actividades y producir entregables dentro de un Área de Conocimiento. - Las técnicas incluyen mejores prácticas, recomendaciones, normas y protocolos, enfoques alternativos emergentes y aplicables. - **Métricas** - Son estándares para la medición o evaluación del desempeño, progreso, calidad, eficiencia u otro efecto. - Las secciones de métricas identifican facetas medibles del trabajo que se realiza dentro de cada área de conocimiento. - Las métricas también pueden medir características más abstractas, como la mejora o el valor. ![Escala de tiempo Descripción generada automáticamente](media/image5.png) Figura 5: Diagrama de Contexto del Área de conocimiento Como recordatorio, enfatizar que la rueda DAMA presenta áreas de conocimiento a un alto nivel, el Hexágono reconoce los componentes de la estructura de las áreas de conocimiento y los diagramas de contexto presentan el detalle dentro de cada área de conocimiento. Zoom de las 11 Áreas de Conocimiento de la Gestión de Datos =========================================================== Recordemos que en capítulos anteriores hemos visto que la rueda DAMA define 11 áreas de conocimiento de gestión de datos; y que coloca el gobierno de datos en el centro de las actividades de gestión de datos, y a las otras Áreas de Conocimiento alrededor de esta. Gráfico, Diagrama Descripción generada automáticamente Figura 6: Rueda DAMA A continuación, analizaremos con un mayor nivel de detalle, cada una de estas áreas. 10. Gobierno del Dato ----------------- 7. ### Objetivo: - Proporciona dirección y supervisión al Data Management estableciendo un sistema de derechos de decisión sobre los datos que da cuenta de la necesidad de la empresa. - Requiere: - Definición de la estrategia del gobierno del dato. - Determinar las Competencias que mejoran la Gobernanza del Dato. - Valorar el nivel de madurez "Data Governance" de la organización. - **Definición de la estrategia del gobierno del dato** ![Interfaz de usuario gráfica Descripción generada automáticamente](media/image6.tiff) Figura 7: Estrategia del gobierno del dato - **Determinar las Competencias que mejoran la Gobernanza del Dato** Tabla 1: Competencias COMPETENCIAS DESCRIPCION ---- ---------------------------------------------- ------------------------------------------------------------------------------------------------------------------------------------------------------------------------- 1 ORGANIZACIÓN Y DISTRIBUCIÓN DEL CONOCIMIENTO Describe el nivel de responsabilidad y compromiso mutuo entre el negocio e IT, además de establecer cómo se comparte el gobierno de datos 2 CUSTODIA DE DATOS Área diseñada para asegurar el control de los datos y la mejora de estos como activo de la empresa, gestión del riesgo de pérdida y/o difusión y control organizativo 3 POLITICAS Es la normativa formalizada, publicada y articulada del comportamiento de la organización sobre las diferentes áreas de gestión de los datos 4 CREACIÓN DE VALOR Proceso mediante el cual se cuantifica el valor de la información en base a los datos disponibles 5 GESTION DEL RIESGO DE DATOS Y CUMPLIMIENTO Describe la metodología mediante la cual los riesgos son identificados, cualificados, cuantificados, evitados, aceptados, mitigados o eliminados. 6 SEGURIDAD Y PRIVACIDAD DE DATOS Describe las políticas, prácticas y controles usados por la organización para mitigar el riesgo y proteger los datos como activo 7 ARQUITECTURA DE DATOS El diseño de la arquitectura de sistemas y aplicaciones de datos estructurados y no estructurados que permiten la disponibilidad y distribución de datos a los usuarios 8 CALIDAD DE DATOS, GESTIÓN/DESCUBRIMIENTO La metodología y procesos para medir, mejorar y certificar la calidad e integridad de los datos productivos, en pruebas y archivados 9 CLASIFICACIÓN DE DATOS/METADATOS Metodología y herramientas que permiten crear la definición y semántica común en el Negocio y IT. Es el enlace entre las personas e infraestructura IT 10 GESTIÓN DEL CICLO DE VIDA DE LA INFORMACIÓN Gestión organizada basada en políticas desde la captura, uso, retención, archivado y eliminación de los datos 11 AUDITORIAS E INFORMES Permite la monitorización y la cuantificación del valor de los datos, riesgos y eficiencia del Gobierno - **Definición de las funciones de gestión de Datos** El marco de trabajo comienza con el objetivo principal de la gestión de datos: permitir que las organizaciones obtengan valor de sus activos de datos como lo hacen en otros activos. La obtención de valor requiere una gestión del ciclo de vida, por lo que las funciones de gestión de datos relacionadas con el ciclo de vida de los datos se representan en el centro del diagrama. Estas funciones y procesos incluyen planificación y diseño de datos fiables y de alta calidad; que permiten su uso en diferentes tipos de análisis, su mantenimiento y la mejora de su valor. La sección de gestión del ciclo de vida representa el diseño de gestión de datos y las funciones operativas (modelado, arquitectura, almacenamiento y operaciones, etc....) necesarios para admitir los usos tradicionales de datos (Business Intelligence, gestión de documentos y contenidos). También reconoce las funciones emergentes de gestión de datos (almacenamiento de Big Data) que respaldan el uso emergente de datos (Data Science, análisis predictivo\... etcétera) en los casos en que los datos realmente se gestionan como una activo, las organizaciones pueden tener un valor directo de sus datos al venderlo a otras organizaciones (monetización de datos). Interfaz de usuario gráfica, Aplicación Descripción generada automáticamente Figura 8: Framework-Funciones de Gestión de datos Las actividades de gestión de datos son de gran alcance. Incluyen todo, la capacidad de tomar decisiones coherentes, cómo obtener valor estratégico de los datos, el despliegue técnico, el rendimiento de las bases de datos.... - **Establecer el Nivel de Madurez de la Gobernanza al Dato** En primere lugar, se requiere identificar el nivel de madurez de la organización (establecido en 5 estados), clasificando un nivel de madurez para cada disciplina y posteriormente, se trabajará en avanzar en todas las competencias según los parámetros manejados. Figura 9: Nivel de Madurez de la Gobernanza al Datos Adaptación Organizacional ------------------------- Para lograr que los datos cumplan con los principios establecidos por DAMA, se hace fundamental, además de implementar una estrategia de gobernanza de estos, repensar la organización y dar espacio para nuevos roles que puedan asumir todas estas funciones. Cada organización tiene que adoptar el modelo organizativo que mejor se ajuste a sus necesidades y estrategia. Existen modelos federados, centralizados, descentralizados o híbridos, en cualquier caso, los elementos principales que los componen son los siguientes: ### La Oficina del Dato (DMO) La oficina central del dato está liderada por el máximo responsable sobre las iniciativas de gobierno del dato en la compañía, el Chief Data Officer (CDO). La oficina es la responsable de asumir, coordinar y dar soporte a todas las iniciativas de gobierno de datos: definición de la estrategia, políticas, normativa, seguridad de los datos, gestión de incidencias, monitorización de KPI de calidad y seguimiento del programa, etc. Además, definirá los roles y sus responsabilidades, el modelo de relación de todos ellos y la forma en que se velará por su cumplimiento, así como otras iniciativas relacionadas con los datos. ### Comité del Gobierno del Dato Este comité de gobierno del dato está compuesto, habitualmente, por el CDO, el CIO (Chief Information Officer) y sponsors de la organización. Vela por la consecución de los objetivos estratégicos en materia de gobierno del dato, gestionando el presupuesto asociado, aprobando y revisando iniciativas, políticas y estándares, resolviendo o escalando incidencias y estableciendo los diferentes dominios de datos, la organización y los partners adecuados para alinearse con la estrategia. ### Equipos de Gestión de datos Estos equipos de "data stewards" son responsables de los datos y se encargan de asegurar e implantar las políticas y estándares definidos por la DMO aplicándolas a su ámbito de datos, documentando reglas técnicas y de negocio que deben cumplir los datos. Además, gestionan el ciclo de vida del dato, detectando, resolviendo y reportando incidencias o no conformidades de estas políticas y estándares. También, son los responsables de definir y actualizar los glosarios de negocio y diccionarios de datos, los metadatos. De esto se desprende, que un profesional de la gestión de datos es cualquier persona que trabaje en cualquier faceta de la gestión de datos y que desempeñan numerosas funciones, desde puramente técnicas (por ejemplo, administradores de bases de datos, administradores de redes, programadores) a las relacionadas con negocios estratégicos (por ejemplo, administradores de datos, estrategas de datos, jefe Oficiales de datos). Así, la gestión de datos requiere habilidades técnicas y no técnicas (de negocios). La responsabilidad de la gestión de los datos debe compartirse entre las funciones de negocio (funcionales) y de tecnología de la información; y las personas de ambas áreas deben colaborar para satisfacer las necesidades estratégicas. Para apoyar a los profesionales que trabajan la gestión de datos, DAMA International publicó la segunda edición del DAMA, denominada DMBOK2, la guía DAMA para el cuerpo de conocimientos de gestión de datos. Arquitectura del Dato --------------------- Esta área de conocimiento define el plan de gestión de los activos de datos alineándose con la estrategia organizativa para establecer los requisitos de datos estratégicos y los diseños para cumplir con estos requisitos. Según DAMA, el objetivo de la Arquitectura de Datos es ser un puente entre la estrategia comercial y la ejecución de la tecnología, porque la Arquitectura de Datos es más valiosa cuando apoya completamente las necesidades de toda la empresa. ### Objetivos y Alcance La disciplina de la Arquitectura del dato se lleva a cabo en diferentes niveles de la organización (empresa, dominio, proyectos\...) y con diferentes áreas: infraestructura, aplicación y datos. Las prácticas de arquitectura empresarial bien gestionadas ayudan a las organizaciones a comprender el estado actual de sus sistemas, promover el cambio deseable hacia el estado futuro, permitir el cumplimiento de la normativa y mejorar la eficacia. DAMA y el DMBOK2 entienden la arquitectura de la información desde las siguientes perspectivas: - Los **"Outcomes" de la Arquitectura de Datos**, tales como los modelos, definiciones y flujos de datos en varios niveles, usualmente referidos como artefactos de la Arquitectura de Datos. Estos **Artefactos de la arquitectura de datos** incluyen especificaciones utilizadas para describir el estado existente, definir los requisitos de datos, guiar la integración de los datos y controlar los activos de datos tal como se presentan en la estrategia de datos (que se supone alguien ya ha diseñado). La Arquitectura de Datos de una organización se describe mediante las normas que rigen la forma en que se recogen, almacenan, organizan, utilizan y eliminan los datos. Los artefactos que crean los arquitectos constituyen valiosos metadatos. Lo ideal sería que los artefactos arquitectónicos se almacenaran y gestionaran en un repositorio de artefactos de arquitectura empresarial. - **Actividades de la Arquitectura de Datos**, para formar, desplegar y cumplir las intenciones de la Arquitectura de Datos. - **La Ontología de la Arquitectura de Datos y su impacto en la organización**, como colaboraciones, mentalidades y habilidades entre los diversos roles que afectan a la Arquitectura de Datos de la empresa. Debido a que la mayoría de las organizaciones tienen más datos de los que las personas individuales pueden comprender, es necesario representar los datos de la organización en diferentes niveles de abstracción para que puedan ser comprendidos y la administración pueda tomar decisiones al respecto. Las organizaciones con visión de futuro deberían incluir a profesionales multidisciplinares de la gestión de datos (por ejemplo, los arquitectos de datos empresariales o los administradores de datos estratégicos) cuando diseñen nuevas ofertas de mercado, porque hoy en día éstas suelen incluir hardware, software y servicios que capturan datos, dependen del acceso a los datos, o ambos. Según el DMBok2, el objetivo de la Arquitectura de Datos es ser un puente entre la estrategia comercial y la ejecución de la tecnología. Como parte de la Arquitectura Empresarial, los Arquitectos de Datos: - **Preparar estratégicamente** a las organizaciones para hacer evolucionar rápidamente sus productos, servicios y datos a fin de aprovechar las oportunidades comerciales inherentes a las tecnologías emergentes. - **Traducir las necesidades comerciales en requisitos de datos y sistemas** para que los procesos tienen sistemáticamente los datos que requieren. - **Gestionar la entrega de datos e información** compleja en toda la empresa Facilitar la alineación entre el negocio e IT. - **Actuar como agentes de cambio, transformación y agilidad** Los arquitectos de datos crean y mantienen el conocimiento organizacional sobre los datos y los sistemas a través de los cuales se mueven. Este conocimiento permite a una organización gestionar sus datos como un activo y aumentar el valor que obtiene de sus datos mediante la identificación de oportunidades para el uso de los datos, la reducción de costos y la mitigación de riesgos. ### RoadMap Sin una definición estricta de la arquitectura de datos empresariales, va a ser misión imposible diseñar modelos de datos efectivos y eficientes. En muchas empresas los usuarios de analítica se lanzan a hacer modelado sin tener idea de la arquitectura que hay en la organización o teniendo un conocimiento superficial de la misma. El DMBOk2 aborda esta problemática, siguiendo el siguiente este roadmap: - Organizar los equipos y foros de la Arquitectura de Datos de la Empresa. - Producir las versiones iniciales de los artefactos de la Arquitectura de Datos, como el modelo de datos de la empresa, el flujo de datos de toda la empresa y las hojas de ruta. - Formar y establecer una forma arquitectónica de datos para trabajar en proyectos de desarrollo. - Crear conciencia en toda la organización del valor de los esfuerzos de la Arquitectura de Datos. 13. Modelado y Diseño del Dato -------------------------- 13. ### Objetivo y Alcance El modelado y diseño de datos es un proceso clave para entender cómo se relacionan los datos y cómo se pueden utilizar para obtener información valiosa. Es el proceso de descubrir, analizar y definir el alcance de los requerimientos de datos, con el objetivo de representar y comunicar estos requerimientos en una forma precisa llamada el modelo de datos. Este proceso requiere que las organizaciones descubran y documenten cómo sus datos encajan en conjunto. Suele ser un proceso iterativo donde se incluyen modelos conceptual, lógico y físico. Se puede sintetizar al modelado y diseño de datos como la creación de modelos de datos que describen la estructura de los datos y cómo se relacionan entre sí. Para que las organizaciones entiendan cómo se relacionan los datos y cómo se pueden utilizar para obtener información valiosa. \"El modelado de datos es una técnica que permite a los equipos de desarrollo de software entender los requisitos del negocio y diseñar soluciones que satisfagan esas necesidades\". Un modelo y diseño de datos adecuado conduce a menores costos de soporte y aumenta las oportunidades de reutilización para iniciativas futuras, reduciendo así los costos de la construcción de nuevas aplicaciones o iniciativas basadas en datos. Los modelos de datos son una importante forma de metadatos. Confirmar y documentar la comprensión de diferentes perspectivas facilita: - La formalización. - Definición del alcance. - Retención de conocimiento y documentación. Los 6 esquemas más comunes para llevar a cabo el modelado de datos o representar los datos son: - Relacional. - Dimensional. - Orientado a objetos. - Basado en hechos. - Basado en el tiempo. - NoSQL. Cada esquema utiliza notaciones específicas de diagramación. Algunas acciones para implementar el modelado y diseño de datos pueden incluir: - Identificar los requisitos del negocio para el Modelado y Diseño de Datos. - Crear un modelo conceptual de los datos que describa la estructura de los datos y cómo se relacionan entre sí. - Crear un modelo lógico de los datos que describa cómo se pueden utilizar los datos para obtener información valiosa. - Crear un modelo físico de los datos que describa cómo se almacenarán los datos. - Utilizar herramientas de modelado de datos para facilitar el proceso de Modelado y Diseño de Datos. - Definir estándares de Modelado y Diseño de Datos para garantizar la consistencia de los modelos. - Establecer un proceso de revisión de modelos para garantizar la calidad de los modelos. - Capacitar a los equipos de desarrollo de software en el Modelado y Diseño de Datos. - Evaluar regularmente la calidad de los modelos y hacer ajustes según sea necesario. - Utilizar los modelos de datos para tomar decisiones informadas basadas en datos. A partir del modelo conceptual, es posible empezar a plantearse cómo será la arquitectura funcional del Data Warehouse. Para ello es necesario contemplar la existencia de una capa intermedia entre los sistemas origen y el DWH. Este estrato servirá de capa de abstracción entre el mundo de los procesos y el mundo analítico, permitiendo optimizar la integración con el modelo definitivo. Llegados a este punto, se hace por tanto necesario definir dos bases de datos: - **ODS (Operational Data Store) o Staging Area** - Es la capa intermedia que servirá como almacenamiento entre los sistemas fuente y el Data Warehouse. - Su misión es: - Actuar de punto de entrada en el Data warehouse de los datos provenientes de las fuentes de datos (B2B, B2C, RRSS, Excel, etc....). - Ofrecer la posibilidad de [gestionar los datos](http://www.lantares.com/blog/bid/370959/Gesti-n-de-Datos-10-Claves-para-Definir-la-Estrategia-Corporativa?__hstc=138189604.905589a293865702ea39a3cce0cd4abb.1721215429364.1721215429364.1721215429364.1&__hssc=138189604.1.1721215429364&__hsfp=4012184031) con el formato y estructura de origen para facilitar la integración y transformación hacia el modelo desnormalizado que poseen los Datamarts y el Data Warehouse. - Aquí los datos no sufren transformación alguna, son capturados tal cual están en origen. - No se mantiene histórico, siempre contiene la versión más reciente de los datos. - Hay que tener en cuenta que los sistemas fuente presentan toda la información separada por tablas, mientras que en destino la información se compila en una estructura común, que facilita en gran medida, no sólo las búsquedas, sino también la comprensión de los datos que contienen. - **Data Warehouse** - Un Data Warehouse (depósito de datos) es una plataforma utilizada para recolectar y [analizar datos](https://datascientest.com/es/trabajo-data-analyst) provenientes de múltiples fuentes heterogéneas. Ocupa un lugar central dentro de un sistema de Business Intelligence. - Esta plataforma reúne diversas tecnologías y componentes que permiten explotar los datos. Permite almacenar una gran cantidad de datos, así como también su tratamiento y análisis. El objetivo es transformar los datos brutos en informaciones útiles, y volverlos disponibles y accesibles para los usuarios. - Un Data Warehouse se encuentra generalmente separado de la base de datos operacional de la empresa. Permite a sus usuarios apoyarse en datos históricos y actuales para tomar mejores decisiones. - Su función es mucho más compleja que la de un almacén de datos, tal y como puede desprenderse de la riqueza de su estructura: - *Tablas maestras o \"dimensiones conformadas\":* - Son los pilares del Data Warehouse. - Hacen posible establecer relaciones entre los distintos Datamarts en base a las dimensiones comunes del negocio. - *Datamarts:* - Un datamart es una versión específica del almacén de datos (data warehouse) centrado en un tema o un área de negocio dentro de una organización. Son subconjuntos de datos con el propósito de ayudar a que un área específica dentro del negocio pueda tomar mejores decisiones. Los datos existentes en este contexto pueden ser agrupados, explorados y propagados de múltiples formas para que diversos grupos de usuarios realicen la explotación de estos de la forma más conveniente según sus necesidades. - Pueden aparecer modelados en estrella (desnormalizados) o en copo de nieve (sin llegar a ser una opción desnormalizada, tampoco se puede hablar de que sea puramente normalizada), siendo mucho más recomendable la primera alternativa salvo escasas excepciones. - Los Datamarts se componen de: - Dimensiones temáticas propias del Datamart, con sus respectivos atributos. - Tablas de hecho, con sus respectivas métricas: - Transaction Fact Tables: son las tablas que, en último término, recogerán los datos que tienen que ver con el negocio. Vienen de la mano de transacciones, no sólo económicas, sino también resultado de un proceso de negocio (importe de ventas, cantidad vendida, etc.). - Factless Fact Tables/Coverage Tables: en este caso, los hechos de negocio no proceden de una transacción, sino de una cuantificación (por ejemplo, cantidad de clientes, cantidad de clases de productos diferentes que se han vendido), y, por eso, resultan en todo caso en hechos cuantitativos. - Periodic Snapshot Fact Tables: este tipo de tablas son las más utilizadas para hacer seguimiento de stock, ya que, al ser el stock un valor se encuentra en constante dinamismo, es preciso contar con instantáneas que almacenen los diferentes estadios de su evolución ligada a un factor temporal. - Accumulating Snapshot Fact Table: que satisfacen las necesidades de información en cuanto a acumulados, ya que en muchos casos es preciso conocer los datos agregados, por ejemplo, los Balances en el entorno financiero. - Tablas agregadas: son tablas de hecho también, aunque en su caso prescinden de algunas dimensiones para simplificar el análisis y no penalizar los tiempos de respuesta. Tanto el Operational Data Store (ODS), como el Data Warehouse (DWH) requieren de la definición de un modelo de datos lógico y, posteriormente, de la de un modelo de datos físico. En ambos casos es preciso realizar: - **Modelos de datos lógicos:** su orientación es eminentemente operativa, más que descriptiva de una realidad. En este modelo, es preciso comenzar a definir cada uno de los objetos que conformarán el modelo físico (tablas, campos y relaciones) aunque sin entrar en el detalle técnico del tipo de dato ni el tipo de restricción que deban caracterizar, ni a cada uno, ni a sus relaciones. - **Modelos de datos físicos:** se trata de estructuras de datos a bajo nivel cuya implementación se ha producido teniendo en cuenta el propio motor de bases de datos. Esto implica que la definición de cada tabla, campo o relación tendrá que ser impecable a la hora de reunir las características propias del motor de base de datos que soportará la solución una vez en marcha. La gran diferencia entre el modelo de datos lógico y el físico es que, mientras que el primero es todavía un borrador, aunque su esquema ya dibuja la estructura del DWH o de ODS con tablas y con campos interconectados entre sí (fecha de ventas, producto vendido, cliente, cantidad de productos, precio unitario e importe); de momento no entra en mayor detalle acerca de la presentación de los datos. El modelo físico traslada ese modelo lógico, que ya tiene una estructura definida, determinando físicamente cómo va a ser (entero, decimal, alfanumérico, etc.). Aquí se definen todos los tipos de información en función de las bases de datos que se utilizarán. El proceso de modelado, que hasta hace unos años se hacía con papel y lápiz, hoy día se lleva cabo a través del lenguaje de definición de datos (DDL: Data Definition Language), que es un lenguaje estándar de definición soportado por todos los motores de bases de datos para construir estructuras de datos y tablas con campos y relaciones. Las tecnologías de hoy en día permiten "dibujar" tanto el modelo conceptual, como el modelo lógico y realizar la operación de construir el modelo físico, generando las sentencias nativas del motor de base de datos para la creación del modelo definitivo mediante el DDL. 14. Almacenamiento y Operación de Datos ----------------------------------- 14. ### Objetivo y Alcance Esta área incluye el diseño, la implementación y el soporte de los datos almacenados para maximizar su valor a lo largo de todo su ciclo de vida, desde su creación/adquisición hasta su eliminación. Se pueden mencionar como principales metas del almacenamiento y operación de datos: - Gestionar la disponibilidad de los datos a lo largo de su ciclo de vida. - Garantizar la integridad de los activos de datos. - Gestionar el rendimiento de las transacciones de datos. - Garantizar una gestión eficiente de la información en una organización. La gestión de almacenamiento de datos es clave para garantizar que los datos estén disponibles cuando se necesiten. Se trata de un proceso crítico que, dependiendo del tipo de organización, la no disponibilidad del sistema puede afectar severamente a una organización e incluso detenerlas. Es por ello, que se requiera una infraestructura IT de almacenamiento de datos fiable, segura y escalable. Al implementar un buen sistema de almacenamiento y operación de datos, se pueden obtener las siguientes ventajas: - Acceso rápido y eficiente a los datos: Un buen sistema de almacenamiento permite acceder a los datos de manera ágil y procesarlos de manera eficiente, lo que facilita la toma de decisiones basadas en información actualizada y precisa. - Mayor disponibilidad de los datos: Un sistema de almacenamiento adecuado garantiza que los datos estén disponibles cuando se necesiten, evitando interrupciones en la operación de la organización. - Seguridad de los datos: Un buen sistema de almacenamiento y operación de datos incluye medidas de seguridad para proteger la información de accesos no autorizados, pérdidas o daños. - Recuperación de datos: En caso de fallos o desastres, un sistema de almacenamiento bien diseñado permite recuperar los datos de manera rápida y eficiente, minimizando el impacto en la operación de la organización. - Eficiencia en la administración de los datos: Un buen sistema de almacenamiento y operación de datos facilita la gestión y administración de los datos, permitiendo una organización eficiente y estructurada de la información. Por otro lado, tener un mal almacenamiento y operación de datos puede acarrear desventajas significativas: - Pérdida de datos: Un sistema deficiente puede llevar a la pérdida de datos importantes para la organización, lo que puede tener un impacto negativo en la toma de decisiones y en la continuidad del negocio. - Acceso limitado a los datos: Un sistema inadecuado puede dificultar el acceso a los datos, lo que puede retrasar la toma de decisiones y afectar la eficiencia de la organización. - Riesgo de seguridad: Un sistema de almacenamiento y operación de datos deficiente puede exponer la información a riesgos de seguridad, como accesos no autorizados o pérdida de datos sensibles. - Ineficiencia en la administración de los datos: Un sistema inadecuado puede dificultar la gestión y administración de los datos, lo que puede llevar a una organización desordenada y a dificultades para encontrar y utilizar la información de manera efectiva. Algunas acciones para implementar el almacenamiento y operación de datos podrían ser, como ejemplo: - Identificar los sistemas de almacenamiento de datos necesarios para la organización. - Definir políticas de almacenamiento de datos que incluyan la gestión de la capacidad de almacenamiento y la gestión de la retención de datos. - Implementar herramientas de gestión de almacenamiento de datos para facilitar la gestión de los sistemas de almacenamiento de datos. - Definir políticas de operación de datos que incluyan la gestión de la disponibilidad de los datos y la gestión de la seguridad de los datos. - Implementar herramientas de gestión de operación de datos para facilitar la gestión de los sistemas de operación de datos. - Definir estándares de almacenamiento y operación de datos para garantizar la consistencia de los sistemas. - Establecer un proceso de revisión de sistemas de almacenamiento y operación de datos para garantizar la calidad de los sistemas. - Capacitar a los equipos de IT en la gestión de almacenamiento y operación de datos. - Evaluar regularmente la calidad de los sistemas de almacenamiento y operación de datos y hacer ajustes según sea necesario. - Utilizar los sistemas de almacenamiento y operación de datos para mejorar la eficiencia y rentabilidad de la organización. Es importante remarcar que en este caso las métricas pueden ser de distinto tipo o foco, como ser: - Métricas de almacenamiento de datos: - Número de base de datos por tipo. - Estadísticas de transacciones agregadas. - Métricas de capacidad (cantidad de almacenamiento utilizado, número de conectores almacenados,...). - Uso del servicio de almacenamiento. - Peticiones realizadas a los servicios de almacenamiento. - Mejoras en el desempeño de aplicaciones que usan un servicio. - Métricas de desempeño: - Cantidad y frecuencia de las transacciones. - Rendimiento de las consultas. - Desempeño del servicio del API (interfaz de programación de aplicaciones). - Métricas operacionales: - Estadísticas agregadas del tiempo de obtención de datos. - Tamaño de la copia de seguridad. - Medición de la calidad de datos. - Disponibilidad. - Métricas de servicio: - Conteo de incidentes enviados, resueltos y escalados por tipo. - Tiempo de resolución de incidencias. 15. Seguridad del Datos ------------------- Seguridad de Datos es un aspecto crucial en la gestión de datos. En el contexto de DAMA, se considera una de las 11 funciones clave para una gestión efectiva de datos. ### Objetivo y Alcance - La seguridad de los datos garantiza que la privacidad y la confidencialidad de los datos se mantengan, que no se violen los datos y que se acceda a ellos de manera adecuada. - Abarca las medidas a llevar a cabo, en todas las áreas temáticas integradas en el Data Warehouse, para asegurar la privacidad en la explotación del dato, así como las actividades necesarias para garantizar la seguridad de los datos. Por ejemplo, se podrán evitar usos indebidos o fraudulentos mediante una monitorización de los accesos y el seguimiento de la actividad de los usuarios. - Su objetivo es proteger los datos contra amenazas internas y externas, garantizando su confidencialidad, integridad y disponibilidad. - Para lograr una sólida seguridad de datos, se deben implementar prácticas como: - Control de Acceso: Limitar el acceso a datos sensibles solo a usuarios autorizados. - Cifrado: Proteger los datos mediante técnicas de cifrado. - Auditoría y Monitoreo: Supervisar y registrar actividades relacionadas con los datos. - Gestión de Identidad y Acceso: Administrar quién puede acceder a qué datos. - Respaldo y Recuperación: Realizar copias de seguridad y planes de recuperación ante fallos. En resumen, la seguridad de datos es una inversión necesaria para proteger la integridad y confidencialidad de la información en cualquier organización. ### Tecnologías - La seguridad es controlable a nivel de base de datos mediante herramientas. - En la capa semántica y de visualización, es posible restringir tanto la funcionalidad de aplicación como las áreas temáticas y de acceso a datos, apoyándonos en herramientas. - Dentro del Data warehouse, la capa "Access Layer" también contribuye a la seguridad del sistema, pues ofrece una interfaz al exterior del Data warehouse que limita tanto las capacidades de escritura como la cantidad de datos expuestos. - En la capa de visualización de datos, herramientas comerciales, también implementan seguridad basada en roles, restringiendo qué datos puede ver cada usuario en función de los permisos asignados. 16. Integración y Operabilidad del Datos ------------------------------------ 17. ### Objetivo y Alcance La Integración y Operabilidad de Datos es otra de las áreas clave del DAMA-DMBOK2. Esta área se centra en asegurar que los datos puedan ser compartidos y utilizados de manera efectiva entre diferentes sistemas y organizaciones. Como aspectos a destacar de esta área, identificar: - **Interoperabilidad:** Garantiza que los sistemas puedan trabajar juntos y compartir datos sin problemas. - **Estándares y Protocolos:** Utiliza estándares comunes para facilitar la integración de datos. - **Calidad de Datos:** Asegura que los datos integrados sean precisos y consistentes. - **Procesos de Integración:** Implementa procesos técnicos para combinar datos de diversas fuentes. Esta área es esencial para crear un entorno de datos cohesivo y eficiente, permitiendo una mejor toma de decisiones y operaciones más fluidas. Para conseguir todo ello, esta área incluye procesos relacionados con el movimiento y consolidación de datos dentro y entre almacenes de datos, aplicaciones y organizaciones. - Aplicación de las buenas prácticas en los procesos de integración: - Llevar a cabo una integración sencilla de la información, independientemente de qué catálogo de datos se haya obtenido. - Se deben utilizar estándares reconocidos para fomentar la interoperabilidad de los catálogos de datos y metadatos. - Análisis de si los datos son adecuados para su uso previsto, incluida la integridad y el cumplimiento de las normas empresariales. - Implementación de procesos para limpiar, transformar, integrar y enriquecer datos nuevos en todas las áreas temáticas. - Esta parte se realiza con una combinación de reglas de negocio, modelado de datos y procesos de carga que implementan las reglas de negocio. - La interoperabilidad de los catálogos de datos permitirá que cualquier usuario que lo desee, podrá hacer uso de la información mediante descarga directa de los datos que considere. 17. Gestión de Documentos y Contenidos ---------------------------------- 18. ### Objetivo y Alcance - Esta área tiene como objetivo llevar a cabo las actividades de planificación, implementación y control utilizadas para gestionar el ciclo de vida de los datos y la información que se encuentran en una serie de medios no estructurados, especialmente los documentos necesarios para apoyar los requisitos de cumplimiento legal y reglamentario. - De manera transversal a todas las áreas, es fundamental contar con un buen sistema de documentación donde queden reflejadas las decisiones de diseño seguidas, la arquitectura del sistema, las reglas de negocio, definición consensuada wide-company de KPIs etc. - Debe ser un sistema vivo y en continua actualización, reflejando en todo momento los cambios producidos. - Para asegurar la integridad, accesibilidad y seguridad de la información no estructurada, se proponen llevar a cabo las siguientes actividades: - **Control Documental:** implementa políticas y procedimientos para la creación, almacenamiento, acceso y eliminación de documentos. - **Metadatos y Etiquetado:** Define metadatos para clasificar y buscar documentos de manera eficiente. - **Gestión de Versiones:** Controla las diferentes versiones de un documento a lo largo del tiempo. - **Cumplimiento Legal:** Asegura que los documentos cumplan con regulaciones y normativas aplicables. Para potenciar esta área, se recomienda utilizar una plataforma ECM, que facilite la gestión de información y contenidos, versus al "montón de documentos" donde después nadie encuentra nada. Además, este tipo de plataformas ofrecen múltiples herramientas como navegación web, jerarquías, hiperenlaces, seguridad, búsquedas, etc. 18. Datos Maestros y Referencias ---------------------------- 19. ### Definición de Datos Maestros Los datos maestros son aquellos datos que se consideran como la versión \"única y verdadera\" de un determinado conjunto de datos dentro de una organización. Estos datos maestros representan la información fundamental y de referencia que se utiliza en varios sistemas y procesos de la organización. Estos datos maestros pueden incluir información sobre clientes, productos, proveedores, empleados y otros elementos clave. Cada organización puede tener sus propios conjuntos de datos maestros específicos según sus necesidades y procesos comerciales. La identificación y definición precisa de los datos maestros relevantes es un paso fundamental en la implementación exitosa de la gestión de datos maestros. ### Objetivo y Alcance Esta área está enfocada en garantizar la integridad, calidad y consistencia de los datos críticos de una organización. Para ello, se llevan a cabo las siguientes actividades: - Realizar un análisis exhaustivo de los datos existentes en la organización, identificando los elementos que requieren gestión como datos maestros y estableciendo las reglas y estándares para su uso y mantenimiento. Esto implica definir la estructura de los datos maestros, las relaciones entre ellos y las reglas de negocio asociadas. - Establecer procesos y flujos de trabajo para la captura, validación, actualización y distribución de los datos maestros. Esto puede involucrar la implementación de sistemas y herramientas especializadas en MDM (Gestión de Datos Maestros), así como la definición de roles y responsabilidades para la gestión de los datos maestros dentro de la organización. - Establecer mecanismos para garantizar la integridad, precisión y consistencia de los datos maestros, como la aplicación de reglas de validación, la limpieza de datos y la resolución de duplicados. - Considerar aspectos de gobierno de datos, como la definición de políticas y procedimientos para el acceso, la seguridad y la privacidad de los datos maestros. Esto implica establecer controles y garantizar el cumplimiento de regulaciones y estándares aplicables. 19. Data Warehousing & Business Intelligence ---------------------------------------- 21. ### Objetivo y Alcance El concepto de Data Warehouse surgió en los años 1980 como tecnología permitió a las organizaciones integrar datos de una variedad de fuentes en un modelo de datos común. Los datos integrados prometieron proporcionar información sobre procesos operativos y abrir nuevas posibilidades para aprovechar los datos para tomar decisiones y crear valor organizacional. A igual nivel de importancia que los datos se encuentran los almacenes de datos que se idearon como un medio para: - Reducir la proliferación de decisiones de Soporte de sistemas (DDS) - Reducir la redundancia de datos - Mejorar la coherencia de la información - Servir de apoyo al BI De lo que se desprende que, aunque los almacenes de datos comenzaron a construirse en el año 1990, tuvieron su mayor implosión, en cuanto a despliegue se refiere, gracias a la evolución del BI. Y estos almacenes de datos continúan evolucionando con nuevas formas de datos, se crean cada vez con mayor velocidad, se crean nuevos conceptos, como los lagos de datos\... Importante tener en cuenta, que en unos años se ha pasado de realizar los análisis a "espejo retrovisor" (utilizando datos históricos) a análisis predictivos gracias al cloud computing, y al aumento de la capacidad de cálculo y almacenamiento, que ya no es un límite. Por tanto, el almacenamiento de datos y la inteligencia empresarial son dos componentes críticos de los negocios modernos basados en datos. ### Diagrama de Contexto Como vimos anteriormente, un almacén de datos es un repositorio centralizado que almacena datos de varias fuentes y los pone a disposición para su análisis e informes, actuando por tanto como soporte del BI. Business Intelligence (BI) es un conjunto de herramientas y técnicas que ayudan a las empresas a analizar datos para obtener información sobre sus operaciones y tomar mejores decisiones. Esta área se centra en gestionar los datos de apoyo para facilitar la toma de decisiones y permitir a los trabajadores del conocimiento obtener valor de los datos mediante el análisis y la presentación de informes. Entre las funciones llevadas a cabo, se encuentran procesos de planificación, ejecución y control y para ello, se centra en el procesamiento de datos y en permitir el acceso a los datos para el análisis y generación de informes. ![Texto Descripción generada automáticamente](media/image8.png) Figura 10: Diagrama de Contexto de Data Warehouse y Business Intelligence ### Componentes de un Data Warehouse A continuación, se enumeran los componentes de un data Warehouse: - **Core** - Verdadero corazón del Data warehouse donde se definen los conceptos del negocio, sus interrelaciones, así como sus identificadores wide-company únicos. Se une información de un mismo concepto proveniente de distintas fuentes (clientes, proveedores,... cuyos datos pueden venir tanto del ERP como del B2B..), creando así el "dato único". - **Data** **Mart** - Un data mart es una versión específica del almacén de datos (data warehouse) centrado en un tema o un área de negocio dentro de una organización. Son subconjuntos de datos con el propósito de ayudar a que un área específica dentro del negocio pueda tomar mejores decisiones. Los datos existentes en este contexto pueden ser agrupados, explorados y propagados de múltiples formas para que diversos grupos de usuarios realicen la explotación de estos de la forma más conveniente según sus necesidades. - Es el área del Data warehouse donde se transforman los datos de una arquitectura OLTP (presente en el Core y optimizada para la modificación, modelos Star o Snowflake) a una arquitectura OLAP (optimizada para la consulta) y donde, además se definen las reglas de negocio. - **Access Layer** - Preparar los datos para que terceras aplicaciones internas (herramientas de reporting o cuadros de mando) y/o externas (si se van a compartir datos con otras empresas/aplicaciones) accedan a los mismos de la manera más sencilla posible y adaptada a sus necesidades. - Añadir una capa extra de seguridad, pues: - se deniega el acceso externo a las áreas que contienen todas las tablas y columnas. - se proporciona acceso, de sólo lectura, a un área, normalmente compuesta por vistas, donde están las tablas y columnas que estrictamente son necesarias. Escala de tiempo Descripción generada automáticamente con confianza media Figura 11: Ejemplo Arquitectura Data Warehouse ### Principios para construcción de un Data Warehouse Para la construcción de un data Warehouse se deben seguir los siguientes principios: - Centrarse en los objetivos comerciales para asegurar que el DW sirva a la organización, prioriza y resuelve problemas de negocio. - Comenzar definiendo los OBJETIVOS, y dejar para una segunda fase, la prioridad y el alcance del negocio que impulsarán la creación del contenido DW. - Pensar y diseñar globalmente; actuar y construir localmente, permitiendo que la visión final guie la arquitectura, pero construir y entregar incrementalmente. - Simplificar y optimizar al final, no al principio. Construir sobre datos atomizados, agregar y resumir para cumplir con los requerimientos y garantizar rendimiento, pero no reemplazar el detalle\... - Promover la transparencia y el autoservicio: Cuanto más contexto(metadatos) se proporcionen, mejor serán los consumos de datos. Mantener informadas a las partes interesadas sobre los datos y los procesos de integración. - Crear metadatos en el almacén: el éxito de un DW es su capacidad de explicar los datos. - Colaborar con otras iniciativas de datos, especialmente con los de Gobernanza de Datos, Calidad de Datos y Metadatos. - No sirve una Talla Única para todos, debiéndose utilizar las herramientas y productos adecuados para cada grupo de consumidores de datos. Desde el DMBOK 2 avisan que, debido a la gran variedad de formatos de datos existentes, se hace fundamental establecer una disciplina aún más rígida que la de los modelos de datos relacionales tradicionales. Además, el DMBOK hace hincapié en el concepto de SMART DATA como una fuente verídica para la toma de decisiones, recomendación que choca un poco con la "mala costumbre" de llenar los Data Lake con información no estructurada y no contextualizada. 20. Metadatos --------- 25. ### Objetivo y Alcance El metadato, entendido como los datos de los datos, es uno de los pilares fundamentales para categorizar y etiquetar la información, lo que posteriormente se reflejará en una navegación ágil y sencilla para cualquier usuario. Algunos de los metadatos que debemos incluir son el título, el formato o la periodicidad de actualización, tal y como nos muestra la NTI (Norma Técnica de Interoperabilidad). Por tanto, podemos entender el metadato como la información adicional que acompaña a los datos que facilitan su descripción y comprensión y ayudan a aclarar que quieren decir los datos. Y para ello esta área incluye las siguientes actividades: - Planificación, ejecución y control para permitir el acceso a metadatos integrados y de alta calidad que incluyen definiciones, modelos, flujos de datos y otra información crítica para comprender los datos y el sistema a través del cual se crean, se mantienen y se acceden a ellos. - Supervisión de la gestión y desarrollo de repositorios de metadatos. Útiles para desarrollar y gestionar eficientemente todo el sistema de BI. - Junto con el desarrollo técnico, el enfoque debe perseguir dejar una documentación lo más extensa posible sobre el Data warehouse, para poder trazar el origen y los criterios para el cálculo de un dato, así como las definiciones de distintos KPIs y conceptos corporativos. 26. ### Técnicas y Ejemplos - Ejemplo de metadatos son columnas para indicar el origen del dato, fecha de carga del dato en el Data warehouse, de última modificación o usuario que realizó la carga. - Este hito se consigue conjuntamente entre la base de datos, el modelado de datos y los procesos de carga. 21. Calidad del Dato ---------------- 27. ### Objetivo y Alcance La calidad de datos se refiere a la precisión, la integridad y la consistencia de los datos. Esta área se centra en la identificación y corrección de problemas de calidad de datos, como: errores, duplicados, inconsistencias y datos faltantes. Para alcanzar estos objetivos se llevan a cabo las siguientes actividades: - Planificación y aplicación de técnicas de gestión de la calidad para medir, evaluar y mejorar la idoneidad de los datos para su uso dentro de una organización. - Desarrollo y aplicación de métricas de calidad de datos. - Aseguramiento de que la información cumpla con los criterios de calidad tanto técnica como funcional requerida por los usuarios, garantizada mediante la aplicación de [indicadores de calidad](https://www.damaspain.org/introduccion-al-area-de-calidad-del-dato/). Por último, aunque no es una de las características del marco de referencia como tal, DAMA nos habla de forma transversal a todas ellas sobre la ética del dato, entendida como la responsabilidad social respecto al tratamiento de los datos. Existe determinada información sensible cuyo uso indebido podría tener impacto en las personas. ### Técnica utilizada - En el proceso de carga de datos pueden implementarse reglas y tablas que contengan una serie de métricas sobre la calidad de los datos. - Ejemplo: un determinado campo que venga en blanco, o con un valor incorrecto, cuando debería ser un número), registros sin un "ID" asociado. - Herramientas que ayudan a asegurar la calidad del dato: - Bases de datos. - Herramientas ETL. - Reglas de diseño y modelado de datos. - Herramientas de visualización de métricas de calidad como Power BI. **Referencias bibliográficas** \(1) Publicación Web "Qué es la gestión y gobierno de los datos y por qué te ayuda a convertirte en una organización Data-Driven" por nae \(2) Publicación LinkedIN "El dato debe evolucionar hasta convertirse en conocimiento y sabiduría", por Juan Francisco Vallalta \(3) Publicación Web por Tableau Public (https://public.tableau.com) \(4) Publicación Web por Datos.gog.es (https://datos.gob.es/es/) \(5) Publicación LinkedIn "DAMA-DMBOK y Áreas de Conocimiento", por Christian González Barraza \(6) Publicación LinkedIN "Modelado y Diseño de Datos: La clave para entender y utilizar los datos de su empresa" por Francisco José Pérez Carrega \(7) Publicación Web "Diseño del modelo de datos", por Pega Academy \(8) Publicación Web "Modelado y diseño de ODS y Data Warehouse", por Logicalis \(9) Publicación LinkedIN "Almacenamiento de datos y operaciones: Optimizando la gestión de la información" por Francisco José Pérez Carrega \(10) Executive TIC, Modelo de gobierno del dato \(11) Publicaciones DAMA Spain (https://damaspain.org)