Chapitre 2 - Modélisation des données PDF
Document Details
Uploaded by ExhilaratingHilbert269
Université Virtuelle du Burkina Faso
Cheik OUEDRAOGO
Tags
Summary
This document details the different types of data warehouses in a data warehouse solution. It details various methods and types of data warehouses and their applications. The content discusses the concepts and methodologies of data modeling in the context of data warehousing.
Full Transcript
Entrepôt de données Data warehouse– Entrepôt de données Cheik OUEDRAOGO La puissance de la connaissance 2 25/09/2024 Data wareho...
Entrepôt de données Data warehouse– Entrepôt de données Cheik OUEDRAOGO La puissance de la connaissance 2 25/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) Programme I. Chapitre 1 : Introduction entrepôt de données II. Chapitre 2 : Modélisation des données III. Chapitre 3 : Conception des entrepôts de données 3 25/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) Programme II. Chapitre 2 : Modélisation des entrepôts de données I. Entrepôts de données (OLAP) II. Conception des entrepôts de données III. Modélisation de données 4 25/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Modélisation des entrepôts de données I. Les entrepôts de données ❑ Le datawarehouse (DWH) est une base de données relationnelle, disposant d’une modélisation bien particulière ❑ On appelle cela un « entrepôt de données » car il s’agit d’une très grosse base de données (en termes de volumétrie) qui va stocker énormément d’informations nécessaires à l’analyse ❑ Il sera directement utilisé comme source de données pour alimenter les divers rapports et cubes de la solution décisionnelle 5 25/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Modélisation des entrepôts de données I. Les entrepôts de données ❑ Le datawarehouse aura notamment pour vocation de stocker des données « historiques » ❑ C’est–à-dire des données potentiellement disparues (avec le temps) des systèmes sources mais que l’on souhaite volontairement conserver dans le DWH ❑ Cette particularité permettra, par exemple, de comparer des données sur de très longues périodes, à des fins d’analyses prédictives ❑ Contrairement à une base de données relationnelle « opérationnelle » qui est définie comme normalisée, un datawarehouse est dénormalisé afin de favoriser l’analyse de données 6 25/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Modélisation des entrepôts de données I. Les entrepôts de données Base de données OLAP ❑ Une base de données OLAP (comme le datawarehouse) est utilisée à des fins d’analyse de données, très généralement quand les volumes sont assez conséquents (plusieurs millions de lignes à analyser) ❑ Pour se faire, elle utilise une modélisation en « étoile » (voire en « flocon », une extension) ❑ Cette modélisation va très clairement favoriser une restitution rapide sur de gros volumes de données 7 25/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Modélisation des entrepôts de données I. Les entrepôts de données Base de données OLAP ❑ La modélisation en étoile permet des temps de réponse très rapides quand il s’agit de récupérer (SELECT) de grands volumes de données ❑ En effet, le modèle en étoile permet de limiter le besoin de jointures pour accéder à différentes données, ce qui accélère grandement les requêtes … ❑ … au détriment d’une redondance de données qui sera bien plus présente que dans une base de données OLTP 8 25/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Modélisation des entrepôts de données I. Les entrepôts de données Entrepôt de données VS BD opérationnelle 9 25/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Modélisation des entrepôts de données III. Modélisation des entrepôts de données ❑ Les analyses décisionnelles (OLAP) sont directement reliées à une modélisation de l'information spécifique : ❑ Proche de la perception qu'en a l'analyste ❑ Basée sur une vision multidimensionnelle des données ❑ Modélisation « multidimensionnelle » : ❑ Considère un sujet analysé comme un point dans un espace à plusieurs dimensions ❑ Les données y sont organisées de façon à mettre en évidence le sujet analysé et les différentes perspectives de l'analyse. 10 25/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Modélisation des entrepôts de données II. Conception des entrepôts de données ❑ Méthodes de conception des entrepôts de données: ❑ Inmon ❑ Kimball 11 25/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Modélisation des entrepôts de données II. Conception des entrepôts de données L’approche Inmon 12 25/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Modélisation des entrepôts de données II. Conception des entrepôts de données L’approche Inmon ❑ Entrepôt de données centralisé : le point central est un entrepôt de données centralisé qui sert de source unique de vérité pour l'ensemble de l'organisation. Toutes les données de l'organisation sont regroupées dans cette structure unifiée. ❑ Normalisation des données : l'une des caractéristiques de l'approche Inmon est l'accent mis sur la normalisation des données. Cela signifie que les données de l'entrepôt sont organisées de manière à réduire la redondance, ce qui garantit l'intégrité des données et facilite une interrogation efficace. ❑ Les marts de données : une fois l'entrepôt de données centralisé mis en place, le modèle d'Inmon recommande de construire des marts de données. Il s'agit de bases de données plus petites et plus ciblées, conçues pour répondre aux besoins de départements individuels tels que le marketing, la finance ou les ressources humaines. Les marts de données permettent à ces départements d'extraire plus facilement des informations spécifiques relatives à leurs activités. ❑ Investissement initial élevé : l'approche d'Inmon exige un investissement initial substantiel, mais le résultat est un entrepôt de données robuste et unifié, capable de supporter des requêtes complexes et de fournir des analyses approfondies à l'ensemble de l'organisation. 13 26/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Modélisation des entrepôts de données II. Conception des entrepôts de données L’approche Kimball 14 26/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Modélisation des entrepôts de données II. Conception des entrepôts de données L’approche Kimball ❑ Les datamarts d'abord : les data marts conçus pour des fonctions spécifiques de l'entreprise sont les éléments de base. Ils peuvent être développés rapidement et offrir une valeur commerciale immédiate. ❑ Schéma en étoile : le modèle Kimball utilise le schéma en étoile pour organiser les données. Cette structure est relativement simple mais très efficace pour des requêtes rapides et flexibles, ce qui la rend bien adaptée à des analyses rapides et itératives. ❑ Un déploiement plus rapide : l'accent mis sur la création initiale de marts de données permet aux organisations de déployer rapidement des éléments fonctionnels de l'entrepôt de données, offrant ainsi des avantages commerciaux immédiats. ❑ Évolutivité : ces marts de données individuelles peuvent être mis à l'échelle et intégrés de manière transparente pour former un entrepôt de données complet, ce qui rend cette approche flexible et adaptable. 15 25/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Modélisation des entrepôts de données II. Conception des entrepôts de données Choix de l’approche ❑ Besoins ❑ Ressources ❑ Objectifs 16 26/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Modélisation des entrepôts de données II. Conception des entrepôts de données Etapes de conception d’un entrepôt de données 1. Collecte d'informations 2. Définir les sources de données 3. Choix de l’architecture de l’entrepôt de données 4. Planification et développement de l’ETL 5. Conception d'un modèle de données et choix d'un schéma 6. Construire, tester et déployer 7. Maintenance et surveillance 17 26/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Modélisation des entrepôts de données II. Conception des entrepôts de données Collecte d’informations La phase initiale de la construction d'un entrepôt de données est bien plus qu'un examen superficiel des besoins de l'entreprise et des ressources disponibles. Il s'agit d'une étape de collecte d'informations approfondie qui définit la trajectoire du projet. Examinons les processus spécifiques impliqués. ❑ S'aligner sur les objectifs de l'entreprise Objectifs ❑ Évaluer l'infrastructure ❑ Analyser la qualité de la source de données ❑ Estimer le calendrier du projet 18 26/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Modélisation des entrepôts de données II. Conception des entrepôts de données Définir les sources de données Pour atteindre vos objectifs stratégiques, il est essentiel de comprendre d'où proviennent vos données et comment elles seront acheminées vers votre entrepôt de données. Voici une analyse plus détaillée des processus impliqués dans cette phase. ❑ Source de données clés ❑ Exigences en matière d'intégration des données ❑ Propriété des données et accès ❑ Vitesse des données ❑ Fiabilité de la source de données ❑ Points d'intégration 19 26/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Modélisation des entrepôts de données II. Conception des entrepôts de données Choisir la bonne conception de l'architecture de l'entrepôt de données Le choix d'une architecture spécifique influencera fondamentalement la façon dont l'entrepôt de données fonctionne, s'adapte et évolue. Il est essentiel d'aligner vos décisions architecturales sur les besoins de votre entreprise, la complexité des données et les exigences d'évolutivité à long terme. ❑ Dans le modèle d'architecture à un niveau, il existe une connexion directe entre les sources de données et les utilisateurs finaux. L'entrepôt de données réside généralement sur un serveur unique où les données sont collectées et directement accessibles pour la recherche et l'analyse. Cette approche convient mieux aux besoins en données moins complexes et moins importants, pour lesquels la rapidité de mise en place est une priorité. ❑ Dans une architecture à deux niveaux, l'entrepôt de données est séparé des bases de données opérationnelles. Les données sont soumises à des processus ETL avant d'être transférées dans l'entrepôt de données, créant ainsi une couche intermédiaire qui permet un nettoyage, une transformation et une intégration plus efficaces des données. ❑ Une architecture à trois niveaux ajoute une autre couche entre les utilisateurs finaux et l'entrepôt de données, communément appelée couche « data mart ». Elle permet une récupération plus efficace des données car chaque département ou fonction peut avoir son propre data mart, ce qui simplifie l'analyse. 20 26/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Modélisation des entrepôts de données II. Conception des entrepôts de données Planification et développement de l'ETL Les processus ETL constituent l'épine dorsale de tout entrepôt de données, car ils permettent de transférer les données de leurs sources vers un format adapté à l'analyse. Compte tenu de son rôle central, une stratégie ETL bien planifiée est indispensable. Voici comment commencer : ❑ Identifier les outils. ❑ Cartographier vos données ❑ Décider de la logique de transformation ❑ Concevoir le flux de travail ETL ❑ Attribuer des ressources matérielles ❑ Passer au développement et aux tests 21 26/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Modélisation des entrepôts de données II. Conception des entrepôts de données Conception d'un modèle de données et choix d'un schéma Une fois que vous avez défini vos processus ETL, vous devez vous concentrer sur la manière dont les données seront organisées dans l'entrepôt de données. Ce processus comporte deux tâches principales : la conception d'un modèle de données et le choix d'un schéma approprié. ❑ Conception du modèle de données : La conception du modèle de données fournit une représentation conceptuelle des données, soulignant la manière dont les éléments sont liés au sein de l'entrepôt de données. Deux types principaux de modèles de données sont couramment utilisés : ❑ Le modèle entité-relation (modèle ER) décrit les relations entre les différentes entités (tables) de votre base de données. Il est utile pour les requêtes complexes qui impliquent plusieurs tables. ❑ Le modèle de données dimensionnelles (DDM) se concentre davantage sur la convivialité et est conçu pour simplifier les requêtes complexes en requêtes SQL directes. Il est bien adapté aux environnements d'entreposage de données où la performance et la facilité d'utilisation sont des priorités. 22 26/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Modélisation des entrepôts de données II. Conception des entrepôts de données Conception d'un modèle de données et choix d'un schéma - DDM ❑ Choix d'un schéma Le schéma est un plan qui définit la structure de votre entrepôt de données. Le choix du schéma a une incidence sur la rapidité et la facilité avec lesquelles vous pouvez extraire des informations de l'entrepôt. Il existe plusieurs options : ❑ Le schéma en étoile est un schéma dénormalisé dans lequel une grande « table de faits » est reliée à plusieurs « tables de dimensions ». Il est conçu pour permettre des requêtes rapides et est facile à comprendre. ❑ Le schéma Snowflake ajoute des tables à un schéma Star typique, en le normalisant pour éliminer la redondance. Cela réduit l'espace disque nécessaire mais peut entraîner des requêtes plus complexes. 23 26/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Modélisation des entrepôts de données II. Conception des entrepôts de données Construire, tester et déployer Après avoir défini les éléments fondamentaux tels que les processus ETL, les modèles de données et les schémas, il est temps de construire votre entrepôt de données. C'est à ce moment-là que les choses se concrétisent, que vos plans se transforment en un système opérationnel. Voici un aperçu de ce qu'implique cette étape cruciale : ❑ Construction de l'entrepôt physique ❑ Mise en œuvre du pipeline ETL ❑ Validation des données ❑ Test de performance ❑ Déploiement ❑ Lancement en douceur 24 26/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Modélisation des entrepôts de données II. Conception des entrepôts de données Maintenance et surveillance Pour vous assurer que votre entrepôt de données continue à apporter de la valeur, vous devez le maintenir et le surveiller activement. Voici les points sur lesquels vous devez vous concentrer : ❑ Mises à jour régulières ❑ Mise à l'échelle ❑ Gestion des métadonnées ❑ Réglage des performances ❑ Contrôle de la qualité des données ❑ Audits et rapports 25 26/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Modélisation des entrepôts de données III. Modélisation des entrepôts de données Modélisation multidimensionnelle ❑ Vision proche de l’analyste ❑ Basé sur une vision de la donnée sur plusieurs dimensions ❑ Le sujet d’analyse est vu comme un point dans l’espace ❑ Le sujet d’analyse et les différents points d’analyse 26 26/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Modélisation des entrepôts de données III. Modélisation des entrepôts de données Modélisation multidimensionnelle Catégories de produits Ventes Temps 27 26/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Modélisation des entrepôts de données III. Modélisation des entrepôts de données Modélisation multidimensionnelle – Table de Fait ❑ Un fait : ❑ Modélise le sujet de l'analyse ❑ Est formé de mesures correspondant aux informations de l'activité analysée. ❑ Ces mesures sont numériques et généralement valorisées de façon continue, on peut les additionner, les dénombrer ou bien calculer le minimum, le maximum ou la moyenne. Exemple : le fait de « Vente » peut être constitué des mesures d'activités suivantes : quantité de produits vendus et montant total des ventes 28 26/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Modélisation des entrepôts de données III. Modélisation des entrepôts de données Modélisation multidimensionnelle – Table de dimension ❑ Le sujet analysé, le fait, est analysé suivant différentes perspectives ou axes caractérisant ses mesures de l’activité : on parle de dimensions. ❑ Une dimension : modélise un axe d'analyse se compose de paramètres correspondant aux informations faisant varier les mesures de l'activité. Ex: Dans l'exemple précédent, le fait « Vente » peut être analysé suivant différentes perspectives correspondant à trois dimensions : la dimension Temps, la dimension Géographie et la dimension Catégorie : 29 26/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Modélisation des entrepôts de données III. Modélisation des entrepôts de données Modélisation multidimensionnelle – Hiérarchie de dimension ❑ Les faits sont analysés selon les dimensions qui les caractérisent ❑ Nécessaire de définir pour chaque dimension ses différents niveaux hiérarchiques de détail (d’agrégation), ❑ Les hiérarchies de dimensions définissent des niveaux de détail de l'analyse sur les dimensions ❑ Ex: ❑ Dimension « temps» : H1 : jour ® mois ® trimestre ® année ; H2 : jour ® mois ® trimestre ® année ; H3 : jour ® mois ® saison ® année ; ❑ Dimension « géographie » : ville ® département ® région (chaque ville appartient à un département qui est situé dans une région) ❑ Dimension « catégorie» : couleur ® nomProduit ® gamme ® typeProduit (chaque produit appartient à une gamme de produit qui appartient à un type de produit) 30 26/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Modélisation des entrepôts de données III. Modélisation des entrepôts de données Modélisation multidimensionnelle – Hiérarchie de dimension ❑ Formalisme graphique de Golfarelli (1) – Représentation d’une dimension 31 27/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Modélisation des entrepôts de données III. Modélisation des entrepôts de données Modélisation multidimensionnelle – Hiérarchie de dimension ❑ Representation Etoile - Formalisme graphique de Golfarelli (2) 32 27/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Modélisation des entrepôts de données III. Modélisation des entrepôts de données Modélisation multidimensionnelle – Cube de données « Un cube de données est une méthode de stockage des données qui contient aussi la définition des mesures, des dimensions, des hiérarchies ». 33 26/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Modélisation des entrepôts de données III. Modélisation des entrepôts de données Modélisation multidimensionnelle – Cube de données 34 26/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Modélisation des entrepôts de données III. Modélisation des entrepôts de données Modélisation multidimensionnelle – Schéma en étoile ❑ Table des faits : normalisée, de taille très importante, avec de nombreux champs ❑ Tables de dimensions : dimensions de l'analyse, taille peu importante, avec peu de champs Ex 1 : Vente de médicaments dans des pharmacies Schéma en étoile modélisant les analyses des quantités et des montants des médicaments dans les pharmacies selon 3 dimensions : le temps, la catégorie et la situation géographique ❖ Table de faits : Vente ❖ Tables de dimension : Temps, Catégorie, Géographie 35 26/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Modélisation des entrepôts de données III. Modélisation des entrepôts de données Modélisation multidimensionnelle – Schéma en flocon ❑ Evolution du schéma en étoile avec une décomposition des tables de dimensions du modèle en étoile selon leurs hiérarchies (normalisation des tables de dimensions) ❑ Ex 3: Vente de médicaments dans des pharmacies 36 26/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Modélisation des entrepôts de données III. Modélisation des entrepôts de données Modélisation multidimensionnelle – Schéma en constellation ❑ Fusionne plusieurs modèles en étoile qui utilisent des dimensions communes. ❑ Comprend en conséquence plusieurs faits et des dimensions communes ou non ❑ Ex : Vente de médicaments dans des pharmacies ❑ Une constellation est constituée de 2 schémas en étoile : ❑ L'un correspond aux VENTES effectuées dans les pharmacies et ❑ L'autre analyse les PRESCRIPTIONS des médecins ❑ Les dimensions Temps et Géographie sont partagées par les faits PRESCRIPTION et VENTE. 37 26/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Modélisation des entrepôts de données Exercices – 45 min On considère un entrepôt de données permettant d’observer les ventes de produits d’une entreprise. Le schéma des tables est le suivant : ❑ CLIENT (id-client, région, ville, pays, département) ❑ PRODUIT (id-prod, catégorie, coût-unitaire, fournisseur, prix unitaire, nom-prod) ❑ TEMPS (id-tps, mois, nom-mois, trimestre, année) ❑ VENTE (id-prod, id-tps, id-client, date-expédition, prix-de-vente, frais-de-livraison) Questions 1. Indiquer quels sont le(s) fait(s) et les dimensions de cet entrepôt. 2. Donner pour chaque dimension, sa (multi-) hiérarchie. 3. Donner la représentation du schéma en étoile de l’entrepôt selon la notation de Golfarelli. 4. On veut transformer ce schéma en étoile en schéma en flocon. Donner la nouvelle représentation de TEMPS (ajouter des paramètres / attributs, si nécessaire) 38 27/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Modélisation des entrepôts de données Références Introduction à l’Informatique Décisionnelle et aux entrepôts de données : Bernard ESPINASSE - Professeur à Aix-Marseille Université (AMU) Ecole Polytechnique Universitaire de Marseille. Ingénierie des Systèmes d’Information : Professeur à Aix-Marseille Université (AMU) Ecole Polytechnique Universitaire de Marseille. Analyse de données : Polytech’Marseille -Patrice Bellot 39 25/09/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO