Cours Entrepôt de données PDF
Document Details
Uploaded by FortuitousPsaltery4735
IIT Institut International de Technologie
Salma DAMMAK
Tags
Summary
This document is about data warehousing, covering topics such as data modeling, multidimensional modeling, and different data warehouse schemas. It also includes examples of Data Warehousing concepts and different queries in data.
Full Transcript
Cours Entrepôt de données Dr. Salma DAMMAK 2ème année GLID [email protected] Chapitre2 Modélisation multidimensionnelle Salma DAMMAK Cours Entrepôt des données 2 Objectif du cours Découvrir le modèle...
Cours Entrepôt de données Dr. Salma DAMMAK 2ème année GLID [email protected] Chapitre2 Modélisation multidimensionnelle Salma DAMMAK Cours Entrepôt des données 2 Objectif du cours Découvrir le modèle multidimensionnel et ses différents nouveaux concepts Maitriser la modélisation multidimensionnelle Avoir une idée sur les différentes schémas multidimensionnel Salma DAMMAK Cours Entrepôt des données 3 Contenu 1) Modélisation des EDs 2) Les concepts de base 3) Les schémas multidimensionnels 4) La modélisation logique Salma DAMMAK Cours Entrepôt des données 4 1) Modélisation des EDs Salma DAMMAK Cours Entrepôt des données 5 Modélisation des EDs Un élément fondamental dans la démarche de spécification d’un système d’information. Les données doivent être organisées d’une manière qui soit à la fois conforme au point de vue de l’utilisateur et compatible avec les contraintes techniques de mise en œuvre. Modélisation entité-relation?????? Salma DAMMAK Cours Entrepôt des données 6 Modélisation des EDs Modélisation E/R Exemple : Application d’administration de réparation La durée des opérations d’une intervention de réparation de voiture d’une certaine catégorie de véhicule, tel que les clients appartient à un site géographique exacte ? Salma DAMMAK Cours entrepôt Coursdes Entrepôt données des données 7 7 Modélisation des EDs Modélisation E/R Avantages du modélisation E/R: Normalisation : Eliminer les redondances, Préserver la cohérence des données Optimisation des transactions Réduction de l’espace de stockage Limites du modèle ER: Schéma trop complet: plusieurs tables. Données historiques difficilement représentées. Inadapté pour l’analyse. « Les modèles entité-relation ne peuvent pas servir de base pour construire des entrepôts de données de l’entreprise » (Kimball, 1997) Salma DAMMAK Cours Entrepôt des données 8 Modélisation des EDs Modélisation E/R Concepteur EDs Stocker les données Rendre les données des systèmes accessibles pour une d’information prise de décision facile Besoin d’une modélisation spécifique aux Entrepôts des données Salma DAMMAK Cours Entrepôt des données 9 Modélisation des EDs Cette modélisation doit être: Compréhensible : Les données sont regroupées selon des catégories d'affaires Performante Offre un modèle dimensionnel qui est le résultat : d'une analyse des besoins : ce que je souhaite étudier. d'une analyse des données disponibles : ce que je peux étudier. Salma DAMMAK Cours Entrepôt des données 10 Modélisation des EDs Une modélisation multidimensionnelle Correspond mieux aux besoins du décideur en intégrant la modélisation par sujet. Permet des accès hautement performants Considère les données comme des points dans un espace à plusieurs dimensions Ces points représentent les centres d’intérêts décisionnels (sujets) analysés en fonction des différents axes d’analyse. Salma DAMMAK Cours Entrepôt des données 11 Modélisation des EDs Définition d’un modèle multidimensionnel Le modèle multidimensionnel consiste à considérer un sujet d’analyse comme un point dans un espace à plusieurs dimensions Les données sont organisées de manière à mettre en évidence le sujet d’analyse, les dimensions et les perspectives d’analyses. La modélisation multidimensionnelle a donné naissance aux concepts de fait et de dimension Salma DAMMAK Cours Entrepôt des données 12 2) Les concepts de base Salma DAMMAK Cours Entrepôt des données 13 Les concepts de base Modèle multidimensionnel 4 Dimensions Table du Fait: Vente Mesures Salma DAMMAK Cours Entrepôt des données 14 Les concepts de base Les concepts d’un modèle multidimensionnel Fait: Sujet d’analyse Mesure: indicateur d’analyse Dimension: axes d’analyse Hiérarchie: perspective d’analyse Salma DAMMAK Cours Entrepôt des données 15 Les concepts de base Table de Fait Un centre d’intérêt décisionnel. Ce que l’on souhaite étudier Les ventes (chiffre d'affaire, quantités et montants commandés, volumes des ventes,...) Les stocks (nombre d'exemplaires d'un produit en stock,...), Contient Les clés étrangères des axes d’analyses (dimensions): id_Date, id_produit Les indicateurs d’analyse (mesures): montant vente…. Salma DAMMAK Cours Entrepôt des données 16 Les concepts de base Mesure Un indicateur d’analyse de type numérique et cumulable. Accompagnée d’un ensemble de fonctions d’agrégation qui permettent de l’agréger en fonction des axes d’analyse. Exemples : Coût des travaux Nombre d’accidents Chiffre d’affaires Salma DAMMAK Cours Entrepôt des données 17 Les concepts de base Dimension Axe d’analyse selon lequel vont être étudiées les données. Dimension = axe d’analyse Client, produit, période de temps… Contient une clé primaire unique qui correspond à l’un des composants de la clé multiple de la table des faits. Salma DAMMAK Cours Entrepôt des données 18 Les concepts de base Dimension Exemple Mesures Salma DAMMAK Cours Entrepôt des données 19 Les concepts de base Hiérarchie une perspective d’analyse définie dans une dimension. Exemple: jour- mois- trimestre- semestre - année Une dimension est un ensemble de membres pouvant être organisés ou non selon une ou plusieurs hiérarchies. Salma DAMMAK Cours Entrepôt des données 20 Les concepts de base Hiérarchie Paramètres : un attribut appartenant à une dimension. représente un niveau de détail selon lequel sont visualisées les mesures d’activité d’un sujet d’analyse. Les paramètres d’une dimension peuvent être accompagnés de descripteurs appelés attributs faibles qui n’est pas utilisé dans les calculs de regroupement Attributs faibles : Sont les attributs informationnels liés à un paramètre Ont un rôle informationnel permettant de faciliter les analyses Exemple, l’identifiant d’une agence Code_Ag peut être accompagné par le nom de celle-ci. Salma DAMMAK Cours Entrepôt des données 21 Les concepts de base Hiérarchie Exemple Salma DAMMAK Cours Entrepôt des données 22 Les concepts de base Hiérarchie Chaque niveau est représenté par une entité Certaines entités sont rattachées à d’autres par des liens d’appartenance ou de regroupement hiérarchique Certains de ces chemins sont connus (Jour, Mois, Année), d’autres doivent être repérés par une analyse précise du vocabulaire des utilisateurs (Produit, Gamme, Marque) Le « grain » d’une dimension est le niveau de sélection le plus fin possible de cette dimension Le grain définit le niveau de détail pouvant être obtenu par la requête la plus sélective et la plus fine possible mettant en jeu toutes les dimensions Salma DAMMAK Cours Entrepôt des données 23 Les concepts de base Hiérarchie Type d’hiérarchie: Simple: présente une relation 1-N entre les membres. L’enfant a un seul parent. C’est une hiérarchie à 3 niveau. Multiple : partage plusieurs niveaux d’une dimension. Salma DAMMAK Cours Entrepôt des données 24 Les concepts de base Exemple 1: Requête: Quels sont les frais de déplacement et le kilométrage des commerciaux de la région nord ayant des véhicules de 10 à 14 CV en avril 2004? Fait: Gestion des déplacement Mesure: Frais de déplacement et Kilométrage Dimension: Par Employé (fonction) Par Région Par Véhicule (puissance) Par Date (Mois) Salma DAMMAK Cours Entrepôt des données 25 Les concepts de base Exemple 2: Requête: Quelles ont été les marges sur les ventes du produit ‘P023’ pour le client Ben Salah Ahmed à Hammamet durant le mois de Janvier? Fait: Vente Mesure: Marge Dimension: Par Produit Par Client Par Ville Par Date (Mois) Salma DAMMAK Cours Entrepôt des données 26 Les concepts de base Exemple 3: Requête: Quels ont été les revenus sur les achats de la marque ‘Teams’ en Tunisie durant l’année 2011? Fait: Achats Mesure: Revenus Dimension: Par Marque de produit Par Pays Par Date (Année) Salma DAMMAK Cours Entrepôt des données 27 Les concepts de base Exemple 4: Requête: Quels ont été le nombre de consultation des orthopédistes durant le Trimestre 3 pour les cliniques de sfax ? Fait: Consultation Mesure: Nombre Dimension: Par spécialité de médecins Par Date (trimestre) Par ville clinique Salma DAMMAK Cours Entrepôt des données 28 Les concepts de base Exemple 4: Requête: Quels ont été les quantités vendues de la gamme ‘G006’ durant le Trimestre 2 pour la région du nord ? Fait: Vente Mesure: Quantité Dimension: Par Gamme Par Trimestre Par Région Salma DAMMAK Cours Entrepôt des données 29 4) Les Schémas multidimensionnel Salma DAMMAK Cours Entrepôt des données 30 Les schémas multidimensionnel Schéma en étoile Schéma en flocon de neige Schéma en constellation Salma DAMMAK Cours Entrepôt des données 31 Les schémas multidimensionnel Schéma en étoile 1 sujet d’analyse (Table de Fait) comportant un ou plusieurs indicateurs (mesures) n axes d’analyse (Dimensions), comportant les descripteurs des dimensions (paramètres) Les dimensions n’ont pas de liaison entre elles m perspectives d’analyse (Hiérarchies) organisant les paramètres en différentes granularités Salma DAMMAK Cours Entrepôt des données 32 Les schémas multidimensionnel Schéma en étoile Salma DAMMAK Cours Entrepôt des données 33 Les schémas multidimensionnel Schéma en étoile Exemple : « Analyse des ventes en fonction du temps, de produits, de client et de magasins » Salma DAMMAK Cours Entrepôt des données 34 Les schémas multidimensionnel Schéma en étoile Facilité de navigation Performances : nombre de jointures limité ; Gestion des agrégats Redondances dans les dimensions. Alimentation complexe. Salma DAMMAK Cours Entrepôt des données 35 Les schémas multidimensionnel Schéma en étoile Exercice 1: Soit une agence de voyage (voyage aérien) qui voulait construire un entrepôt de données en utilisant le modèle en étoile. Construire le modèle en étoile de cet entrepôt sachant que : Le modèle résultat doit répondre à la requête suivante : Quel est le chiffre d’affaires (CA) par client, par date de voyage (et par mois, trimestre et année), par compagnie aérienne et par ville de destination. Donner le schéma en étoile convenable. Salma DAMMAK Cours Entrepôt des données 36 Les schémas multidimensionnel Schéma en flocon de neige = Modèle en étoile + normalisation des dimensions Utilisé lorsque les tables sont très volumineuses La table des faits reste inchangée Chacune des dimensions est décomposée selon sa (ou ses) hiérarchie(s) Exemple : Région, Pays, Continent Salma DAMMAK Cours Entrepôt des données 37 Les schémas multidimensionnel Schéma en flocon de neige Exemple Salma DAMMAK Cours Entrepôt des données 38 Les schémas multidimensionnel Schéma en flocon de neige Réduction du volume Permettre des analyses par pallier (drill down) sur la dimension hiérarchisée Navigation difficile Nombreuses jointures Salma DAMMAK Cours Entrepôt des données 39 Les schémas multidimensionnel Schéma en constellation Fusionner plusieurs modèles en étoile qui utilisent des dimensions communes Un modèle en constellation comprend donc : Plusieurs tables de faits Des tables de dimensions communes ou non à ces tables de faits. Salma DAMMAK Cours Entrepôt des données 40 Les schémas multidimensionnel Schéma en constellation Salma DAMMAK Cours Entrepôt des données 41 Les schémas multidimensionnel Schéma en constellation Facilite les corrélations entre les différents sujets d’analyse. Simplifie la modélisation avec la possibilité de partager les dimensions. Salma DAMMAK Cours Entrepôt des données 42 Les schémas multidimensionnel Schéma en constellation Un modèle en constellation constitué de deux modèles en étoile Modèle en étoile 1: fait Location des véhicules Montant et nombre de jour par temps, véhicule, agence et client Modèle en étoile 2 : fait Performance des employés Chiffre d’affaire par temps, employé et agence => Les deux modèles partagent les deux dimensions Temps et Agence Salma DAMMAK Cours Entrepôt des données 43 Les schémas multidimensionnel Schéma en constellation Salma DAMMAK Cours Entrepôt des données 44 Les schémas multidimensionnel Exercice 2 Une entreprise souhaite analyser la somme des dépenses et la moyenne des quantités en matières premières achetées par produit, par fournisseur, par atelier, et par mois. 1) Déterminer le sujet d’analyse 2) Déterminer le (ou les) indicateur(s) d’analyse. 3) Déterminer les axes d’analyse 4) Présenter le schéma en étoile convenable Salma DAMMAK Cours Entrepôt des données 45 4) Les Modèles logiques Salma DAMMAK Cours Entrepôt des données 46 Les modèles logiques Description de la base multidimensionnelle suivant la technologie utilisée : ROLAP (Relational-OLAP) MOLAP (Multidimensional-OLAP) HOLAP (Hybrid-OLAP) Salma DAMMAK Cours Entrepôt des données 47 Les modèles logiques ROLAP « Relationnel On-line Analytical Processing » « Ensemble d’interfaces utilisateurs et d’applications qui donnent une vision dimensionnelle à des bases de données relationnelles » [Kimball, 2005]. Les données sont stockées dans une BD relationnelle Un moteur OLAP permet de simuler le comportement d’un SGBD multidimensionnel Salma DAMMAK Cours Entrepôt des données 48 Les modèles logiques ROLAP Le modèle multidimensionnel est traduit ainsi : chaque fait correspond à une table, appelée table de fait chaque dimension correspond à une table, appelée table de dimension. Ainsi : la table de fait est constituée : d'attributs représentant les mesures d'activité et les attributs clés étrangères de chacune des tables de dimension. les tables de dimension contiennent : les paramètres et une clé primaire permettant de réaliser des jointures avec la table de fait. Salma DAMMAK Cours Entrepôt des données 49 Les modèles logiques ROLAP Facile à mettre en place Peu couteux Evolution facile Stockage de gros volumes Moins performant lors des phases de calculs Exemple de moteur ROLAP : Mondrian Salma DAMMAK Cours Entrepôt des données 50 Les modèles logiques ROLAP Caractéristique: Clé primaire du fait: Concaténation des clés étrangères vers les dimensions TEMPS Hiérarchies non explicites codeT num_mois PRODUITS VENTES lib_mois codeP codeP# annee description codeT# prix_unit codeC# CLIENTS sous_categ qte codeC categorie montant nom prenom ville pays Salma DAMMAK Cours Entrepôt des données 51 Les modèles logiques MOLAP « Multidimentional On-line Analytical Processing » conçus exceptionnellement pour l’analyse multidimensionnelle. « Ensemble d’interfaces utilisateur, d’applications et de technologies de bases de données propriétaire dont l’aspect dimensionnel est prépondérant ». Accès direct aux données dans le cube. Salma DAMMAK Cours Entrepôt des données 52 Les modèles logiques MOLAP Utilisation d’un SGBD Multidimensionnel (SGBDM) capable de stocker et traiter des données multidimensionnelles Absence de cadre technologique commun pour ces systèmes : chaque produit a sa version du modèle multidimensionnel et ses stratégies de stockage Caractérisé par des bonnes performances Effectuer la pré-agrégation et le pré-calcul des données sur tous les niveaux des hiérarchies du modèle de l’entrepôt Adapté à de petits ED (quelques Go) et lorsque le modèle multidimensionnel ne change pas beaucoup Salma DAMMAK Cours Entrepôt des données 53 Les modèles logiques MOLAP Salma DAMMAK Cours Entrepôt des données 54 Les modèles logiques MOLAP Des temps d’accès optimisés et cela en prédéfinissant les opérations de manipulation et de chemin d’accès prédéfinis. Agrège tout par défaut, pénalisant du couple système lorsque la quantité de données à traiter augmente. Rapidité Difficile à mettre en place Formats souvent propriétaires Salma DAMMAK Cours Entrepôt des données 55 Les modèles logiques HOLAP « Hybride On-line Analytical Processing » Solution hybride entre ROLAP et MOLAP Données de base stockées dans un SGBD relationnel (tables de faits et de dimensions) + Données agrégées stockées dans un cube Bon compromis au niveau des coûts et des performances (les requêtes vont chercher les données dans les tables et le cube) selon le besoin Equilibre entre la facilité d’évolution et la rapidité de traitement des requêtes Salma DAMMAK Cours Entrepôt des données 56 Les modèles logiques HOLAP « Hybride On-line Analytical Processing » Les systèmes HOLAP essaient de combiner les bons cotés des systèmes ROLAP et MOLAP : En stockant les données détaillées de l’ED dans un SGBD Relationnel - ROLAP En stockant les données agrégées, souvent des magasins de données (data marts) de l’ED dans un SGBD Multidimensionnel – MOLAP Ils permettent ainsi d’avoir des ED de taille importante tout en ayant des temps de réponse satisfaisants. Produits : Express d’Oracle, Media/MR de Speedware, … Salma DAMMAK Cours Entrepôt des données 57 Les modèles logiques HOLAP L’approche HOLAP (Hybride OLAP) : consiste à utiliser les tables comme structure permanente de stockage des données et les tableaux comme structure pour les requêtes. Salma DAMMAK Cours Entrepôt des données 58 Exercice On considère un entrepôt de données permettant d’observer les ventes de produits d’une entreprise. Le schéma des tables est le suivant : CLIENT (id-client, nomclient, région, ville, pays) PRODUIT (id-prod, couleurprod,sous_categorie, lib_souscat, catégorie, lib_cat,nom-prod) TEMPS (id-tps, mois, nom-mois, trimestre, année) VENTE (id-prod, id-tps, id-client, qté_vendue, frais-de-livraison) Questions 1. Indiquer quelles sont la (les) table(s) de fait et les tables de dimension de cet entrepôt. 2. Donner pour chaque dimension, sa (multi-) hiérarchie. 3. Donner la représentation du schéma en étoile de l’entrepôt 4. On veut transformer ce schéma en schéma en flocon. Donner la nouvelle représentation de la table Produit (ajouter des attributs, si nécessaire) Salma DAMMAK Cours Entrepôt des données 59