Cours Entrepôt de données PDF
Document Details
Uploaded by FortuitousPsaltery4735
IIT, Université Nord-Américaine Privée
Salma DAMMAK
Tags
Summary
These lecture notes cover data warehousing, data analysis, and decision support systems. The document explores the definition, architecture, implementation, and evolution of data warehouses.
Full Transcript
Cours Entrepôt de données Dr. Salma DAMMAK 2ème année GLID [email protected] Bibliographie Entrepôts de données: guide pratique de modélisation dimensionnelle. Kimball, Ralph, and Margy Ross. Vuibert info...
Cours Entrepôt de données Dr. Salma DAMMAK 2ème année GLID [email protected] Bibliographie Entrepôts de données: guide pratique de modélisation dimensionnelle. Kimball, Ralph, and Margy Ross. Vuibert informatique, 2003. Concevoir et déployer un data warehouse. Kimball, R., Reeves, L., Ross, M., & Thornthwaite, W, Eyrolles (2000). https://learn.microsoft.com/en-us/sql/?view=sql-server-ver16 Salma DAMMAK Cours Entrepôt des données 2 Chapitre 1 Système décisionnel Salma DAMMAK Cours Entrepôt des données 3 Objectif du cours Avoir une idée sur le rôle joué par les systèmes décisionnels Découvrir l’architecture d’un système décisionnel et les différentes étapes de modélisation Maitriser les étapes d’implantation d’un système décisionnel Salma DAMMAK Cours Entrepôt des données 4 Contenu 1) Introduction 2) Définition du concept décisionnel 3) Architecture des systèmes décisionnels a. Sources des données b. Processus ETL c. Entrepôt des données et magasins d. Exploitation des données 4) Comment implanter un système décisionnel? 5) Evolution des entrepôts de données Salma DAMMAK Cours Entrepôt des données 5 Introduction Salma DAMMAK 6 Cours Entrepôt des données Introduction SI est le véhicule de la communication dans l’entreprise Permet aux différents acteurs de véhiculer des informations et de communiquer grâce à un ensemble de ressources matérielles, humaines et logicielles Principales fonctions d’un SI: Saisie, Mémorisation, Traitement, Communication Salma DAMMAK Cours Entrepôt des données 7 Introduction Une entreprise dispose de données provenant soit de son système opérationnel soit de l’extérieur: Bases de données, Fichiers, Gestion RH, … Caractéristiques des données : Distribuées : systèmes éparpillés Hétérogènes : systèmes et structures de données différents Détaillées : organisation de données selon les processus fonctionnels Peu/pas adaptées à l’analyse : des requêtes lourdes peuvent bloquer le système transactionnel Volatiles : pas d’historisation systématique Surabondance de données Les données représentent une mine d’informations Salma DAMMAK Cours Entrepôt des données 8 Introduction A combien je peux élever mes ventes journalières? Qui sont mes meilleurs ……………….. clients? Améliorer les performances décisionnelles de l'entreprise en répondant aux demandes d’analyse des décideurs non informaticiens et non statisticiens. Salma DAMMAK Cours Entrepôt des données 9 Introduction Solution Passer d’système d’information qui avait une vocation de production à un SI décisionnel dont la vocation de pilotage devient majeure. L’entreprise a besoin: Accès rapide et simple à l’information stratégique Vision transversale des données de l’entreprise Extraire, grouper, organiser, transformer les données Salma DAMMAK Cours Entrepôt des données 10 Définition du concept décisionnel Salma DAMMAK 11 Cours Entrepôt des données Définition du concept décisionnel Base données transactionnelle: Une BD classique destinée à assumer des transactions en temps réel Ajout, mise à jour suppression de données Data warehouse: Un DW destiné uniquement à l'exécution de questions statistiques sur des données statiques (ou faiblement dynamiques). Salma DAMMAK Cours Entrepôt des données 12 Définition du concept décisionnel Fonctions d’un DW : Systèmes pour l’aide à la prise de décisions (OLAP) Regrouper, organiser des informations de sources diverses Intégrer et stocker les données pour une vue orientée métier Retrouver et analyser l’information rapidement et facilement Salma DAMMAK Cours Entrepôt des données 13 Définition du concept décisionnel Architecture d’un système décisionnel Salma DAMMAK Cours Entrepôt des données 14 Définition du concept décisionnel Augmenter l’efficience d’exploitation Accélérer et d’améliorer Générer de nouveaux la prise de décision revenus Prendre l’avantage sur la Identifier les tendances concurrence Du marché Repérer les problèmes à résoudre plus rapidement Salma DAMMAK Cours Entrepôt des données 15 Définition du concept décisionnel Intégration des données à partir de sources multiples et Hétérogènes Répondre aux requêtes du système d'aide à la décision. Plus efficace en coût d'exécution des requêtes On-Line Analytical Processing OLAP Salma DAMMAK Cours Entrepôt des données 16 Définition du concept décisionnel OLTP: consultent et mettent à jour les données des BD opérationnelles. Exécution en temps réel des transactions, pour l'enregistrement des opérations quotidiennes : inventaires, commandes, paye, comptabilité OLAP: lisent les données seulement pour avoir de nouvelles informations à partir des données sources. Rapports, Etats, Tableaux de Bord, Graphiques, Synthèses, Groupement,... Traitement efficace des requêtes d'analyse pour la prise de décision. Salma DAMMAK Cours Entrepôt des données 17 Définition du concept décisionnel Peut on partager la même BD entre OLAP et OLTP? Salma DAMMAK Cours Entrepôt des données 18 Définition du concept décisionnel Désavantage de partager la même BD entre OLAP et OLTP OLAP ne peut utiliser que les données actuellement stockées dans les BD. Les analyses historiques sont souvent impossibles à cause des opérations de mises à jour qui changent les données historiques. Des opérations de verrouillage des données (Locking operations). Des problèmes de performance. Les requêtes analytiques demandent l'accès à de très grands nombre de tuples. Salma DAMMAK Cours Entrepôt des données 19 Définition du concept décisionnel Tableau Comparatif OLTP VS OLAP Critères OLTP OLAP Espace requis Relativement petit Grand due aux données historiques et aux données d’agrégation Données exhaustives, courantes, dynamiques , non Résumées, historiques, statiques, volumineuses volumineuses Modélisation de la BD Un grand nombre de tables hautement Moins de tables, pas de normalisation normalisées (schémas en étoile ou flocon) Requêtes Mise à jour, Interrogation Interrogation Sauvegarde et Fait de façon régulière Fait de façon irrégulière récupération Ressources requises Simple DBMS relationnel DBMS spécialisé multi-processeurs et à grande capacité Vue Relationnelle Multidimensionnelle Nombre d’utilisateurs simultanés Grand Petit 20 Architecture des systèmes décisionnels Salma DAMMAK 21 Cours Entrepôt des données Architecture des systèmes décisionnels Salma DAMMAK Cours Entrepôt des données 22 Architecture des systèmes décisionnels Les sources de données Enterprise Resource Planning (ERP): Gèrent les processus opérationnels d'une entreprise (ex: ressources humaines, finances, distribution, approvisionnement, etc.). Customer Relationship Management (CRM): Gèrent les interactions d’une entreprise avec ses clients (ex: marketing, ventes, après-vente, assistance technique, etc.). Point of sale (POS): Matériels et logiciels utilisés dans les caisses de sorties d’un magasin. WEB: Clickstreams (fichier log), structure site web. Externes: données concurrentielles achetées, données démographiques Salma DAMMAK Cours Entrepôt des données 23 Architecture des systèmes décisionnels Les sources de données DSA: Data Staging Area Zone de préparation des données Base de données intermédiaire qui stocke les données issues des systèmes de production opérationnelle dans un format proche de ces derniers. Un stockage tampon avant l'intégration des données dans l’ED. Salma DAMMAK Cours Entrepôt des données 24 Architecture des systèmes décisionnels Les sources de données Sources diverses et disparates (ex: BD, fichier texte, etc.) Sources sur différentes plateformes et OS (operating system) Qualité de données douteuse et changeante dans le temps Incohérence entre les différentes sources Données dans un format difficilement interprétable ou ambigu. ETL Salma DAMMAK Cours Entrepôt des données 25 Architecture des systèmes décisionnels Les processus ETL: Extract Transform Load Résume généralement les données afin de réduire leur taille et d'améliorer leur performance pour des types d'analyse spécifiques. Partie la plus complexe du développement (jusqu’à 70% du temps total). Salma DAMMAK Cours Entrepôt des données 26 Architecture des systèmes décisionnels Les processus ETL: Extract Transform Load Extrait l'information nécessaire à l'analyse Identifier les données sources utiles Déterminer tous les changements survenus durant une période donnée (ex: heure, jour, semaine, mois). Transforme : Consolider les données Données redondantes, manquantes, incohérentes, etc. Découpage, fusion, conversion, aggrégation,.. Charge (Load) les données dans l’ED Faire les chargements en lot dans une période creuse (entrepôt de données non utilisé); Avoir un plan pour évaluer la qualité des données chargées dans l'entrepôt; Commencer par charger les données des tables de dimension Salma DAMMAK Cours Entrepôt des données 27 Architecture des systèmes décisionnels Entrepôt de données (DataWarehouse) Lieu de stockage centralisé Intègration et «historisation» de l’ensemble des données utiles pour les prises de décisions. Son organisation doit faciliter la gestion des données et la conservation des évolutions. Un entrepôt de données est une collection de données orientées sujet, integrées, non volatiles, historisées, organisées pour le support d'un processus d'aide a la décision.» (Bill Inmon, 1996) Salma DAMMAK Cours Entrepôt des données 28 Architecture des systèmes décisionnels Entrepôt de données (DataWarehouse) Orientées sujet : L’entrepôt renferme des informations de différents services de l’entreprise Les informations de l’entrepôt sont organisées par sujet avant d’être intégrées dans l’entrepôt Intégrées : Le contenu d’un entrepôt est le résultat de l’intégration des données en provenance de multiples sources. L’intégration nécessite une bonne maîtrise de la sémantique des données. Salma DAMMAK Cours Entrepôt des données 29 Architecture des systèmes décisionnels Entrepôt de données (DataWarehouse) Non volatiles : Les données stockées dans un ED sont en mode consultation Elles ne peuvent être ni supprimées ni modifiées Historisés : L’historisation des données permet de suivre l’évolution des différentes valeurs dans le temps Salma DAMMAK Cours Entrepôt des données 30 Architecture des systèmes décisionnels Entrepôt de données (DataWarehouse) Organisées pour le support d’un processus d’aide à la décision : Les utilisateurs peuvent consulter les données réorganisées de façon multidimensionnelle à travers des outils d’aide à la manipulation et l’analyse. Salma DAMMAK Cours Entrepôt des données 31 Architecture des systèmes décisionnels Entrepôt de données (DataWarehouse) Magasins des données (DataMarts) Contiennent une portion du contenu de l’entrepôt de données; Se concentrent sur un seul sujet d’analyse (ex: les ventes OU l’inventaire, mais pas les deux); Servent à faire des analyses simples et spécialisées (ex: Suivi des ventes par catégorie de produits); Salma DAMMAK Cours Entrepôt des données 32 Architecture des systèmes décisionnels Entrepôt de données (DataWarehouse): Deux approches de conception Approche descendante (top-down) Conception intégrale de l’ED. ED le dépôt centralisé de toutes les données Les Data Marts des différents secteurs sont ensuite créés sur la base du modèle de l’entrepôt. Approche Ascendantes (bottom-up) Conception incrémentale de l’ED. Le Data Warehouse est simplement une combinaison (union) de différents Data Marts qui facilite le reporting et l’analyse. Salma DAMMAK Cours Entrepôt des données 33 Architecture des systèmes décisionnels Les Outils d’analyse La production de rapport récurrents (reporting) Rapports, tableaux de bords, visualisation graphiques diverses, … L'exploration manuelle Analyse et l’exploration des données entreposées (OLAP) L'analyse de données (descriptive ou prédictive) Requêtes complexes pour analyse de tendance, découverte de connaissance, … (Fouille de données) Salma DAMMAK Cours Entrepôt des données 34 Comment implanter un système décisionnel Salma DAMMAK 35 Cours Entrepôt des données Comment implanter un Système décisionnel Les différentes phases de conception d’un projet de système décisionnel: Conception: Étude des besoins et de l'existant Construction: Modélisation Diffusion et Administration: Implémentation du data warehouse Restitution: Implémentation des outils d'exploitation Salma DAMMAK Cours Entrepôt des données 36 Comment implanter un Système décisionnel Conception: Définir la finalité de l’ED Piloter quelle activité de l’entreprise ; Déterminer et recenser les données à entreposer ; Définir les aspects techniques de la réalisation ; Modèle de données ; Démarches d’alimentation ; Mode de restitution… Salma DAMMAK Cours Entrepôt des données 37 Comment implanter un Système décisionnel Construction: Travail technique Extraction des données des différentes BD de production (internes ou externes) Transformation des données: Nettoyage, filtrage… Techniques d’alimentation : Chargement des données dans l’ED Stockage des données dans les Eds et les magasins de données Rafraîchissement Salma DAMMAK Cours Entrepôt des données 38 Comment implanter un Système décisionnel Diffusion et Administration: constituée de plusieurs tâches pour assurer : La qualité et la pérennité des données aux différents applicatifs La gestion des droits d’accès selon le profil métier de chacun Interdire l’accès direct à l’ED Segmenter les données collectées en contextes qui soient cohérents, simples à utiliser et qui correspondent à une activité décisionnelle particulière (par exemple aux besoins d’un service particulier). Modéliser sous la forme d'un hypercube et à disposition via un outil OLAP. Salma DAMMAK Cours Entrepôt des données 39 Comment implanter un Système décisionnel Restitution : C’est le but du processus d’entreposage des données. Reporting: présenter les informations de façon plus lisible dans le cadre d’aide à la décision. Les données sont principalement modélisées par des représentations à base de requêtes afin de constituer des tableaux de bord ou des rapports via des outils d'analyse décisionnelle. Des instruments de type tableau de bord équipés de fonctions d'analyses multidimensionnelles de type Olap sont aussi utilisés. Salma DAMMAK Cours Entrepôt des données 40 Evolution des entrepôts de données Salma DAMMAK Cours Entrepôt des données 41 Evolution des entrepôts de données Data Lake Apparait après la naissance d’Hadoop en 2006 Stocke les données sous leur forme brute, non transformée, sans nécessiter de structures prédéfinies Est un référentiel de données volumineuses et diversifiées Donnée structurée BD relationnelle, des données semi-structurées comme des CSV, des logs ou des JSON, des données non-structurées comme des emails, des documents PDFs, ou des données binaires comme des images, des vidéos ou des fichiers audios. Sont Utilisées pour des analyses exploratoires et des modèles de Machine Learning. Salma DAMMAK Cours Entrepôt des données 42 Evolution des entrepôts de données Data Lake Volume de stockage important : une solution idéale pour les entreprises qui génèrent des quantités importantes de données de toute sorte. Intégration difficile : La nécessité de manipuler des données brutes peut rendre plus difficile l'intégration des données avec des outils de BI ou d’analyse. Salma DAMMAK Cours Entrepôt des données 43 Nouvelles tendances Data Lake Data Lake Data warehouse Type Données structurées, semi-structurées, non Données structurées structurées Données relationnelles, non relationnelles Données relationnelles Format Brut, non filtré Traité, vérifié Sources Big Data, IoT, réseaux sociaux, BD Application, entreprise, données relationnelle, ….. transactionnelles Extensibilité Facilité de mise à l’échelle à moindre coût Mise à l’échelle difficile et coûteuse Utilisateurs Scientifiques des données, ingénieurs Professionnels de l’entrepôt de données données, analystes d’entreprise Cas d’usage Machine Learning, analyse prédictive, Reporting de base, décisionnel analytique en temps réel Salma DAMMAK Cours Entrepôt des données 44 Evolution des entrepôts de données Lake house Combine les caractéristiques d’un entrepôt de données et d’un data lake, en fusionnant les technologies d’analyse de données traditionnelles avec des fonctionnalités avancées, telles que les capacités d’apprentissage automatique. En se trouvant souvent les données structurées plus pratiques à des fins de reporting et d'analyse, ce qui fait d'un entrepôt de données un choix logique. En se trouvant devant la gestions des données brutes et non filtrées, la capacité d'un lac de données peut être plus adaptée aux besoins des data scientists cherchant à exécuter des calculs avancés. data lakehouse offrir le meilleur des deux à un ensemble diversifié d'utilisateurs aux Salma DAMMAK compétences variées. Cours Entrepôt des données 45 Evolution des entrepôts de données Lake house Stocke les données dans du stockage distribué (Amazon S3, Azure Blob Storage, Google Cloud Storage) Allie la flexibilité d'un lac de données à la structuration d'un entrepôt de données, offrant ainsi une plateforme unifiée pour le stockage et l'analyse de divers types de données structurées et non structurées. Lancé par Databricks , il est différent des autres solutions de cloud de données car c'est le Data Lake qui est au centre de tout, pas l'entrepôt de données. Salma DAMMAK Cours Entrepôt des données 46