Chapitre 2 : Architecture des systèmes de BI PDF
Document Details
Uploaded by CalmEpitaph5931
Université Virtuelle du Burkina Faso
Cheik OUEDRAOGO
Tags
Summary
This document provides an overview of the architecture of business intelligence (BI) systems, including data ingestion, storage, models, and visualization techniques. It covers topics such as data warehousing, data marts, and data modeling.
Full Transcript
Cours d’informatique décisionnelle Informatique décisionnelle – Business intelligence Cheik OUEDRAOGO La puissance de la...
Cours d’informatique décisionnelle Informatique décisionnelle – Business intelligence Cheik OUEDRAOGO La puissance de la connaissance 2 12/08/2024 Informatique décisionnelle – Business intelligence Cheik OUEDRAOGO Licence L3 – Informatique décisionnelle (BI) Programme I. Chapitre 1 : Introduction à l’informatique décisionnelle (Business intelligence) II. Chapitre 2 : Architecture des systèmes de BI III. Chapitre 3 : Outils et technologies de BI IV. Chapitre 4 : Modélisation des données pour BI V. Chapitre 5 : Analyse et exploration des données VI. Chapitre 6 : Visualisation des données VII. Chapitre 7 : Applications et études de cas 3 12/08/2024 Informatique décisionnelle – Business intelligence Cheik OUEDRAOGO Licence L3 – Informatique décisionnelle (BI) Programme II. Chapitre 2 : Architecture des systèmes de BI I. Composant d’un système BI II. Les entrepôts de données III. Modélisation et implémentation des entrepôts 4 12/08/2024 Informatique décisionnelle – Business intelligence Cheik OUEDRAOGO Licence L3 – Informatique décisionnelle (BI) II. Chapitre 2 : Architecture des systèmes de BI II. Architecture global d’un système BI Ingestion Stockage Préparation Modèle de Visualisation Données données Streaming Hub data Entrepôt de données Fichier Agent collecteur Data Lake Relationnel Master data Modèles de données 5 12/08/2024 Informatique décisionnelle – Business intelligence Cheik OUEDRAOGO Licence L3 – Informatique décisionnelle (BI) II. Chapitre 2 : Architecture des systèmes de BI II. Le système BI - Données Données ▪ Données en temps réel des utilisateurs/ clients Streaming ▪ Données provenant d’autre CRM/ ERP, etc. Fichier ▪ Base de données relationnelle Relationnel 6 12/08/2024 Informatique décisionnelle – Business intelligence Cheik OUEDRAOGO Licence L3 – Informatique décisionnelle (BI) II. Chapitre 2 : Architecture des systèmes de BI II. Le système BI - Ingestion Ingestion « L'ingestion des données est le processus de collecter, importer et transformer des données provenant de diverses sources afin de les rendre accessibles et utilisables dans un système de BI. Ce processus est essentiel pour fournir des informations exploitables à partir des données brutes ». ❖ Etape de l’ingestion des données : ❖ Collecte de données : Rassembler des données de diverses sources, comme des bases de Agent collecteur données relationnelles, des fichiers plats, des services web, des capteurs IoT, etc. ❖ Transformation des données : Nettoyer, normaliser et enrichir les données pour les rendre cohérentes et prêtes pour l'analyse. ❖ Chargement des données : Importer les données transformées dans un entrepôt de données ou un autre système de stockage de BI. 7 12/08/2024 Informatique décisionnelle – Business intelligence Cheik OUEDRAOGO Licence L3 – Informatique décisionnelle (BI) II. Chapitre 2 : Architecture des systèmes de BI II. Le système BI - Ingestion Outils et technologies Les systèmes BI utilisent divers outils pour l'ingestion des données, notamment des ETL (Extraction, Transformation, and Loading), des pipelines de données, et des outils d'intégration de données comme Talend, Informatica, Apache Nifi, etc. Extract Transform LOAD Les systèmes de gestion de bases de données (SGBD) comme SQL Server, MySQL, et les systèmes de Big Data comme Hadoop et Spark sont également couramment utilisés pour gérer et traiter les données. 8 12/08/2024 Informatique décisionnelle – Business intelligence Cheik OUEDRAOGO Licence L3 – Informatique décisionnelle (BI) II. Chapitre 2 : Architecture des systèmes de BI II. Le système BI - Ingestion Challenges ▪ Volume de données : Gérer des volumes de données massifs provenant de multiples sources. ▪ Qualité des données : Assurer l'exactitude et la cohérence des données ingérées. ▪ Latence : Minimiser le délai entre la collecte des données et leur disponibilité pour l'analyse. ▪ Sécurité et conformité : Garantir que les données sont ingérées de manière sécurisée et conforme aux régulations. 9 12/08/2024 Informatique décisionnelle – Business intelligence Cheik OUEDRAOGO Licence L3 – Informatique décisionnelle (BI) II. Chapitre 2 : Architecture des systèmes de BI II. Le système BI - Stockage Stockage « Un data lake est un dépôt centralisé qui permet de stocker des données brutes dans leur format natif jusqu'à ce qu'elles soient nécessaires ». ▪ Stockage flexible : Peut contenir des données structurées, semi-structurées et non structurées. ▪ Grande capacité de stockage : Capable de stocker de très grandes quantités de données à faible coût. Data Lake ▪ Préparation des données en aval : Les données peuvent être transformées et analysées après le stockage. ▪ Exemples d'outils : Amazon S3, Microsoft Azure Data Lake Storage, Google Cloud Storage, Apache Hadoop. 10 12/08/2024 Informatique décisionnelle – Business intelligence Cheik OUEDRAOGO Licence L3 – Informatique décisionnelle (BI) II. Chapitre 2 : Architecture des systèmes de BI Kahoot 1 à 3 ETL et Data lake 11 12/08/2024 Informatique décisionnelle – Business intelligence Cheik OUEDRAOGO Licence L3 – Informatique décisionnelle (BI) II. Chapitre 2 : Architecture des systèmes de BI II. Le système BI - Préparation Préparation Un data hub est une architecture de gestion de données centralisée qui facilite le partage et la distribution de données entre diverses applications, systèmes et utilisateurs. Il sert de point central pour l'intégration, la gouvernance et la distribution des données dans une organisation. Hub data La Master Data Management (MDM) est une approche méthodologique permettant de gérer de manière cohérente et uniforme les données de référence essentielles à l'entreprise. Ces données de référence incluent des informations sur les clients, les produits, les fournisseurs, les employés et d'autres entités importantes. Master data 13 12/08/2024 Informatique décisionnelle – Business intelligence Cheik OUEDRAOGO Licence L3 – Informatique décisionnelle (BI) II. Chapitre 2 : Architecture des systèmes de BI II. Le système BI - Préparation Caractéristiques du Hub data ✓ Centralisation des Données : Un data hub centralise les données de différentes sources, les rendant accessibles à tous les systèmes et utilisateurs autorisés. ✓ Intégration des Données : Il permet l'intégration de données provenant de différentes sources (bases de données, applications, services web) en utilisant des connecteurs et des interfaces standards. ✓ Qualité des Données : Améliore la qualité des données en appliquant des règles de validation, de nettoyage et de normalisation. ✓ Gouvernance des Données : Fournit des outils pour la gestion des politiques de gouvernance des données, incluant la sécurité, la conformité et la gestion des accès. ✓ Accès en Temps Réel : Permet un accès en temps réel aux données pour des applications nécessitant des mises à jour instantanées. ✓ Flexibilité et Scalabilité : Capable de s'adapter à l'augmentation du volume de données et des utilisateurs, tout en maintenant des performances élevées. ✓ Interopérabilité : Facilite l'interopérabilité entre différentes applications et systèmes au sein de l'organisation. 14 12/08/2024 Informatique décisionnelle – Business intelligence Cheik OUEDRAOGO Licence L3 – Informatique décisionnelle (BI) II. Chapitre 2 : Architecture des systèmes de BI II. Le système BI - Préparation Caractéristiques du master data ✓ Unicité des Données : Assure qu'il n'y a qu'une seule version fiable de chaque donnée de référence dans toute l'organisation. ✓ Qualité des Données : Améliore la qualité des données par des processus de nettoyage, de validation et de standardisation. ✓ Consolidation des Données : Combine les données de plusieurs sources pour créer un référentiel unique et consolidé. ✓ Synchronisation des Données : Assure que les modifications apportées aux données de référence sont synchronisées entre tous les systèmes et applications. ✓ Gouvernance des Données : Inclut des politiques et des procédures pour la gestion, l'utilisation et la protection des données de référence. ✓ Gestion des Relations : Traite les relations entre différentes entités de données, comme les relations client-produit ou fournisseur-produit. ✓ Cycle de Vie des Données : Gère le cycle de vie complet des données de référence, depuis la création jusqu'à la suppression. ✓ Sécurité et Conformité : Assure la sécurité des données de référence et la conformité avec les réglementations pertinentes. ✓ Visibilité et Traçabilité : Offre une visibilité et une traçabilité complètes des modifications apportées aux données de référence. 15 12/08/2024 Informatique décisionnelle – Business intelligence Cheik OUEDRAOGO Licence L3 – Informatique décisionnelle (BI) II. Chapitre 2 : Architecture des systèmes de BI II. Le système BI – Modèles de données Définition de Inmon (1992) : « une collection de données thématiques, intégrées, non Modèle de volatiles et historisées, organisées pour le support d'un processus d'aide à la décision» données ▪ Thématique ou orientées sujet : un ED rassemble et organise des données issues de l’entreprise et de son environnement, pertinentes pour un sujet particulier à analyser. ▪ Intégrées : les données résultent de l’intégration de données provenant de Entrepôt de données différentes sources pouvant être hétérogènes. (ED) ▪ Historisées : les données représentent l’activité d’une entreprise durant une certaine période (plusieurs années) permettant de d’analyser les variations d’une donnée dans le temps. Magasin de données ▪ Non-volatiles : les données de l’ED sont essentiellement utilisées en interrogation (consultation) et ne peuvent pas être modifiées (sauf certain cas de rafraîchissement). 16 12/08/2024 Informatique décisionnelle – Business intelligence Cheik OUEDRAOGO Licence L3 – Informatique décisionnelle (BI) II. Chapitre 2 : Architecture des systèmes de BI II. Le système BI – Modèles de données Entrepôt de données VS BD opérationnelle 17 12/08/2024 Informatique décisionnelle – Business intelligence Cheik OUEDRAOGO Licence L3 – Informatique décisionnelle (BI) II. Chapitre 2 : Architecture des systèmes de BI II. Le système BI – Modèles de données Entrepôt de données VS magasin de données L'entrepôt de données - ED (Data Warehouse - DW) : ❖ Nécessitent de puissantes machines pour gérer de très grandes bases de données contenant des données de détail historisées ❖ Lieu de stockage centralisé d'un extrait des bases de production. ❖ L’organisation des données est faite selon un modèle facilitant la gestion efficace des données et leur historisation. Les magasins de données – MD (Data Marts - DM) : ❖ Petits entrepôts nécessitant une infrastructure plus légère et sont mis en œuvre plus rapidement (6 mois environs) ❖ Conçus pour l’aide à la décision à partir de données extraites d’un ED plus conséquent ou de BD sources existantes ❖ Les données extraites sont adaptées pour l’aide à la décision (pour classe de décideurs, usage particulier, recherche de corrélation, logiciel de statistiques,...) ❖ L’organisation des données est faite selon un modèle facilitant les traitements décisionnels 18 12/08/2024 Informatique décisionnelle – Business intelligence Cheik OUEDRAOGO Licence L3 – Informatique décisionnelle (BI) II. Chapitre 2 : Architecture des systèmes de BI II. Le système BI – Modèles de données Architecture fonctionnelle d’un entrepôt de données Niveau extraction (Préparation) : Extraction de données des BD opérationnelles (SGBD traditionnel en OLTP) et de l’extérieur : ❖ approche « push » : détection instantanée des mises à jour sur les BD opérationnelles pour intégration dans l’ED ❖ approche « pull » : détection périodique des mises à jour des BD opérationnelles pour intégration dans l’ED Niveau intégration : ❖ Intégration, chargement et stockage des données dans la BD entrepôt organisée par sujets ❖ Rafraîchissement au fur et à mesure des mises à jour Niveau exploitation : ❖ Customisation : Data Marts (Magasins de données) … ❖ Rapports, tableaux de bords, visualisation graphiques diverses, … ❖ Analyse et l’exploration des données entreposées (OLAP) ❖ Fouille de données (Data Mining) pour découverte de connaissances, … 19 12/08/2024 Informatique décisionnelle – Business intelligence Cheik OUEDRAOGO Licence L3 – Informatique décisionnelle (BI) II. Chapitre 2 : Architecture des systèmes de BI Kahoot Data warehouse 20 12/08/2024 Informatique décisionnelle – Business intelligence Cheik OUEDRAOGO Licence L3 – Informatique décisionnelle (BI) II. Chapitre 2 : Architecture des systèmes de BI II. Le système BI - Visualisation Visualisation 21 12/08/2024 Informatique décisionnelle – Business intelligence Cheik OUEDRAOGO Licence L3 – Informatique décisionnelle (BI) II. Chapitre 2 : Architecture des systèmes de BI III. Modélisation des entrepôts de données ❖ Les analyses décisionnelles (OLAP) sont directement reliées à une modélisation de l'information spécifique : ❖ Proche de la perception qu'en a l'analyste ❖ Basée sur une vision multidimensionnelle des données ❖ Modélisation « multidimensionnelle » : ❖ Considère un sujet analysé comme un point dans un espace à plusieurs dimensions ❖ Les données y sont organisées de façon à mettre en évidence le sujet analysé et les différentes perspectives de l'analyse. 22 12/08/2024 Informatique décisionnelle – Business intelligence Cheik OUEDRAOGO Licence L3 – Informatique décisionnelle (BI) II. Chapitre 2 : Architecture des systèmes de BI III. Modélisation des entrepôts de données ❖ Soit les données relatives aux ventes de 1999 d’une banque: Produits Villes Nombres de ventes Ventes Crédits Ouaga 48 Crédits Bobo 65 ASV Bobo 12 Produits ASV Ouaga 23 Villes ASV Ouaga 11 ❖ Différentes perspectives pour observer ces données : ❖ une dimension relative à la catégorie des produits ❖ une dimension relative à la ville 23 12/08/2024 Informatique décisionnelle – Business intelligence Cheik OUEDRAOGO Licence L3 – Informatique décisionnelle (BI) II. Chapitre 2 : Architecture des systèmes de BI III. Modélisation des entrepôts de données – Modélisation dimensionnelle ❖ Un fait : ❖ Modélise le sujet de l'analyse ❖ Est formé de mesures correspondant aux informations de l'activité analysée. ❖ Ces mesures sont numériques et généralement valorisées de façon continue, on peut les additionner, les dénombrer ou bien calculer le minimum, le maximum ou la moyenne. Exemple : le fait de « Vente » peut être constitué des mesures d'activités suivantes : quantité de produits vendus et montant total des ventes 24 12/08/2024 Informatique décisionnelle – Business intelligence Cheik OUEDRAOGO Licence L3 – Informatique décisionnelle (BI) II. Chapitre 2 : Architecture des systèmes de BI III. Modélisation des entrepôts de données – Modélisation dimensionnelle - dimension ❖ Le sujet analysé, le fait, est analysé suivant différentes perspectives ou axes caractérisant ses mesures de l’activité : on parle de dimensions. ❖ Une dimension : modélise un axe d'analyse se compose de paramètres correspondant aux informations faisant varier les mesures de l'activité. Ex: Dans l'exemple précédent, le fait « Vente » peut être analysé suivant différentes perspectives correspondant à trois dimensions : la dimension Temps, la dimension Geographie et la dimension Categorie : 25 12/08/2024 Informatique décisionnelle – Business intelligence Cheik OUEDRAOGO Licence L3 – Informatique décisionnelle (BI) II. Chapitre 2 : Architecture des systèmes de BI III. Modélisation des entrepôts de données – Hexarchie de dimension ❖ Les faits sont analysées selon les dimensions qui les caractérisent ❖ Nécessaire de définir pour chaque dimension ses différents niveaux hiérarchiques de détail (d’agrégation), ❖ Les hiérarchies de dimensions définissent des niveaux de détail de l'analyse sur les dimensions ❖ Ex: ❖ Dimension « temps» : H1 : jour ® mois ® trimestre ® année ; H2 : jour ® mois ® trimestre ® année ; H3 : jour ® mois ® saison ® année ; ❖ Dimension « géographie » : ville ® département ® région (chaque ville appartient à un département qui est situé dans une région) ❖ Dimension « catégorie» : couleur ® nomProduit ® gamme ® typeProduit (chaque produit appartient à une gamme de produit qui appartient à un type de produit) 26 12/08/2024 Informatique décisionnelle – Business intelligence Cheik OUEDRAOGO Licence L3 – Informatique décisionnelle (BI) II. Chapitre 2 : Architecture des systèmes de BI III. Modélisation des entrepôts de données – De la table au cube 27 12/08/2024 Informatique décisionnelle – Business intelligence Cheik OUEDRAOGO Licence L3 – Informatique décisionnelle (BI) II. Chapitre 2 : Architecture des systèmes de BI III. Modélisation des entrepôts de données – De la table au cube Je suis le responsable de la performance et de la voix du client une société d’energie et je dispose d’une base données opérationnelle pour chaque entité de mon organisation. Chacun de vous est un data analyst Proposer des tables de dimension et de faits qui constituerons les briques pour un entrepôts de données que vous utiliserez pour me proposer un dashborad pour piloter mon activité 28 12/08/2024 Informatique décisionnelle – Business intelligence Cheik OUEDRAOGO Licence L3 – Informatique décisionnelle (BI) II. Chapitre 2 : Architecture des systèmes de BI Références Introduction à l’Informatique Décisionnelle et aux entrepôts de données : Bernard ESPINASSE - Professeur à Aix-Marseille Université (AMU) Ecole Polytechnique Universitaire de Marseille. Ingénierie des Systèmes d’Information : Professeur à Aix-Marseille Université (AMU) Ecole Polytechnique Universitaire de Marseille. Analyse de données : Polytech’Marseille -Patrice Bellot 29 12/08/2024 Informatique décisionnelle – Business intelligence Cheik OUEDRAOGO Impact de l’élocution Votre capacité à communiquer efficacement aura un impact durable sur votre public La communication efficace implique non seulement la remise d’un message, mais également la résonance avec les expériences, les valeurs et les émotions des personnes à l’écoute 30 12/08/2024 Informatique décisionnelle – Business intelligence Cheik OUEDRAOGO