Chapitre 1 : Introduction aux entrepôts de données PDF

Document Details

ExhilaratingHilbert269

Uploaded by ExhilaratingHilbert269

Université Virtuelle du Burkina Faso

Cheik OUEDRAOGO

Tags

data warehouse entrepot de données bases de données informatique

Summary

Ce document présente une introduction aux entrepôts de données et aux bases de données opérationnelles. Il décrit les concepts et les systèmes d'information à l'usage des entreprises. L'objectif est de donner une compréhension générale des entrepôts de données.

Full Transcript

Entrepôt de données Data warehouse– Entrepôt de données Cheik OUEDRAOGO La puissance de la connaissance 2 25/10/2024 Data wareho...

Entrepôt de données Data warehouse– Entrepôt de données Cheik OUEDRAOGO La puissance de la connaissance 2 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) Programme I. Chapitre 1 : Introduction entrepôt de données II. Chapitre 2 : Modélisation des données III. Chapitre 3 : Conception des entrepôts de données 3 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) Programme II. Chapitre 1 : Introduction aux entrepôts de données I. Rappel sur les bases de données opérationnelles II. Les entrepôts de données 4 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) I. Chapitre 1 : Introduction entrepôts de données I. Les bases de données opérationnelles Objectif du rappel ❖ Appréhender les bases conceptuelles et techniques supportant le traitement et le stockage des données. ❖ Ce rappel aborde : ❖ L’utilisation ❖ La conception ❖ L’exploitation 5 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) I. Chapitre 1 : Introduction entrepôts de données I. Les bases de données opérationnelles Systèmes d’Information et Systèmes de Gestion de Base de données Le système d’Information a pour mission : ❖ Mémoriser l’information: acquisition (donc ouvert avec l’extérieur), stockage ❖ Diffuser l’information : restitution pouvant être d’ailleurs contrôlée/limitée ❖ Maintenir cohérente l’information: dans le temps et intrinsèquement… ❖ Transformer et produire de nouvelles informations… ❖ De pouvoir évoluer 6 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) I. Chapitre 1 : Introduction entrepôts de données I. Les bases de données opérationnelles Usage des Systèmes d’Information d’entreprise En gestion (management) de l’entreprise ❖ ERP (Entreprise Resource Planning) ou Progiciel de Gestion Intégrée ❖ SCM (Supply Chain Management) ou Gestion de la Chaîne Logistique. ❖ Gestion des stocks En gestion commerciale ❖ E-Commerce : gestion des commandes en ligne ❖ CRM (Customer Relationship Management) ou Gestion de la Relation Client En Production ❖ GPAO : Gestion de Production Assisté par Ordinateur ❖ GMAO : Gestion de maintenance assistée par ordinateur En Conception ❖ GDT : Gestion des Données Techniques ❖ PLM (Product Life Management) 7 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) I. Chapitre 1 : Introduction entrepôts de données I. Les bases de données opérationnelles Usage des Systèmes d’Information De manière également transversale à ces applications : ❖ Système de Travail Collaboratif ❖ Workflow ❖ Intranet, portails ❖ Site internet  Bref toute application requérant de mémoriser et diffuser l’information … ❖ Dès lors qu’un SI gère des informations il faut optimiser la gestion des données (espace mémoire de données, durées des traitements) qu’il manipule ❖ => s’appuie en général sur un module de gestion de données autonome spécialisé dans cette tâche. => Un Système de Gestion de Base de Données 8 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) I. Chapitre 1 : Introduction entrepôts de données I. Les bases de données opérationnelles Usage des Systèmes d’Information De manière également transversale à ces applications : ❖ Système de Travail Collaboratif ❖ Workflow ❖ Intranet, portails ❖ Site internet  Bref toute application requérant de mémoriser et diffuser l’information … ❖ Dès lors qu’un SI gère des informations il faut optimiser la gestion des données (espace mémoire de données, durées des traitements) qu’il manipule ❖ => s’appuie en général sur un module de gestion de données autonome spécialisé dans cette tâche. => Un Système de Gestion de Base de Données 9 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) I. Chapitre 1 : Introduction entrepôts de données 10 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) I. Chapitre 1 : Introduction entrepôts de données I. Les bases de données opérationnelles Pourquoi des sauvegarder les données ? ❑ Pour sauvegarder « l’état » d’un programme entre deux exécutions ❖ L’exécution d’un programme consiste ❖ à le charger en mémoire de travail, ❖ réserver de la mémoire pour les données, ❖ Exécuter les instructions du programme … ❖ A la clôture du programme, toute modification est perdue … ❖ … si elle n’est pas sauvegardée ailleurs ❑ Ailleurs ? ❖ Disque dur, Cle USB, CD/DVD Rom, Bande, Magnétique … 11 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) I. Chapitre 1 : Introduction entrepôts de données I. Les bases de données opérationnelles Programme et Sauvegarde… ❑ 1ere solution : le programme gère lui-même son/es fichier/s de données ❖ Il créé, Lit, Modifie ce/s fichier/s ❖ En mode texte : ❖ le fichier est manipulable en dehors du programme (éd. texte) ❖ Accès séquentiel (ie parcours tout le fichier) ❖ En mode binaire ❖ Accès sélectif (on se déplace de n octets) ❖ Fichier exploitable «uniquement» par l’application 12 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) I. Chapitre 1 : Introduction entrepôts de données I. Les bases de données opérationnelles Programme et Sauvegarde… ❑ 1ere solution : le programme gère lui-même son/es fichier/s de données ❖ Avantages : ❖ Rapide à développer ❖ Inconvénients: ❖ Codes différents imbriqués => debuggage, maintenance rendus plus difficiles ❖ Réutilisation limitée : nouvelle application => on refait tout ❖ Gestion « basique » des données non optimisées ❖ incompatible avec des projets de gestions sophistiqués : ❖ lecture/écriture de données, recherche de données (accès linéaire) etc… => Envisageable pour de faible volume de donnés => Pas multi utilisateur (client seul) 13 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) I. Chapitre 1 : Introduction entrepôts de données I. Les bases de données opérationnelles Programme et Sauvegarde… ❑ 2eme solution : déléguer la charge de la gestion des données à un programme spécialisé ❖ Avantages : ❖ Optimisation des traitements ❖ Séparation/spécialisation de l’application en fonction des tâches (améliore la maintenance) ❖ Possibilité d’un accès concurrentiel au données (via le prog. Spé.) ❖ Inconvénients: ❖ Architecture plus complexe ❖ Requiert un langage d’interactions entre le programme utilisateur des données et le programme spécialisé => C’est ce que propose un SGBD… 14 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) I. Chapitre 1 : Introduction entrepôts de données I. Les bases de données opérationnelles Exemple d’utilisation de SGBD : Commerce en ligne 15 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) I. Chapitre 1 : Introduction entrepôts de données I. Les bases de données opérationnelles Système de Gestion de Base de données (SGBD) ❑ Système dédié à la gestion des données. ❑ Sépare la gestion logicielle des données de leur usage ❑ Protège la cohérence des données ❑ Autorise un accès concurrentiel aux données (plusieurs ❑ connexions simultanées) ❑ Exemple de SGBD : ❖ Oracle, PostgresQL, MySQL, Teradata ❖ Dans une moindre mesure (SGBD « interne »): ❖ MS Access, Libre Office Base ❖ Mais aussi SQLite ❖ utilisé par Firefox, Airbus pour logiciel de vol, Bosh (gestion multimedia), Android, Skype ! 16 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) I. Chapitre 1 : Introduction entrepôts de données I. Les bases de données opérationnelles Pourquoi structurer l’information ❑ Objectif « conceptuel » : ❑ Clarifier, simplifier l’information, les données sur lesquelles on travaille. ❑ Objectif technique : ❑ Optimiser l’espace occupé par l’information (éviter les doublons) ❑ Mieux organiser l’information pour mieux la trouver (index) ❑ Gérer « physiquement » au mieux les données ❑ Concrètement ? ❑ Définir un modèle de données qui deviendra une table puis un fichier (en fait plusieurs). 17 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) I. Chapitre 1 : Introduction entrepôts de données I. Les bases de données opérationnelles Objectifs du Modèle Conceptuel de Données ❑ Représente la partie statique du SI: les informations. ❑ Il s’agit d’identifier et de caractériser les objets du discours et leurs interrelations… ❑ Un MCD : ❑ énumère l’ensemble des informations du domaine d’étude ❑ les structure et les organise ❑ dans un langage clair ❑ sans tenir compte des objectifs d’informatisation ni des contraintes matérielles 18 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) I. Chapitre 1 : Introduction entrepôts de données I. Les bases de données opérationnelles Exemple d’informations brutes ❑ une entreprise est une structure économique et sociale comprenant une ou plusieurs personnes et travaillant de manière organisée, en combinant certaines ressources, pour fournir des biens ou des services à des clients. ❑ Analyse du texte : ❑ Identifier les mots importants ❑ Extraire les informations principales : ❑ Entreprise ❑ Personne ❑ Bien ❑ Service ❑ Les relations entre les mots ❑ Comprenant, une ou plusieurs, fournir 19 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) I. Chapitre 1 : Introduction entrepôts de données I. Les bases de données opérationnelles Construction du MCD ❑ Cette énumération nécessite des cycles de structuration réguliers ❑ Identification des synonymes ❑ Ex: Société, Entreprise, Compagnie ❑ => unification/réification : Entreprise ❑ Explicitation des ambiguïtés ❑ Livre : œuvre, édition, exemplaire papier ❑ Simplification des relations ❑ 1 ternaire -> 2 binaires 20 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) I. Chapitre 1 : Introduction entrepôts de données I. Les bases de données opérationnelles Formalisme utilisé ❑ Formalisme Entité-Relation (E-R) ❑ Concepts : ❑ Entité ❑ Relation ❑ Propriété ❑ Multiplicité/Cardinalité 21 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) I. Chapitre 1 : Introduction entrepôts de données I. Les bases de données opérationnelles Concept Entité ❑ Entité : modélise les objets du discours ❑ Définit une classe d’objet : un stage ❑ Généralise un ensemble d’occurrences : une entreprise -> (Etp X, Etp Y, Etp Z) ❑ Règles de modélisation ❑ Règle de pertinence : l’entité modélise un objet nécessaire concret ou abstrait du monde réel. Ex: Personne Etudiant/ContactEtp ❑ Règle d’Identification : chaque occurrence doit être identifiée. Chaque entité a donc une propriété dont la valeur est unique pour une entité dans le temps. 22 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) I. Chapitre 1 : Introduction entrepôts de données I. Les bases de données opérationnelles Exemple d’identification des Entités ❑ Informations récoltées : ❑ L’entreprise X a embauché M. Borro (promo 2020) ❑ L’entreprise Y a embauché M. Ilboudo (promo 2020) ❑ L’entreprise X a embauché Mlle. Zongo (promo 2021) ❑ Il y a 5 éléments (mots) pouvant être ici regroupés en 2 types d’entités ❑ Entreprise : Entreprise X, Entreprise Y ❑ Élève : Borro, Ilboudo, Zongo 23 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) I. Chapitre 1 : Introduction entrepôts de données I. Les bases de données opérationnelles Retour sur notre exemple ❑ Informations principales : ❑ Entreprise ❑ Personne ❑ Bien ❑ Service ❑ MCD préliminaire : (limité aux entités vides) 24 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) I. Chapitre 1 : Introduction entrepôts de données I. Les bases de données opérationnelles Propriété ❑ Propriété : élément d’information n’existant pas seul, élémentaire ❑ Nom : toto, titi, tutu ❑ Solde : 10, 1000, -3 ❑ Une propriété peut être décrite comme étant composée d’autres propriétés. ❑ Ex: adresse composée ❑ D’une dénomination de lieu : rue, avenue, boulevard ❑ D’un numéro ❑ D’un nom de bâtiment ❑ D’une ville ❑ D’un code postal ❑ Etc… 25 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) I. Chapitre 1 : Introduction entrepôts de données I. Les bases de données opérationnelles Concepts de Relation (entre Entités) ❑ Caractérise des liens entre des occurrences de plusieurs entités ❑ Le schéma ci-dessous se lit : ❑ 1 stage est proposé par 1 entreprise et 1 seule ❑ 1 entreprise propose 0 ou n stage (ie pas de limite max) 26 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) I. Chapitre 1 : Introduction entrepôts de données I. Les bases de données opérationnelles Multiplicités ❑ Précise ou contraint le nombre de participations à la relation : ❑ Min : nombre minimum d’occurrences ❑ Max : --------- maximum ------------------ ❑ Au niveau conceptuel, la cardinalité mini peut être laissée indéterminée (?). 27 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) I. Chapitre 1 : Introduction entrepôts de données II. Les entrepôts de données ❑ On peut schématiser un projet décisionnel « classique » de la façon suivante : ❑ Prise de connaissance du contexte, et recueil du besoin métier ❑ Définition claire et précise des « reportings » attendus par le métier ❑ Combien de rapports ? Besoin d’un cube OLAP ? Et quid d’un éventuel dashboard ? ❑ Modélisation du datawarehouse (DWH) répondant aux attentes de restitution ❑ Configuration de l’ETL et création de flux de données, afin d’intégrer les données nécessaires à l’analyse dans le datawarehouse ❑ Les données intégrées seront nettoyées et consolidées, prêtes pour l’analyse ❑ Les flux d’intégration de données seront ensuite lancés automatiquement à intervalles réguliers en fonction du besoin (quotidiennement, hebdomadairement, etc.) ❑ Création d’un éventuel cube OLAP ❑ Création des reports / dashboards répondant aux demandes du métier 28 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) I. Chapitre 1 : Introduction entrepôts de données II. Les entrepôts de données 29 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) I. Chapitre 1 : Introduction entrepôts de données II. Les entrepôts de données ❑ Le datawarehouse (DWH) est une base de données relationnelle, disposant d’une modélisation bien particulière ❑ On appelle cela un « entrepôt de données » car il s’agit d’une très grosse base de données (en termes de volumétrie) qui va stocker énormément d’informations nécessaires à l’analyse ❑ Il sera directement utilisé comme source de données pour alimenter les divers rapports et cubes de la solution décisionnelle 30 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) I. Chapitre 1 : Introduction entrepôts de données II. Les entrepôts de données ❑ Le datawarehouse aura notamment pour vocation de stocker des données « historiques » ❑ C’est–à-dire des données potentiellement disparues (avec le temps) des systèmes sources mais que l’on souhaite volontairement conserver dans le DWH ❑ Cette particularité permettra, par exemple, de comparer des données sur de très longues périodes, à des fins d’analyses prédictives ❑ Contrairement à une base de données relationnelle « opérationnelle » qui est définie comme normalisée, un datawarehouse est dénormalisé afin de favoriser l’analyse de données 31 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) I. Chapitre 1 : Introduction entrepôts de données II. Les entrepôts de données ❑ Pour comprendre la différence entre les différentes bases de données que l’on est amené à utiliser dans un projet décisionnel, il faut comprendre les termes OLAP et OLTP ❑ OLTP : OnLine Transactional Processing ❑ Une base de données OLTP est une BDD « classique », utilisant un modèle relationnel habituel ❑ OLAP : OnLine Analytical Processing ❑ Une base de données OLAP est une BDD conçue spécialement pour permettre une meilleure analyse des données 32 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) I. Chapitre 1 : Introduction entrepôts de données II. Les entrepôts de données Architecture fonctionnelle d’un entrepôt de données Niveau extraction (Préparation) : Extraction de données des BD opérationnelles (SGBD traditionnel en OLTP) et de l’extérieur : ❖ approche « push » : détection instantanée des mises à jour sur les BD opérationnelles pour intégration dans l’ED ❖ approche « pull » : détection périodique des mises à jour des BD opérationnelles pour intégration dans l’ED Niveau intégration : ❖ Intégration, chargement et stockage des données dans la BD entrepôt organisée par sujets ❖ Rafraîchissement au fur et à mesure des mises à jour Niveau exploitation : ❖ Customisation : Data Marts (Magasins de données) … ❖ Rapports, tableaux de bords, visualisation graphiques diverses, … ❖ Analyse et l’exploration des données entreposées (OLAP) ❖ Fouille de données (Data Mining) pour découverte de connaissances, … 33 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) I. Chapitre 1 : Introduction entrepôts de données II. Les entrepôts de données Base de données OLTP ❑ Une base de données OLTP est utilisée par des systèmes de production (CRM, ERP, site web, etc.) pour stocker les données ❑ Elle a pour vocation de subir énormément de modifications (INSERT, UPDATE, DELETE) tout au long de la journée, et sera donc très réactive lors de ces opérations ❑ Elle a également pour force d’éviter un maximum la redondance de données ❑ Ces avantages sont issus de sa modélisation dite « normalisée » ❑ Autrement dit : une modélisation qui respecte les formes normales 34 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) I. Chapitre 1 : Introduction entrepôts de données II. Les entrepôts de données Base de données OLTP ❑ La base OLTP est donc un choix idéal pour héberger les données d’un système de production subissant régulièrement des modifications ❑ En revanche, si l’on cherche à faire des analyses sur de gros volumes de données directement sur la base OLTP, cette dernière va très vite montrer ses limites et ne sera pas performante (notamment à cause des nombreuses jointures) 35 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) I. Chapitre 1 : Introduction entrepôts de données II. Les entrepôts de données Base de données OLAP ❑ Une base de données OLAP (comme le datawarehouse) sera quant à elle utilisée à des fins d’analyse de données, très généralement quand les volumes sont assez conséquents (plusieurs millions de lignes à analyser) ❑ Pour se faire, elle utilise une modélisation en « étoile » (voire en « flocon », une extension) ❑ Cette modélisation va très clairement favoriser une restitution rapide sur de gros volumes de données 36 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) I. Chapitre 1 : Introduction entrepôts de données II. Les entrepôts de données Base de données OLAP ❑ La modélisation en étoile permet des temps de réponse très rapides quand il s’agit de récupérer (SELECT) de grands volumes de données ❑ En effet, le modèle en étoile permet de limiter le besoin de jointures pour accéder à différentes données, ce qui accélère grandement les requêtes … ❑ … au détriment d’une redondance de données qui sera bien plus présente que dans une base de données OLTP 37 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO Licence L3 – Entrepôt de données (DW) II. Chapitre 2 : Architecture des systèmes de BI II. Les entrepôts de données Entrepôt de données VS BD opérationnelle 38 25/10/2024 Data warehouse– Entrepôt de données Cheik OUEDRAOGO

Use Quizgecko on...
Browser
Browser