COURS ED_chap1 _ADBD_2024.pdf

Full Transcript

COURS : ENTREPÔTS DE DONNÉES Auditoire : 3ème année LSI -ADBD Responsable du cours : Inès ZOUARI [email protected] Année universitaire : 2024 - 2025 Plan du cours Chapitre I : Contexte et définitions Chapitre II : Construction d’un entrepô...

COURS : ENTREPÔTS DE DONNÉES Auditoire : 3ème année LSI -ADBD Responsable du cours : Inès ZOUARI [email protected] Année universitaire : 2024 - 2025 Plan du cours Chapitre I : Contexte et définitions Chapitre II : Construction d’un entrepôt de données Chapitre III : Analyse multidimensionnelle (OLAP) 2 Chapitre I : CONTEXTE ET DÉFINITIONS 3 Contexte Système d’information Le système d'information est un ensemble organisé de ressources (personnel, matériel, logiciel) permettant de collecter, de stocker, de traiter et de communiquer des informations de toutes formes dans une organisation Principales fonctions d’un SI Saisie : saisie des données faisant partie du SI pour qu’elles aient une existence réelle Mémorisation : permet de retrouver les données ultérieurement (Persistance) Traitement : permet d’accéder aux données, les mettre à jour et les mettre en forme Communication : permet la communication entre le SI et son environnement 4 Contexte Système d’information Modèle systémique des organisations [Gouarné 1997]  Le SI est le système de couplage entre le système opérant et le système de pilotage. C’est le véhicule de la communication dans l’entreprise 5 Contexte Système d’information Les SI traditionnels sont des systèmes opérationnels :  ils sont créés pour répondre aux besoins de traitements de transactions en ligne (OLTP) et le traitement en batch  ils sont conçus pour les tâches répétitives et planifiées (transactions fréquentes : Ecriture, Lecture)  ils garantissent la cohérence des données Exemples : calculer les quantités produites d’un produit calculer le prix de revient moyen calculer le coût de traitement d’une commande 6 Contexte Besoin de SI décisionnel – Business Intelligence Une entreprise dispose de données provenant soit de son système opérationnel soit de l’extérieur :  L’entreprise actuelle croule sous les données  Surabondance de données : cette surabondance a comme effet direct un rejet par saturation Les données peuvent avoir, en plus d’une utilisation opérationnelle, une utilisation stratégique  Les données représentent une mine d’informations dont l’entreprise doit tirer profit L’entreprise a besoin d’informations pertinentes pour faire face à : des clients de plus en plus exigeants (il faut anticiper leurs nouveaux besoins) une concurrence de plus en plus forte (mondialisation, ouverture des marchés) 7 Contexte Besoin de SI décisionnel – Business Intelligence But recherché : Améliorer les performances décisionnelles de l'entreprise en répondant aux demandes d’analyse des décideurs non informaticiens et non statisticiens Exemples : Analyse clientèle : Qui sont mes clients ? Pourquoi sont ils mes clients ? Comment les conserver ou les faire revenir ? Marketing, actions commerciales : Quels sont les produits à succès ? Où placer ces produits dans les rayons du magasin ? Télécommunications : Classification des clients, détection des pannes, détection des fraudes. 8 Contexte Besoin de SI décisionnel – Business Intelligence Problème : Les données d’analyse existent dans des BD de production (SI opérationnel) Mais : sont éparpillées, disparates, mal organisées et trop détaillées … Focalisées sur l’amélioration du quotidien ne correspondent pas au « langage métier » du décideur => Se prêtent mal à l’analyse L’entreprise ne doit pas avoir une vue seulement verticale de ses métiers mais aussi une vue transversale 9 Contexte Besoin de SI décisionnel – Business Intelligence Solution : Système d’information décisionnel Intermédiaire entre les données de base et le décideur Utilise les données du SI opérationnel et dispose en plus de ses propres informations permet de mesurer, analyser, évaluer, prévoir Fournit un accès aisé aux informations via des outils spécialisés : Outils OLAP, Reporting, Data mining Données Information Connaissance Décision 10 Contexte Historique des Systèmes décisionnels Infocentre (début des années 80) - époque des mainframes Une copie des données de production est enregistrée sur des serveurs distincts afin d’avoir une vue d’ensemble des activités passées et des informations utiles pour la prise de décision Une copie souvent partielle et mise à jour périodiquement  pas de historisation EIS : Exécutive Information System (né en même temps que les PC) Outil de restitution permettant d’organiser et de mettre en forme les données afin de construire des tableaux de bord (analysés par les dirigeants)  Tableau permanent visualisant les indicateurs clés de l’entreprise  Visualiser quelques indicateurs - Mécaniques complexes d’agrégation et de calcul 11 Contexte Historique des Systèmes décisionnels Entrepôt de données (début des années 90) Évolution intelligente des infocentres Mettre en place un ED dédié au stockage des données décisionnelles  on y verse une copie historisée des données issues des différentes applications de l’entreprise ainsi que des données issues de l’exterieur  Des outils informatiques, appelés ETL (Extract, Transform and Load) permettent cette collecte Exploité à travers des applications de type OLAP, reporting, data mining Business intelligence et Big Data (début du XXIème siècle)  Puissance des ordinateurs et des softwares  traitement des données en temps réel Grande  Montée en puissance d’interfaces ergonomiques, l’explosion du web révolution  Le défi est de contrôler l’augmentation exponentielle de data et leur grande diversité Un défi qui dépasse les compétences humaines mais pas celles du traitement des big data par le machine learning Grâce à des super algorithmes, l’analyse des données non structurées produit aujourd’hui des modèles prédictifs (data mining) pouvant couvrir tout le spectre de l’activité d’une entreprise 12 Contexte Historique de l’informatique décisionnelle 13 Entrepôt de données (ED) Définition D’après Bill Inmon [Inmon 94] : « Un entrepôt de données est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision. » 14 Entrepôt de données Définition Orientées sujet (thématiques) : Intégrées :  les informations sont assemblées par thème.  Les données alimentant l’ED proviennent de  Grâce à cette orientation sujet, l’entreprise multiples applications hétérogènes : BD pourra développer son système décisionnel relationnelles, fichiers plats, etc. d’une manière incrémentale (sujet par sujet)  Ces données doivent être converties, reformatées et nettoyées, de façon à avoir une seule vision globale dans l’ED. Non volatiles : Historisées : Afin de conserver la traçabilité des informations  L'historisation est nécessaire pour suivre dans et des décisions prises, les informations stockées le temps l'évolution des différentes valeurs des au sein de l’entrepôt de données ne peuvent être indicateurs à analyser. supprimées.  Chaque nouvelle insertion de données ne détruit pas les anciennes valeurs, mais créée une nouvelle occurrence de la donnée. 15 Entrepôt de données Caractéristiques d’un ED Entrepôt de données BD traditionnelle Données Orientées activité (thème, sujet), Orientées application, détaillées, intégrées, agrégées précises au moment de l’accès - Structuration Multidimensionnelle Relationnelle Forte dénormalisation, redondance Normalisation respectée, pas de redondance - Historisation L’axe temporel est fondamental généralement peu présente - Usage Utilisées de façon aléatoire (ad-hoc) répétée - opérations journalières - Accès - Utilisées uniquement en consultation Consultation, suppression, modification - MAJ réservées uniquement à l’admin.  MAJ destructives  MAJ incrémentales Unité de travail Requête complexe Transaction simple Temps de réponse quelques dizaines de secondes à instantané quelques minutes Taille 100 GB – TR (téraoctet) 100 MB - GB Utilisateurs - décideurs - Employés - Pas nombreux - Nombreux et concurrents 16 Entrepôt de données Architecture décisionnelle 17 Entrepôt de données Architecture décisionnelle Sources de données : Données sources utilisées pour alimenter l’ED. Ces données regroupent : données de production informations internes ou information externes , quel que soit leur mode de stockage les données commerciales, les données du système comptable, les données sur le personnel, des informations sur la concurrence, des informations externes produites par divers organismes nationaux ou internationaux, etc. 18 Entrepôt de données Architecture décisionnelle ETL : Extract - Transform - Load Les outils ETL sont utilisés pour extraire les données à partir des sources, les nettoyer, les transformer et les charger dans l’ED Extraction : réplication des données à travers une procédure de sélection à partir d’une ou plusieurs sources de données.  Les programmes extracteurs doivent travailler de façon native avec les SGBD des sources.  utilisation d’une méta-base qui va documenter les règles utilisées pour déterminer quelles données ont été extraites des systèmes sources. Transformation : suite d’opérations permettant de rendre les données cibles homogènes  transformer revient tout d’abord à nettoyer les données en les filtrant pour éliminer les faits contenant des valeurs manquantes, des valeurs nulles et des valeurs redondantes ; puis à intégrer et restructurer les données en supprimant les incohérences sémantiques entre les sources de données. Chargement : charger les données nettoyées et préparées dans l’ED.  Il faut mettre en place des stratégies pour assurer de bonnes conditions à sa réalisation et définir la politique de rafraîchissement. 19 Entrepôt de données Architecture décisionnelle Entrepôt de données (Data Warehouse) C’est le lieu de stockage centralisé et extrait des sources. Il intègre et «historise » l’ensemble des données utiles pour les prises de décisions. Son organisation doit faciliter la gestion des données et la conservation des évolutions. Magasin de données (Data Mart) Chaque magasin est un extrait de l’entrepôt. Les données extraites sont adaptées à un groupe de décideurs ou à un usage particulier Un magasin ne contient que les données d’un métier de l’entreprise alors que l’ED contient toutes les données décisionnelles de l'entreprise pour tous les métiers Exemple : le DM marketing contient toutes les informations nécessaires au service marketing 20 Entrepôt de données Architecture décisionnelle Méta-données Ce sont les données sur les données. Elles décrivent : les données entreposées, leur format, leur signification Les processus d’extraction des données à partir des sources La date du dernier chargement de l’entrepôt L’historique des données sources et de celles de l’entrepôt 21 Entrepôt de données Architecture décisionnelle On Line Analytical Processing (OLAP) C’est une catégorie d'applications et de technologies permettant de collecter, stocker, traiter et restituer des données multidimensionnelles à des fins d'analyse Outils de visualisation - Restitution C'est l'élément le plus important pour l'utilisateur car il correspond à la partie visible du système. Quelles que soient les solutions retenues, elles doivent être simples à utiliser et compréhensibles par les décideurs non informaticiens. La restitution peut intervenir avec des modalités différentes : Outils de requêtes Outils de data mining 22 Annexe 1 23 Annexe 2 24

Use Quizgecko on...
Browser
Browser