WITA-9 Data Warehouse PDF
Document Details
Uploaded by Deleted User
Technische Hochschule Augsburg
Prof. Dr. Jana Görmer-Redding
Tags
Summary
This document provides an overview of data warehousing concepts and technologies, suitable for an undergraduate business analytics course. Discussing different techniques used for data warehousing, and providing example diagrams of datawarehousing, and examples in real-life applications
Full Transcript
WIRTSCHAFTSINFORMATIK: TECHNOLOGIEN UND ANWENDUNGEN Kapitel 9: Multidimensionale Datenmodelle und Data Warehouses Prof. Dr. Jana Görmer-Redding | Grundlagen der Wirtschaftsinformatik 2 1 LERNZIELE...
WIRTSCHAFTSINFORMATIK: TECHNOLOGIEN UND ANWENDUNGEN Kapitel 9: Multidimensionale Datenmodelle und Data Warehouses Prof. Dr. Jana Görmer-Redding | Grundlagen der Wirtschaftsinformatik 2 1 LERNZIELE DES KAPITELS Sie können Data Warehouses (DW) gegenüber datenbankbasierten operativen Systemen bezüglich ihrer Definition, Nutzung und Architektur einordnen Das Konzept multidimensionaler Datenmodelle ist Ihnen vertraut Sie kennen die OLAP-Grundoperationen auf Datenwürfeln Sie kennen die Formen der Abbildung multidimensionaler Datenmodelle in Datenbankstrukturen (MOLAP/ROLAP) und können diese auf einfache Beispielmodelle anwenden Sie verstehen insbesondere die Nutzung des Star Schemas bei der Modellierung von Data Warehouses mit ROLAP Prof. Dr. Jana Görmer-Redding | Grundlagen der Wirtschaftsinformatik 2 2 DATENBANKSYSTEME VS. DATA-WAREHOUSES DBS werden in der Regel für Anwendungen der Kontrolle und Automatisierung von Funktionen und Prozessen verwendet. DBS repräsentieren so zu jedem Zeitpunkt einen aktuellen Zustand des Unternehmens (z.B. momentan gültiger Auftragsbestand) Zur Entscheidungsfindung in Unternehmen werden Daten benötigt über einen größeren Unternehmensausschnitt über einen längeren Zeitraum aus dem Unternehmensumfeld (z.B. Wettbewerberbezogen) Datenarchivierung z.B. zur späteren Analyse Prof. Dr. Jana Görmer-Redding | Grundlagen der Wirtschaftsinformatik 2 3 BEISPIEL: UMSATZREPORT, DARGESTELLT MIT POWERPLAY-WERKZEUG DER FIRMA COGNOS [Quelle: https://community.ibm.com Prof. Dr. Jana Görmer-Redding | Grundlagen der Wirtschaftsinformatik 2 4 DATA-WAREHOUSE (DWH) In einem Data-Warehouse werden funktions- und prozessübergreifend Daten gesammelt und aufbereitet Daten in einem DWH dienen insbesondere dem Zeitvergleich und der Analyse von Entwicklungen Die Schlüssel der Daten müssen somit bei Übernahme der Daten aus einem DBS immer ein Zeitattribut enthalten Ein einmal in ein DWH aufgenommener Datensatz wird nicht mehr verändert oder überschrieben Für DWHs wird ein Nutzungskonzept (Datenpflegekonzept) erstellt, das besagt, wann Daten gelöscht werden Prof. Dr. Jana Görmer-Redding | Grundlagen der Wirtschaftsinformatik 2 5 DATA WAREHOUSE-NOTWENDIGKEIT Informative DB Operative DB Charakteristika Datawarehouse Datawarehouse OLTP-Systeme Business Intelligence Transaktions- Eigenes DV-System Hohes Volumen Niedrig bis Mittel volumen Sehr Schnell, Redundante, Antwortzeit Normal, Minutenbereich Sekundenbereich aggregierte Betrachtungs- Aktuelle Periode Vergangenheit bis Datenhaltung periode Zukunft Analytisch, OLAP: Andere, Aktivitäten Operativ, detailliert unvorhersagbar multidimensionale Detailliert, Datenspeicherung Niveau der Daten Aggregiert, aufbereitet Belegebene Verarbeitungs- Datensatz, Integrationsplattform Matrizen (Arrays) einheit eindimensional Datenaktualität Permanent gegeben Nur nach Update Einbindung externer Datenquellen, sog. Zeithorizont 1-3 Monate Mehrere Jahre Webfarming Prof. Dr. Jana Görmer-Redding | Grundlagen der Wirtschaftsinformatik 2 [Quelle: Eicker, 2004] 6 GRUNDKOMPONENTEN EINES DWH Datenmanagement Datenbereitstellung (z.B. zyklische Übernahme operativer Daten) Interne und externe Daten (z.B. aus der Marktforschung gewonnen) Transformation von Daten aus verteilten Datenbeständen Qualitative u. multimediale Daten (z.B. verbale Kommentare) Datenorganisation Konzept für Datenspeicherung und Datenzugriff Auswertung / Aufbereitung von Daten Erkennen von Zusammenhängen und Mustern in großen und heterogenen Daten- und Textmengen Data- bzw. Text-Mining, Datenvisualisierung, OLAP Wichtig: Einfache Formulierung von Anfragen Prof. Dr. Jana Görmer-Redding | Grundlagen der Wirtschaftsinformatik 2 7 DATA-WAREHOUSE/BUSINESS INTELLIGENCE Ein Datewarehouse führt Informationen aus verschiedenen Quellen zusammen, speichert sie und bereitet sie auf Business Intelligence Präsentation, Analyse betriebswirt. Applikationen Manager Informationsmodellierung OLAP multidimensionale Auswertungen Datenspeicherung Datawarehouse Administration Metadaten ETL-Werkzeuge Selektion, Extraktion Transformation, Laden [Quelle: Eicker, 2004] Transaktionsabwicklung der Geschäftsprozesse R/3® Operative Systeme Externe Datenquellen (eigene, fremde, Internet) OLTP Geschäftsprozesse Prof. Dr. Jana Görmer-Redding | Grundlagen der Wirtschaftsinformatik 2 8 INFORMATIONSGEWINNUNG Die Auswertung von Daten führt zur Gewinnung entscheidungsrelevanter Informationen Quellen: Data-Warehouses Externe Datenbanken (oft über Web-Schnittstellen) Planungs-, Kontroll-, und Wissensmanagementsysteme Wichtige Techniken zur Informationsgewinnung: Knowledge Discovery in Databases (KDD): Identifizieren gültiger, neuartiger, nützlicher und nachvollziehbarer Muster in Daten Data Mining (DM): Teilaufgabe im KDD-Prozess Beschreibt Algorithmen für die eigentliche Datenanalyse Prof. Dr. Jana Görmer-Redding | Grundlagen der Wirtschaftsinformatik 2 9 DATA MINING: DEFINITION UND VERFAHREN Wichtigstes Werkzeug der Auswertung / Aufbereitung im DWH Data Mining Analyse großer Daten-bestände, um Zusammen-hänge, Muster und Regeln zu finden, die als Unterstützung bei der Entscheidungs-findung und der Vorhersage künftigen Verhaltens dienen können [Laudon+ 2006, p. 339] Anwendungsbereiche: Analyse und Prognose Analyse, z.B. Prognose, z.B. der bestehenden der künftigen Beziehung zum Unterschiedliche technische Verfahren für beide Bereiche Kundenbeziehungen u. des Kunden und der Entwicklung Kunden-verhaltens des Verhaltens Clusterbildung und Klassifikation Abweichungsanalyse Wirkungsprognose Assoziation Generalisierung Prof. Dr. Jana Görmer-Redding | Grundlagen der Wirtschaftsinformatik 2 10 MULTIDIMENSIONALES DATENMODELL Das einem Data Warehouse zugrunde liegende Modell lässt sich am besten mit der "Würfel-Metapher" beschreiben, denn die Datenhaltung erfolgt multidimensional. Beispiel: Erzielte Umsätze und Verkaufszahlen im Quartal dargestellt nach Produkt, Region, Kunde Dimensionen: Produkt, Region, Kunde Kennzahlen: Umsatz, Verkaufszahlen Darstellung in einem Datenwürfel ("Info-Cube") Anmerkung: auch "N-dimensionale Würfel" mit N > 3 sind möglich (= Hyperwürfel, Hypercube) Online Analytical Processing (OLAP) bietet Funktionen zur Konstruktion und Auswertung von Datenwürfeln Prof. Dr. Jana Görmer-Redding | Grundlagen der Wirtschaftsinformatik 2 11 BEISPIEL: DREIDIMENSIONALER DATENWÜRFEL Umsatz Produktgruppe: PKW Region: Nord Kunde: Alt KG Groß Klein Alt KG Nord West Ost Umsatz Produktgruppe: LKW Süd Region: West Kunde: Klein PKW LKW Produktgruppe Prof. Dr. Jana Görmer-Redding | Grundlagen der Wirtschaftsinformatik 2 12 OLAP-OPERATIONEN AUF DATENWÜRFELN Drill Down: Verfeinerung der betrachteten Dimensionen z.B. Jahr Quartal Monat Woche z.B. Region Teilregion Filiale Roll Up: Aggregation inverse Operation zum Drill Down Festlegen der Aggregationsebenen zum Zeitpunkt d. Festlegung d. Datenmodells Slicing Auswahl / Analyse einer bestimmten Ausprägung einer Dimension ("Scheibe"), z.B. ein Jahr mit sämtlichen Produkten/Regionen Dicing: Einschränkungen auf mehreren Dimensionen möglich Pivoting Ändern der Reihenfolge der Dimensionen, z.B. Kundenwert nach Zeit, Region, Produktgruppe Produktgruppe, Region, Zeit Prof. Dr. Jana Görmer-Redding | Grundlagen der Wirtschaftsinformatik 2 13 AUSWERTUNGSMÖGLICHKEITEN Die mehrdimensionale Sicht erlaubt eine differenziertere Auswertung, z.B. in Bezug auf folgende Fragestellungen und Anwendungsbereiche: Controlling / Marketing: Welche Umsätze in Abhängigkeit von Region und Kunde? Produktmanagement: Welche Produkte wurden in Abhängigkeit von Region und Kunde verkauft? Regionalmanagement: Welche Produkte wurden in einer Region gekauft, welche Potentiale existieren noch? Prof. Dr. Jana Görmer-Redding | Grundlagen der Wirtschaftsinformatik 2 14 SPEICHERUNG AGGREGIERTER DATEN (1) Wichtige Aufgabe eines Data Warehouses: Speicherung aggregierter Daten z.B. die Verkaufsdaten bestimmter Produktgruppen Jede Dimension kann mehrere hierarchisch zusammenhängende Merkmale enthalten z.B. im Fall unserer Produkt-Dimension auf unterster Ebene das "Produkt", darüberliegend die "Produktgruppe". Meist ist die höchste Stufe innerhalb einer Dimension die totale Aggregation. Auswertungen der Kennzahlen nach Kunde und Zeit, unabhängig vom Produkt. * Alles Produkt- PCs Laptops gruppe Turbo Turbo Carry Carry Produkt 2000 1500 2000 1000 Prof. Dr. Jana Görmer-Redding | Grundlagen der Wirtschaftsinformatik 2 15 SPEICHERUNG AGGREGIERTER DATEN (2) Die anderen Dimensionen im Beispiel könnten wie folgt aggregiert werden * * Kundengruppe Land Kunde Filiale Die Beziehung zwischen den einzelnen Merkmalen innerhalb einer Dimension sollte 1:1 oder 1:n sein Prof. Dr. Jana Görmer-Redding | Grundlagen der Wirtschaftsinformatik 2 16 AGGREGATION VON KENNZAHLEN Die Art der Aggregation ist für jede Kennzahl einzeln zu definieren. In unserem Beispiel werden beide Kennzahlen (Umsatz, Verkaufszahlen) entlang aller Dimensionen aufsummiert. Es sind Kennzahlen denkbar, bei denen eine Summation nicht das gewünschte bzw. ein falsches Ergebnis liefern würde Bestands-Kennzahlen wie beispielsweise ein Lagerbestand können nicht summiert werden Hier wäre eine vernünftige Aggregation die Durchschnittsbildung Prof. Dr. Jana Görmer-Redding | Grundlagen der Wirtschaftsinformatik 2 17 SPEICHERUNG MULTIDIMENSIONALER DATEN Ziel: Effiziente Speicherung der in einer n-dimensionalen Würfelstruktur enthaltenen Daten eines DWH Zwei generelle Ansätze: MOLAP: Multidimensional Online Analytical Processing ROLAP: Relational Online Analytical Processing Prof. Dr. Jana Görmer-Redding | Grundlagen der Wirtschaftsinformatik 2 18 MULTIDIMENSIONAL OLAP (MOLAP) Daten werden in ihrer multidimensionalen Form als Matrix gespeichert. Erfordert spezielle Datenbankprodukte Tendenziell kürzere Antwortzeiten Aber: Ineffiziente Speichernutzung "Leer-Zellen" in Würfeln müssen mit speziellem "Null"-Wert gefüllt werden. "Leer-Zellen" beanspruchen selben Speicherplatz und die gleiche Rechenzeit wie "gefüllt" Zellen. Verschiedene Kompressions-Techniken mildern das Problem bis zu einem gewissen Grad, dennoch Problem bei großen Datenmengen. Prof. Dr. Jana Görmer-Redding | Grundlagen der Wirtschaftsinformatik 2 19 RELATIONAL OLAP (ROLAP) ROLAP setzt auf relationalen Datenbanken auf. Die Datenwürfel werden in mehreren flachen Tabellen gemäß dem sogenannten "Star Schema" gespeichert. Vorteil: bestehende ausgereifte (und entsprechend performante) Datenbank-Systeme und –Abfragesprachen (SQL) können verwenden werden. Aber: Notwendigkeit der Daten-Transformation! Je größer die zu speichernde Datenmenge, desto eher überwiegen die Vorteile einer ROLAP-Lösung gegenüber einer MOLAP-Lösung. Prof. Dr. Jana Görmer-Redding | Grundlagen der Wirtschaftsinformatik 2 20 DAS STAR SCHEMA Modell zur Speicherung multidimensionaler Strukturen als flache Tabellen in einer relationalen Datenbank. Das "Star Schema" bildet die mehrdimensionalen Datenstrukturen in zwei Arten von Tabellen ab: in einer einzelnen Faktentabelle, die die Kennzahlen sowie einen kombinierten Schlüssel mit einem Element für jede Dimension enthält, in einer Dimensionstabelle pro Dimension. Diese Tabellen enthalten einen künstlich generierten Schlüssel, die hierarchische Struktur der jeweiligen Dimension sowie ein "Level"-Attribut, um die Zugehörigkeit eines jeden Eintrags zu einer Hierarchiestufe festzulegen. Prof. Dr. Jana Görmer-Redding | Grundlagen der Wirtschaftsinformatik 2 21 BEISPIEL FÜR EIN STARSCHEMA Organisationseinheit Zeit Faktentabelle Dimensionstabelle Fakten Kunde Produkt Prof. Dr. Jana Görmer-Redding | Grundlagen der Wirtschaftsinformatik 2 22 BEISPIEL: STAR-SCHEMA (2) Wir zeigen anhand eines Beispiels eine Datenorganisation nach dem Star-Schema Dimensionen Kennzahlen erzielter Umsatz verkaufte Menge Prof. Dr. Jana Görmer-Redding | Grundlagen der Wirtschaftsinformatik 2 23 BEISPIEL: DIMENSIONSTABELLE PRODUKT Die Dimensionstabellen beinhalten ein "Level"-Attribut, um die Hierarchiestufenzugehörigkeit der Einträge zu kennzeichnen. Nebenstehend Dimensions- tabelle für Produkt Datensätze mit Schlüsseln K000001 bis K000006 repräsentieren einzelne Produkte, (Level="0") K100100 bis K100300 stehen für Produktgruppen (Level="1") K999999 steht für die totale Aggregation (Level="2") Prof. Dr. Jana Görmer-Redding | Grundlagen der Wirtschaftsinformatik 2 24 BEISPIEL: DIMENSIONSTABELLEN KUNDE / ZEIT Prof. Dr. Jana Görmer-Redding | Grundlagen der Wirtschaftsinformatik 2 25 FAKTENTABELLE Die Faktentabelle ist in der Regel die größte Tabelle im "Star Schema". Sie enthält die eigentlichen Daten, d.h. die Kennzahlen zur eine bestimmte Kombination von Kunde, Produkt und Zeitraum. Weiterhin kann sie aggregierte Daten für Kombinationen von Kunden(- gruppe), Produkt(-gruppen) und Quartal enthalten. Prof. Dr. Jana Görmer-Redding | Grundlagen der Wirtschaftsinformatik 2 26 BEISPIEL: FAKTENTABELLE Lieferungen Turbo1500 an Hauser OEG im Januar Lieferungen Turbo2000 an Huber&Söhne im März Lieferungen PCs an Sauber KG im März Lieferungen Laptops an Großabnehmer im 1. Quartal Lieferungen insgesamt in 2001 Prof. Dr. Jana Görmer-Redding | Grundlagen der Wirtschaftsinformatik 2 27 ZUSAMMENFASSUNG STAR-SCHEMA K_KEY, P_KEY, Z_KEY sind künstliche Schlüssel Über sie wird die Verbindung zwischen Faktentabelle und Dimensionstabellen (s.u.) hergestellt Sicherstellen der Eindeutigkeit und Minimalität der Schlüssel Prof. Dr. Jana Görmer-Redding | Grundlagen der Wirtschaftsinformatik 2 28 DATAWAREHOUSE: REALISTISCHERES STAR SCHEMA Dimension Produkt Ort, Region, Land d. Produktionsstätte Produktgruppe (-familie) Materialart Dim. Zulieferer Ort, Region, Land d. Zulieferers Dimension Kunde Lieferantengruppe Ort, Region, Land d. Kunden Leistungserbringer extern Kundengruppe Leistungserbringer intern Leistungsempfänger extern Leistungsempfänger intern Faktentabelle Innenumsatz (nachrichtlich) Preisnachlässe Erlösschmälerungen Variable Kosten Fixkosten (anteilig) VuV Kosten Differenz bil./kalk. Afa......... Dim. Organisationseinheit Konzernsicht Teilkonzernsicht Dimension Vertriebsweg Gruppe Direktvertrieb Geschäftsgebiet Handel Produktbereich e-marketplace Profit Center Prof. Dr. Jana Görmer-Redding | Grundlagen der Wirtschaftsinformatik 2 29 TREND: ONLINE-ANALYTICS AUF BASIS VON IN-MEMORY-DATENBANKEN In-Memory-Datenbanken erlauben es, ganze Datenbanken komplett im Hauptspeicher zu halten Vorteil ist eine ggü. herkömmlichen DBS stark beschleunigte Antwortzeit Beispiel: SAP High Performance Analytical Appliance (HANA) https://www.sap.com/germany/product/technology-platform/hana.html →Konvergenz von transaktionalen Anwendungen (SAP ERP) und analytischen Anwendungen (BDWH) →Data Warehouse Applikationen können teilweise direkt auf den operativen Daten arbeiten – „Echtzeitauswertungen“ →Flexiblere Anfragen mit stärkerer Ausdruckskraft möglich →Herkömmliche Architekturkomponenten wie ETL oder ODS könnten in Zukunft entfallen Prof. Dr. Jana Görmer-Redding | Grundlagen der Wirtschaftsinformatik 2 30