Data Engineering - Wirtschaftsingenieurwesen (WING) - WS 2024 - PDF
Document Details
Uploaded by Deleted User
Fachhochschule Vorarlberg
2024
Dr. Kathrin Plankensteiner
Tags
Summary
This document contains lecture notes on data engineering for the Wirtschaftsingenieurwesen (WING) course at FHV Vorarlberg University of Applied Sciences, for the winter semester 2024. It covers the data engineering lifecycle, data warehousing, big data, and data-driven organizations. The notes include practical examples, discussions, and key considerations in data handling.
Full Transcript
Data Engineering Wirtschaftsingenieurwesen (WING), WS 2024 Dr. Kathrin Plankensteiner [email protected] Organisatorisches Data Engineering LV: Lehrveranstaltung: 2SWS / 3ECTS (⇒ 75h Aufwand) Zeitfenster: 20.09.2024 - 16.11.2024 1...
Data Engineering Wirtschaftsingenieurwesen (WING), WS 2024 Dr. Kathrin Plankensteiner [email protected] Organisatorisches Data Engineering LV: Lehrveranstaltung: 2SWS / 3ECTS (⇒ 75h Aufwand) Zeitfenster: 20.09.2024 - 16.11.2024 12.10.2024 – 02.11.2024 09.11.2024 – 16.11.2024 23.11.2024 5.10.2024 – 11.10.2024 20 LE 4 LE 2 LE 2 LE Grundlagen der Python Programmierung & Data Import & Data Profiling in Einführung & Grundlagen Bauen einer Data Pipeline Python ILIAS Klausur (Kathrin Plankensteiner) (Stefan Traut) (Kathrin Plankensteiner) Bewertung: ILIAS Klausur mit Fragen zum LV Inhalt Programmieren (Vervollständigen von Code-snippets,….) Fragen aus DataCamp Kurs „Understanding Data Engineering“ Seite 2 Inhalt Data Engineering Daten Data-Driven Organisation Data Engineering Entwicklung von Data Engineering Data Engineering Definition Data Engineering Lifecycle Wandel der Zeit Digitale Transformation Data is the new … Gold Oil Electricity King Soil Currency Bacon … Seite 5 Source: https://ediscoverytoday.com/wp-content/uploads/2023/04/2023-Internet-Minute-Infographic-Source-Stats.pdf Daten, Daten, Daten 1 Zetabyte = 1012 Gigabytes 1 Gigabyte ~ 6h YouTube-Videos Source: https://www.statista.com/statistics/871513/worldwide-data-created/ Seite 6 Digitale Transformation Data Engineering 1980er: Klassische BI (Business Intelligence), Data Warehousing, „wenig“ Daten, ETL-Prozesse basierend auf SQL 2000er: Mit dem Aufstieg des Internets führte der massive Anstieg von Datenvolumen zu dem Begriff „Big Data“ Datengetriebene Technologieunternehmen wie Google, Facebook, Amazon, etc. begannen sich von traditionellen ETL- und Speichertechniken abzuwenden und entwickelten neue Technologien (AWS – Amazon Web Service). Sie entwickelten eine Art Softwareentwicklung, die sich auf Daten konzentriert, insbesondere auf Infrastruktur, Datenlagerung, Datenschutz, Cybersicherheit, Modellierung, Verarbeitung und Metadaten-Management. Data Engineering Seite 7 Data Engineer Definition “Data engineering is the development, implementation, and maintenance of systems and processes that take in raw data and produce high-quality, consistent information that supports downstream use cases, such as analysis and machine learning.” “Data engineering is the intersection of security, data management, DataOps, data architecture, orchestration, and software engineering.” “A data engineer manages the data engineering lifecycle, beginning with getting data from source systems and ending with serving data for use cases, such as analysis or machine learning.” Reis & Housley (2022) Seite 8 Data Engineer Lifecycle Aufgaben eines Data Engineers: Generation: Generieren von Daten, „Anzapfen“ von Daten, Source Systems Storage: Entwicklung & Design von Datenbanken, Data Lakes, Data Mesh,... Ingestion: Datenaufnahme, Import in das Zielsystem Transformation: Aggregation, Bereinigung und Anreicherung der Daten für Source: Reis & Housley, 2022 unterschiedliche Anwendungssituationen im Unternehmen Serving (ML, Analytics): die performante Bereitstellung der Daten (für Data Analyst, Data Scientists, fachliche Mitarbeiter, Unternehmenskunden…) Seite 9 Überlegungen bzgl Daten Generierung? Source: Reis & Housley, 2022 Seite 10 Daten Generierung (Generation) Wichtige Überlegungen sind: Welche Datenquelle (Source) wird angezapft? IoT-Geräte, Web-Applikation, Datenbank,… Wie werden die Daten im Source-System gespeichert (Permanent vs temporär)? Wie oft werden Daten generiert/gespeichert? Datenrate Skalierung Datenvolumen Wie zuverlässig/fehleranfällig sind die Daten? … Seite 11 Überlegungen bzgl Speichern von Daten? Source: ChatGPT-4o, 12.09.2024 Seite 12 Daten Speicherung (Storage) Wichtige Überlegungen sind: Ist diese Speicherlösung mit den erforderlichen Schreib- und Lesegeschwindigkeiten der Architektur kompatibel? Wird der Speicher einen Engpass für nachgelagerte Prozesse verursachen? (hot data vs cold data) Wird die Speichertechnologie genau verstanden? (damit auch optimal genutzt?) Wird dieses Speichersystem das erwartete zukünftige Wachstum bewältigen? Werden Metadaten zu Schema-Änderungen, Datenflüssen, Datenherkunft und Ähnlichem erfasst? Wie werden Stammdaten, Datenqualität von „golden records“ und Datenherkunft (data lineage) verfolgt und überwacht? … Seite 13 Überlegungen bzgl Datenimport? Source: ChatGPT-4o, 12.09.2024 Seite 14 Datenimport (Ingestion) Wichtige Überlegungen sind: Sind die Quelldaten in gutem Zustand für eine sofortige Nutzung? Wenn ja, wie lange, und was könnte dazu führen, dass sie unbrauchbar werden? Falls die Daten aus einer Streaming-Quelle stammen, müssen sie vor der Ankunft am Zielort transformiert werden? ETL (Extract, Transform, Load) vs ELT (Extract, Load, Transform) In welchem Umfang werden die Daten typischerweise eintreffen? Wie oft werden die Daten abgerufen werden? Streaming vs Batch Import? … Seite 15 Überlegungen bzgl Transformation & Serving? Source: ChatGPT-4o, 13.09.2024 Seite 16 Transformation & Serving Wichtige Überlegungen sind: Welche Aggregationen / Transformationen müssen gemacht werden? Müssen Daten „angereichert“ werden? Welche Geschäftsregeln braucht man dafür? Was sind die Kosten dafür? Sollen die im Speichersystem bereits gemacht werden, oder können sie außerhalb vollzogen werden? Sind die Daten von ausreichender Qualität? Quantität? Repräsentiert der Datensatz die tatsächliche Realität korrekt oder ist er verzerrt (biased)? … Seite 17 Data Engineering Life Cycle Source: Reis & Housley, 2022 Seite 18 Warum ist ein Data Engineer wichtig? Seite 19 Warum ist ein Data Engineer wichtig? Seite 20 Source: https://www.informatica.com/se/resources/articles/what-is-data-engineering.html “Nearly 90% [of interviewed people] are concerned about data quality issues leading to AI failures.” The Alation State of Data Culture Report executed by Wakefield Research (2021): Research study among 300 Data & Analytics Leaders at enterprises with 2,500+ employees in the US, UK, Germany, Denmark, Sweden, and Norway (2021) Daten Welche Daten gibt es? Was kann man mit Daten (nicht) machen? Datenmythen Welche Daten gibt es? Daten können unterschiedlich eingeteilt werden: Nach Datenstruktur: Strukturierte, unstrukturierte und semistrukturierte Daten Nach Quelle: Interne und externe Daten Nach Zugänglichkeit: öffentliche und private Daten Nach Eigenschaften, wie Datentypen: Quantitative und qualitative Daten Datengröße: Big Data vs herkömmliche Daten vs Small Data Datencharakteristiken: Biased data, unbalanced data,… Seite 23 Einteilung nach Datengröße “Big data refers to data that is too big to fit on a single server, too unstructured to fit into a row-and- column database, or too continuously flowing to fit into a static data warehouse. While its size receives all the attention, the most difficult aspect of big data really involves its lack of structure.” (Davenport, 2014) Charakterisierung über die 4 bzw. 5 V‘s: Volume: Größe des Datensatzes (zeitabhängig!) Variety: Vielfalt der Datenarten, strukturierte und unstrukturierte Daten Velocity: Geschwindigkeit Validity: Gültigkeit von Daten (Datenqualität) (Value: Mehrwert für das Unternehmen) Seite 24 Exercise/Diskussion Big Data = Big Chances? Seite 25 Big Data ≠ Big Chances Man kann im vorhinein nicht sagen, ob der Datensatz groß genug ist, nur weil er Big ist, muss er nicht repräsentativ sein! => Nicht viele Daten sind essenziell, sondern die Richtigen! Seite 26 Was kann man mit Daten machen? Wertschöpfung Prescriptive How can we make Analytics it happen? Predictive What will happen? Analytics Diagnostic Why did it happen? Analytics Descriptive What happened? Analytics Seite 27 Schwierigkeit Source: Gartner, 2012 Exercise/Diskussion Wozu können Daten nicht verwendet werden? Worin liegt die Limitation von Daten? Seite 28 Was kann man mit Daten NICHT machen? Aufgabe: Limitation von Daten Vorhersagen basieren auf historischen Daten Wiederkehrende Ereignisse können sehr gut vorgesagt werden! Einmalige Ereignisse können nicht vorhergesagt werden! (statistische Ausreißer/Anomalien) Beispiele: Corona Black Swan Theory (Nassim Taleb) Seite 29 Erwartungen an Daten Fünf wesentliche Erwartungen an Daten, welche die Transformation zu DDO motivieren, sind Transparenz Klarheit Realitätscheck: Kollaboration Können die Erwartungen Wettbewerbsvorteil mit Daten erfüllt werden? Effizienz Seite 30 Mythen über Daten (1) 1. Daten sind objektiv. Seite 31 Ein einfaches Beispiel?! Analyse von einer Staffel einer TV-Serie basierend auf der Frage: „Wie viele Zuschauer hat die Staffel?“ Seite 32 Ein einfaches Beispiel?! „Wie viele Zuschauer hat die Staffel?“ Wie wird #Zuschauer definiert? Woher weiß man wieviel Leute vor dem TV sitzen? Was wenn die Serie über mehrere Streaming-Anbieter angeboten wird? Zählt ein Zuschauer,… wenn er die ganze Staffel anschaut? % der Staffel anschaut? nur 20min einer Serie anschaut? …. Seite 33 Ein weiteres einfaches Beispiel?! Die US Stadt Boston veröffentlichte 2012 eine Smartphone-App namens „Street Bump“ mit dem Ziel eine Karte aller Schlaglöcher auf Boston‘s Straßen zu bekommen. Die App nutzt Beschleunigungssensoren eines Smartphones, um während des Fahrens Schlaglöcher in Straßen zu erkennen. Die Infos davon + GPS-Koordinaten werden dann an die Stadt gesendet, damit die Schlaglöcher repariert werden können. Harford, 2014, https://timharford.com/2014/04/big-data-are-we-making-a-big-mistake/ Seite 34 Ein weiteres einfaches Beispiel?! Mit der App konnte keine Karte aller Schlaglöcher auf Boston‘s Straßen rekonstruiert werden, nur eine Karte aller Schlaglöcher derjenigen Straßen, die wohlhabende Leute benutzen, weil man braucht ein Smartphone man braucht ein Auto, um die App zielgerecht nutzen zu können. => Data Bias (Verzerrung in den Daten) Seite 35 Data Bias In 2014 startete Amazon den Versuch ihren Bewerbungsprozess zu automatisieren und launchte dazu eine KI. Wenig später wurde diese KI wieder abgeschaltet, weil Frauen diskriminiert wurden. Warum? Seite 36 Source: https://www.aclu.org/news/womens-rights/why-amazons-automated-hiring-tool-discriminated-against Erkenntnis + Empfehlung Eine Kennzahl basiert immer auf zuvor definierten (subjektiven) Entscheidungen innerhalb eines Kontextes! => Die genaue Definition von Kennzahlen & die Visualisierung von „Datenlandschaften“ sind eine notwendige Voraussetzung, um Transparenz zu schaffen und können Verzerrungen in den Daten vermeiden bzw. aufdecken. Seite 37 Beispiel einer Datenlandschaft Seite 38 https://www.dataspot.at/datenlandkarte/ Mythen über Daten (2) 2. Die Interpretation von Daten ist eindeutig. Seite 39 Beispiel: Produkt A, B oder C? Welches Produkt würden Sie wählen? Seite 40 Beispiel: Produkt A, B oder C? Beste durchschn. Bewertung => C Am sichersten/meisten Bewertungen => B Meisten Top Bewertungen (4 und 5 Sterne) => A Seite 41 Erkenntnis + Empfehlung Für die exakt gleiche Datengrundlage und Use-Case können wir unterschiedliche Entscheidungen treffen die allesamt objektiv, plausibel und legitim sind und doch zu komplett gegensätzlichen Ergebnissen kommen. => Die Dokumentation, warum welche Entscheidungen getroffen wurden, sind für Nachvollziehbarkeit und Verständnis entscheidend! Seite 42 Mythen über Daten (3) 3. Daten liefern klare Ja/Nein Aussagen. Seite 43 Beispiel: Essbarer vs giftiger Pilz? Würden Sie einen Pilz mit lila Hutfarbe essen? Hutfarbe essbar giftig Gesamt braun 15,56% 12,56% 28,11% buff 0,59% 1,48% 2,07% (Grundgesamtheit vs. Stichprobe) cinnamon 0,39% 0,15% 0,54% gray 12,70% 9,95% 22,65% green 0,20% 0,00% 0,20% pink 0,69% 1,08% 1,77% purple 0,20% 0,00% 0,20% red 7,68% 10,78% 18,46% white 8,86% 3,94% 12,80% yellow 4,92% 8,27% 13,20% Gesamt 51,80% 48,20% 100,00% Seite 44 Erkenntnis + Empfehlung Daten liefern i.A. keine klaren Ja/Nein Antworten. Der eigentliche Mehrwert der Daten liegt in den möglichst genauen Aussagen hinsichtlich einer Wahrscheinlichkeit eines Sachverhalts und der Quantifizierung dessen Unsicherheit. => Die Akzeptanz und das Verständnis, das Datenanalytik immer Komplexität und Probabilistik beinhaltet, sind essenziell. Seite 45 „Anyone who has never made a mistake has never tried anything new.“ Albert Einstein Data-Driven Organisation Was ist eine datengetriebene Organisation? Evolutionsstufen Status-Quo Schlüsselelemente Datengetriebene Organisation (DDO) „Eine datengetriebene Organisation ist eine Organisation, die Daten konsequent erhebt und nutzt, um die eigenen Prozesse zu verstehen, zu verbessern und zu automatisieren, bessere operative und strategische Entscheidungen zu treffen, Produkte und Dienstleistungen zu verbessern und neue, innovative Dienstleistungen, Produkte und Geschäftsmodelle zu ermöglichen.“ (Wernicke, 2024) Seite 48 „Organisationen, die Abläufe und Operationen mit Big Data und Analytics erarbeiten, weisen eine um 5% höhere Produktivität und 6% mehr Profitabilität auf als andere.“ (PwC Digital Consulting, 2021) Wo liegt eine gute DDO? 1 2 3 4 5 6 Experten- Daten- getrieben getrieben Expertise ist Expertise wiegt Expertise soll Expertise kann Daten wiegen Allein die Daten alles, was man schwerer als Daten selektiv Daten schwerer als entscheiden braucht Daten überstimmen überstimmen Expertise Seite 50 Eine gute DDO ist eine Kombination Daten sind lediglich Mittel zum Zweck. Es braucht eine Balance der datengetriebenen Erkenntnisse mit menschlicher Intuition, Fachwissen und Verständnis des Kontexts. Eine gute DDO liegt hier 1 2 3 4 5 6 Experten- Daten- getrieben getrieben Expertise ist Expertise wiegt Expertise soll Expertise kann Daten wiegen Allein die Daten alles, was man schwerer als Daten selektiv Daten schwerer als entscheiden braucht Daten überstimmen überstimmen Expertise Seite 51 Status Quo DDO Data And AI Executive Survey (NewVantage Partners) jährlich seit 2012 Mehr als 100 Unternehmen aus Fortune 1000 and Global data leadership organizations wurden befragt 95% C-Level Seite 52 Status Quo DDO In 2023: Bei rund 60% der befragten Unternehmen wurden Geschäftsinnovationen durch Daten getrieben. Notiz: Corona in 2020/2021 Seite 53 Status Quo DDO Fast alle befragten Unternehmen konnten einen messbaren Geschäftswert aus Investitionen in Daten & Analytik erzielen. Seite 54 Status Quo DDO Nur 20% der befragten Unternehmen haben bereits eine DDO bzw. Datenkultur etabliert. Seite 55 Status Quo DDO Die Technologie spielt zwar eine wesentliche Rolle, ist im Allgemeinen jedoch nicht der tatsächliche „Verhinderer“, warum man nicht datengetrieben geworden ist. Die Technologie ist da, man muss sie nur „richtig“ (zur Strategie passend) einsetzen. Seite 56 Erkenntnisse aus der Studie GenAI wird als die transformativste Technologie seit einer Generation wahrgenommen. Chief Data Officer/Chief Data and Analytics Officer (CDO/CDAO) sind notwendige Rollen. Daten und KI Governance sind essentielle Bereiche, in denen mehr Ressourcen gesteckt werden müssen. Datenethik wird die nächste große Herausforderung für führende Unternehmen sein. Die Transformation zu einer datengetriebenen Organisation dauert Jahre bzw. Jahrzehnte. Es ist kein 3 Jahres Projekt. Seite 57 Schlüsselelemente (1) Entscheidend sind: Strategie (inkl. Diagnose & Aktionsplan) Diagnose Leitbild Aktionsplan Die wesentlichen Klare Richtung, um den Zusammenhängende Herausforderungen Herausforderungen zu Maßnahmen, um das der Organisation begegnen Leitbild umzusetzen Unternehmenskultur und Entscheidungsstrukturen innerhalb der Organisation (Datenkultur, Lust auf Experimentierfreudigkeit, Digital Mindset, „politische Spielchen“…) Seite 58 Schlüsselelemente (2) Kompetenzen der Mitarbeiter & Entscheider „Data Literacy“: konkretes Verständnis dafür, was man mit Daten (nicht) machen kann und warum Psychologie der Entscheider (Bauchgefühl, Confirmation Bias, …) Seite 59 Schlüsselelemente (3) „Culture eats strategy for breakfast!“ (Peter Ducker 2006) Source: Berndtsson et al., 2018 (Uni Schweden) Seite 60 „Beim Wandel zu einer datengetriebenen Organisation geht es im Kern gar nicht so sehr um Daten und Technologie, sondern um Entscheidungen und Unternehmenskultur.“ (Wernicke, 2024) Ausgewählte Literatur Berndtsson, Mikael et al. (2018) “Becoming a data-driven organization”, Conference proceeding: European Conference on Information System (ECIS). Propper, Carol & Burgess, Simon & Green, Katherine (2004) "Does competition between hospitals improve the quality of care?: Hospital death rates and the NHS internal market“, Journal of Public Economics, Elsevier, vol. 88(7-8), pages 1247-1272, July. PWC (2021) „Was macht eine Data Driven Organization aus?“, https://digital.pwc.at/2021/11/10/data-driven-organization Pearl, Judea & Mackenzie, Dana (2019) „The Book of Why “, Penguin Books. Reis, Joe & Housley, Matt (2022): “Fundamentals of Data Engineering”, O’Reilly Media. Wernicke, Sebastian (2024) „Data Inspired. Erfolgskonzepte für die datengetriebene Organisation“, Verlag Franz Vahlen GmbH. Seite 62 Danke