Data Engeneering.pdf
Document Details
Uploaded by SmootherBowenite5869
null
Tags
Related
- Joe Reis, Matt Housley - Fundamentals of Data Engineering_ Plan and Build Robust Data Systems-O'Reilly Media (2022).pdf
- Fundamentals of Data Engineering PDF
- ECE Laws and Issuances Review (Philippines)
- Data Engineering with Databricks.pdf
- Data Engineering with Databricks.pdf
- Data Engineering for Business Intelligence PDF
Full Transcript
3. Data Engineering Website: Lehr- und Lernumgebung Gedruckt von: Maya Engel Kurs: Modul M12: Wirtschaftsinformatik Datum: Dienstag, 9. April 2024, 08:42 Buch: 3. Data Engineer...
3. Data Engineering Website: Lehr- und Lernumgebung Gedruckt von: Maya Engel Kurs: Modul M12: Wirtschaftsinformatik Datum: Dienstag, 9. April 2024, 08:42 Buch: 3. Data Engineering : Beschreibung : Inhaltsverzeichnis 3.1 TPS 3.1.1 Datenbankmodell 3.1.2 Datenverarbeitung 3.1.3 SQL 3.1.4 Stamm-/Bew.-daten : 3.1 Transaction Processing Systems Hansen et al. definieren Transaktionsbasierte System (TPS) wie folgt: Wesentliches Merkmal eines Transaction Processing System ist eine umfangreiche Datenbank, die zur Bearbeitung der laufenden Geschäftsvorfälle durch Benutzereingaben abgefragt oder geändert werden kann. Ein solches Informationssystem wird auch operatives Informationssystem genannt, da es zur Unterstützung der alltäglichen betrieblichen Leistungsprozesse dient. Die Aktualität, der Detaillierungsgrad und die Genauigkeit der zur Verfügung gestellten Daten sind dementsprechend hoch und meist in Echtzeit verfügbar. Im Mittelpunkt steht eine möglichst weitreichende Automatisierung und Integration der betrieblichen Aufgabenerfüllung. Als Transaktion wird dabei ein logisch abgeschlossener Vorgang auf Anwendungsebene verstanden, der vollständig oder gar nicht durchgeführt werden soll (z.B. Erstellung eine Kundenauftrags). Alpar et al. ergänzen zudem, dass Transaktionssystem die Bearbeitung wiederkehrender Geschäftsvorgänge auf der Ausführungsebene unterstützen, um die Effizienz der Prozessabläufe zu steigern. Manager der operativen Ebene greifen dabei ebenfalls auf TPS zu, um die Korrektheit von Prozessabläufen zu überprüfen. Das zu verwendende Datenbankmodell sowie das relevante Datenverarbeitungskonzept solcher Transaktionsbasierte Systeme sollen nachfolgend detaillierter beschrieben werden. : 3.1.1 Relationales Datenbankmodell Ein Datenbankmodell beschreibt den strukturellen Aufbau einer Datenbank. Eine Datenbank besteht aus einer Vielzahl von Tabellen, in denen Daten abgelegt und für eine weitere Bearbeitung verwaltet werden. Zur Unterstützung operativer Geschäftsprozesse wird in transaktionsbasierten Systemen seit den 70er Jahren das von Ted Codd (IBM) eingeführte relationale Datenbankmodell verwendet. In einer relationalen Datenbank werden zweidimensionale Tabellen mit eindeutig identifizierbaren Datensätzen (ohne Datenredundanz) zueinander in Beziehung (Relation) gesetzt. Zur eindeutigen Identifizierung der Datensätze werden sogenannte Primärschlüssel verwendet (= Schlüsselattribut im ERM). Die Struktur der Datenbank wird aus dem → ERM abgeleitet. Dabei werden aus den Entitätstypen Tabellen und aus den Attributen die Spalten der einzelnen Tabellen abgeleitet. Die unterschiedlichen Entitäten eines Entitätstyps werden in den Zeilen der Tabellen als sogenannte Datensätze abgelegt. (vgl. Hansen, 2019, S.469 ff) (vgl. Mertens, 2017, S.45 ff) Strukturierte Daten in einer Datenbank Datenfelder bestehen in strukturierter Form aus einem oder mehreren Zeichen. Jeder Datensatz besteht aus einem oder mehreren Datenfeldern. Alle zusammengehörigen Datensätze werden in einer Tabelle zusammengefasst, die Datenbank (DM) vereint die logisch zusammengehörenden Tabellen. Zur aktiven Organisation bzw. Verwaltung einer Datenbank werden diese durch ein Datenbankmanagementsystem (DBMS) unterstützt, das mit der Datenbank gemeinsam ein Datenbanksystem (DBS) bildet. (vgl. Lemke, 2015, S. 174) : 3.1.2 Datenverarbeitungskonzept: OLTP Für die Verwaltung operativer Daten wurde die transaktionsorientierte Datenverarbeitung (OnLine Transaction Processing, OLTP) entwickelt. Dabei erfolgt die Verarbeitung von Transaktionen auf kurzfristig veränderbaren Datenbeständen in Echtzeit. Dabei stehen die Transaktionssicherheit bei parallelen Zugriffen, Minimierung der Antwortzeiten sowie ein möglichst hoher Datendurchsatz im Vordergrund. (vgl. Gabriel, Pastwa, Gluchowski, „Data Warehouse & Data Mining, 2009) : 3.1.3 Structured Query Language Nachdem der strukturelle Aufbau von Datenbanken erläutert wurde, sollen nun auch Abfragen zu Daten dieser Datenbanken durchgeführt werden können. Die dafür verwendete Zugriffssprache ist SQL (Structured Query Language). Queries sind wörtlich übersetzt Anfragen, die vom Anwender bzw. Programmierer an die Datenbank gestellt werden, um vorhandene Daten auszuwerten oder zu bearbeiten. Seit der ersten Normierung im Jahr 1987 hat sich SQL zur wichtigsten Standardsprache für Datenbanken entwickelt. (vgl. Schicker, Datenbanken & SQL, Springer, 2017) Im Gegensatz zu imperativen Programmiersprachen wie C++ oder Java (die das "wie" von Abläufe beschreiben) handelt es sich bei SQL um eine deklarative Sprache, bei der das Ergebnis ("was") im Vordergrund steht. Durch die Verwendung einer normierten Zugriffssprache können Anwendungen unabhängig vom Datenbankmanagementsystem entwickelt werden. Neben der Zugriffskontrolle DCL (Data Control Language) lassen sich SQL-Befehle wie folgt kategorisieren: DML Data Manipulation Language Abfragen, Einfügen, Ändern oder Löschen von Nutzdaten Abfrage: SELECT Einfügen: INSERT Ändern: UPDATE Löschen: DELETE DDL Data Definition Language Anlegen und Löschen von Datenstrukturen Anlegen neue Tabelle: CREATE TABLE Löschen von Tabellen: DROP TABLE (vgl. Unterstein; Matthiessen; Relationale DB & SQL in Theorie & Praxis, Springer, 2012 : 3.1.4 Erfassung von Stamm- und Bewegungsdaten Da TPS in erster Linie zur Datenerfassung in operativen Geschäftsprozessen zum Einsatz kommen, sollen zunächst kurz die sogenannten Stammdaten von den Bewegungsdaten begrifflich voneinander abgegrenzt werden. 3.1.4.1 Bewegungsdaten Bewegungsdaten entstehen bei jeder Buchung von Geschäftsprozessen als Beleg. Sie werden auf der Datenbank nach Abschluss von Transaktionen gespeichert und stellen den Output von Geschäftsprozessen dar. Ihre Attributsausprägungen werden nachträglich nicht mehr verändert, da sie der Dokumentation dienen. Wenn Korrekturen erforderlich sind (Storno, Umbuchung) werden neue Bewegungsdaten erzeugt. Beispiele: Auszahlungsbeleg, Beleg einer Primärkostenbuchung, Abschreibungsbeleg, Kundenauftrag, Lieferschein 3.1.4.2 Stammdaten Damit Bewegungsdaten in transaktionsbasierten Systemen schnell erfasst werden können, wird auf vorhandene Daten bei der Bearbeitung Bezug genommen, die bereits auf der Datenbank abgelegt sind. Diese Daten, die als Input des Geschäftsprozesses dienen, werden als Stammdaten bezeichnet. Beispiele: Debitoren, Kreditoren, Kunden, Lieferanten, Kostenstellen, Kostenarten, Anlagegüter, Konten, Materialien Da diese Stammdaten über einen längeren Zeitraum genutzt werden, kann es erforderlich sein, dass ihre Attributsausprägungen angepasst werden müssen (z.B. Nachname eines Mitarbeiters, Lieferanschrift eines Kunden, Kontoverbindung eines Kreditors) :