2024-08-23 Vorbereitung Modul 1 Termin 27.08.24.docx
Document Details
Uploaded by SwiftCantor
2024
Tags
Full Transcript
Inhaltsverzeichnis {#inhaltsverzeichnis.Inhaltsverzeichnisberschrift} ================== [M1.1 Was ist Data Analytics? 2](#m1.1-was-ist-data-analytics) [Die Entstehung der Data Analytics 3](#die-entstehung-der-data-analytics) [Data Analytics im alten Ägypten 3](#data-analytics-im-alten-%C3%A4gypt...
Inhaltsverzeichnis {#inhaltsverzeichnis.Inhaltsverzeichnisberschrift} ================== [M1.1 Was ist Data Analytics? 2](#m1.1-was-ist-data-analytics) [Die Entstehung der Data Analytics 3](#die-entstehung-der-data-analytics) [Data Analytics im alten Ägypten 3](#data-analytics-im-alten-%C3%A4gypten) [Der Weg zur modernen Data Analytics 3](#der-weg-zur-modernen-data-analytics) [Data Analytics in der Gegenwart 3](#data-analytics-in-der-gegenwart) [Einordnung in Alltag und Beruf 4](#einordnung-in-alltag-und-beruf) [Erforderliche Kompetenzen 4](#erforderliche-kompetenzen) [Die drei Bereiche der Data Analytics 4](#die-drei-bereiche-der-data-analytics) [Data Analytics im Berufsalltag 5](#data-analytics-im-berufsalltag) [Die vier Analysemethoden der Data Analytics 5](#die-vier-analysemethoden-der-data-analytics) [1. Deskriptive Analyse: Was ist passiert? 5](#deskriptive-analyse-was-ist-passiert) [2. Diagnostische Analyse: Warum ist es passiert? 5](#diagnostische-analyse-warum-ist-es-passiert) [3. Prädikative Analyse: Was wird passieren? 6](#pr%C3%A4dikative-analyse-was-wird-passieren) [4. Präskriptive Analyse: Was muss ich tun, wenn es so kommt? 6](#pr%C3%A4skriptive-analyse-was-muss-ich-tun-wenn-es-so-kommt) [Was empfiehlt der Data-Analyst? 6](#was-empfiehlt-der-data-analyst) [M1.2 Arbeiten mit Daten 6](#m1.2-arbeiten-mit-daten) [Was sind Daten? 6](#was-sind-daten) [Die Bedeutung von Daten für Unternehmen 7](#die-bedeutung-von-daten-f%C3%BCr-unternehmen) [Wenn es groß und komplex wird: Big Data 7](#wenn-es-gro%C3%9F-und-komplex-wird-big-data) [Datenqualität und prozesssicherer Umgang mit Daten 7](#datenqualit%C3%A4t-und-prozesssicherer-umgang-mit-daten) [Wie kann die Qualität von Daten bewertet werden? 8](#wie-kann-die-qualit%C3%A4t-von-daten-bewertet-werden) [Wie wird eine gute Datenqualität erreicht? 9](#wie-wird-eine-gute-datenqualit%C3%A4t-erreicht) [Datenqualität sicherstellen 9](#datenqualit%C3%A4t-sicherstellen) [Der Prozess der Datenanalyse 10](#der-prozess-der-datenanalyse) [Elemente des Datenanalyseprozesses 10](#elemente-des-datenanalyseprozesses) [1. Datenerfassung und -speicherung 10](#datenerfassung-und--speicherung) [2. Daten aufbereiten und verfügbar machen 10](#daten-aufbereiten-und-verf%C3%BCgbar-machen) [3. Daten analysieren 10](#daten-analysieren) [4. Daten visualisieren 11](#daten-visualisieren) [M1.4 Analytics-Anwendungen: Tools für die Datenanalyse 11](#m1.4-analytics-anwendungen-tools-f%C3%BCr-die-datenanalyse) [Die richtige Analytics-Anwendung wählen 11](#die-richtige-analytics-anwendung-w%C3%A4hlen) [Kriterien für eine Analytics-Anwendung 11](#kriterien-f%C3%BCr-eine-analytics-anwendung) [1. Welche Aufgaben sollen bewältigt und welche Ziele erreicht werden? 11](#welche-aufgaben-sollen-bew%C3%A4ltigt-und-welche-ziele-erreicht-werden) [2. Welche Fähigkeiten und Kenntnisse sind vorhanden beziehungsweise sollen aufgebaut werden? 11](#welche-f%C3%A4higkeiten-und-kenntnisse-sind-vorhanden-beziehungsweise-sollen-aufgebaut-werden) [3. Welche Ressourcen stehen zur Verfügung (zum Beispiel bereits vorhandene Data Software, Budget für Software, Schulungen und Mitarbeiter etc.). 12](#welche-ressourcen-stehen-zur-verf%C3%BCgung-zum-beispiel-bereits-vorhandene-data-software-budget-f%C3%BCr-software-schulungen-und-mitarbeiter-etc..) [Analytics-Anwendungen: Eine Übersicht 12](#analytics-anwendungen-eine-%C3%BCbersicht) [Visuelle Anwendungen 12](#visuelle-anwendungen) [BI-Anwendungen 13](#bi-anwendungen) [Workflows und Operatoren 13](#workflows-und-operatoren) [Arbeiten mit Operatoren 13](#arbeiten-mit-operatoren) [Aufbau eines Workflows 14](#aufbau-eines-workflows) [Gestaltung des Workflows 14](#gestaltung-des-workflows) [Die Konfiguration der Operatoren 16](#die-konfiguration-der-operatoren) [Hilfestellung und Fehlerbehebung 16](#hilfestellung-und-fehlerbehebung) [Tutorials und Library 16](#tutorials-und-library) [Die Community: Gemeinsam stark 17](#die-community-gemeinsam-stark) [Weitere Support-Möglichkeiten 17](#weitere-support-m%C3%B6glichkeiten) [Einführung in KNIME 17](#einf%C3%BChrung-in-knime) [M1.5 Daten in die Analytics-Plattform importieren 17](#m1.5-daten-in-die-analytics-plattform-importieren) [Die Titanic-Daten 18](#die-titanic-daten) [Die Passagierdaten der Titanic 18](#die-passagierdaten-der-titanic) [Der Untergang der RMS Titanic 18](#der-untergang-der-rms-titanic) [Daten und Datenquellen 19](#daten-und-datenquellen) [Die Datentabelle 19](#die-datentabelle) [Organisation von Tabellen 20](#organisation-von-tabellen) [Datenformen und Eigenschaften 20](#datenformen-und-eigenschaften) [Prüfen der Daten 21](#pr%C3%BCfen-der-daten) [Datenprüfung beim Import 21](#datenpr%C3%BCfung-beim-import) [Kontroll- und Monitoringstrukturen 22](#kontroll--und-monitoringstrukturen) [Durchführung manueller Stichproben 23](#durchf%C3%BChrung-manueller-stichproben) M1.1 Was ist Data Analytics? ============================ Die Arbeit mit Daten ist keine Erfindung der Neuzeit, wohl aber die Etablierung als eigene Disziplin sowohl in der Forschung als auch in der professionellen Anwendung. Sie entwickeln ein Verständnis dafür, wie Data Analytics entstanden ist und aus welchen Disziplinen sie sich zusammensetzt. Sie erfahren, welche Kompetenzen und Fähigkeiten ein: Data-Analyst:in braucht, um erfolgreich zu arbeiten. Anhand eines Beispiels werden die vier fundamentalen Analysemethoden der Data Analytics vorgestellt: deskriptive, diagnostische, prädikative und präskriptive Analyse. Die Entstehung der Data Analytics --------------------------------- Data Analytics ist eine Methode zur Untersuchung von Daten, um daraus Schlussfolgerungen zu ziehen, Zusammenhänge zu visualisieren und Handlungsempfehlungen abzuleiten. Das geschieht in der Regel mit wissenschaftlichen oder wirtschaftlichen Zielsetzungen. So können zum Beispiel neue Erkenntnisse für ein Produkt gewonnen oder Geschäftsmodelle und Betriebsabläufe optimiert werden. Die Arbeit mit Daten ist natürlich keine Erfindung der Neuzeit: Begeben wir uns zunächst auf eine kleine Zeitreise. Bereits im alten Ägypten hat man begonnen mit Daten zu arbeiten. Data Analytics im alten Ägypten ------------------------------- Daniel Datep ist ein Data-Analyst der ersten Stunde. Er unterstützte Architekt:innen bei der Planung von Palästen, Pyramiden und Tempeln. 2500 v. Chr. war Data Analytics noch echte Handarbeit: Für jedes Vorhaben dokumentierte Daniel Datep Baumaterial, Arbeitskräfte und Lebensmittel. Die Daten halfen ihm dabei, **Prognosen abzuleiten **und so für zukünftige Projekte einzelne Bauphasen und Ressourcen sehr genau einschätzen zu können. *[Beispiel]* Ein Beispiel für ein Data Analytics Tool ist das Nilometer, ein Höhenmesser zur Prognose der Nilflut. Je größer die Überschwemmungen, desto reicher fiel die Ernte aus und desto mehr Steuern erhielt ein Pharao.\ Aus den Werten des Nilometers und den Daten aus der Vergangenheit konnten Vorhersagen über Ernteerträge abgeleitet und damit Steuereinkünfte prognostiziert werden. Der Weg zur modernen Data Analytics ----------------------------------- Im Laufe der Zeit wurden die Datenmengen jedoch immer größer und konnten mit herkömmlichen Analysewerkzeugen kaum noch bewältigt werden. In diesem Zuge entstand in den 2000er-Jahren der Begriff **Big Data**. Gemeint sind damit riesige, unstrukturierte Datenmengen. Um diese zu verarbeiten, mussten neue Methoden entwickelt werden. Hier spielt **Data Mining **eine wichtige Rolle. Es handelt sich hierbei um einen Prozess, der es durch die Anwendung verschiedener Methoden ermöglicht, auch in großen Datenmengen Muster und Trends zu erkennen. Data Analytics in der Gegenwart ------------------------------- Anwendungen und Tools der Data Analytics stehen heute dank **Cloud Computing **für jede:n zur Verfügung. Hierbei werden Softwareprogramme über das Internet bereitgestellt und können genutzt werden, ohne dass signifikant in Infrastruktur investiert werden muss. Der Einsatz neuer Technologien eröffnet ganz neue Möglichkeiten. Anwendungen werden dadurch in die Lage versetzt, selbstständig aus Daten zu lernen, sich zu verbessern, Entscheidungen zu treffen und Modelle zu erstellen. Diese **künstliche Intelligenz** erlaubt es, zum Beispiel Vorhersagen oder Klassifizierungen genauer zu treffen. Einordnung in Alltag und Beruf ------------------------------ Mehr und mehr Unternehmen arbeiten intensiv mit Daten und möchten damit verschiedene Fragestellungen lösen. Die verschiedenen Unternehmensbereiche profitieren von der Arbeit der Data-Analyst:innen. Diese generieren mittels innovativer Analysewerkzeuge aus großen Datenmengen Informationen und leiten daraus Handlungsempfehlungen für das Unternehmen ab. Über welche Fähigkeiten und Kenntnisse müssen Data-Analyst:innen verfügen, um ihre Aufgaben erfolgreich meistern zu können? Erforderliche Kompetenzen ------------------------- Neben dem fachlichen Know-how der Data Analytics brauchen Data-Analyst:innen gute betriebswirtschaftliche Kenntnisse und kommunikative Fähigkeiten, um Ergebnisse interpretieren und Informationen klar und überzeugend in die verschiedenen Ebenen einer Organisation hineintragen zu können. Zu den wichtigen Fähigkeiten zählen: - Verständnis für datengenerierende Prozesse - Kenntnisse zur Verknüpfung verschiedener Datenquellen, die Erstellung komplexer Abfragen und die Beherrschung sehr großer Datenmengen - Tiefes Verständnis der Datenstrukturen, -banken und -modelle - Statistische und analytische Fähigkeiten zur Ableitung von Vorhersagen über zukünftige Ereignisse - Verständnis für betriebswirtschaftliche Vorgänge zur Interpretation der Ergebnisse - Kommunikationsfähigkeit komplexer Sachverhalte und Modelle - Beherrschen von Visualisierungstechniken - Anwendungsfähigkeit von Moderations- und Projektmanagementtechniken Die drei Bereiche der Data Analytics ------------------------------------ Data Analytics setzt sich aus drei Teilbereichen zusammen: - Fachexpertise - Mathematik - Informatik Erst die Verbindung von Mathematik (insbesondere Statistik), Fachexpertise und IT macht es möglich, Themen zu analysieren, daraus Erkenntnisse zu gewinnen und individuelle Lösungen abzuleiten. Data Analytics im Berufsalltag ------------------------------ Neben der Bearbeitung, Transformation, Analyse, Auswertung und Präsentation von Daten gibt es für Data Analysts noch weitere Einsatzgebiete: So coachen sie zum Beispiel Mitarbeitende und Vorgesetzte im Umgang mit Daten und Analysetools, warten und implementieren Datensysteme oder unterstützen bei der Qualitätskontrolle. *[Beispiel]* Abhängig vom Einsatzgebiet können die Berufsbezeichnungen von Data-Analyst:innen entsprechend vielfältig sein: - **Financial Analyst** -- oft im Versicherungswesen anzutreffen - **Risk Analyst** -- häufig im Bankensektor und der Unternehmensberatung tätig - **Data Analyst BI** -- Expert:in für Unternehmensprozesse, in fast allen Branchen gefragt - **Customer Data Analyst** -- „Kundenversteher:in" - **UX Data Analyst** -- „Userversteher:in" - **Big Data Analyst** -- analysiert mit Hilfe von Algorithmen automatisch gigantische Datenmengen - **Clinical Data Analyst** -- unerlässlich für die Weiterentwicklungen in der E-Health-Branche - **Weather Analyst** -- erstellt Wetterprognosen anhand von Wetterdaten Die vier Analysemethoden der Data Analytics ------------------------------------------- Der Data-Analyst Daniel Datep steht vor einer neuen Herausforderung: Ein Unternehmen, das Tennisschläger herstellt, möchte seine Produktion verbessern und die Ausfallzeiten für die Maschinenwartung reduzieren. Anhand der folgenden Fragestellungen geht Daniel die Aufgabe an: Es gibt verschiedene Analysemethoden, um diese Fragestellungen zu beantworten. Sie werden im Folgenden beschrieben. ### 1. Deskriptive Analyse: Was ist passiert? Die deskriptive Analyse befasst sich mit den vorhandenen Daten. Die Data-Analyst:innen arbeiten mit überschaubaren Tabellen sowie grafischen Darstellungen und führen Kennzahlen zusammen (z. B. Durchschnitt, Toleranz). Der Schritt **beschreibt bislang unbekannte Strukturen und Zusammenhänge**. ### 2. Diagnostische Analyse: Warum ist es passiert? Die diagnostische Analyse ermöglicht es, **Ursachen und Wechselwirkungen aufzudecken und zu erklären**. Dieser Schritt verschafft einen tiefgehenden Einblick in bestimmte Probleme. Achtung: Um Muster aufzudecken und Beziehungen der Daten zueinander analysieren zu können, bedarf es einer weitreichenden und detaillierten Datenbasis. ### 3. Prädikative Analyse: Was wird passieren? Gegenstand der prädikativen Analyse ist der Blick in die Zukunft. Sie nutzt die Erkenntnisse aus der deskriptiven und diagnostischen Analyse, um **Abweichungen vorzeitig zu erkennen **und möglichst genau **zukünftige Trends vorherzusagen**. Diese Prognosen erfordern den Einsatz hoch entwickelter Algorithmen und intelligenter Modelle. Dennoch bleiben es immer Schätzungen auf Basis statistischer Auswertungen vergangener Daten. Die Genauigkeit der Modelle hängt immer von der Qualität der eingesetzten Daten ab. ### 4. Präskriptive Analyse: Was muss ich tun, wenn es so kommt? Die präskriptive Analyse erweitert die prädikative Analyse. Sie gibt eine Empfehlung bzw. **Handlungsanweisung, um Geschäftsprozesse positiv zu entwickeln **und die anvisierten Ziele zu erreichen. Diese Analyseform erfordert sowohl die Auswertung von historischen und gegenwärtigen Daten als auch die Integration von vorläufigen Analysen und Prognosen. Gute Datenqualität und Flexibilität in der Modellentwicklung sind unerlässliche Elemente. Die präskriptive Analyse ist die komplexeste Form der Datenanalyse und macht den Einsatz verschiedener Werkzeuge und Technologien erforderlich (zum Beispiel Simulationsmodelle, maschinelles Lernen und den Einsatz neuronaler Netze). Mehrwert und Aufwand dieser Methode sollten daher genau gegeneinander abgewogen werden. Was empfiehlt der Data-Analyst? ------------------------------- **Beispiel** Dem Unternehmen, das Tennisschläger herstellt, empfiehlt Daniel Datep schließlich die Umstellung auf die prädikative Analyse (*predictive maintenance*): Bisher wurden bei der regelmäßigen Wartung auch Teile ersetzt, die noch funktionsfähig waren. Jetzt erfolgt ein Austausch von Teilen nur, wenn sich ein Ausfall abzeichnet. M1.2 Arbeiten mit Daten ======================= Welche Bedeutung haben Daten für eine Organisation und warum ist es wichtig, auf ihre Qualität zu achten? Sie lernen die unternehmerischen Vorteile von Datenanalyse kennen und was sich hinter dem Begriff Datenqualitätsmanagement verbirgt. Anhand eines Beispiels erhalten Sie Einblick in die vier Schritte des Datenanalyseprozesses: Daten sammeln, bearbeiten, analysieren und visualisieren. Was sind Daten? --------------- Menschen und Maschinen produzieren ständig neue Daten. Sie umgeben uns überall und sind Anlass für Diskussionen über Datensicherheit und Datenschutz. Was aber sind Daten? Der Terminus „Daten" wird häufig mit Tabellen, Zahlen oder Werten verbunden. Es steckt jedoch mehr dahinter. Die Bedeutung von Daten für Unternehmen --------------------------------------- Die Arbeit mit Daten bietet für Unternehmen entscheidende Vorteile auf zwei Ebenen: 1\. Daten bieten die Möglichkeit, **Geschäftsprozesse zu verbessern**, indem zum Beispiel Kundenprofile, Performancewerte, Markttrends und Informationen über Wettbewerber ausgewertet werden. 2\. Daten ermöglichen es, **Produkte und Dienstleistungen vielfältiger zu gestalten **und **Geschäftsmodelle zu erweitern**. Das bringt auch für Kund:innen einen zusätzlichen Nutzen. Wenn es groß und komplex wird: Big Data --------------------------------------- Oft spricht man in diesem Zusammenhang auch von „Big Data". Hierbei sind aber nicht nur große Datenmengen gemeint, die einem Unternehmen zur Verfügung stehen und verarbeitet werden müssen. Big Data unterscheiden sich anhand der folgenden Dimensionen von anderen Daten: Menge, Geschwindigkeit, Vielfalt, Datenquellen, Komplexität Ein Bild, das Text, Screenshot, Schrift, Kreis enthält. Automatisch generierte Beschreibung Datenqualität und prozesssicherer Umgang mit Daten -------------------------------------------------- Fehler in Datenbeständen verursachen den Unternehmen jedes Jahr erhebliche Kosten. Doppelt, falsch oder mehrfach geführte Adressdaten können zum Beispiel zur Rücksendung eines versandten Artikels führen oder zur Abmahnung durch Newsletter-Empfänger:innen, die sich längst vom Verteiler abgemeldet haben. Die Konsequenzen mangelnder Datenqualität sind schwer abzuschätzen und nicht immer gleich sichtbar: Verlorene Aufträge, Korrektur der Daten, Mitarbeiterunzufriedenheit, Falsche Entscheidungen, Lange Suchdauer, Zinskosten, Abwanderung von Kunden, Geldstrafen, Wiederholte Dateneingabe, Systemkostenerhöhung, Rückläufer, Zeitverlust, Imageschäden, Neukunden entgangen ![Ein Bild, das Text, Screenshot, Schrift, Diagramm enthält. Automatisch generierte Beschreibung](media/image2.png) Wie kann die Qualität von Daten bewertet werden? ------------------------------------------------ Um verlässlich mit Daten arbeiten zu können, müssen diese fehlerfrei, vollständig und unmissverständlich sein. Die Qualität von Daten lässt sich anhand von **vier Hauptkategorien** bewerten: Begriff Beschreibung ---------------------- ------------------------------------------------------------------------------------------------------------------------------------------------------------------------ **Glaubwürdigkeit** Die Daten sind **korrekt, vollständig, zuverlässig, widerspruchs- und redundanzfrei**. Die Herkunft der Daten ist bekannt und vertrauenswürdig. **Zeitlicher Bezug** Die Daten sind **aktuell, zeitlich konsistent und permanent**, das heißt sie ändern sich nicht und können auch zu einem späteren Zeitpunkt wieder abgerufen werden. **Nützlichkeit** Die Daten müssen **relevant **sein, also den jeweiligen Informationsbedarf erfüllen. Die Datenbestände müssen eindeutig **interpretierbar **und **verständlich** sein. **Verfügbarkeit** Die Daten müssen zur Verarbeitung **rechtzeitig zur Verfügung stehen**. Zugriffszeit und Zugriffsrechte sind ausreichend. Wie wird eine gute Datenqualität erreicht? ------------------------------------------ Um eine gute Datenqualität in Unternehmen sicherstellen zu können, bedarf es eines aktiven Qualitätsmanagements. Der Aufbau und die Pflege eines Qualitätsmanagements ist ein kontinuierlicher Prozess, der verschiedene Schritte umfasst: Analyse der Datenbestände, Bereinigung von Mängeln, Überwachung der Datenprozesse Ein Bild, das Text, Screenshot, Kreis, Schrift enthält. Automatisch generierte Beschreibung Checkliste ### Datenqualität sicherstellen ▶ Wie wird in Ihrem Unternehmen eine gute Datenqualität sichergestellt? Untersuchen Sie das Datenmanagement anhand der Checkliste. **Ergebnisse Deiner Beobachtungen** Fasse Deine Einsichten und Erkenntnisse in einem Satz zusammen. Beispiele: „Frau Koeller moechte an einer Schulung als Innovationscoach teilnehmen, weil sie die Entwicklung von Innovationen mitgestalten moechte". „Herr Altenbracht benoetigt einen Kindergartenplatz in der Naehe des Arbeitsplates, damkt er seine Arbeitszeit besser ausfuellen kann." - Werden alle Mitarbeiterebenen für das Thema Datenqualität sensibilisiert? - Erfolgt die Beurteilung der Datenqualität durch eine Analyse der Datenbestände? - Gibt es Regeln für Beschaffenheit und Relevanz von Datenbeständen? - Erfolgt eine eindeutige Kompetenzzuweisung? Wer ist verantwortlich für die Datenpflege? - Gibt es Standards und Strukturen für eine korrekte Datenerfassung? - Gibt es automatisierte Workflows oder erfolgt die Datenerfassung manuell? - Werden Mitarbeitende regelmäßig für das Thema Datenqualität sensibilisiert und geschult? Der Prozess der Datenanalyse ---------------------------- Ein Online-Blumenhändler möchte seine Einkäufe besser planen, um Überschuss oder Mangelbestände in seinem Lager zu vermeiden. Um konkrete Handlungsstrategien zu erarbeiten, sammelt und analysiert er seine Daten. Wie sollte er bei diesem Prozess vorgehen? Elemente des Datenanalyseprozesses ---------------------------------- Der Standardprozess zur Datenanalyse bzw. zum Data Mining in Unternehmen umfasst vier Schritte: Jeder Prozessschritt baut auf dem vorhergehenden Schritt auf. Fehler, Versäumnisse und Unterlassungen können später langwierige Prüf- und Korrekturarbeiten nach sich ziehen. Die einzelnen Prozessschritte und ihre Elemente werden im Folgenden erläutert. ![Ein Bild, das Text, Screenshot, Schrift, Design enthält. Automatisch generierte Beschreibung](media/image4.png) ### 1. Datenerfassung und -speicherung Im ersten Schritt werden alle für die Analyse benötigten Daten aus den verteilten und teils cloudbasierten Datenbanken gesammelt und verfügbar gemacht.\ \ Zur besseren Weiterverarbeitung werden die Daten nach bestimmten Aspekten strukturiert und gespeichert.\ \ Das wird als **Warehousing **bezeichnet. ### 2. Daten aufbereiten und verfügbar machen Der zweite Schritt umfasst die Aufbereitung und Vorbereitung der Rohdaten für die Datenanalyse.\ \ Dieser Teilschritt wird **ETL-Prozess** genannt. ETL steht für die englischen Begriffe extract, transform und load: Die Daten werden extrahiert, transformiert und geladen. ### 3. Daten analysieren Die Datenanalyse dient einem tieferen Verständnis des Datensatzes. Dazu werden Daten untersucht, kombiniert, Schlussfolgerungen gezogen, Zusammenhänge visualisiert und Handlungsempfehlungen ausgesprochen.\ \ Sollen die Daten zusätzlich durch den Einsatz künstlicher Intelligenz analysiert und weiterverarbeitet werden, kommen Verfahren wie Deep Learning und Machine Learning zum Einsatz. ### 4. Daten visualisieren Im letzten Schritt geht es um die Veranschaulichung und Kommunikation der anfallenden Daten. Die essenziellen Informationen sollen schnell und intuitiv erfasst werden können. Dafür gibt es spezielle Visualisierungswerkzeuge. Über ein Live-Dashboard können zum Beispiel die Daten eines Unternehmens in Echtzeit mithilfe von interaktiven Datenvisualisierungen analysiert und verfolgt werden. M1.4 Analytics-Anwendungen: Tools für die Datenanalyse ====================================================== Ein Tool zur Datenanalyse auswählen -- welche Kriterien soll man dabei zugrunde legen? Diese Frage wird hier beantwortet und gleich beschrieben, wie sich verschiedene Anwendungen unterscheiden und wo Sie im Falle eines Falles Hilfe erhalten können. Anhand der Plattform KNIME wird in die Arbeit mit einem visuellen Analyse-Tool eingeführt. Sie lernen die Konzepte von Operatoren und Workflows und ihre Umsetzung im Tool kennen. Die richtige Analytics-Anwendung wählen --------------------------------------- Die Data-Analystin Anna Lütik wurde von einem Möbelfachgeschäft beauftragt, eine aktuelle Übersicht zur Kund:innenzufriedenheit zu erstellen. Die entsprechenden Umfragedaten liegen ihr bereits vor. Mit welchem Tool kann sie die Analyse der Daten vornehmen und was muss sie bei der Auswahl beachten? Kriterien für eine Analytics-Anwendung -------------------------------------- Je nach Zweck und Aufgabengebiet gibt es eine Vielzahl unterschiedlicher Werkzeuge. Die Entscheidung für das richtige Analyse-Tool ist von drei wesentlichen Fragen abhängig: ### 1. Welche Aufgaben sollen bewältigt und welche Ziele erreicht werden? **Beispiel** Anna Lütik möchte Daten zur Kund:innenzufriedenheit auswerten und die Ergebnisse übersichtlich darstellen. ### 2. Welche Fähigkeiten und Kenntnisse sind vorhanden beziehungsweise sollen aufgebaut werden? **Beispiel** Anna Lütik ist erfahren und kennt sich mit der Analyse und Auswertung von großen Datensätzen aus. ### 3. Welche Ressourcen stehen zur Verfügung (zum Beispiel bereits vorhandene Data Software, Budget für Software, Schulungen und Mitarbeiter etc.). **Beispiel** Anna Lütik sucht ein kostengünstiges Analysetool, welches schnelle Ergebnisse liefert und keine zusätzlichen Programmierkenntnisse erfordert. Analytics-Anwendungen: Eine Übersicht ------------------------------------- Gerade zu Beginn von neuen Datenprojekten sind erste, schnelle Ergebnisse wichtig, um ein grundlegendes Verständnis für die Daten zu schaffen und das Potenzial der Datenanalyse einschätzen zu können. - **Fachsoftware **aus Logistik, Vertrieb oder Buchhaltung bietet erste Analysefunktionen. Diese sind jedoch meist zweckgebunden und nur bedingt für weiterführende Untersuchungen nutzbar. - Demgegenüber stehen fortgeschrittene und vielseitig einsetzbare **Analysewerkzeuge**, die aber ein hohes Anwenderwissen und Programmierkenntnisse voraussetzen. Sie eignen sich für tiefere Analysen, komplexere Formen maschinellen Lernens oder das Verknüpfen und Konfigurieren von Daten aus verschiedenen Bereichen. - Einen guten Mittelweg bilden **visuelle Anwendungen**, mit denen sich auch ohne Programmierkenntnisse komplexere Datenprozesse aufbauen lassen. **Hinweis** Es gibt viele Plattformen für Datenanalyse, maschinelles Lernen und Data Mining. Einige Vertreter sind Alteryx Designer, KNIME, RapidMiner oder SPSS von IBM. Bei der Entscheidung für ein Produkt muss gegebenenfalls auch in die Infrastruktur investiert werden (Server, Datenbanken, Cloud-Lösungen) sowie in weitere branchenspezifische Applikationen. Visuelle Anwendungen -------------------- Visuelle Analytics-Plattformen ermöglichen es, in kurzer Zeit herausfordernde Datenprozesse aufzubauen. Der entscheidende Vorteil ist die grafische Oberfläche, auf der intuitiv einzelne, konfigurierbare Datenoperationen zu einem Gesamtprozess miteinander verknüpft werden können. Die Ausführung des Befehls (Knoten, engl. Node) läuft dabei im Hintergrund des Programms ab. Es sind keine Programmierkenntnisse erforderlich. Die visuelle Arbeitsfläche dient gleichzeitig als Dokumentation des Datenprozesses. So lässt sich leicht nachvollziehen, wo gegebenenfalls Fehler im Datensatz auftauchen und wo erste interessante Ergebnisse zu finden sind. **Beispiel** Anna Lütik entscheidet sich für das visuelle Analysetool KNIME. Es lässt sich einfach bedienen und bietet gleichzeitig eine breite Anwendungsmöglichkeit. Dank der visuellen Oberfläche kann Anna den Datenprozess leicht erklären und nachvollziehbar darstellen, welche Datenoperationen wie verknüpft wurden. BI-Anwendungen -------------- Eine spezielle Untergruppierung visueller Datenanwendungen sind BI-Anwendungen. BI steht für Business Intelligence oder Business Insights. Es handelt sich um Anwendungen mit einer Vielzahl visueller Präsentationsmöglichkeiten, die den Mitarbeitenden oder dem Management eines Unternehmens relevante betriebswirtschaftliche Daten anzeigen. Die Stärke dieser Anwendungen liegt sowohl in der intuitiven Aufbereitung und Verknüpfung der Daten als auch in der einfachen Verbreitung und Zugänglichkeit der Ergebnisse durch den konsequenten Einsatz von Cloud-Strukturen. Aus einzelnen Teilanalysen entstehen Dashboards. Diese Dashboards kann man mit Dashboard Storytelling verbinden und dabei verschiedene Perspektiven oder Kategorien hervorheben. **Beispiel** Anna Lütik beleuchtet die Kund:innenzufriedenheit für einzelne Verkaufsbereiche wie Schlafen, Wohnen oder Kochen. Mithilfe eines interaktiven Dashboards hebt sie für jeden dieser Bereiche Aspekte hervor wie meistverkaufte Produkte, Online-Bewertungen und Kund:innentreue. So entsteht eine Story. Workflows und Operatoren ------------------------ Mithilfe eines visuellen Analysetools können komplexe Datenprozesse einfach aufgebaut und Ergebnisse schnell visualisiert werden. Dafür werden sogenannte Operatoren in einen Workflow gebracht. Was genau sind Operatoren und welche Möglichkeiten bieten sie in einem Tool wie KNIME? **Hinweis** KNIME steht für Konstanz Information Miner und ist eine Software zur Datenanalyse. (Ja, Konstanz, die Stadt am Bodensee). Durch die grafische Benutzeroberfläche und vorgefertigte Module lassen sich leicht Workflows bauen zur Vorbereitung, Analyse und Modellierung von Daten. Hier können Sie die Software herunterladen. Arbeiten mit Operatoren ----------------------- Operatoren, auch **Knoten **(engl. Nodes) genannt, haben in der Regel eine fest zugeordnete Funktion. Beispiele sind: - Sortieren oder Filtern von Spalten - Laden von Datenquellen - Visuelle Darstellung von Datensätzen Innerhalb dieser festen Funktionsstruktur gibt es verschiedene Möglichkeiten, die Operatoren nach eigenen Vorgaben zu modifizieren. Durch das Aneinanderreihen von Operatoren entsteht ein **Workflow **(Datenprozess). Er bildet alles ab: vom Abrufen der Datenquelle über die Visualisierung bis hin zur Übergabe der Daten an einen Folgeprozess. Ein Bild, das Screenshot, Diagramm, Reihe, Schrift enthält. Automatisch generierte Beschreibung Für die meisten Standardprozesse im Bereich der Data Analytics werden 80 bis 100 Operatoren benötigt. [Hinweis]{.smallcaps} [Operatoren im Bereich der Data Analytics sind nicht zu verwechseln mit Operatoren in der Softwareentwicklung bzw. Programmierung. Dort bezeichnen Operatoren nämlich Funktionen wie ˃, =, ˂, +.]{.smallcaps} Aufbau eines Workflows ---------------------- Operatoren, die in der Verarbeitung vor der aktuellen Position stehen, nennt man **upstream**. Operatoren, die in der Verarbeitung hinter der aktuellen Position folgen, heißen **downstream**. Informationen werden in der Regel nur in Downstream-Richtung weitergegeben. Das heißt, dass sie nur hinter den Operatoren verfügbar sind, mit denen sie eingeführt wurden. Der Daten- und Informationstransfer wird durch Linien dargestellt, welche die Output Ports und Input Ports der Operatoren verbinden. Um das Lesen des Workflows zu vereinfachen, werden in KNIME für die Linien und Ports verschiedene Farben genutzt. [In KNIME stehen schwarze Dreiecke für Daten, blaue Quadrate für Modelle, rote Quadrate für Datenbankverbindungen. Es können immer nur Informationen desselben Typs verbunden werden.]{.smallcaps} Gestaltung des Workflows ------------------------ Um einen Workflow übersichtlicher zu gestalten, werden Operatoren nach ihrer Funktionsgruppe farblich gestaltet. Durch ein zusätzliches Piktogramm wird ihre spezielle Funktion verdeutlicht. ![Ein Bild, das Text, Screenshot, Diagramm, Reihe enthält. Automatisch generierte Beschreibung](media/image6.png) Durch den Datenfluss von links nach rechts haben (fast) alle Operatoren Input Ports auf der linken Seite (hier werden die Daten in den Operator aufgenommen) und Output Ports auf der rechten Seite (hier werden die verarbeiteten Daten ausgegeben). Ausnahmen sind Import-Operatoren, durch die die Daten in den Workflow eingebracht werden, und Export-Operatoren, durch die die Daten aus dem Workflow herausgeleitet werden. Es ist üblich, dass Operatoren ihren Status visuell darstellen. Das kann in verschiedenen Formen erfolgen. So ist sichtbar, ob der Workflow „funktioniert". **Beispiel** In KNIME befindet sich unterhalb der Knoten eine Statusampel.\ \ **Rot**: Die Konfiguration ist nicht durchführbar (zum Beispiel falsche Pfade) und muss angepasst werden.\ \ **Gelb**: Der Knoten ist richtig konfiguriert und kann ausgeführt werden. Es sind noch keine Daten verarbeitet worden.\ \ **Grün**: Der Knoten wurde ausgeführt und die Daten wurden verarbeitet. Ein Bild, das Screenshot, Diagramm, Design enthält. Automatisch generierte Beschreibung Die Konfiguration der Operatoren -------------------------------- Die Stärke visueller Data-Analytics-Anwendungen liegt in der Minimierung von Skript- und Code-Sprache bei der Konfiguration der Operatoren. In der Regel verfügen die Operatoren über Menüs. Mithilfe von Eingabe- und Auswahlfeldern können die Parameter für die durchzuführende Datenoperation eingestellt werden. **Beispiel** In KNIME können in der Knoten-Konfiguration alle wichtigen Einstellungen für die Verarbeitung der Daten eingerichtet werden. Bei Importknoten wird zum Beispiel der Quellpfad angegeben; Transformationsknoten enthalten zum Beispiel Spaltenauswahl oder Bearbeitungsoptionen. Hilfestellung und Fehlerbehebung -------------------------------- Die Data-Analystin Anna Lütik baut einen komplexen Workflow mit verschiedenen Operatoren auf. Ein Operator zeigt ihr eine Fehlermeldung an. Sie kann sich den Fehler nicht erklären und benötigt Hilfe. Online wird sie schnell fündig. Tutorials und Library --------------------- Die meisten Anbieter von Software-Anwendungen stellen zusätzlich verschiedene Informationsquellen bereit. Neben Tutorials, Erfahrungsberichten und Artikeln sind sogenannte **Cheat Sheets **sehr hilfreich. Sie fassen die wichtigsten Funktionen auf wenigen Seiten zusammen und geben insbesondere Anfängern eine hilfreiche Orientierung. **Darüber hinaus** Je nach Hersteller gibt es verschiedene Hilfestellungen. **Alteryx **bietet hier einen Spickzettel für die Community: [Choosing the right tool](https://community.alteryx.com/t5/Alteryx-Community-Resources/Designer-Cheat-Sheet/ta-p/371793#bottom) **KNIME **bietet Cheat Sheets für verschiedene Vorhaben und Arbeitsschritte: [Cheat Sheet für KNIME](https://www.knime.com/cheat-sheets) Die Community: Gemeinsam stark ------------------------------ Viele Fragen und Herausforderungen wurden meistens schon von anderen Nutzern gelöst. Online Communities sind der ideale Ort, um sich auszutauschen und Lösungen für schwierige Problemstellungen zu finden. **Beispiel** Die Nutzer von **Alteryx **diskutieren auf dieser Plattform: [https://community.alteryx.com](https://community.alteryx.com/). **RapidMiner **bietet Hilfestellung auf seiner Community-Seite: [https://community.rapidminer.com](https://community.rapidminer.com/). Nutzer der Analyse-Software SPSS von IBM werden hier unterstützt: [https://community.ibm.com](https://community.ibm.com/). Der **KNIME Hub **bietet gleich zwei hilfreiche Funktionen: 1\. Die Node Library: Aufführung aller gängigen Nodes beziehungsweise Knoten mit Beispielen und detaillierten Erklärungen. 2\. Die [Community](https://www.knime.com/knime-community): Hier teilen registrierte Nutzer Problemstellungen und Lösungen. Weitere Support-Möglichkeiten ----------------------------- Im Netz gibt es weitere Portale, zum Beispiel für Teamwork sowie zur Fehlersuche und -beseitigung. Hier finden sich für viele Anwendungen Artikel zu zahlreichen Varianten von Problemen, Fehlern oder auch Vereinfachungen von Datenoperationen. **Darüber hinaus** Eine gute Quelle ist zum Beispiel [stackoverflow](https://stackoverflow.com/). Hier reicht es oft schon aus, die Fehlermeldung zu kopieren und in die Suchmaschine einzugeben. Einführung in KNIME ------------------- Die visuelle Analytics-Plattform KNIME wird als Übungsanwendung für diesen Kurs eingesetzt. **Hinweis** [KNIME](https://www.knime.com/downloads) steht für Konstanz Information Miner und ist eine Software zur Datenanalyse. (Ja, Konstanz, die Stadt am Bodensee). Durch die grafische Benutzeroberfläche und vorgefertigte Module lassen sich leicht Workflows bauen zur Vorbereitung, Analyse und Modellierung von Daten. [Hier](https://www.knime.com/downloads) können Sie die Software herunterladen. M1.5 Daten in die Analytics-Plattform importieren ================================================= Die Passagierliste der Titanic ist ein beliebter Datensatz für den Einstieg in die Data Analytics. Er enthält eine Reihe von Datentypen mit unterschiedlicher Datenqualität. Wie Sie solche Daten in Tabellen organisieren können und welche Strukturen es gibt für Kontrolle und Monitoring der Datenqualität, lernen Sie hier. Es wird auch gezeigt, wie Sie in KNIME Daten aus unterschiedlichen Quellen importieren können. Anhand des öffentlich zugängigen Datensatzes der Titanic können Sie sich in der Übung auch praktisch mit dem Datenimport vertraut machen. Die Titanic-Daten ----------------- Für den Einstieg in die Arbeit mit Daten sind öffentlich zugängliche und kostenlose Datensätze ideal. Damit können erste Schritte zur Analyse und Visualisierung von Daten gemacht werden. Die Passagierliste der Titanic ist ein beliebter Datensatz für den Einstieg in die Data Analytics. Der Datensatz ist leicht verständlich und enthält eine Reihe von Datentypen mit unterschiedlicher Datenqualität. **Darüber hinaus** Auf Seiten wie [*kaggle*](https://www.kaggle.com/) gibt es mehrere Tausend solcher frei verfügbaren Datensätze. Die Passagierdaten der Titanic ------------------------------ Der Datensatz der Titanic enthält eine Liste aller Passagiere, deren Daten heute bekannt sind. Das Bordpersonal ist auf der Liste nicht aufgeführt. Folgende Informationen sind enthalten: - Name - Alter - Geschlecht - Anzahl von Eltern, Kindern und Geschwistern an Bord - Kabinennummer - Ticketpreis - Heimatort und Ausgangshafen Für die Arbeit mit Daten ist es hilfreich, so viele Informationen wie möglich über den Datensatz zu kennen und diesen zum Beispiel historisch richtig einordnen zu können. Der Untergang der RMS Titanic ----------------------------- Die RMS Titanic war ein Passagierschiff der britischen Reederei White Star Line. Als sie am 2. April 1912 in See stach, war sie das größte Schiff der Welt und galt als praktisch unsinkbar. Es gab drei Passagierklassen. Die dritte Klasse wurde überwiegend von nahezu mittellosen Auswanderern genutzt. - Als die Titanic am 14. April 1912 auf ihrer Jungfernfahrt mit einem Eisberg kollidierte, war bei den Passagieren der** dritten Klasse** der Anteil der Verstorbenen fast dreimal so groß, wie derjenige der Überlebenden. Hingegen überlebten in der **ersten Klasse** fast doppelt so viele wie starben. - Obwohl für die Evakuierung ausreichend Zeit zur Verfügung stand, haben von den 1309 Passagieren nur 500 **(38 %) überlebt**. Gründe dafür waren unter anderem eine unzureichende Anzahl von Rettungsbooten (nur für etwa die Hälfte der Menschen an Bord) und die Unerfahrenheit der Crew. - Der Anteil der geretteten Frauen (73 %) und Kinder (46 %) war deutlich höher als der der überlebenden Männer (19 %), da erstere bei der Evakuierung bevorzugt wurden. Daten und Datenquellen ---------------------- Um Daten in einem Data Analytics Tool verarbeiten zu können, müssen diese vorab strukturiert werden. Hierfür eignen sich zum Beispiel Tabellen. Wie Daten in Tabellen organisiert werden, hängt von ihrem Format ab (Zahlen, Zeichen etc.) und davon, ob sie mit Daten anderer Tabellen in Verbindung stehen. Die Datentabelle ---------------- Eine Datentabelle ermöglicht die einfache Datenorganisation für eine schnelle Verarbeitung strukturierter Daten. Die einfachste Form einer Tabelle ist eine Liste, in der eine Gruppe von Daten zu einer Sammlung zusammengefügt wird. - Um eine Liste zu strukturieren, werden die einzelnen Elemente in eine Reihenfolge gebracht und einer Kategorie zugewiesen. Hier ist ein Beispiel für eine geordnete Tabelle mit den beiden Spalten **„ID"** und** „Nachname"**. ID Nachname ---- ---------- 1 Bucknell 2 McGough 3 Beckwith 4 Mock - Weitere Listen (zum Beispiel eine Liste der Vornamen) können als Spalten hinzugefügt werden, hier als Spalte mit der Kategorie „Vorname". ID Nachname Vorname ---- ---------- ----------------- 1 Bucknell Emma Eliza 2 McGough James Robert 3 Beckwith Richard Leonard 4 Mock Philipp Edmund Jede Zeile einer Tabelle entspricht einem **Datensatz**, der aus einer Reihe von Attributwerten (Spalten) besteht. **Attribute **sind Eigenschaften wie Name, Vorname oder Kabinenklasse. Die Verbindung zwischen den Attributwerten wird über ein Verbindungselement hergestellt (zum Beispiel Reihen-ID, Kunden-ID, Datum etc.). Organisation von Tabellen ------------------------- Die Organisation mehrerer Tabellen erfolgt in der Regel in Datenbanken. Wie diese strukturiert werden, hängt von ihren Einsatzgebieten und Anforderungen ab. - **Relationale Datenbanken** erfordern eine durchgängige Verbindung der Datensätze über alle verbundenen Tabellen hinweg. Das Verbindungselement ist dann zum Beispiel die Reihen-ID, die in jeder Tabelle enthalten ist. Diese ID sollte ein- oder eineindeutig sein, um einen Konflikt in der Datenzuordnung zu vermeiden. - In **objektorientierten Datenbanken** besteht keine durchgängige Verbindung der Datensätze über mehrere Tabellen hinweg. Stattdessen wird ein Datensatz mit all seinen Attributen zu einem Objekt zusammengefasst. Der Vorteil besteht in der besseren Darstellung komplexer Datenstrukturen. **Beispiel** - **Titanic-Daten in einer relationalen Datenbank**: Erfassung aller Passagierdaten in einer Liste mit Passagier-ID - **Titanic-Daten in einer objektorientierten Datenbank**: Objekte: zum Beispiel Kabinenklassen. Jede Kabinenklasse hat ihr eigenes Verzeichnungssystem mit eigenen IDs. Datenformen und Eigenschaften ----------------------------- In Tabellen werden meist Zeichen verarbeitet. Liegen Daten in anderen Formen vor (zum Beispiel Bild, Video oder Audio), müssen diese zunächst in einen Zeichensatz umgewandelt werden. Die drei gängigen Hauptformate von Daten sind: - Ganze Zahlen (**I**nteger): -1; 0; 1; 2; 3; 4;... - Gleitkommazahlen (**D**ouble): 0,34; 5,01; 250,34;... - Zeichen oder Text (**S**tring): AaBb-+\*/!" In einer Tabelle sieht das beispielsweise so aus: **I **(Geschwister) **S **(Ticketnummer) **D **(Preis) --------------------- ---------------------- --------------- 0 11813 76,29 1 11751 52,55 1 13236 57,75 0 PC 17609 49,50 1 PC 17572 76,72 0 19924 26,00 Je nach Anwendung werden noch weitere Formate als Zellen- oder Spalteneigenschaft aufgeführt. So gibt es zum Beispiel in der Tabellenkalkulation folgende Formate: - Datum: 09.04.2021 - Zeit: 09:32:00 - Prozent: 73 % - Währung: 257,53 € Eigenschaften wie Datum, Währung usw. werden in der Regel anwendungsspezifisch verwaltet. Beim Ex- und Import zwischen verschiedenen Anwendungssystemen müssen sie gegebenenfalls zunächst angepasst werden. Prüfen der Daten ---------------- Um verlässlich mit Daten arbeiten zu können, müssen diese fehlerfrei, vollständig und unmissverständlich sein. Schon beim Entwurf eines Workflows (Datenprozesses) sollte darauf geachtet werden, dass die Datenqualität systematisch sichergestellt wird. Dazu gibt es verschiedene Möglichkeiten. - Prüfen der Daten beim Aufbau des Datenimports - Einbau automatisierter Kontroll- und Monitoring Strukturen im Workflow - Regelmäßige Durchführung manueller Stichproben Alle drei Verfahren werden im Folgenden näher beschrieben. Datenprüfung beim Import ------------------------ Nach Ausführung eines Knotens sollte überprüft werden, ob die Daten-Outputs den geforderten Standards entsprechen. Sofern notwendig, können die Knoten angepasst und den Anforderungen entsprechend konfiguriert werden. - Welche Daten habe ich? - Habe ich die richtigen Daten eingelesen? - Sind es die Daten, die ich brauche? - Habe ich weitere Datenquellen desselben Typs? - Wie groß ist die Datenmenge? - Sind die Datentypen korrekt? - Sind die Daten korrekt eingelesen? **Hinweis** Werden Fehler erkannt, sollten diese immer behoben werden, bevor die Daten weiterverarbeitet werden. Was am Anfang zunächst wie eine belanglose Abweichung oder ein nur kleines Problem aussieht, kann später zu einer gravierenden Blockade des gesamten Prozesses führen. Kontroll- und Monitoringstrukturen ---------------------------------- Die Integrität (Korrektheit, Vollständigkeit und Konsistenz von Daten) des Workflows kann mittels **automatischer Prüfmechanismen **überwacht werden. Dafür eignen sich zwei Methoden: **1. Überwachung der Metadaten** \- Wurden die richtigen Daten verwendet? Entsprechen die Daten der beabsichtigen Auswertungsperiode? \- Verbindet man die Knoten und , so wird eine Tabelle generiert, aus der die ausgelesen und mit den verglichen werden können. \- Bewegen sich die Daten innerhalb bestimmter Bereiche oder kommt es zu Abweichungen? Dies kann ein Hinweis auf eine Veränderung der Datenqualität sein. ![Ein Bild, das Text, Screenshot, Diagramm, Schrift enthält. Automatisch generierte Beschreibung](media/image8.png) Ein Bild, das Text, Screenshot, Schrift, Reihe enthält. Automatisch generierte Beschreibung ![Ein Bild, das Screenshot, Reihe, Diagramm, Text enthält. Automatisch generierte Beschreibung](media/image10.png) **2. Abgleich mit Grenzwerten\ \ **Geeignete Grenzwerte sind z. B. Minimum, Maximum und Durchschnitt oder die Anzahl und Häufigkeit von fehlenden Werten oder Fehleinträgen. **Hinweis** Die Ergebnisse der Überprüfung werden zu kurzen Berichten zusammengefasst. Dadurch ist ein durchgängiger Nachweis der Datenintegrität sehr einfach. Durchführung manueller Stichproben ---------------------------------- Auch mit den zuvor getroffenen automatisierten Maßnahmen kann es zu unvorhergesehenen Abweichungen kommen. Daher ist es ratsam, den Workflow in regelmäßigen Abständen durch manuelle Stichproben **auf Richtigkeit zu überprüfen**. Ist der Workflow sehr komplex und eine vollständige Überprüfung zu aufwendig, können gezielte **Kontrollpunkte **(Checkpoints) in den Workflow integriert werden, die einen repräsentativen Überblick über den Gesamtworkflow erlauben. Ein Bild, das Screenshot, Diagramm, Reihe, Design enthält. Automatisch generierte Beschreibung