Full Transcript

Datenqualität Die Datenqualität ist zentral in der Datenanalyse mit elektronischen Mitteln. Wir gehen nachfolgend auf vier Schlüsseldimensionen der Datenqualität ein: Vollständigkeit Eindeutigkeit und Redundanzfreiheit Aktualität Einheitlichkeit Vollständigkeit Vollständigkeit bedeutet, dass alle...

Datenqualität Die Datenqualität ist zentral in der Datenanalyse mit elektronischen Mitteln. Wir gehen nachfolgend auf vier Schlüsseldimensionen der Datenqualität ein: Vollständigkeit Eindeutigkeit und Redundanzfreiheit Aktualität Einheitlichkeit Vollständigkeit Vollständigkeit bedeutet, dass alle erforderlichen und relevanten Daten vorhanden sind. Unvollständige Daten können zu fehlerhaften Analysen und Entscheidungen führen. Ein Beispiel: Betrachten wir eine Kundendatenbank. Wenn in den Kundendatensätzen wichtige Informationen wie Adressen oder Kontaktnummern fehlen, kann dies die Kundenkommunikation und das Marketing erheblich beeinträchtigen. Eindeutigkeit und Redundanzfreiheit Eindeutigkeit gewährleistet, dass jedes Datenelement in einem Datensatz einzigartig ist. Redundanzfreiheit bedeutet, dass keine unnötige Duplizierung von Daten vorliegt. Beispiel: Ein Kundenverzeichnis sollte nicht mehrere Einträge für denselben Kunden enthalten. Solche Duplikate können zu Verwirrung und ineffizienter Datenverarbeitung führen. Aktualität Aktualität bedeutet, dass die Daten zeitnah und relevant sind. Veraltete Daten können irreführend sein und zu falschen Schlussfolgerungen führen. Ein Beispiel: In einem CRM-System sollten die Kontaktinformationen der Kunden immer aktuell sein. Einheitlichkeit Einheitlichkeit bezieht sich darauf, dass Daten in einem standardisierten und konsistenten Format vorliegen. Ein Beispiel: Wenn Datumsangaben in verschiedenen Formaten vorliegen (z.B. DD.MM.YYYY, MM/DD/YYYY), kann dies die Datenanalyse erschweren. Betrachte dazu auch die Ausführungen unter Grundlegende Datentypen. Datenbereinigung Wenn die Datenqualität (siehe letztes Thema) nicht gegeben ist, braucht es eine Datenbereinigung. Mit dieser erfolgt eine Korrektur oder Entfernung von fehlerhaften, verdoppelten oder unvollständigen Daten aus einem Datensatz. Werkzeuge Nachfolgend findest Du drei typische Werkzeuge für die Datenbereinigung. Du musst diese nicht anwenden können, aber wissen, dass es diese gibt. Microsoft Excel Excel ist ein vielseitiges Werkzeug, das Funktionen wie Sortieren, Filtern, Duplikate entfernen und Datenvalidierung bietet. OpenRefine OpenRefine ist ein spezialisiertes Open Source Tool zur Datenbereinigung, das insbesondere bei grossen Datensätzen effizient ist. Python (Pandas-Bibliothek) Python, kombiniert mit der Pandas-Bibliothek, ist ein weiteres Werkzeug für die Datenbereinigung, besonders bei komplexen Datenmanipulationen. Transformation von Daten Daten-Transformation beinhaltet das Umwandeln von Daten in ein Format, das für spezifische Analysezwecke besser geeignet ist. Dies kann das Umformatieren, das Zusammenführen von Datensätzen oder das Erstellen neuer Variablen beinhalten. Werkzeuge zur Daten-Transformation Auch hier drei typische Werkzeuge für die Transformation von Daten. Du musst diese nicht anwenden können, aber wissen, dass es diese gibt. SQL SQL ist eine standardisierte Sprache zur Verwaltung und Manipulation von Daten in relationalen Datenbanken. Ein Beispiel ist das Verwenden von SQL, um bestimmte Kundendaten aus einer Datenbank abzufragen und in einem neuen Format zu präsentieren. Tableau Tableau ist ein Werkzeug zur Datenvisualisierung, das auch Funktionen zur Daten-Transformation bietet. Python (mit Pandas und NumPy) Python, in Verbindung mit Bibliotheken wie Pandas (siehe weiter oben) und NumPy, bietet fortgeschrittene Möglichkeiten zur Daten-Transformation. Einleitung Du hast Dich im Fach Bedarfsanalyse bereits mit der Aufbereitung von Daten beschäftigt. Siehe nochmals den Themenblock Reporting an. Dort findest Du verschiedene Möglichkeiten, wie Daten aufbereitet werden können. Verdichtung Generell bestehen verschiedene Methoden zur Verdichtung und Darstellung von Informationen. Du findest in der folgenden fünf solcher Methoden mit Beispielen. Methode Techniken Beispiele Datenreduktion Sampling*, Datenkomprimierung Anwendung von Sampling-Methoden auf einen grossen Datensatz Kennzahlenbildung Erstellung und Interpretation von Kennzahlen Rendite, Kundenzufriedenheit Häufigkeitstabellen Erstellen und Interpretieren von Häufigkeitstabellen Erstellung einer Häufigkeitstabelle für das Kundenalter Histogramme Erstellen und Interpretieren von Histogrammen Visualisierung der Verkaufszahlen pro Monat in einem Jahr Aggregation Summierung, Durchschnittsberechnung, Gruppierung Verkäufe nach Regionen und Quartalen * Sampling ist der Prozess der Auswahl einer repräsentativen Teilmenge aus einer grösseren Datenmenge oder Population. Ziel des Samplings ist es, durch Analyse der Teilmenge Schlussfolgerungen über die gesamte Datenmenge zu ziehen, ohne alle Daten analysieren zu müssen. Dies spart Ressourcen und Zeit, besonders bei sehr grossen Datensätzen.

Use Quizgecko on...
Browser
Browser