Modul 1, Stunde 2, Teil 1-2 zusammengefasst .docx
Document Details
Uploaded by SwiftCantor
Tags
Full Transcript
Die Datenanalyse kann so viel mehr enthüllen, als man auf den ersten Blick vermuten könnte. Gerade bei großen und komplexen Datenmengen kann die explorative Datenanalyse (EDA) helfen, verborgene Strukturen, Auffälligkeiten und Zusammenhänge zu entdecken. Obwohl das berühmteste Beispiel die Titanic-P...
Die Datenanalyse kann so viel mehr enthüllen, als man auf den ersten Blick vermuten könnte. Gerade bei großen und komplexen Datenmengen kann die explorative Datenanalyse (EDA) helfen, verborgene Strukturen, Auffälligkeiten und Zusammenhänge zu entdecken. Obwohl das berühmteste Beispiel die Titanic-Passagierdaten sind, lässt sich diese Methode auf fast alle Datensätze anwenden, von unternehmensrelevanten bis hin zu historischen Daten. Die EDA bietet eine Möglichkeit, Daten zu visualisieren, zu verstehen und spannende Muster aufzudecken. Einführung in die explorative Datenanalyse ========================================== Die meisten Menschen kennen den Untergang der Titanic, aber die Frage, welche Erkenntnisse sich aus den Passagierdaten ableiten lassen, ist weitaus interessanter. Durch die explorative Datenanalyse können wir genau das tun: Untersuchen, welche Rolle Alter, Geschlecht und Ticketklasse bei den Überlebenschancen spielten, oder wie sich das Alter der Passagiere nach Geschlecht verteilte. Dabei werden die Daten zunächst untersucht und anschließend grafisch aufbereitet, um Einsichten in die verborgenen Strukturen zu gewinnen. Ziele der explorativen Datenanalyse =================================== Für Unternehmen und Data Analysts bietet die EDA eine Möglichkeit, große Datenmengen zu durchdringen und wichtige Zusammenhänge zu erkennen. Sie hilft dabei, Unbekanntes sichtbar zu machen und Hypothesen für weitere Analysen zu entwickeln. Durch die Visualisierung der Daten wird es einfacher, Muster, Ausreißer und Korrelationen zu identifizieren, die in textbasierten oder tabellarischen Darstellungen oft übersehen werden. Auf diese Weise können wir die Daten verständlich machen und sie in einen Kontext setzen, der für strategische Entscheidungen hilfreich ist. Daten identifizieren und statistisch zusammenfassen =================================================== Bevor man tief in die Analyse einsteigt, müssen die Daten klar strukturiert werden. Hierbei wird zunächst identifiziert, welche Variablen und Datentypen vorliegen. Diese Klassifizierung ist entscheidend, da sie die Art der Analyse bestimmt. Bei der Titanic-Passagieranalyse wäre dies zum Beispiel die Anzahl der Geschwister, der Ticketpreis oder das Herkunftsland der Passagiere. Die Zusammenfassung der Daten gibt dann einen Überblick über wichtige Kennzahlen wie den Mittelwert des Alters, die Verteilung der Ticketpreise oder die Anzahl fehlender Werte. Grafische Analyse: Daten sichtbar machen ======================================== Die grafische Darstellung von Daten ist ein zentrales Element der explorativen Analyse. Sie hilft dabei, komplexe Daten auf einen Blick verständlich zu machen. Mit Diagrammen wie Histogrammen oder Kastengrafiken können Datenmuster und Verteilungen visuell dargestellt werden. Ein Histogramm der Titanic-Daten zeigt beispielsweise, dass die meisten Passagiere zwischen 21 und 30 Jahre alt waren. Solche Darstellungen machen sofort deutlich, wo die Schwerpunkte in den Daten liegen und wo Auffälligkeiten auftreten. Umgang mit Ausreißern und fehlenden Werten ========================================== Ausreißer sind in jeder Datenanalyse eine Herausforderung. Sie können wertvolle Hinweise auf außergewöhnliche Ereignisse sein oder aber Fehler im Datensatz darstellen. Bei der Titanic könnte ein Beispiel für einen Ausreißer das fälschliche Notieren eines Alters von 224 Jahren statt 24 Jahren sein. In der explorativen Datenanalyse ist es entscheidend, zwischen echten Ausreißern und systematischen Fehlern zu unterscheiden. Fehlende Werte sind ein weiteres Problem, das oft auftritt, doch auch sie können wertvolle Erkenntnisse liefern, insbesondere wenn sie systematisch fehlen -- etwa, wenn bestimmte Passagiergruppen häufiger keine Angaben gemacht haben. Korrelationen verstehen: Wie hängen Daten zusammen? =================================================== Die Korrelation ist ein Maß dafür, wie stark zwei Variablen miteinander zusammenhängen. Dies kann aufschlussreich sein, wenn man verstehen möchte, welche Faktoren miteinander interagieren. In der Titanic-Analyse könnte man beispielsweise untersuchen, ob es eine Korrelation zwischen dem Ticketpreis und der Überlebenswahrscheinlichkeit gibt. Aber Vorsicht: Nur weil zwei Dinge korrelieren, bedeutet das nicht, dass sie ursächlich miteinander verknüpft sind. Korrelation ist nicht gleich Kausalität, wie das Beispiel der Titanic zeigt, wo der Ticketpreis allein nicht über Leben und Tod entschied. Fazit ===== Die explorative Datenanalyse ist ein unverzichtbares Werkzeug, um verborgene Zusammenhänge und Strukturen in großen Datenmengen zu entdecken. Sie hilft uns, Daten zu verstehen, Hypothesen zu entwickeln und wichtige Entscheidungsgrundlagen zu schaffen. Egal, ob es um historische Daten wie bei der Titanic oder um aktuelle Unternehmensdaten geht, die EDA bietet spannende Einblicke und macht Datenanalysen greifbar und verständlich. Datentypen und Werte bearbeiten: Effizientes Arbeiten mit komplexen Datenstrukturen Daten aus unterschiedlichen Quellen zu verarbeiten, erfordert eine gewisse Kunst. Dabei geht es nicht nur um das reine Zusammenführen von Tabellen, sondern auch um das Festlegen und Transformieren von Datentypen. Wie stellt man sicher, dass Daten korrekt kombiniert und analysiert werden können? Dieser Abschnitt zeigt, wie man Datentypen bestimmt, Tabellen erweitert und die notwendigen Transformationen durchführt, um wertvolle Erkenntnisse aus den Daten zu ziehen. Tabellen zusammenführen und erweitern ===================================== Manchmal liegen Informationen, die miteinander in Beziehung stehen, in verschiedenen Tabellen vor. Ein Beispiel dafür sind die Titanic-Daten, wo das Geschlecht der Passagiere in einer Tabelle und ihre Ticketklasse in einer anderen gespeichert sind. Um eine umfassende Analyse durchzuführen, müssen diese Tabellen zusammengeführt werden -- entweder vertikal, wenn es um das Hinzufügen neuer Zeilen geht, oder horizontal, wenn neue Spalten hinzugefügt werden sollen. Dabei spielen Verbindungselemente wie Reihen-IDs oder Kundennummern eine zentrale Rolle, da sie die Grundlage für das Zusammenführen der Daten bilden. Union und Intersection: Strategien zum Zusammenführen von Daten =============================================================== Das Zusammenführen von Tabellen kann auf zwei Arten erfolgen. Beim Union-Modus werden alle Attribute übernommen, was allerdings zu fehlenden Werten oder Duplikaten führen kann. Die Intersection-Methode hingegen konzentriert sich nur auf die Attribute, die in allen Tabellen gemeinsam sind. Welche Methode am besten geeignet ist, hängt von den Anforderungen der Analyse ab. Tabellen horizontal erweitern: Der Join ======================================= Wenn Tabellen horizontal erweitert werden, spricht man von einem Join. Hierbei wird eine führende Tabelle festgelegt, in die die Daten der Nebentabellen integriert werden. Es gibt verschiedene Arten von Joins, die je nach Anwendung unterschiedliche Ergebnisse liefern. Der Full Outer Join beispielsweise sorgt dafür, dass keine Daten verloren gehen, während der Left Outer Join sich auf die Haupttabelle konzentriert. Daten bearbeiten und transformieren: Warum der richtige Datentyp entscheidend ist ================================================================================= Der Datentyp gibt an, welche Struktur die Daten haben und wie sie verarbeitet werden können. Früher wurden Jahreszahlen oft nur zweistellig gespeichert, was zu Verwirrung führte, als das Jahr 2000 eintrat. Hätte man von Anfang an den richtigen Datentyp verwendet, wären viele Probleme vermieden worden. Ein passender Datentyp sorgt dafür, dass keine Informationen verloren gehen und die Daten effizient verarbeitet werden können. Besondere Datentypen: Datum und Zeit ==================================== Datums- und Zeitangaben stellen in vielen Anwendungen eine besondere Herausforderung dar, da es verschiedene Formate und Berechnungslogiken gibt. Schaltjahre, unterschiedliche Monatslängen und regionale Formate machen es schwierig, präzise Berechnungen durchzuführen. Deshalb empfiehlt es sich oft, Datum und Zeit in Zeichen oder Zahlen zu konvertieren, um damit besser arbeiten zu können. Ein Beispiel dafür wäre das Extrahieren von Jahr und Quartal aus einem Datumsfeld, um damit weitere Berechnungen anzustellen. Typenkonvertierung und Wertetransformation ========================================== Typenkonvertierung bedeutet, den Datentyp eines Attributs so anzupassen, dass er für die jeweilige Analyse geeignet ist. Eine einfache Konvertierung könnte beispielsweise die Umwandlung einer Zahl in einen String sein. Darüber hinaus gibt es die Wertetransformation, bei der die Werte innerhalb eines Datensatzes auf Basis einer Formel verändert werden. Hier spielt der Datentyp eine entscheidende Rolle, denn je nachdem, ob es sich um Zahlen oder Zeichen handelt, müssen unterschiedliche Transformationen durchgeführt werden. Ein Beispiel wäre das Extrahieren eines Datums aus einem Zeichenstring oder das Berechnen einer Provision basierend auf einem Umsatz. Tabellentransformation: Sortieren, Filtern und Aggregieren ========================================================== Oft muss ein Datensatz vor der Analyse transformiert werden, um ihn übersichtlicher zu gestalten. Dies kann durch Sortieren, Filtern oder Aggregieren geschehen. Beim Sortieren werden Zeilen und Spalten in eine definierte Reihenfolge gebracht, um die Datenstruktur zu optimieren. Filtern ermöglicht es, nur relevante Daten zu betrachten, indem nicht benötigte Zeilen oder Spalten entfernt werden. Das Aggregieren schließlich fasst Daten zusammen und berechnet beispielsweise Mittelwerte oder Summen, um einen besseren Überblick zu erhalten. Pivot-Tabellen: Komplexe Beziehungen aufdecken ============================================== Die Erstellung von Pivot-Tabellen ist eine fortgeschrittene Form der Datenaggregation, bei der Beziehungen zwischen mehreren Variablen aufgedeckt werden. Dabei werden Daten nach zwei Attributen aggregiert -- eines bildet die Zeilen, das andere die Spalten. Auf diese Weise lassen sich komplexe Muster und Zusammenhänge leicht visualisieren und interpretieren. Fazit ===== Der richtige Umgang mit Datentypen und die gezielte Bearbeitung von Daten sind entscheidend, um aus komplexen Datensätzen wertvolle Erkenntnisse zu gewinnen. Ob es um das Zusammenführen von Tabellen, die Typenkonvertierung oder die Erstellung von Pivot-Tabellen geht -- jede dieser Techniken trägt dazu bei, Daten effizient zu verarbeiten und besser zu verstehen.