Podcast
Questions and Answers
Welche Maßnahme ist kein empfohlener Schritt im Umgang mit falschen oder extremen Daten?
Welche Maßnahme ist kein empfohlener Schritt im Umgang mit falschen oder extremen Daten?
- Ignorieren von Ausreißern, um die Originaldatengröße zu erhalten. (correct)
- Identifizieren von Ausreißern und Bewerten ihrer Plausibilität.
- Anwenden von Transformationstechniken.
- Ausschließen von Konsistenzproblemen direkt bei der Datensammlung.
Was ist das Hauptziel beim Umgang mit fehlerhaften oder extremen Daten?
Was ist das Hauptziel beim Umgang mit fehlerhaften oder extremen Daten?
- Die Datenqualität zu verbessern und Fälle zu erhalten, um bessere Analysen zu ermöglichen. (correct)
- Die Daten so zu verändern, dass sie den Erwartungen entsprechen.
- Sicherzustellen, dass alle Datenpunkte innerhalb eines Standardbereichs liegen.
- Die Datenmenge so weit wie möglich zu reduzieren.
Welche der folgenden Aufgaben gehört nicht zur Integration von Daten aus verschiedenen Quellen?
Welche der folgenden Aufgaben gehört nicht zur Integration von Daten aus verschiedenen Quellen?
- Schema-Integration zur Zusammenführung von Metadaten.
- Kombinieren der Daten an einem zusammenhängenden Speicherort.
- Direktes Löschen von redundanten Daten ohne Analyse. (correct)
- Identifizieren von Datenwertkonflikten.
Was bedeutet der Begriff 'Normalisierung' im Kontext der Datentransformation?
Was bedeutet der Begriff 'Normalisierung' im Kontext der Datentransformation?
Welche der folgenden Methoden wird verwendet, um Ausreißer und 'Rauschen' aus Daten zu entfernen?
Welche der folgenden Methoden wird verwendet, um Ausreißer und 'Rauschen' aus Daten zu entfernen?
Was ist das Ziel der Datenintegration im Rahmen der Datenanalyse?
Was ist das Ziel der Datenintegration im Rahmen der Datenanalyse?
Welche der folgenden Aussagen beschreibt am besten das Ziel der Datenbereinigung im Rahmen der Datenvorverarbeitung?
Welche der folgenden Aussagen beschreibt am besten das Ziel der Datenbereinigung im Rahmen der Datenvorverarbeitung?
Was ist die wahrscheinlichste Auswirkung eines unausgeglichenen (unbalanced) Datensatzes auf die Ergebnisse eines Machine-Learning-Modells?
Was ist die wahrscheinlichste Auswirkung eines unausgeglichenen (unbalanced) Datensatzes auf die Ergebnisse eines Machine-Learning-Modells?
In einem Datensatz über Bankkunden fehlt bei einigen Einträgen der Wert für das Attribut 'Einkommen'. Welche der folgenden Strategien wäre am wenigsten sinnvoll, um mit diesen fehlenden Werten umzugehen?
In einem Datensatz über Bankkunden fehlt bei einigen Einträgen der Wert für das Attribut 'Einkommen'. Welche der folgenden Strategien wäre am wenigsten sinnvoll, um mit diesen fehlenden Werten umzugehen?
Ein Unternehmen möchte Kundendaten aus verschiedenen Quellen (CRM-System, Webshop, Social Media) zusammenführen. Welcher Schritt der Datenvorverarbeitung ist hierbei am wichtigsten?
Ein Unternehmen möchte Kundendaten aus verschiedenen Quellen (CRM-System, Webshop, Social Media) zusammenführen. Welcher Schritt der Datenvorverarbeitung ist hierbei am wichtigsten?
Warum ist es wichtig, Daten vor der Analyse zu transformieren?
Warum ist es wichtig, Daten vor der Analyse zu transformieren?
Welche der folgenden Aussagen beschreibt am besten den Unterschied zwischen Datenbereinigung und Datentransformation?
Welche der folgenden Aussagen beschreibt am besten den Unterschied zwischen Datenbereinigung und Datentransformation?
Warum ist es wichtig, den Prozess der Datenentstehung zu verstehen, bevor man Daten transformiert?
Warum ist es wichtig, den Prozess der Datenentstehung zu verstehen, bevor man Daten transformiert?
Was ist der Hauptunterschied zwischen ordinalen und nominalen Daten?
Was ist der Hauptunterschied zwischen ordinalen und nominalen Daten?
Warum ist eine Reduktion von Daten oft notwendig, um erste analytische Erkenntnisse zu erhalten?
Warum ist eine Reduktion von Daten oft notwendig, um erste analytische Erkenntnisse zu erhalten?
Was ist der Unterschied primär zwischen Aggregation und Reduzierung der Dimensionalität bei der Datenreduktion?
Was ist der Unterschied primär zwischen Aggregation und Reduzierung der Dimensionalität bei der Datenreduktion?
Welche der folgenden Aussagen beschreibt am besten den Zusammenhang zwischen Datenentstehung, Transformationsprozess und Untersuchungsfrage?
Welche der folgenden Aussagen beschreibt am besten den Zusammenhang zwischen Datenentstehung, Transformationsprozess und Untersuchungsfrage?
Angenommen, Sie möchten den Zusammenhang zwischen Alkoholkonsum und Todesfällen untersuchen. Welche statistische Herausforderung könnte bei diesem Datensatz auftreten?
Angenommen, Sie möchten den Zusammenhang zwischen Alkoholkonsum und Todesfällen untersuchen. Welche statistische Herausforderung könnte bei diesem Datensatz auftreten?
Welche der folgenden Aussagen beschreibt am besten den Zweck der Integration zusätzlicher Daten aus Indien in den ursprünglichen Datensatz?
Welche der folgenden Aussagen beschreibt am besten den Zweck der Integration zusätzlicher Daten aus Indien in den ursprünglichen Datensatz?
Welche der folgenden Aussagen beschreibt am besten das Problem der fehlenden Werte (NA) im Datensatz?
Welche der folgenden Aussagen beschreibt am besten das Problem der fehlenden Werte (NA) im Datensatz?
Wie wird der Gesamtalkoholkonsum für Indien berechnet, wenn Daten aus verschiedenen Bundesstaaten vorliegen?
Wie wird der Gesamtalkoholkonsum für Indien berechnet, wenn Daten aus verschiedenen Bundesstaaten vorliegen?
Ein Data Scientist möchte den Einfluss des Alkoholkonsums auf die Todesursache durch Herzerkrankungen untersuchen. Welche Transformation der Daten wäre sinnvoll, bevor ein Regressionsmodell angewendet wird?
Ein Data Scientist möchte den Einfluss des Alkoholkonsums auf die Todesursache durch Herzerkrankungen untersuchen. Welche Transformation der Daten wäre sinnvoll, bevor ein Regressionsmodell angewendet wird?
Welche Python Funktion wird verwendet, um fehlende Werte in einer Spalte durch den Mittelwert dieser Spalte zu ersetzen?
Welche Python Funktion wird verwendet, um fehlende Werte in einer Spalte durch den Mittelwert dieser Spalte zu ersetzen?
Welche der folgenden Visualisierungen wäre am besten geeignet, um den Zusammenhang zwischen Alkoholkonsum und Todesfällen in den verschiedenen Ländern darzustellen?
Welche der folgenden Visualisierungen wäre am besten geeignet, um den Zusammenhang zwischen Alkoholkonsum und Todesfällen in den verschiedenen Ländern darzustellen?
Welche Methode wird verwendet, um einen spezifischen Wert in einem DataFrame (z.B. den Weinkonsumwert für Italien) zu ändern?
Welche Methode wird verwendet, um einen spezifischen Wert in einem DataFrame (z.B. den Weinkonsumwert für Italien) zu ändern?
Welche der folgenden Aussagen beschreibt am besten den Zweck der Diskretisierung von Daten?
Welche der folgenden Aussagen beschreibt am besten den Zweck der Diskretisierung von Daten?
Ein Datensatz enthält das Alter der Kunden. Welche deskriptive Statistik wäre am nützlichsten, um die typische Altersgruppe der Kunden zu ermitteln?
Ein Datensatz enthält das Alter der Kunden. Welche deskriptive Statistik wäre am nützlichsten, um die typische Altersgruppe der Kunden zu ermitteln?
Welche Datenvisualisierung eignet sich am besten, um die Verteilung einer einzelnen numerischen Variable darzustellen?
Welche Datenvisualisierung eignet sich am besten, um die Verteilung einer einzelnen numerischen Variable darzustellen?
In einem Datensatz mit Kundeninformationen fehlt bei einigen Einträgen das Einkommen. Welche Maßnahme wäre im Sinne der explorativen Datenanalyse (EDA) am wenigsten geeignet?
In einem Datensatz mit Kundeninformationen fehlt bei einigen Einträgen das Einkommen. Welche Maßnahme wäre im Sinne der explorativen Datenanalyse (EDA) am wenigsten geeignet?
Welches der folgenden Beispiele stellt KEIN typisches Ziel der explorativen Datenanalyse (EDA) dar?
Welches der folgenden Beispiele stellt KEIN typisches Ziel der explorativen Datenanalyse (EDA) dar?
Sie analysieren Verkaufsdaten und stellen fest, dass ein Produkt einen ungewöhnlich hohen Preis hat, der weit über dem Durchschnitt liegt. Wie würden Sie im Rahmen der explorativen Datenanalyse vorgehen?
Sie analysieren Verkaufsdaten und stellen fest, dass ein Produkt einen ungewöhnlich hohen Preis hat, der weit über dem Durchschnitt liegt. Wie würden Sie im Rahmen der explorativen Datenanalyse vorgehen?
Welchen Vorteil bietet die Verwendung von deskriptiven Statistiken in der explorativen Datenanalyse?
Welchen Vorteil bietet die Verwendung von deskriptiven Statistiken in der explorativen Datenanalyse?
Flashcards
Vorverarbeitung von Daten
Vorverarbeitung von Daten
Die einzelnen Schritte der Vorverarbeitung von Daten beschreiben und erklären.
Datensatz bearbeiten
Datensatz bearbeiten
Erlären, wie ein Datensatz bereinigt, transformiert und reduziert werden kann.
Unvollständigkeit
Unvollständigkeit
Fehlende Attributwerte oder fehlende Attribute von Interesse.
Biases/Verzerrungen
Biases/Verzerrungen
Signup and view all the flashcards
Inkonsistenzen
Inkonsistenzen
Signup and view all the flashcards
Bias
Bias
Signup and view all the flashcards
Unausgeglichener Datensatz
Unausgeglichener Datensatz
Signup and view all the flashcards
Unbereinigte Daten
Unbereinigte Daten
Signup and view all the flashcards
Datenfehler
Datenfehler
Signup and view all the flashcards
Umgang mit Datenfehlern
Umgang mit Datenfehlern
Signup and view all the flashcards
Datenintegration
Datenintegration
Signup and view all the flashcards
Schema-Integration
Schema-Integration
Signup and view all the flashcards
Datenwertkonflikte
Datenwertkonflikte
Signup and view all the flashcards
Redundante Daten
Redundante Daten
Signup and view all the flashcards
Datentransformation
Datentransformation
Signup and view all the flashcards
Datenglättung
Datenglättung
Signup and view all the flashcards
Datenstandardisierung
Datenstandardisierung
Signup and view all the flashcards
Daten-Neukonstruktion
Daten-Neukonstruktion
Signup and view all the flashcards
Transformation verstehen
Transformation verstehen
Signup and view all the flashcards
Nominale Skala
Nominale Skala
Signup and view all the flashcards
Ordinale Skala
Ordinale Skala
Signup and view all the flashcards
Kontinuierliche/Absolute Skala
Kontinuierliche/Absolute Skala
Signup and view all the flashcards
Datenreduktion
Datenreduktion
Signup and view all the flashcards
Datenaggregation
Datenaggregation
Signup and view all the flashcards
Attribut (Merkmal)
Attribut (Merkmal)
Signup and view all the flashcards
Attribut 'Alkoholkonsum'
Attribut 'Alkoholkonsum'
Signup and view all the flashcards
Attribut 'Todesfälle'
Attribut 'Todesfälle'
Signup and view all the flashcards
Attribut 'Herzkrankheiten'
Attribut 'Herzkrankheiten'
Signup and view all the flashcards
Attribut 'Lebererkrankungen'
Attribut 'Lebererkrankungen'
Signup and view all the flashcards
Hypothesentest
Hypothesentest
Signup and view all the flashcards
Hypothese: Alkohol vs. Todesfälle
Hypothese: Alkohol vs. Todesfälle
Signup and view all the flashcards
Hypothese: Wein vs. Herzkrankheiten
Hypothese: Wein vs. Herzkrankheiten
Signup and view all the flashcards
Fehlende Daten (NA)
Fehlende Daten (NA)
Signup and view all the flashcards
Datenpunkt (Beispiel)
Datenpunkt (Beispiel)
Signup and view all the flashcards
Was ist Datendiskretisierung?
Was ist Datendiskretisierung?
Signup and view all the flashcards
Beispiel für Datendiskretisierung
Beispiel für Datendiskretisierung
Signup and view all the flashcards
Was ist Explorative Datenanalyse (EDA)?
Was ist Explorative Datenanalyse (EDA)?
Signup and view all the flashcards
Beispiele für Datenvisualisierung
Beispiele für Datenvisualisierung
Signup and view all the flashcards
Deskriptive Statistiken
Deskriptive Statistiken
Signup and view all the flashcards
Was sind Häufigkeiten?
Was sind Häufigkeiten?
Signup and view all the flashcards
Ziel der EDA: Datenbereinigung
Ziel der EDA: Datenbereinigung
Signup and view all the flashcards
Ziel der EDA: Stichproben verstehen
Ziel der EDA: Stichproben verstehen
Signup and view all the flashcards
Mittelwert (Spalte)
Mittelwert (Spalte)
Signup and view all the flashcards
fillna(mean())
fillna(mean())
Signup and view all the flashcards
data.at[Index, Spalte] = neuer_Wert
data.at[Index, Spalte] = neuer_Wert
Signup and view all the flashcards
Equipmentfehler/Eingabefehler
Equipmentfehler/Eingabefehler
Signup and view all the flashcards
Gesamtalkoholkonsum für Indien
Gesamtalkoholkonsum für Indien
Signup and view all the flashcards
Ersetzung durch Mittelwerte
Ersetzung durch Mittelwerte
Signup and view all the flashcards
Study Notes
Lernziele der Datenvorverarbeitung
- Nach Abschluss dieses Kapitels sollen die einzelnen Schritte innerhalb der Vorverarbeitung von Daten beschrieben und erklärt werden können.
- Das Ziel ist zu erklären, wie ein Datensatz bereinigt, transformiert und reduziert werden kann.
- Es soll der Unterschied zwischen einer univariaten und bivariaten deskriptiven Analyse erklärt und angewendet werden.
Übersicht über die Datenvorverarbeitung
- Die Datenvorverarbeitung umfasst die Bereinigung, Integration, Transformation und Reduktion von Daten.
- Datenbereinigung: Fehlerhafte oder fehlende Daten werden korrigiert oder entfernt.
- Datenintegration: Daten aus verschiedenen Quellen werden zusammengeführt.
- Datentransformation: Daten werden in ein geeignetes Format gebracht.
- Datenreduktion: Die Datenmenge wird reduziert, ohne wesentliche Informationen zu verlieren.
Datenbereinigung
- Daten sind in der Realität oft unsauber oder verrauscht und müssen daher bereinigt werden.
- Unvollständigkeit, Verzerrungen und Inkonsistenzen sind Indikatoren für notwendige Datenbereinigung.
- Unvollständigkeit: Fehlende Attributwerte.
- Verzerrungen: Fehler oder Ausreißer, die Ergebnisse verzerren koennen
- Inkonsistenzen: Fehler in Eingabefeldern, z.B. Text statt Zahlen.
Bias in Daten
- Bias in Daten entsteht durch Fehler oder fehlende Werte, wie beim unausgeglichenen Datensatz einer Gesichtserkennungs-Software..
- Ein unausgeglichener Datensatz kann die Ergebnisse verzerren und zu Über- oder Unterschätzung führen.
Aufbereitung und Vorverarbeitung von Daten
- Daten können aus verschiedenen Gründen fehlerhaft sein, daher gibt es verschiedene Wege zur Aufbereitung (Data Pre-Processing).
- Ziel ist es, qualitativ hochwertige Daten zu erhalten, die weiterverarbeitet werden können.
- Die wichtigsten Formen der Datenaufbereitung sind Data Cleaning, Datenintegration, Datentransformation und Datenreduktion.
Data Wrangling
- Data Wrangling (oder Munging) ist die Umwandlung von Rohdaten in eine gewünschte oder einfachere Form.
- Data Wrangling kann manuell, automatisch oder halbautomatisch erfolgen.
- Data Engineers arbeiten oft mit Data Wrangling.
- Ein Beispiel für Data Wrangling ist die Umwandlung eines Rezepts in eine Tabelle.
Umgang mit fehlenden Daten
- Fehlende Daten können aus verschiedenen Gründen entstehen.
- Es gibt keine einheitliche Lösung für den Umgang mit fehlenden Daten, die Strategie hängt von der jeweiligen Situation ab.
- Häufige Gründe sind Probleme bei der Datenerhebung, System- oder menschliche Fehler bei der Speicherung oder Übertragung.
- Strategien zur Behandlung fehlender Daten sind u.a. das Ignorieren des Datensatzes, die Verwendung einer globalen Konstante, Schätzung oder Inferenzbasierte Lösungen.
Umgang mit falschen oder extremen Daten
- Daten können nicht nur fehlen, sondern auch falsch sein oder Extremwerte annehmen, beispielsweise durch fehlerhafte Datenerfassung.
- Auch hierfür keine einheitliche Lösung, jedoch einige Schritte, die helfen können:
- Ausreißer identifizieren und Plausibilität bewerten (erst danach ggf. ausschließen)
- Konsistenzprobleme direkt bei der Datensammlung ausschließen
- Anwenden von weiteren Techniken (z. B. Transformation)
- Ziel: Datenqualität verbessern und Fälle erhalten, um bessere bzw. genauere Analysen zu ermöglichen.
Integration von Daten
- Daten aus verschiedenen Quellen müssen integriert werden, um effektive Datenanalysen zu ermöglichen.
- Die Integration mehrerer Datenbanken oder Dateien erfolgt in mehreren Schritten: Kombination der Daten, Schema-Integration und Identifizierung von Datenwertkonflikten.
Transformation von Daten
- Daten müssen ggf. transformiert werden, um konsistent und/oder lesbar für ein System zu sein.
- Beispiele für die Transformation von Daten sind Glättung, Aggregation, Normalisierung und Neukonstruktion.
- Glättung: Entfernen von Ausreißern und "Noise".
- Aggregation: Zusammenfassen von Daten.
- Normalisierung: Ändern der Skalierung von Attributen und Variablen.
- Neukonstruktion: Erstellen von neuen Attributen aus gegebenen Merkmalen.
Transformation von Datenprozessen
- Der Prozess der Datenentstehung muss verstanden und der Informationsbedarf für die Untersuchungsfrage muss vorab geklärt werden.
- Drei grundsätzliche Arten von Attributen sind nominal, ordinal und kontinuierlich/absolut.
- Nominal: Werte aus einer ungeordneten Menge. Ordinal: Werte aus einer geordneten Menge
- Kontinuierlich/Absolut: Reelle Zahlen
Reduktion von Daten
- Oft ist eine reduzierte Darstellung eines Datensatzes nötig, um erste analytische Erkenntnisse zu erhalten.
- Dies kann durch die Aggregation von Daten auf eine höhere Ebene oder die Reduzierung der Dimensionalität durch das Entfernen redundanter Variablen erfolgen.
Hands-on Data Preprocessing: Der Beispiel-Datensatz
- Für einen Beispiel-Datensatz mit verschiedenen Attributen wie Alkoholkonsum und Todesfällen in verschiedenen Ländern können verschiedene Hypothesen getestet werden.
Hands-on Data Preprocessing: Data Cleaning
- Bei der Data Cleaning werden fehlerhafte oder unplausible Datenwerte korrigiert sowie fehlende Werte ersetzt, um einen bereinigten Datensatz zu erhalten.
Hands-on Data Preprocessing: Integration von Daten
- Durch die Integration zusätzlicher Daten, wie z.B. Daten aus Indien, wird der Datensatz erweitert und neue Attribute wie der Gesamtalkoholkonsum für Indien hinzugefügt.
Hands-on Data Preprocessing: Transformation von Daten
- Bei der Transformation von Daten werden Fehler behoben und Werte angepasst, um die Konsistenz und Vergleichbarkeit der Daten zu gewährleisten.
Hands-on Data Preprocessing: Reduktion von Daten
- Die Reduktion von Daten beinhaltet die Entfernung von Dezimalzahlen zur Freigabe von Kapazität und kann auch das Entfernen von Attributen beinhalten.
Hands-on Data Preprocessing: Diskretisierung der Daten
- Die Daten werden in binäre oder kategoriale Typen diskretisiert, wie z.B. die Einteilung des Pro-Kopf-Weinkonsums in Kategorien.
Explorative Datenanalyse
- Die explorative Datenanalyse zielt darauf ab, einen Datensatz zu erforschen, zu verstehen und zu beschreiben.
- Dies geschieht durch Datenvisualisierung und deskriptive Statistiken.
Ziele der explorativen Datenanalyse
- Die explorative Datenanalyse dient der Datenbereinigung, dem Verstehen der Stichprobe und der Schätzung der Populationsparameter.
- Stichprobenstatistiken werden in der Regel mit Normalbuchstaben angegeben; Populationsparameter werden mit griechischen Buchstaben symbolisiert.
Klassen von Prozeduren
- Es wird unterschieden zwischen der Fokussierung auf eine Variable zur gleichen Zeit (univariat) und der Fokussierung auf zwei Variablen (bivariat).
- Beispiele für univariate Verfahren sind Häufigkeiten, Min/Max und Standardabweichung; Beispiele für bivariate Verfahren sind Zusammenhänge und Gruppenunterschiede.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.