Data Science Foliensatz 7
26 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Was ist der Hauptunterschied zwischen Zentrierung und Standardisierung in Bezug auf die Transformation von Daten?

  • Zentrierung ist nur für normalverteilte Daten geeignet, Standardisierung jedoch nicht.
  • Zentrierung verschiebt den Mittelwert auf 1, während Standardisierung den Mittelwert auf 0 setzt.
  • Zentrierung verändert die Standardabweichung, Standardisierung hingegen nicht.
  • Zentrierung verschiebt den Mittelwert auf 0, während Standardisierung die Standardabweichung auf 1 setzt. (correct)

Welche Aussage beschreibt am besten den Zweck eines Hypothesentests?

  • Die absolute Wahrheit einer wissenschaftlichen Theorie zu beweisen.
  • Die Größe eines Effekts zwischen zwei Variablen präzise zu messen.
  • Eine Stichprobe so zu verändern, dass sie besser zur Grundgesamtheit passt.
  • Zu bestimmen, wie wahrscheinlich es ist, dass ein beobachteter Effekt zufällig aufgetreten ist. (correct)

Was repräsentiert die Nullhypothese (H0) in einem Hypothesentest?

  • Die experimentell nachzuweisende Theorie.
  • Die Annahme, dass kein Effekt oder Unterschied vorhanden ist. (correct)
  • Eine Hypothese, die bereits bewiesen wurde.
  • Das Gegenteil der Alternativhypothese.

Angenommen, Sie führen einen Hypothesentest durch und erhalten einen p-Wert von 0.03. Bei einem Signifikanzniveau von 0.05, welche Schlussfolgerung ziehen Sie?

<p>Die Nullhypothese wird verworfen. (D)</p> Signup and view all the answers

In welchem Szenario wäre die Anwendung einer logarithmischen Transformation (ln X) auf Ihre Daten am sinnvollsten?

<p>Wenn Ihre Daten rechtsschief sind und Sie eine Normalisierung anstreben. (B)</p> Signup and view all the answers

Sie vergleichen die Umsätze zweier Filialen eines Unternehmens und möchten feststellen, ob es einen signifikanten Unterschied gibt. Welchen statistischen Test würden Sie nicht verwenden, wenn die Daten nicht normalverteilt sind und kleine Stichprobengrößen vorliegen?

<p>t-Test für unabhängige Stichproben. (D)</p> Signup and view all the answers

Welche Aussage beschreibt am besten das Hauptziel der explorativen Datenanalyse (EDA)?

<p>Das Erforschen, Verstehen und Beschreiben eines Datensatzes, um Einblicke zu gewinnen. (C)</p> Signup and view all the answers

Welches der folgenden Elemente ist KEIN typisches Werkzeug oder Methode der explorativen Datenanalyse?

<p>Hypothesentests, um die Signifikanz von Ergebnissen zu bestimmen. (C)</p> Signup and view all the answers

Warum ist die Datenbereinigung ein wichtiger Schritt im Rahmen der explorativen Datenanalyse?

<p>Um Fehler, Inkonsistenzen und Ausreißer zu identifizieren und zu behandeln, die die Analyseergebnisse verfälschen könnten. (A)</p> Signup and view all the answers

Was ist der Hauptunterschied zwischen einer Stichprobenstatistik und einem Populationsparameter?

<p>Eine Stichprobenstatistik ist eine Schätzung eines Populationsparameters, basierend auf einer Teilmenge der Grundgesamtheit. (B)</p> Signup and view all the answers

Welche Aussage stimmt NICHT bezüglich der Verwendung von deskriptiven Statistiken und Visualisierungen in der explorativen Datenanalyse?

<p>Sie werden ausschließlich zur Bestätigung vorgefasster Hypothesen eingesetzt. (A)</p> Signup and view all the answers

Wie können Histogramme und Boxplots in der explorativen Datenanalyse eingesetzt werden?

<p>Um die zentrale Tendenz und Streuung einer einzelnen Variable zu visualisieren. (C)</p> Signup and view all the answers

Angenommen, Sie führen eine explorative Datenanalyse eines Datensatzes mit Kundendaten durch und stellen fest, dass ein signifikanter Teil der Einkommenswerte fehlt. Welche der folgenden Vorgehensweisen wäre am wahrscheinlichsten ein sinnvoller nächster Schritt?

<p>Die Ursache für die fehlenden Werte untersuchen und geeignete Imputationsmethoden in Betracht ziehen oder die Analyse entsprechend anpassen. (C)</p> Signup and view all the answers

In einer explorativen Datenanalyse stellen Sie fest, dass es eine starke positive Korrelation zwischen zwei Variablen gibt. Was bedeutet das im Wesentlichen?

<p>Wenn eine Variable steigt, steigt tendenziell auch die andere Variable. (B)</p> Signup and view all the answers

Welche der folgenden Aussagen beschreibt am besten den α-Fehler (p-Wert) im Kontext von Hypothesentests?

<p>Die Wahrscheinlichkeit, die Nullhypothese (H0) zu verwerfen, obwohl sie tatsächlich richtig ist. (D)</p> Signup and view all the answers

Wenn ein statistischer Test einen p-Wert von 0,03 ergibt, welche Schlussfolgerung kann basierend auf der generellen Übereinkunft (p < 0.05) gezogen werden?

<p>Die Nullhypothese (H0) wird verworfen, da der p-Wert kleiner als das Signifikanzniveau ist. (A)</p> Signup and view all the answers

Was ist das Ziel eines Hypothesentests?

<p>Zu entscheiden, ob genügend Evidenz vorhanden ist, um die Nullhypothese (H0) zugunsten der Alternativhypothese (H1) zu verwerfen. (A)</p> Signup and view all the answers

Welche der folgenden Hypothesenpaare ist ein korrektes Beispiel für eine Nullhypothese (H0) und eine Alternativhypothese (H1)?

<p>H0: Es gibt keinen Zusammenhang zwischen Rauchen und Lungenkrebs; H1: Rauchen erhöht das Risiko von Lungenkrebs. (B)</p> Signup and view all the answers

Was impliziert die Ablehnung der Nullhypothese (H0) in einem Hypothesentest?

<p>Dass genügend Evidenz vorhanden ist, um die Nullhypothese (H0) zu verwerfen und die Alternativhypothese (H1) zu unterstützen. (C)</p> Signup and view all the answers

Ein Forscher möchte testen, ob eine neue Lehrmethode die Testergebnisse von Studierenden verbessert. Welche Art von Hypothese wäre am angemessensten?

<p>Eine Nullhypothese (H0), die besagt, dass die neue Lehrmethode keinen Einfluss auf die Testergebnisse hat, und eine Alternativhypothese (H1), die besagt, dass die neue Lehrmethode die Testergebnisse verbessert. (B)</p> Signup and view all the answers

Für welchen Zweck wird der Chi-Quadrat-Unabhängigkeitstest hauptsächlich verwendet?

<p>Um die Abhängigkeit zwischen zwei kategorialen Variablen zu untersuchen. (C)</p> Signup and view all the answers

Welche der folgenden Aussagen beschreibt am besten die Interpretation eines p-Wertes von 0.01 in einem Hypothesentest?

<p>Es besteht eine 1%ige Wahrscheinlichkeit, dass die Nullhypothese wahr ist, falls wir sie verwerfen. (A)</p> Signup and view all the answers

Angenommen, Sie führen einen Hypothesentest durch und stellen fest, dass der p-Wert größer als Ihr gewähltes Signifikanzniveau (α) ist. Welche Schlussfolgerung ist am angemessensten?

<p>Es gibt keine ausreichende Evidenz, um die Nullhypothese zu verwerfen. (A)</p> Signup and view all the answers

Welche Aussage über den α-Fehler (Typ-I-Fehler) ist korrekt?

<p>Er ist die Wahrscheinlichkeit, eine korrekte Nullhypothese fälschlicherweise zu verwerfen. (B)</p> Signup and view all the answers

Welchen Zweck erfüllt die Zentrierung von Daten im Rahmen der Hypothesenanalyse primär?

<p>Den Mittelwert der Daten auf Null zu setzen, ohne die Intervalle zwischen den Werten zu verändern. (B)</p> Signup and view all the answers

Welche Aussage beschreibt am besten den Unterschied zwischen einer zentrierten und einer standardisierten Variable?

<p>Eine zentrierte Variable behält die ursprüngliche Skala bei, während eine standardisierte Variable auf eine Skala mit Mittelwert 0 und Standardabweichung 1 transformiert wird. (C)</p> Signup and view all the answers

Flashcards

Transformation (Metriken)

Übertragung von Variablenmetriken in eine andere Metrik.

Verschiebung (Transformation)

Verschiebt alle Werte um einen konstanten Wert (z.B. Xneu = X + 5).

Zentrierung

Neuer Mittelwert = 0. Die Metrik/Intervalle bleiben gleich.

Standardisierung

Neuer Mittelwert = 0, Standardabweichung = 1 (auch z-Transformation).

Signup and view all the flashcards

Hypothese

Dient dazu, Annahmen auszudrücken und testbar zu machen.

Signup and view all the flashcards

Nullhypothese (H0)

Die Standardannahme/das Standardwissen, das widerlegt werden soll.

Signup and view all the flashcards

Alternativhypothese

Das Gegenteil der Nullhypothese, die Forschungshypothese.

Signup and view all the flashcards

Allgemeine Nullhypothese

Es gibt keinen Unterschied zwischen den Verteilungen und somit keinen signifikanten Einfluss von UV auf AV.

Signup and view all the flashcards

Alternativhypothese (H1)

Die Hypothese, die man annimmt, wenn die Nullhypothese verworfen wird. Sie besagt oft, dass es einen Effekt oder einen Zusammenhang gibt.

Signup and view all the flashcards

p-Wert (α-Fehler)

Ein Wert, der die Wahrscheinlichkeit angibt, dass die Nullhypothese verworfen wird, obwohl sie in Wirklichkeit richtig ist.

Signup and view all the flashcards

Statistische Signifikanz

Ein Ergebnis wird als statistisch signifikant betrachtet, wenn der p-Wert kleiner als ein vorgegebenes Signifikanzniveau (oft 0,05) ist.

Signup and view all the flashcards

Chi-Quadrat-Test

Ein statistischer Test, um zu prüfen, ob zwei kategoriale Variablen unabhängig voneinander sind.

Signup and view all the flashcards

H0 beim Chi-Quadrat-Test

Die Annahme, dass zwei Variablen keinen Zusammenhang haben.

Signup and view all the flashcards

H1 beim Chi-Quadrat-Test

Die Annahme, dass zwei Variablen einen Zusammenhang haben.

Signup and view all the flashcards

Beispiel für H1

Die Einführung eines neuen Verkaufstrainings steigert den Umsatz.

Signup and view all the flashcards

Explorative Datenanalyse (EDA)

Eine Reihe von Handlungen, die darauf abzielen, einen Datensatz zu erforschen, zu verstehen und zu beschreiben.

Signup and view all the flashcards

Datenvisualisierung

Visuelle Darstellung von Daten (z.B. Histogramm, Balkendiagramm, Streudiagramm).

Signup and view all the flashcards

Deskriptive Statistiken

Berechnung von Kennzahlen zur Beschreibung von Variablen und deren Beziehungen (z.B. Mittelwert, Median, Standardabweichung).

Signup and view all the flashcards

Datenbereinigung

Identifizieren von Fehlern und Inkonsistenzen in Datensätzen.

Signup and view all the flashcards

Verstehen der Stichprobe

Gewinnen von Einblicken in die Eigenschaften und Verteilung der Daten in einer Stichprobe.

Signup and view all the flashcards

Schätzung der Populationsparameter

Schätzung von Parametern der Grundgesamtheit basierend auf Stichprobendaten.

Signup and view all the flashcards

Stichprobenstatistik

Eigenschaften einer Stichprobe (z.B. Stichprobenmittelwert).

Signup and view all the flashcards

Populationsparameter

Werte, die die Population beschreiben. Werden oft mit griechischen Buchstaben symbolisiert.

Signup and view all the flashcards

Vergleich von Verteilungen

Analyse von Unterschieden zwischen Verteilungen, um Zusammenhänge zu erkennen.

Signup and view all the flashcards

Statistische Tests

Statistische Tests helfen, Unterschiede in Datensätzen detailliert zu analysieren.

Signup and view all the flashcards

Hypothesentest

Methode, um Annahmen zu formulieren und diese überprüfbar zu machen.

Signup and view all the flashcards

Standardisierung (z-Skala)

Anpassung, sodass Mittelwert 0 und Standardabweichung 1 sind.

Signup and view all the flashcards

Chi-Quadrat-Test (χ²)

Ein Test, um zu prüfen, ob zwei kategoriale Variablen unabhängig sind.

Signup and view all the flashcards

Study Notes

  • Die Vorlesung behandelt Datentechniken und wird von Prof. Dr. Marius Wehner gehalten.
  • Die Vorlesung findet am Lehrstuhl für BWL, insb. Digital Management & Digital Work statt.

Lernziele

  • Verschiedene Ansätze der deskriptiven Analyse lassen sich erklären und anwenden.
  • Der Unterschied zwischen univariater und bivariater Analyse wird erklärt und angewendet.
  • Mögliche Transformationen von Variablen können beschrieben werden.
  • Der Unterschied zwischen univariater und multipler linearer Regression lässt sich erläutern.
  • Der Output einer Regressionsanalyse kann erzeugt und erklärt werden.

Explorative Datenanalyse

  • Umfasst Handlungen zum Erforschen, Verstehen und Beschreiben eines Datensatzes.
  • Datenvisualisierung ist ein wichtiges Werkzeug (Histogramme, Balkendiagramme, Boxplots, Streudiagramme).
  • Deskriptive Statistiken beschreiben die Daten, z. B. Anzahl/Häufigkeiten von Werten.
  • Berechnung von Statistiken beschreibt Variablen und ihre Zusammenhänge (Mittelwert, Median, Standardabweichung, Korrelation).

Ziele der explorativen Datenanalyse

  • Datenbereinigung erkennt Fehler in Datensätzen.
  • Eine weitere Funktion ist es die Stichprobe zu verstehen, z.B. Durchschnittseinkommen oder Geschlechterverteilung.
  • Populationsparameter werden geschätzt aus Stichprobenstatistiken.
  • Stichprobenstatistiken werden in der Regel mit lateinischen Buchstaben (x, s, s², r, B) angegeben.
  • Populationsparameter werden mit griechischen Buchstaben (μ, σ, σ², ρ, β) symbolisiert.
  • Beispiel: Mittelwert einer Stichprobe von 300 Studenten in Intelligenz ist x̄ = 105.
  • Die Frage ist, was der beste Schätzwert für die Population aller Studenten ist.

Klassen von Prozeduren

  • Neben Visualisierung und deskriptiver Statistik unterscheidet man:
  • Fokus auf EINE Variable (univariat) vs. Fokus auf ZWEI Variablen (bivariat).
  • Univariate deskriptive Statistik umfasst Häufigkeiten, Min/Max, Mittelwert/Median, Standardabweichung/Varianz.
  • Bivariate Statistik analysiert Anzahl Kombinationen (Kreuztabellen) und Zusammenhänge (Korrelationen, Kovarianz).
  • Univariate Visualisierung umfasst Histogramme, Balkendiagramme, Boxplots, Liniendiagramme.
  • Bivariate Visualisierung umfasst Streudiagramme (zwei quantitative Variablen) und Balken- sowie Boxplots (zwischen Gruppen).

Häufigkeiten

  • Häufigkeiten sind der erste Schritt in jeder Datenanalyse und zeigen die Verteilung der Werte.
  • Sie sind nützlich zum Kennenlernen der Daten und zur Datenbereinigung.
  • Nur sinnvoll bei einer moderaten Anzahl von Werten
  • Alternativ: Histogramm/Barplot/Boxplot
  • Beispiel: Antworten auf die Frage "Einsatz von externen Dienstleistern zum Personalabbau" auf einer Skala von 0 bis 4.

Häufigkeitsverteilung: Normalverteilung

  • Im Idealfall sind die Daten symmetrisch um den Mittelpunkt aller Werte verteilt.
  • Bei einer Normalverteilung ist die Schiefe = 0 und die Kurtosis =3.
  • Arithmetisches Mittel ≈ Median ≈ Modus (Fechnersche Lageregel).

Häufigkeitsverteilung: Schiefe

  • Charakteristisch ist die fehlende Symmetrie, welche zu nicht-normalverteilten Residuen führen kann.
  • Ein Indikator für nicht-lineare Beziehungen ist die fehlende Symmetrie.
  • Die Pearson'sche Schiefe berechnet sich aus (X̄ - Modus) / SD.
  • Positiv (Rechtschiefe): Verteilung nach rechts verzerrt, Modus < Median < arithm. Mittel.
  • Negativ (Linksschiefe): Verteilung nach links verzerrt, arithm. Mittel < Median < Modus.
  • Bei einer extrem schiefen Verteilung stellt sich die Frage, welchen Schätzwert man bevorzugen sollte.

Häufigkeitsverteilung: Kurtosis

  • Fokus liegt auf der "Wölbung" der Verteilung, der Spannweite der Variablen, und dem Ausmaß der Unterschiede innerhalb der Verteilung.
  • Zusätzlich wird die Reichweite (Abstand von Minimum und Maximum) betrachtet.
  • Flach= Platykurtische Verteilung („Platy" ≈ breit)
  • Steil = Leptokurtische Verteilung („Lepto" ≈ dünn)

Maß der Zentralität: Median

  • Bei ungerader Anzahl ist der Median der mittlere Wert eines sortierten Datensatzes.
  • Bei gerader Anzahl ist der Median der Mittelwert der zwei mittleren Werte eines sortierten Datensatzes.

Univariate Analyse: Grafische Illustration

  • Häufigkeiten und Boxplots visualisieren numerische Daten und decken Datenverteilungen bzw. Ausreißer auf.
  • Boxplots zeigen Interquartilsabstand (50% der Fälle), Median sowie obere/untere Quartile.
  • Ausreißer liegen außerhalb des 1.5-fachen Interquartilsabstands.

Bivariate Analyse: Kreuztabelle

  • Ziel ist es, Beziehungen zwischen zwei qualitativen/kategorialen Variablen zu untersuchen.
  • Kreuztabellen bilden die Kreuzung von zwei Variablen ab (z.B. Anzahl Stockwerke und Schlafzimmer).

Bivariate Analyse: Vergleiche von Verteilungen zwischen Gruppe

  • Ziel: Unterscheidet sich die Verteilung / Form / Lage/ Varianz zwischen verschiedenen Gruppen?
  • Beispiel: Vergleich von Kundenaggressionen zwischen männlichen und weiblichen Servicekräften.
  • Männer haben tendenziell ein etwas höheres Niveau der wahrgenommenen Kundenaggression als Frauen.
  • Die Verwendung von Boxplots ist nur ein Beispiel, prinzipiell können alle Darstellungsarten verwendet werden.

Bivariate Analysen: Mittelwertunterschiede

  • Mittelwertunterschied zwischen Geschlecht und Kundenaggression.
  • Die Differenz der Stichprobenmittelwerte ist nur ein Punktwert.
  • Ein statistischer Unterschiedstest (t-Test) wird angewendet um zu prüfen, ob das Ergebnis zufällig ist.
  • Beispiel: X̄male - X̄female = 0.14, p = 0.27 (→ nicht signifikant von Null verschieden).

Bivariate Analysen: Korrelationen und Streudiagramme

  • Grad der linearen Zusammenhänge zwischen intervallskalierten Variablen.
  • Positive Korrelation: Ein hohes X steht im Zusammenhang mit einem hohen Y.
  • Negative Korrelation: Ein hohes X steht im Zusammenhang mit einem niedrigen Y.
  • Streudiagramme geben Auskunft über Stärke der Beziehung, Vorhandensein von Ausreißern, Moderatoren und Potenzielle Nicht-Linearität.

Transformationen

  • Metriken von Variablen können in eine andere Metrik übertragen werden (z. B. Xneu = X + 5).
  • Eine wichtige Klasse sind Normalisierungen wie Zentrierung (Xc = Xi – X) bzw Standardisierung Xs = Xi-X/SX.
  • Der neue Mittelwert ist dann 0 ; Metrik /Intervalle bleiben gleich
  • Durch Standardisierung ist die Standardabweichung = 1. wird häufig auch als z Transformations bezeichnet.
  • Bekannte Transformationen sind x²; √X; In X; Winsorizing

Verteilungen und Hypothesentests

  • Oft müssen verschiedene Verteilungen miteinander verglichen werden, um Erkenntnisse abzuleiten.
  • Hypothesentest Schritt 1: Formulierung einer Hypothese, um Annahmen auszudrücken und testbar zu machen.
  • Die Standardannahme/ das Standardwissen = Nullhypothese.
  • Das Gegenteil der Nullhypothese = Alternativhypothese.
  • Hypothesentest Schritt 2: Durchführung statistischer Tests, um die Nullhypothese zu widerlegen.
  • Wahrscheinlichkeitswert (p-Wert) wird mit einem Signifikanzniveau verglichen.
  • Generelle Übereinkunft: Wenn die gefundene α-Fehler-Wahrscheinlichkeit kleiner als 5% ist (p < 0.05), wird von einem statistisch signifikanten Ergebnis gesprochen.

Chi-Quadrat Unabhängigkeitstest

  • Chi-Quadrat-Test (χ²) prüft die Beziehung zwischen Anzahl der Stockwerke und Schlafzimmer.
  • Ho: Die Verteilung zweier kategorialer/nominaler Variablen ist unabhängig voneinander.
  • H₁: Die Verteilung zweier kategorialer/nominaler Variablen ist abhängig voneinander.
  • Geprüft wird die tatsächliche und die erwartete Verteilung
  • Es wird ein X² Test berechnet.

Aufbau einer linearen Regression

  • y = β0 + β1 * x1 + ε
  • y ist die abhängige Variable, die durch x (unabhängige Variable) vorhergesagt werden soll.
  • Beispiel: Klausurnote ist abhängig von der Anzahl der Lernstunden pro Woche.
  • Klausurnote = y
  • Lernstunden = x
  • Β0 = Schnittpunkt der Geraden mit der Y-Achse.
  • B₁ = Steigung der Geraden, Regressionskoeffizient.
  • ε = Störterm/Fehlerterm.

Lineare Regression

  • Am häufigsten genutzt in der Datenanalyse.
  • Nimmt eine lineare Beziehung an.
  • Beispiel: Klausurnote = B0 + B1 * Lernstunden.

Beispiel: Housing_Data

  • Lineare Regression zwischen Stockwerken und dem Preis
  • Y = Preis in €
  • X = Stockwerke (Anzahl)
  • Ergebnis: Y-Achsenabschnitt: 2.849.289,76
  • Koeffizient: 835.747,84
  • R^2= 0.1839

Beispiel: Housing_Data

  • Lineare Regression zwischen der Fläche der Häuser (in qm2) und dem Preis in €
  • Y = Preis in €
  • X = Fläche in qm2
  • Ergebnis: Y-Achsenabschnitt: 2.257.653,21 -Koeffizient: 4.395,85 -R^2= 0.2736

Regression: Multiple lineare Regression

  • Nimmt eine Beziehung zwischen mehreren unabhängigen Variablen und einer abhägien Variable an
  • Bsp. die die Lernstunden und die Anzahl der Tutoriumsbesuche, haben einfluss auf die Klausur note
  • Klausurnote = Bo + B₁ * Lernstunden + B2 * Tutoriumsbesuche
  • Es werden mehrere unabhängige Variablen genutzt
    • x₁= Lernstunden pro Woche
    • x2= Tutoriumsbesuche

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

More Like This

Data Science Essentials Quiz
5 questions

Data Science Essentials Quiz

ConscientiousCoralReef avatar
ConscientiousCoralReef
Introduction to Data Science
5 questions

Introduction to Data Science

InspiringPhotorealism avatar
InspiringPhotorealism
Data Science - Foliensatz 6
32 questions

Data Science - Foliensatz 6

VibrantTranscendental avatar
VibrantTranscendental
Use Quizgecko on...
Browser
Browser