Podcast
Questions and Answers
Was ist der Hauptunterschied zwischen Zentrierung und Standardisierung in Bezug auf die Transformation von Daten?
Was ist der Hauptunterschied zwischen Zentrierung und Standardisierung in Bezug auf die Transformation von Daten?
- Zentrierung ist nur für normalverteilte Daten geeignet, Standardisierung jedoch nicht.
- Zentrierung verschiebt den Mittelwert auf 1, während Standardisierung den Mittelwert auf 0 setzt.
- Zentrierung verändert die Standardabweichung, Standardisierung hingegen nicht.
- Zentrierung verschiebt den Mittelwert auf 0, während Standardisierung die Standardabweichung auf 1 setzt. (correct)
Welche Aussage beschreibt am besten den Zweck eines Hypothesentests?
Welche Aussage beschreibt am besten den Zweck eines Hypothesentests?
- Die absolute Wahrheit einer wissenschaftlichen Theorie zu beweisen.
- Die Größe eines Effekts zwischen zwei Variablen präzise zu messen.
- Eine Stichprobe so zu verändern, dass sie besser zur Grundgesamtheit passt.
- Zu bestimmen, wie wahrscheinlich es ist, dass ein beobachteter Effekt zufällig aufgetreten ist. (correct)
Was repräsentiert die Nullhypothese (H0) in einem Hypothesentest?
Was repräsentiert die Nullhypothese (H0) in einem Hypothesentest?
- Die experimentell nachzuweisende Theorie.
- Die Annahme, dass kein Effekt oder Unterschied vorhanden ist. (correct)
- Eine Hypothese, die bereits bewiesen wurde.
- Das Gegenteil der Alternativhypothese.
Angenommen, Sie führen einen Hypothesentest durch und erhalten einen p-Wert von 0.03. Bei einem Signifikanzniveau von 0.05, welche Schlussfolgerung ziehen Sie?
Angenommen, Sie führen einen Hypothesentest durch und erhalten einen p-Wert von 0.03. Bei einem Signifikanzniveau von 0.05, welche Schlussfolgerung ziehen Sie?
In welchem Szenario wäre die Anwendung einer logarithmischen Transformation (ln X) auf Ihre Daten am sinnvollsten?
In welchem Szenario wäre die Anwendung einer logarithmischen Transformation (ln X) auf Ihre Daten am sinnvollsten?
Sie vergleichen die Umsätze zweier Filialen eines Unternehmens und möchten feststellen, ob es einen signifikanten Unterschied gibt. Welchen statistischen Test würden Sie nicht verwenden, wenn die Daten nicht normalverteilt sind und kleine Stichprobengrößen vorliegen?
Sie vergleichen die Umsätze zweier Filialen eines Unternehmens und möchten feststellen, ob es einen signifikanten Unterschied gibt. Welchen statistischen Test würden Sie nicht verwenden, wenn die Daten nicht normalverteilt sind und kleine Stichprobengrößen vorliegen?
Welche Aussage beschreibt am besten das Hauptziel der explorativen Datenanalyse (EDA)?
Welche Aussage beschreibt am besten das Hauptziel der explorativen Datenanalyse (EDA)?
Welches der folgenden Elemente ist KEIN typisches Werkzeug oder Methode der explorativen Datenanalyse?
Welches der folgenden Elemente ist KEIN typisches Werkzeug oder Methode der explorativen Datenanalyse?
Warum ist die Datenbereinigung ein wichtiger Schritt im Rahmen der explorativen Datenanalyse?
Warum ist die Datenbereinigung ein wichtiger Schritt im Rahmen der explorativen Datenanalyse?
Was ist der Hauptunterschied zwischen einer Stichprobenstatistik und einem Populationsparameter?
Was ist der Hauptunterschied zwischen einer Stichprobenstatistik und einem Populationsparameter?
Welche Aussage stimmt NICHT bezüglich der Verwendung von deskriptiven Statistiken und Visualisierungen in der explorativen Datenanalyse?
Welche Aussage stimmt NICHT bezüglich der Verwendung von deskriptiven Statistiken und Visualisierungen in der explorativen Datenanalyse?
Wie können Histogramme und Boxplots in der explorativen Datenanalyse eingesetzt werden?
Wie können Histogramme und Boxplots in der explorativen Datenanalyse eingesetzt werden?
Angenommen, Sie führen eine explorative Datenanalyse eines Datensatzes mit Kundendaten durch und stellen fest, dass ein signifikanter Teil der Einkommenswerte fehlt. Welche der folgenden Vorgehensweisen wäre am wahrscheinlichsten ein sinnvoller nächster Schritt?
Angenommen, Sie führen eine explorative Datenanalyse eines Datensatzes mit Kundendaten durch und stellen fest, dass ein signifikanter Teil der Einkommenswerte fehlt. Welche der folgenden Vorgehensweisen wäre am wahrscheinlichsten ein sinnvoller nächster Schritt?
In einer explorativen Datenanalyse stellen Sie fest, dass es eine starke positive Korrelation zwischen zwei Variablen gibt. Was bedeutet das im Wesentlichen?
In einer explorativen Datenanalyse stellen Sie fest, dass es eine starke positive Korrelation zwischen zwei Variablen gibt. Was bedeutet das im Wesentlichen?
Welche der folgenden Aussagen beschreibt am besten den α-Fehler (p-Wert) im Kontext von Hypothesentests?
Welche der folgenden Aussagen beschreibt am besten den α-Fehler (p-Wert) im Kontext von Hypothesentests?
Wenn ein statistischer Test einen p-Wert von 0,03 ergibt, welche Schlussfolgerung kann basierend auf der generellen Übereinkunft (p < 0.05) gezogen werden?
Wenn ein statistischer Test einen p-Wert von 0,03 ergibt, welche Schlussfolgerung kann basierend auf der generellen Übereinkunft (p < 0.05) gezogen werden?
Was ist das Ziel eines Hypothesentests?
Was ist das Ziel eines Hypothesentests?
Welche der folgenden Hypothesenpaare ist ein korrektes Beispiel für eine Nullhypothese (H0) und eine Alternativhypothese (H1)?
Welche der folgenden Hypothesenpaare ist ein korrektes Beispiel für eine Nullhypothese (H0) und eine Alternativhypothese (H1)?
Was impliziert die Ablehnung der Nullhypothese (H0) in einem Hypothesentest?
Was impliziert die Ablehnung der Nullhypothese (H0) in einem Hypothesentest?
Ein Forscher möchte testen, ob eine neue Lehrmethode die Testergebnisse von Studierenden verbessert. Welche Art von Hypothese wäre am angemessensten?
Ein Forscher möchte testen, ob eine neue Lehrmethode die Testergebnisse von Studierenden verbessert. Welche Art von Hypothese wäre am angemessensten?
Für welchen Zweck wird der Chi-Quadrat-Unabhängigkeitstest hauptsächlich verwendet?
Für welchen Zweck wird der Chi-Quadrat-Unabhängigkeitstest hauptsächlich verwendet?
Welche der folgenden Aussagen beschreibt am besten die Interpretation eines p-Wertes von 0.01 in einem Hypothesentest?
Welche der folgenden Aussagen beschreibt am besten die Interpretation eines p-Wertes von 0.01 in einem Hypothesentest?
Angenommen, Sie führen einen Hypothesentest durch und stellen fest, dass der p-Wert größer als Ihr gewähltes Signifikanzniveau (α) ist. Welche Schlussfolgerung ist am angemessensten?
Angenommen, Sie führen einen Hypothesentest durch und stellen fest, dass der p-Wert größer als Ihr gewähltes Signifikanzniveau (α) ist. Welche Schlussfolgerung ist am angemessensten?
Welche Aussage über den α-Fehler (Typ-I-Fehler) ist korrekt?
Welche Aussage über den α-Fehler (Typ-I-Fehler) ist korrekt?
Welchen Zweck erfüllt die Zentrierung von Daten im Rahmen der Hypothesenanalyse primär?
Welchen Zweck erfüllt die Zentrierung von Daten im Rahmen der Hypothesenanalyse primär?
Welche Aussage beschreibt am besten den Unterschied zwischen einer zentrierten und einer standardisierten Variable?
Welche Aussage beschreibt am besten den Unterschied zwischen einer zentrierten und einer standardisierten Variable?
Flashcards
Transformation (Metriken)
Transformation (Metriken)
Übertragung von Variablenmetriken in eine andere Metrik.
Verschiebung (Transformation)
Verschiebung (Transformation)
Verschiebt alle Werte um einen konstanten Wert (z.B. Xneu = X + 5).
Zentrierung
Zentrierung
Neuer Mittelwert = 0. Die Metrik/Intervalle bleiben gleich.
Standardisierung
Standardisierung
Signup and view all the flashcards
Hypothese
Hypothese
Signup and view all the flashcards
Nullhypothese (H0)
Nullhypothese (H0)
Signup and view all the flashcards
Alternativhypothese
Alternativhypothese
Signup and view all the flashcards
Allgemeine Nullhypothese
Allgemeine Nullhypothese
Signup and view all the flashcards
Alternativhypothese (H1)
Alternativhypothese (H1)
Signup and view all the flashcards
p-Wert (α-Fehler)
p-Wert (α-Fehler)
Signup and view all the flashcards
Statistische Signifikanz
Statistische Signifikanz
Signup and view all the flashcards
Chi-Quadrat-Test
Chi-Quadrat-Test
Signup and view all the flashcards
H0 beim Chi-Quadrat-Test
H0 beim Chi-Quadrat-Test
Signup and view all the flashcards
H1 beim Chi-Quadrat-Test
H1 beim Chi-Quadrat-Test
Signup and view all the flashcards
Beispiel für H1
Beispiel für H1
Signup and view all the flashcards
Explorative Datenanalyse (EDA)
Explorative Datenanalyse (EDA)
Signup and view all the flashcards
Datenvisualisierung
Datenvisualisierung
Signup and view all the flashcards
Deskriptive Statistiken
Deskriptive Statistiken
Signup and view all the flashcards
Datenbereinigung
Datenbereinigung
Signup and view all the flashcards
Verstehen der Stichprobe
Verstehen der Stichprobe
Signup and view all the flashcards
Schätzung der Populationsparameter
Schätzung der Populationsparameter
Signup and view all the flashcards
Stichprobenstatistik
Stichprobenstatistik
Signup and view all the flashcards
Populationsparameter
Populationsparameter
Signup and view all the flashcards
Vergleich von Verteilungen
Vergleich von Verteilungen
Signup and view all the flashcards
Statistische Tests
Statistische Tests
Signup and view all the flashcards
Hypothesentest
Hypothesentest
Signup and view all the flashcards
Standardisierung (z-Skala)
Standardisierung (z-Skala)
Signup and view all the flashcards
Chi-Quadrat-Test (χ²)
Chi-Quadrat-Test (χ²)
Signup and view all the flashcards
Study Notes
- Die Vorlesung behandelt Datentechniken und wird von Prof. Dr. Marius Wehner gehalten.
- Die Vorlesung findet am Lehrstuhl für BWL, insb. Digital Management & Digital Work statt.
Lernziele
- Verschiedene Ansätze der deskriptiven Analyse lassen sich erklären und anwenden.
- Der Unterschied zwischen univariater und bivariater Analyse wird erklärt und angewendet.
- Mögliche Transformationen von Variablen können beschrieben werden.
- Der Unterschied zwischen univariater und multipler linearer Regression lässt sich erläutern.
- Der Output einer Regressionsanalyse kann erzeugt und erklärt werden.
Explorative Datenanalyse
- Umfasst Handlungen zum Erforschen, Verstehen und Beschreiben eines Datensatzes.
- Datenvisualisierung ist ein wichtiges Werkzeug (Histogramme, Balkendiagramme, Boxplots, Streudiagramme).
- Deskriptive Statistiken beschreiben die Daten, z. B. Anzahl/Häufigkeiten von Werten.
- Berechnung von Statistiken beschreibt Variablen und ihre Zusammenhänge (Mittelwert, Median, Standardabweichung, Korrelation).
Ziele der explorativen Datenanalyse
- Datenbereinigung erkennt Fehler in Datensätzen.
- Eine weitere Funktion ist es die Stichprobe zu verstehen, z.B. Durchschnittseinkommen oder Geschlechterverteilung.
- Populationsparameter werden geschätzt aus Stichprobenstatistiken.
- Stichprobenstatistiken werden in der Regel mit lateinischen Buchstaben (x, s, s², r, B) angegeben.
- Populationsparameter werden mit griechischen Buchstaben (μ, σ, σ², ρ, β) symbolisiert.
- Beispiel: Mittelwert einer Stichprobe von 300 Studenten in Intelligenz ist x̄ = 105.
- Die Frage ist, was der beste Schätzwert für die Population aller Studenten ist.
Klassen von Prozeduren
- Neben Visualisierung und deskriptiver Statistik unterscheidet man:
- Fokus auf EINE Variable (univariat) vs. Fokus auf ZWEI Variablen (bivariat).
- Univariate deskriptive Statistik umfasst Häufigkeiten, Min/Max, Mittelwert/Median, Standardabweichung/Varianz.
- Bivariate Statistik analysiert Anzahl Kombinationen (Kreuztabellen) und Zusammenhänge (Korrelationen, Kovarianz).
- Univariate Visualisierung umfasst Histogramme, Balkendiagramme, Boxplots, Liniendiagramme.
- Bivariate Visualisierung umfasst Streudiagramme (zwei quantitative Variablen) und Balken- sowie Boxplots (zwischen Gruppen).
Häufigkeiten
- Häufigkeiten sind der erste Schritt in jeder Datenanalyse und zeigen die Verteilung der Werte.
- Sie sind nützlich zum Kennenlernen der Daten und zur Datenbereinigung.
- Nur sinnvoll bei einer moderaten Anzahl von Werten
- Alternativ: Histogramm/Barplot/Boxplot
- Beispiel: Antworten auf die Frage "Einsatz von externen Dienstleistern zum Personalabbau" auf einer Skala von 0 bis 4.
Häufigkeitsverteilung: Normalverteilung
- Im Idealfall sind die Daten symmetrisch um den Mittelpunkt aller Werte verteilt.
- Bei einer Normalverteilung ist die Schiefe = 0 und die Kurtosis =3.
- Arithmetisches Mittel ≈ Median ≈ Modus (Fechnersche Lageregel).
Häufigkeitsverteilung: Schiefe
- Charakteristisch ist die fehlende Symmetrie, welche zu nicht-normalverteilten Residuen führen kann.
- Ein Indikator für nicht-lineare Beziehungen ist die fehlende Symmetrie.
- Die Pearson'sche Schiefe berechnet sich aus (X̄ - Modus) / SD.
- Positiv (Rechtschiefe): Verteilung nach rechts verzerrt, Modus < Median < arithm. Mittel.
- Negativ (Linksschiefe): Verteilung nach links verzerrt, arithm. Mittel < Median < Modus.
- Bei einer extrem schiefen Verteilung stellt sich die Frage, welchen Schätzwert man bevorzugen sollte.
Häufigkeitsverteilung: Kurtosis
- Fokus liegt auf der "Wölbung" der Verteilung, der Spannweite der Variablen, und dem Ausmaß der Unterschiede innerhalb der Verteilung.
- Zusätzlich wird die Reichweite (Abstand von Minimum und Maximum) betrachtet.
- Flach= Platykurtische Verteilung („Platy" ≈ breit)
- Steil = Leptokurtische Verteilung („Lepto" ≈ dünn)
Maß der Zentralität: Median
- Bei ungerader Anzahl ist der Median der mittlere Wert eines sortierten Datensatzes.
- Bei gerader Anzahl ist der Median der Mittelwert der zwei mittleren Werte eines sortierten Datensatzes.
Univariate Analyse: Grafische Illustration
- Häufigkeiten und Boxplots visualisieren numerische Daten und decken Datenverteilungen bzw. Ausreißer auf.
- Boxplots zeigen Interquartilsabstand (50% der Fälle), Median sowie obere/untere Quartile.
- Ausreißer liegen außerhalb des 1.5-fachen Interquartilsabstands.
Bivariate Analyse: Kreuztabelle
- Ziel ist es, Beziehungen zwischen zwei qualitativen/kategorialen Variablen zu untersuchen.
- Kreuztabellen bilden die Kreuzung von zwei Variablen ab (z.B. Anzahl Stockwerke und Schlafzimmer).
Bivariate Analyse: Vergleiche von Verteilungen zwischen Gruppe
- Ziel: Unterscheidet sich die Verteilung / Form / Lage/ Varianz zwischen verschiedenen Gruppen?
- Beispiel: Vergleich von Kundenaggressionen zwischen männlichen und weiblichen Servicekräften.
- Männer haben tendenziell ein etwas höheres Niveau der wahrgenommenen Kundenaggression als Frauen.
- Die Verwendung von Boxplots ist nur ein Beispiel, prinzipiell können alle Darstellungsarten verwendet werden.
Bivariate Analysen: Mittelwertunterschiede
- Mittelwertunterschied zwischen Geschlecht und Kundenaggression.
- Die Differenz der Stichprobenmittelwerte ist nur ein Punktwert.
- Ein statistischer Unterschiedstest (t-Test) wird angewendet um zu prüfen, ob das Ergebnis zufällig ist.
- Beispiel: X̄male - X̄female = 0.14, p = 0.27 (→ nicht signifikant von Null verschieden).
Bivariate Analysen: Korrelationen und Streudiagramme
- Grad der linearen Zusammenhänge zwischen intervallskalierten Variablen.
- Positive Korrelation: Ein hohes X steht im Zusammenhang mit einem hohen Y.
- Negative Korrelation: Ein hohes X steht im Zusammenhang mit einem niedrigen Y.
- Streudiagramme geben Auskunft über Stärke der Beziehung, Vorhandensein von Ausreißern, Moderatoren und Potenzielle Nicht-Linearität.
Transformationen
- Metriken von Variablen können in eine andere Metrik übertragen werden (z. B. Xneu = X + 5).
- Eine wichtige Klasse sind Normalisierungen wie Zentrierung (Xc = Xi – X) bzw Standardisierung Xs = Xi-X/SX.
- Der neue Mittelwert ist dann 0 ; Metrik /Intervalle bleiben gleich
- Durch Standardisierung ist die Standardabweichung = 1. wird häufig auch als z Transformations bezeichnet.
- Bekannte Transformationen sind x²; √X; In X; Winsorizing
Verteilungen und Hypothesentests
- Oft müssen verschiedene Verteilungen miteinander verglichen werden, um Erkenntnisse abzuleiten.
- Hypothesentest Schritt 1: Formulierung einer Hypothese, um Annahmen auszudrücken und testbar zu machen.
- Die Standardannahme/ das Standardwissen = Nullhypothese.
- Das Gegenteil der Nullhypothese = Alternativhypothese.
- Hypothesentest Schritt 2: Durchführung statistischer Tests, um die Nullhypothese zu widerlegen.
- Wahrscheinlichkeitswert (p-Wert) wird mit einem Signifikanzniveau verglichen.
- Generelle Übereinkunft: Wenn die gefundene α-Fehler-Wahrscheinlichkeit kleiner als 5% ist (p < 0.05), wird von einem statistisch signifikanten Ergebnis gesprochen.
Chi-Quadrat Unabhängigkeitstest
- Chi-Quadrat-Test (χ²) prüft die Beziehung zwischen Anzahl der Stockwerke und Schlafzimmer.
- Ho: Die Verteilung zweier kategorialer/nominaler Variablen ist unabhängig voneinander.
- H₁: Die Verteilung zweier kategorialer/nominaler Variablen ist abhängig voneinander.
- Geprüft wird die tatsächliche und die erwartete Verteilung
- Es wird ein X² Test berechnet.
Aufbau einer linearen Regression
- y = β0 + β1 * x1 + ε
- y ist die abhängige Variable, die durch x (unabhängige Variable) vorhergesagt werden soll.
- Beispiel: Klausurnote ist abhängig von der Anzahl der Lernstunden pro Woche.
- Klausurnote = y
- Lernstunden = x
- Β0 = Schnittpunkt der Geraden mit der Y-Achse.
- B₁ = Steigung der Geraden, Regressionskoeffizient.
- ε = Störterm/Fehlerterm.
Lineare Regression
- Am häufigsten genutzt in der Datenanalyse.
- Nimmt eine lineare Beziehung an.
- Beispiel: Klausurnote = B0 + B1 * Lernstunden.
Beispiel: Housing_Data
- Lineare Regression zwischen Stockwerken und dem Preis
- Y = Preis in €
- X = Stockwerke (Anzahl)
- Ergebnis: Y-Achsenabschnitt: 2.849.289,76
- Koeffizient: 835.747,84
- R^2= 0.1839
Beispiel: Housing_Data
- Lineare Regression zwischen der Fläche der Häuser (in qm2) und dem Preis in €
- Y = Preis in €
- X = Fläche in qm2
- Ergebnis: Y-Achsenabschnitt: 2.257.653,21 -Koeffizient: 4.395,85 -R^2= 0.2736
Regression: Multiple lineare Regression
- Nimmt eine Beziehung zwischen mehreren unabhängigen Variablen und einer abhägien Variable an
- Bsp. die die Lernstunden und die Anzahl der Tutoriumsbesuche, haben einfluss auf die Klausur note
- Klausurnote = Bo + B₁ * Lernstunden + B2 * Tutoriumsbesuche
- Es werden mehrere unabhängige Variablen genutzt
- x₁= Lernstunden pro Woche
- x2= Tutoriumsbesuche
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.