Podcast
Questions and Answers
Welches Modell wird in der Vorlesung am 05.11. behandelt?
Welches Modell wird in der Vorlesung am 05.11. behandelt?
- Multiple Regression
- Logistische Regression (correct)
- Zeitreihenanalyse
- Klassische Regression
Die Kategorien der Prädiktoren werden nur in der logistischen Regression verwendet.
Die Kategorien der Prädiktoren werden nur in der logistischen Regression verwendet.
False (B)
Nenne einen Typ von Modell, der in der Vorlesung am 19.11. diskutiert wird.
Nenne einen Typ von Modell, der in der Vorlesung am 19.11. diskutiert wird.
Liniertes Mischmodell (LMM)
Am 12.11. findet die Vorlesung über _____ statt.
Am 12.11. findet die Vorlesung über _____ statt.
Ordne den Vorlesungsthemen die entsprechenden Datenanalyse-Techniken zu:
Ordne den Vorlesungsthemen die entsprechenden Datenanalyse-Techniken zu:
Welches Thema wird am 21.01. behandelt?
Welches Thema wird am 21.01. behandelt?
Interaktionen zwischen Prädiktoren spielen in der logistischen Regression keine Rolle.
Interaktionen zwischen Prädiktoren spielen in der logistischen Regression keine Rolle.
Was ist ein Ziel der logistischen Regression?
Was ist ein Ziel der logistischen Regression?
Was stellt der Erwartungswert einer dichotomen Variable dar?
Was stellt der Erwartungswert einer dichotomen Variable dar?
Der Erwartungswert E(Wn | IQ = 8) bezieht sich auf die Auswirkung des IQ auf eine dichotome Variable.
Der Erwartungswert E(Wn | IQ = 8) bezieht sich auf die Auswirkung des IQ auf eine dichotome Variable.
Nennen Sie eine Verwendung der logistischen Regression.
Nennen Sie eine Verwendung der logistischen Regression.
Die Wahrscheinlichkeit einer dichotomen Variablen ist gleich dem ________ ihrer relativen Häufigkeit.
Die Wahrscheinlichkeit einer dichotomen Variablen ist gleich dem ________ ihrer relativen Häufigkeit.
Ordnen Sie die Begriffe den richtigen Definitionen zu:
Ordnen Sie die Begriffe den richtigen Definitionen zu:
Welche der folgenden Aussagen beschreibt am besten eine dichotome Variable?
Welche der folgenden Aussagen beschreibt am besten eine dichotome Variable?
Die Interpretation der Parameter einer logistischen Regression ist identisch mit der einer linearen Regression.
Die Interpretation der Parameter einer logistischen Regression ist identisch mit der einer linearen Regression.
Was bedeutet die Abkürzung ALM in statistischen Modellen?
Was bedeutet die Abkürzung ALM in statistischen Modellen?
Was bedeutet Homoskedastizität in einem statistischen Modell?
Was bedeutet Homoskedastizität in einem statistischen Modell?
Heteroskedastizität tritt auf, wenn die Varianz der Fehler konstant ist.
Heteroskedastizität tritt auf, wenn die Varianz der Fehler konstant ist.
Was sind die Auswirkungen von Heteroskedastizität auf die Güte der Signifikanztests?
Was sind die Auswirkungen von Heteroskedastizität auf die Güte der Signifikanztests?
Die Bedingung für Homoskedastizität ist, dass σ^2(X) = _____ ist.
Die Bedingung für Homoskedastizität ist, dass σ^2(X) = _____ ist.
Ordnen Sie die folgenden Begriffe den entsprechenden Definitionen zu:
Ordnen Sie die folgenden Begriffe den entsprechenden Definitionen zu:
Welches der folgenden Modelle ist ungeeignet, um den Einfluss von Prädiktoren auf ein dichotomes Kriterium zu untersuchen?
Welches der folgenden Modelle ist ungeeignet, um den Einfluss von Prädiktoren auf ein dichotomes Kriterium zu untersuchen?
Eine Simulation zeigte, dass die Ablehnungsquote der Nullhypothese unter Heteroskedastizität höher ist als unter Homoskedastizität.
Eine Simulation zeigte, dass die Ablehnungsquote der Nullhypothese unter Heteroskedastizität höher ist als unter Homoskedastizität.
Wie variiert die Varianz bei der Bedingung Heteroskedastizität?
Wie variiert die Varianz bei der Bedingung Heteroskedastizität?
Was beschreibt der beobachtete Wert einer Person j im ALM?
Was beschreibt der beobachtete Wert einer Person j im ALM?
Der bedingte Erwartungswert ist immer gleich 1.
Der bedingte Erwartungswert ist immer gleich 1.
Was ist das Symbol für den Fehler in der Gleichung Yn = E(Yn |X1n ,..., XP n ) + ✏n?
Was ist das Symbol für den Fehler in der Gleichung Yn = E(Yn |X1n ,..., XP n ) + ✏n?
Der bedingte Erwartungswert ist eine _____ .
Der bedingte Erwartungswert ist eine _____ .
Welche der folgenden Aussagen beschreibt am besten den Zusammenhang zwischen dem beobachteten Wert und dem bedingten Erwartungswert?
Welche der folgenden Aussagen beschreibt am besten den Zusammenhang zwischen dem beobachteten Wert und dem bedingten Erwartungswert?
Im ALM ist der bedingte Erwartungswert eine konstante Zahl.
Im ALM ist der bedingte Erwartungswert eine konstante Zahl.
Nennen Sie eine Anwendung des ALM in der Statistik.
Nennen Sie eine Anwendung des ALM in der Statistik.
In der Gleichung Yn = E(Yn |X1n ,..., XP n ) + ____ , stellt XP n die _____ dar.
In der Gleichung Yn = E(Yn |X1n ,..., XP n ) + ____ , stellt XP n die _____ dar.
Ordnen Sie die Begriffe den entsprechenden Bedeutungen zu:
Ordnen Sie die Begriffe den entsprechenden Bedeutungen zu:
Welche der folgenden Variablen wird im ALM typischerweise als Störfaktor bezeichnet?
Welche der folgenden Variablen wird im ALM typischerweise als Störfaktor bezeichnet?
Ein Fehler im ALM beeinflusst nie den bedingten Erwartungswert.
Ein Fehler im ALM beeinflusst nie den bedingten Erwartungswert.
Was bedeutet das Symbol Yn in der Gleichung Yn = E(Yn |X1n ,..., XP n ) + ✏n?
Was bedeutet das Symbol Yn in der Gleichung Yn = E(Yn |X1n ,..., XP n ) + ✏n?
Welche Annahme wird bei der logistischen Regression nicht getroffen?
Welche Annahme wird bei der logistischen Regression nicht getroffen?
Die logistische Regression kann nur bei linearen Datenmodellen angewendet werden.
Die logistische Regression kann nur bei linearen Datenmodellen angewendet werden.
Was bedeutet die Variable $Y_n$ in der logistischen Regression?
Was bedeutet die Variable $Y_n$ in der logistischen Regression?
Die logistische Regression nutzt eine _______ Funktion zur Modellierung der Daten.
Die logistische Regression nutzt eine _______ Funktion zur Modellierung der Daten.
Ordne die folgenden Begriffe den richtigen Definitionen zu:
Ordne die folgenden Begriffe den richtigen Definitionen zu:
Was ist eine Konsequenz, wenn die Normalverteilung und Homoskedastizität-Annahme nicht zutreffen?
Was ist eine Konsequenz, wenn die Normalverteilung und Homoskedastizität-Annahme nicht zutreffen?
Die logistische Regression erfordert, dass die Fehler normalverteilt sind.
Die logistische Regression erfordert, dass die Fehler normalverteilt sind.
Nenne eine Anwendung der logistischen Regression.
Nenne eine Anwendung der logistischen Regression.
Die logistische Regression wird häufig in der _______ verwendet, um binäre Outcomes vorherzusagen.
Die logistische Regression wird häufig in der _______ verwendet, um binäre Outcomes vorherzusagen.
Ordne die folgenden Begriffe den entsprechenden Beispielen zu:
Ordne die folgenden Begriffe den entsprechenden Beispielen zu:
Was stellt die Variable $X_{1n},..., X_{Pn}$ in der Gleichung dar?
Was stellt die Variable $X_{1n},..., X_{Pn}$ in der Gleichung dar?
Was sind die Nachteile einer logistischen Regression?
Was sind die Nachteile einer logistischen Regression?
Ein zentrales Konzept der logistischen Regression ist die _______-Funktion.
Ein zentrales Konzept der logistischen Regression ist die _______-Funktion.
In welchem Bereich wird logistische Regression häufig genutzt?
In welchem Bereich wird logistische Regression häufig genutzt?
Die logistische Regression ist nur für quantitative Daten geeignet.
Die logistische Regression ist nur für quantitative Daten geeignet.
Was repräsentiert $Y$ in der logistischen Regression?
Was repräsentiert $Y$ in der logistischen Regression?
In der logistischen Regression können nur stetige Prädiktoren verwendet werden.
In der logistischen Regression können nur stetige Prädiktoren verwendet werden.
Welche Funktion wird oft verwendet, um die Wahrscheinlichkeit in der logistischen Regression zu berechnen?
Welche Funktion wird oft verwendet, um die Wahrscheinlichkeit in der logistischen Regression zu berechnen?
In der Formel der logistischen Regression steht $b0$ für den _______.
In der Formel der logistischen Regression steht $b0$ für den _______.
Ordne die Begriffe den korrekten Definitionen zu:
Ordne die Begriffe den korrekten Definitionen zu:
Welcher Begriff beschreibt den Zusammenhang zwischen Intelligenz (IQ) und Wahlteilnahme?
Welcher Begriff beschreibt den Zusammenhang zwischen Intelligenz (IQ) und Wahlteilnahme?
Die logistische Regression eignet sich nicht für binäre abhängige Variablen.
Die logistische Regression eignet sich nicht für binäre abhängige Variablen.
Welche mathematische Konstante müsste man in der Wahrscheinlichkeitsfunktion der logistischen Regression häufig nutzen?
Welche mathematische Konstante müsste man in der Wahrscheinlichkeitsfunktion der logistischen Regression häufig nutzen?
Die logistische Funktion wird als der Typ _______ bezeichnet.
Die logistische Funktion wird als der Typ _______ bezeichnet.
Paar die Begriffe zu den passenden Variablen zu:
Paar die Begriffe zu den passenden Variablen zu:
Was resultiert aus der logistischen Regression?
Was resultiert aus der logistischen Regression?
Ein Wert von $Y = 0$ in der Wahlteilnahme bedeutet, dass die Person nicht gewählt hat.
Ein Wert von $Y = 0$ in der Wahlteilnahme bedeutet, dass die Person nicht gewählt hat.
Wie nennt man die Gleichung, die die Wahrscheinlichkeit eines Ereignisses in der logistischen Regression beschreibt?
Wie nennt man die Gleichung, die die Wahrscheinlichkeit eines Ereignisses in der logistischen Regression beschreibt?
Die Regressionsparameter $b1, b2, ..., bP$ bestimmen den _______ von Prädiktoren.
Die Regressionsparameter $b1, b2, ..., bP$ bestimmen den _______ von Prädiktoren.
Welche der folgenden Aussagen beschreibt die Grundlage der logistischen Regression am besten?
Welche der folgenden Aussagen beschreibt die Grundlage der logistischen Regression am besten?
Flashcards
Homoskedastizität
Homoskedastizität
Wenn die Varianz der Fehler nicht systematisch mit den Prädiktoren (bzw. den vorhergesagten Werten) variiert.
Heteroskedastizität
Heteroskedastizität
Wenn die Varianz der Fehler systematisch mit den Prädiktoren (bzw. den vorhergesagten Werten) variiert.
Einfluss auf Signifikanztests
Einfluss auf Signifikanztests
Beide, Homoskedastizität und Heteroskedastizität, haben einen starken Einfluss auf die Güte der Signifikanztests.
Varianz der Fehler
Varianz der Fehler
Signup and view all the flashcards
Homoskedastizität im Populationsmodell
Homoskedastizität im Populationsmodell
Signup and view all the flashcards
Heteroskedastizität im Populationsmodell
Heteroskedastizität im Populationsmodell
Signup and view all the flashcards
Heteroskedastizität und Simulationsstudie
Heteroskedastizität und Simulationsstudie
Signup and view all the flashcards
Homoskedastizität und Güte von Signifikanztests
Homoskedastizität und Güte von Signifikanztests
Signup and view all the flashcards
Multivariate Statistik
Multivariate Statistik
Signup and view all the flashcards
Datenanalyse
Datenanalyse
Signup and view all the flashcards
Allgemeines Lineares Modell (ALM)
Allgemeines Lineares Modell (ALM)
Signup and view all the flashcards
Kategoriale Prädiktoren
Kategoriale Prädiktoren
Signup and view all the flashcards
Logistische Regression
Logistische Regression
Signup and view all the flashcards
Lineare Regression
Lineare Regression
Signup and view all the flashcards
Modellgüte
Modellgüte
Signup and view all the flashcards
Statistische Inferenz
Statistische Inferenz
Signup and view all the flashcards
Erwartungswert einer dichotomen Variablen
Erwartungswert einer dichotomen Variablen
Signup and view all the flashcards
Grundmodell der logistischen Regression
Grundmodell der logistischen Regression
Signup and view all the flashcards
Parameterinterpretation in der logistischen Regression
Parameterinterpretation in der logistischen Regression
Signup and view all the flashcards
Weitere Darstellungsformen der logistischen Regression
Weitere Darstellungsformen der logistischen Regression
Signup and view all the flashcards
Auswirkungen von Heteroskedastizität
Auswirkungen von Heteroskedastizität
Signup and view all the flashcards
Annahme im ALM
Annahme im ALM
Signup and view all the flashcards
Bedingter Erwartungswert als Wahrscheinlichkeit
Bedingter Erwartungswert als Wahrscheinlichkeit
Signup and view all the flashcards
Der Fehlerterm
Der Fehlerterm
Signup and view all the flashcards
Normalverteilung der Fehler
Normalverteilung der Fehler
Signup and view all the flashcards
Nicht-lineare Funktion
Nicht-lineare Funktion
Signup and view all the flashcards
Modellübereinstimmung
Modellübereinstimmung
Signup and view all the flashcards
Methode der kleinsten Quadrate
Methode der kleinsten Quadrate
Signup and view all the flashcards
Homoskedastisches Modell
Homoskedastisches Modell
Signup and view all the flashcards
Korrelation
Korrelation
Signup and view all the flashcards
Prädiktoren in der logistischen Regression
Prädiktoren in der logistischen Regression
Signup and view all the flashcards
Abhängige Variable in der logistischen Regression
Abhängige Variable in der logistischen Regression
Signup and view all the flashcards
Vorhergesagte Wahrscheinlichkeit (P(Y = 1))
Vorhergesagte Wahrscheinlichkeit (P(Y = 1))
Signup and view all the flashcards
Konstante (b0) im logistischen Regressionsmodell
Konstante (b0) im logistischen Regressionsmodell
Signup and view all the flashcards
Regressionskoeffizienten (b1, b2, ...) im logistischen Regressionsmodell
Regressionskoeffizienten (b1, b2, ...) im logistischen Regressionsmodell
Signup and view all the flashcards
Odds Ratio (OR) in der logistischen Regression
Odds Ratio (OR) in der logistischen Regression
Signup and view all the flashcards
Modellgüte in der logistischen Regression
Modellgüte in der logistischen Regression
Signup and view all the flashcards
Signifikanztest in der logistischen Regression
Signifikanztest in der logistischen Regression
Signup and view all the flashcards
Homoskedastizität in der logistischen Regression
Homoskedastizität in der logistischen Regression
Signup and view all the flashcards
Heteroskedastizität in der logistischen Regression
Heteroskedastizität in der logistischen Regression
Signup and view all the flashcards
Simulationsstudie in der logistischen Regression
Simulationsstudie in der logistischen Regression
Signup and view all the flashcards
Anwendungen der logistischen Regression
Anwendungen der logistischen Regression
Signup and view all the flashcards
Study Notes
Vorlesungsthemen
- Multivariate Statistik und Datenanalyse, Wintersemester 2024/25, gehalten von Florian Scharf am 05. November 2024
- Detaillierte Betrachtung der logistischen Regression, Fokus auf Modell und Interpretation von Modellparametern
Logistische Regression I: Modell und Parameterinterpretation
- Die Vorlesung befasst sich mit dem Einfluss einer oder mehrerer metrischer oder kategorialer Prädiktoren auf ein metrisches Kriterium.
- Die Grundgleichung des allgemeinen linearen Modells (ALM) für eine Person n wird präsentiert: Yn = bo + b₁· X₁n + b₂· X₂n + ...+ bp· Xpn + εn
- Die Interpretation der ALM-Parameter und die Anwendung von Tests im ALM werden behandelt.
- Es wird auf die Vielzahl der Modellierungsmöglichkeiten eingegangen, einschließlich Interaktionen und nicht-linearer Terme.
Modellwahl
- Es gibt viele Modellierungsoptionen. Die Wahl eines geeigneten Modells wird diskutiert.
- Idee 1: Direkter Vergleich weniger sinnvoller Kandidatenmodelle (z. B. Modell mit vs. ohne Interaktion). Signifikanztests (z. B. Likelihood-Ratio-Test, im ALM: F-Test) oder alternative Kriterien (nächste Folien) helfen bei der Modellwahl.
- Idee 2: Schätzung einer größeren Anzahl plausibler Modelle und Wahl des besten Modells anhand eines Kriteriums. Das Problem mit R² ist, dass es mit zunehmender Anzahl der Prädiktoren immer größer wird (und der Standardschätzfehler immer kleiner). Das gilt auch, wenn die Prädiktoren in der Population nicht mit dem Kriterium zusammenhängen. Dadurch wird das Populations-R² überschätzt, je stärker die Zahl der Prädiktoren relativ zur Zahl der Personen wächst (Overfitting bias).
- Eine Vielzahl von Modellgütemaßen wird vorgestellt, um die Modellkomplexität zu berücksichtigen: Adjustiertes R², AIC, BIC, ...
- Es wird hervorgehoben, dass die Verwendung dieser Maße bei der Vergleich der Güte unterschiedlicher Modelle mit unterschiedlichen Prädiktoranzahlen sinnvoll ist.
Probleme: Inferenz nach Modellwahl
- Stichprobenkennwerteverteilung eines Regressionsgewichtes nach intensiver Modellwahl, wenn der Populationswert B = 0 ist.
- Signifikanztests basieren auf Stichprobenkennwerten ohne Modellwahl. Nach der Modellwahl dürfen lokale Tests der Koeffizienten und die Konfidenzintervalle nicht mehr interpretiert werden.
Verzicht auf Modellwahl
- Idee 3: Schätzung einer größeren Anzahl plausibler Modelle und Mittelung der Ergebnisse gewichtet nach Gütekriterien (z. B. AIC). Das wird als Model averaging bezeichnet.
- Dies führt in der Regel zu besseren Vorhersagen von Einzelwerten (vgl. ARMS).
Voraussetzungenprüfung
- Normalverteilung der Residuen: Verletzungen haben keinen Einfluss auf die Schätzungen von β, aber auf die Performanz der Signifikanztests (bei großen Stichproben unproblematisch).
- Unabhängigkeit der Residuen (z.B. bei Längsschnittdaten, Daten aus größeren Personen Gruppen): Starker Einfluss auf Signifikanztests
- Homoskedastizität (gleiche Varianz der Residuen): Starker Einfluss auf Signifikanztests
Beispiel
- Ein Beispiel wird gezeigt, wie Gewissenhaftigkeit und zehn zufällig generierte Variablen die Beurteilung durch Vorgesetzte beeinflussen.
Logistische Regression
- Die logistische Regression wird als geeignete Methode für dichotome Kriterien vorgestellt.
- Es wird erklärt, warum das ALM in diesem Fall ungeeignet ist.
- Das Modell, das für dichotome Kriterien geeignet ist, wird detailliert erläutert.
- Die Interpretation der Parameter dieses Modells wird diskutiert.
Interpretation der Parameter
- Die Interpretation von Parametern im ALM ist abhängig vom Skalenniveau der Prädiktoren und deren Anzahl.
Ein stetiger Prädiktor
- Die Konstante bo bestimmt die vorhergesagte Wahrscheinlichkeit, wenn der Prädiktor den Wert 0 annimmt.
- Je größer bo, desto größer die Wahrscheinlichkeit.
- Zentralisierung der stetigen Prädiktoren führt zu einer sinnvollen Interpretation.
- Berechnung und Interpretation der maximalen Wahrscheinlichkeitsänderung.
Ein kategorialer Prädiktor (2 Stufen)
- Konstante bo bestimmt die vorhergesagte Wahrscheinlichkeit des mit 1 kodierten Ereignisses in der Referenzkategorie.
- Gewicht b₁ berechnet die Wahrscheinlichkeit für die vergleichende Kategorterie.
Alternative Darstellungsformen
- Logit-Formulierung: alternative Darstellung des logistischen Regressionsmodells.
- Bedingte Wett-Quotienten (Odds-Ratios)
Zusammenfassung
- Voraussetzungen des ALM sind bei kategorialen Kriterien stark verletzt.
- Die logistische Regression beschreibt den Einfluss von Prädiktoren auf kategoriale Kriterien.
- Parameterinterpretation umfasst bedingte Wahrscheinlichkeiten, logit-Interpretation und bedingte Wettquotienten.
Literatur
- Eid, M., Gollwitzer, M., & Schmitt, M. (2017). Statistik und Forschungsmethoden (5. Aufl.). Beltz: Weinheim, Basel. (Kap. 22 relevante Abschnitte)
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Description
Dieses Quiz behandelt die Themen der logistischen Regression, die in der Vorlesung behandelt werden. Es werden wichtige Konzepte wie Prädiktoren, dichotome Variablen und Datenanalyse-Techniken besprochen. Testen Sie Ihr Wissen über die verschiedenen Aspekte und Anwendungen der logistischen Regression.