Podcast
Questions and Answers
Welches Modell wird in der Vorlesung am 05.11. behandelt?
Welches Modell wird in der Vorlesung am 05.11. behandelt?
Die Kategorien der Prädiktoren werden nur in der logistischen Regression verwendet.
Die Kategorien der Prädiktoren werden nur in der logistischen Regression verwendet.
False
Nenne einen Typ von Modell, der in der Vorlesung am 19.11. diskutiert wird.
Nenne einen Typ von Modell, der in der Vorlesung am 19.11. diskutiert wird.
Liniertes Mischmodell (LMM)
Am 12.11. findet die Vorlesung über _____ statt.
Am 12.11. findet die Vorlesung über _____ statt.
Signup and view all the answers
Ordne den Vorlesungsthemen die entsprechenden Datenanalyse-Techniken zu:
Ordne den Vorlesungsthemen die entsprechenden Datenanalyse-Techniken zu:
Signup and view all the answers
Welches Thema wird am 21.01. behandelt?
Welches Thema wird am 21.01. behandelt?
Signup and view all the answers
Interaktionen zwischen Prädiktoren spielen in der logistischen Regression keine Rolle.
Interaktionen zwischen Prädiktoren spielen in der logistischen Regression keine Rolle.
Signup and view all the answers
Was ist ein Ziel der logistischen Regression?
Was ist ein Ziel der logistischen Regression?
Signup and view all the answers
Was stellt der Erwartungswert einer dichotomen Variable dar?
Was stellt der Erwartungswert einer dichotomen Variable dar?
Signup and view all the answers
Der Erwartungswert E(Wn | IQ = 8) bezieht sich auf die Auswirkung des IQ auf eine dichotome Variable.
Der Erwartungswert E(Wn | IQ = 8) bezieht sich auf die Auswirkung des IQ auf eine dichotome Variable.
Signup and view all the answers
Nennen Sie eine Verwendung der logistischen Regression.
Nennen Sie eine Verwendung der logistischen Regression.
Signup and view all the answers
Die Wahrscheinlichkeit einer dichotomen Variablen ist gleich dem ________ ihrer relativen Häufigkeit.
Die Wahrscheinlichkeit einer dichotomen Variablen ist gleich dem ________ ihrer relativen Häufigkeit.
Signup and view all the answers
Ordnen Sie die Begriffe den richtigen Definitionen zu:
Ordnen Sie die Begriffe den richtigen Definitionen zu:
Signup and view all the answers
Welche der folgenden Aussagen beschreibt am besten eine dichotome Variable?
Welche der folgenden Aussagen beschreibt am besten eine dichotome Variable?
Signup and view all the answers
Die Interpretation der Parameter einer logistischen Regression ist identisch mit der einer linearen Regression.
Die Interpretation der Parameter einer logistischen Regression ist identisch mit der einer linearen Regression.
Signup and view all the answers
Was bedeutet die Abkürzung ALM in statistischen Modellen?
Was bedeutet die Abkürzung ALM in statistischen Modellen?
Signup and view all the answers
Was bedeutet Homoskedastizität in einem statistischen Modell?
Was bedeutet Homoskedastizität in einem statistischen Modell?
Signup and view all the answers
Heteroskedastizität tritt auf, wenn die Varianz der Fehler konstant ist.
Heteroskedastizität tritt auf, wenn die Varianz der Fehler konstant ist.
Signup and view all the answers
Was sind die Auswirkungen von Heteroskedastizität auf die Güte der Signifikanztests?
Was sind die Auswirkungen von Heteroskedastizität auf die Güte der Signifikanztests?
Signup and view all the answers
Die Bedingung für Homoskedastizität ist, dass σ^2(X) = _____ ist.
Die Bedingung für Homoskedastizität ist, dass σ^2(X) = _____ ist.
Signup and view all the answers
Ordnen Sie die folgenden Begriffe den entsprechenden Definitionen zu:
Ordnen Sie die folgenden Begriffe den entsprechenden Definitionen zu:
Signup and view all the answers
Welches der folgenden Modelle ist ungeeignet, um den Einfluss von Prädiktoren auf ein dichotomes Kriterium zu untersuchen?
Welches der folgenden Modelle ist ungeeignet, um den Einfluss von Prädiktoren auf ein dichotomes Kriterium zu untersuchen?
Signup and view all the answers
Eine Simulation zeigte, dass die Ablehnungsquote der Nullhypothese unter Heteroskedastizität höher ist als unter Homoskedastizität.
Eine Simulation zeigte, dass die Ablehnungsquote der Nullhypothese unter Heteroskedastizität höher ist als unter Homoskedastizität.
Signup and view all the answers
Wie variiert die Varianz bei der Bedingung Heteroskedastizität?
Wie variiert die Varianz bei der Bedingung Heteroskedastizität?
Signup and view all the answers
Was beschreibt der beobachtete Wert einer Person j im ALM?
Was beschreibt der beobachtete Wert einer Person j im ALM?
Signup and view all the answers
Der bedingte Erwartungswert ist immer gleich 1.
Der bedingte Erwartungswert ist immer gleich 1.
Signup and view all the answers
Was ist das Symbol für den Fehler in der Gleichung Yn = E(Yn |X1n ,..., XP n ) + ✏n?
Was ist das Symbol für den Fehler in der Gleichung Yn = E(Yn |X1n ,..., XP n ) + ✏n?
Signup and view all the answers
Der bedingte Erwartungswert ist eine _____ .
Der bedingte Erwartungswert ist eine _____ .
Signup and view all the answers
Welche der folgenden Aussagen beschreibt am besten den Zusammenhang zwischen dem beobachteten Wert und dem bedingten Erwartungswert?
Welche der folgenden Aussagen beschreibt am besten den Zusammenhang zwischen dem beobachteten Wert und dem bedingten Erwartungswert?
Signup and view all the answers
Im ALM ist der bedingte Erwartungswert eine konstante Zahl.
Im ALM ist der bedingte Erwartungswert eine konstante Zahl.
Signup and view all the answers
Nennen Sie eine Anwendung des ALM in der Statistik.
Nennen Sie eine Anwendung des ALM in der Statistik.
Signup and view all the answers
In der Gleichung Yn = E(Yn |X1n ,..., XP n ) + ____ , stellt XP n die _____ dar.
In der Gleichung Yn = E(Yn |X1n ,..., XP n ) + ____ , stellt XP n die _____ dar.
Signup and view all the answers
Ordnen Sie die Begriffe den entsprechenden Bedeutungen zu:
Ordnen Sie die Begriffe den entsprechenden Bedeutungen zu:
Signup and view all the answers
Welche der folgenden Variablen wird im ALM typischerweise als Störfaktor bezeichnet?
Welche der folgenden Variablen wird im ALM typischerweise als Störfaktor bezeichnet?
Signup and view all the answers
Ein Fehler im ALM beeinflusst nie den bedingten Erwartungswert.
Ein Fehler im ALM beeinflusst nie den bedingten Erwartungswert.
Signup and view all the answers
Was bedeutet das Symbol Yn in der Gleichung Yn = E(Yn |X1n ,..., XP n ) + ✏n?
Was bedeutet das Symbol Yn in der Gleichung Yn = E(Yn |X1n ,..., XP n ) + ✏n?
Signup and view all the answers
Welche Annahme wird bei der logistischen Regression nicht getroffen?
Welche Annahme wird bei der logistischen Regression nicht getroffen?
Signup and view all the answers
Die logistische Regression kann nur bei linearen Datenmodellen angewendet werden.
Die logistische Regression kann nur bei linearen Datenmodellen angewendet werden.
Signup and view all the answers
Was bedeutet die Variable $Y_n$ in der logistischen Regression?
Was bedeutet die Variable $Y_n$ in der logistischen Regression?
Signup and view all the answers
Die logistische Regression nutzt eine _______ Funktion zur Modellierung der Daten.
Die logistische Regression nutzt eine _______ Funktion zur Modellierung der Daten.
Signup and view all the answers
Ordne die folgenden Begriffe den richtigen Definitionen zu:
Ordne die folgenden Begriffe den richtigen Definitionen zu:
Signup and view all the answers
Was ist eine Konsequenz, wenn die Normalverteilung und Homoskedastizität-Annahme nicht zutreffen?
Was ist eine Konsequenz, wenn die Normalverteilung und Homoskedastizität-Annahme nicht zutreffen?
Signup and view all the answers
Die logistische Regression erfordert, dass die Fehler normalverteilt sind.
Die logistische Regression erfordert, dass die Fehler normalverteilt sind.
Signup and view all the answers
Nenne eine Anwendung der logistischen Regression.
Nenne eine Anwendung der logistischen Regression.
Signup and view all the answers
Die logistische Regression wird häufig in der _______ verwendet, um binäre Outcomes vorherzusagen.
Die logistische Regression wird häufig in der _______ verwendet, um binäre Outcomes vorherzusagen.
Signup and view all the answers
Ordne die folgenden Begriffe den entsprechenden Beispielen zu:
Ordne die folgenden Begriffe den entsprechenden Beispielen zu:
Signup and view all the answers
Was stellt die Variable $X_{1n},..., X_{Pn}$ in der Gleichung dar?
Was stellt die Variable $X_{1n},..., X_{Pn}$ in der Gleichung dar?
Signup and view all the answers
Was sind die Nachteile einer logistischen Regression?
Was sind die Nachteile einer logistischen Regression?
Signup and view all the answers
Ein zentrales Konzept der logistischen Regression ist die _______-Funktion.
Ein zentrales Konzept der logistischen Regression ist die _______-Funktion.
Signup and view all the answers
In welchem Bereich wird logistische Regression häufig genutzt?
In welchem Bereich wird logistische Regression häufig genutzt?
Signup and view all the answers
Die logistische Regression ist nur für quantitative Daten geeignet.
Die logistische Regression ist nur für quantitative Daten geeignet.
Signup and view all the answers
Was repräsentiert $Y$ in der logistischen Regression?
Was repräsentiert $Y$ in der logistischen Regression?
Signup and view all the answers
In der logistischen Regression können nur stetige Prädiktoren verwendet werden.
In der logistischen Regression können nur stetige Prädiktoren verwendet werden.
Signup and view all the answers
Welche Funktion wird oft verwendet, um die Wahrscheinlichkeit in der logistischen Regression zu berechnen?
Welche Funktion wird oft verwendet, um die Wahrscheinlichkeit in der logistischen Regression zu berechnen?
Signup and view all the answers
In der Formel der logistischen Regression steht $b0$ für den _______.
In der Formel der logistischen Regression steht $b0$ für den _______.
Signup and view all the answers
Ordne die Begriffe den korrekten Definitionen zu:
Ordne die Begriffe den korrekten Definitionen zu:
Signup and view all the answers
Welcher Begriff beschreibt den Zusammenhang zwischen Intelligenz (IQ) und Wahlteilnahme?
Welcher Begriff beschreibt den Zusammenhang zwischen Intelligenz (IQ) und Wahlteilnahme?
Signup and view all the answers
Die logistische Regression eignet sich nicht für binäre abhängige Variablen.
Die logistische Regression eignet sich nicht für binäre abhängige Variablen.
Signup and view all the answers
Welche mathematische Konstante müsste man in der Wahrscheinlichkeitsfunktion der logistischen Regression häufig nutzen?
Welche mathematische Konstante müsste man in der Wahrscheinlichkeitsfunktion der logistischen Regression häufig nutzen?
Signup and view all the answers
Die logistische Funktion wird als der Typ _______ bezeichnet.
Die logistische Funktion wird als der Typ _______ bezeichnet.
Signup and view all the answers
Paar die Begriffe zu den passenden Variablen zu:
Paar die Begriffe zu den passenden Variablen zu:
Signup and view all the answers
Was resultiert aus der logistischen Regression?
Was resultiert aus der logistischen Regression?
Signup and view all the answers
Ein Wert von $Y = 0$ in der Wahlteilnahme bedeutet, dass die Person nicht gewählt hat.
Ein Wert von $Y = 0$ in der Wahlteilnahme bedeutet, dass die Person nicht gewählt hat.
Signup and view all the answers
Wie nennt man die Gleichung, die die Wahrscheinlichkeit eines Ereignisses in der logistischen Regression beschreibt?
Wie nennt man die Gleichung, die die Wahrscheinlichkeit eines Ereignisses in der logistischen Regression beschreibt?
Signup and view all the answers
Die Regressionsparameter $b1, b2, ..., bP$ bestimmen den _______ von Prädiktoren.
Die Regressionsparameter $b1, b2, ..., bP$ bestimmen den _______ von Prädiktoren.
Signup and view all the answers
Welche der folgenden Aussagen beschreibt die Grundlage der logistischen Regression am besten?
Welche der folgenden Aussagen beschreibt die Grundlage der logistischen Regression am besten?
Signup and view all the answers
Study Notes
Vorlesungsthemen
- Multivariate Statistik und Datenanalyse, Wintersemester 2024/25, gehalten von Florian Scharf am 05. November 2024
- Detaillierte Betrachtung der logistischen Regression, Fokus auf Modell und Interpretation von Modellparametern
Logistische Regression I: Modell und Parameterinterpretation
- Die Vorlesung befasst sich mit dem Einfluss einer oder mehrerer metrischer oder kategorialer Prädiktoren auf ein metrisches Kriterium.
- Die Grundgleichung des allgemeinen linearen Modells (ALM) für eine Person n wird präsentiert: Yn = bo + b₁· X₁n + b₂· X₂n + ...+ bp· Xpn + εn
- Die Interpretation der ALM-Parameter und die Anwendung von Tests im ALM werden behandelt.
- Es wird auf die Vielzahl der Modellierungsmöglichkeiten eingegangen, einschließlich Interaktionen und nicht-linearer Terme.
Modellwahl
- Es gibt viele Modellierungsoptionen. Die Wahl eines geeigneten Modells wird diskutiert.
- Idee 1: Direkter Vergleich weniger sinnvoller Kandidatenmodelle (z. B. Modell mit vs. ohne Interaktion). Signifikanztests (z. B. Likelihood-Ratio-Test, im ALM: F-Test) oder alternative Kriterien (nächste Folien) helfen bei der Modellwahl.
- Idee 2: Schätzung einer größeren Anzahl plausibler Modelle und Wahl des besten Modells anhand eines Kriteriums. Das Problem mit R² ist, dass es mit zunehmender Anzahl der Prädiktoren immer größer wird (und der Standardschätzfehler immer kleiner). Das gilt auch, wenn die Prädiktoren in der Population nicht mit dem Kriterium zusammenhängen. Dadurch wird das Populations-R² überschätzt, je stärker die Zahl der Prädiktoren relativ zur Zahl der Personen wächst (Overfitting bias).
- Eine Vielzahl von Modellgütemaßen wird vorgestellt, um die Modellkomplexität zu berücksichtigen: Adjustiertes R², AIC, BIC, ...
- Es wird hervorgehoben, dass die Verwendung dieser Maße bei der Vergleich der Güte unterschiedlicher Modelle mit unterschiedlichen Prädiktoranzahlen sinnvoll ist.
Probleme: Inferenz nach Modellwahl
- Stichprobenkennwerteverteilung eines Regressionsgewichtes nach intensiver Modellwahl, wenn der Populationswert B = 0 ist.
- Signifikanztests basieren auf Stichprobenkennwerten ohne Modellwahl. Nach der Modellwahl dürfen lokale Tests der Koeffizienten und die Konfidenzintervalle nicht mehr interpretiert werden.
Verzicht auf Modellwahl
- Idee 3: Schätzung einer größeren Anzahl plausibler Modelle und Mittelung der Ergebnisse gewichtet nach Gütekriterien (z. B. AIC). Das wird als Model averaging bezeichnet.
- Dies führt in der Regel zu besseren Vorhersagen von Einzelwerten (vgl. ARMS).
Voraussetzungenprüfung
- Normalverteilung der Residuen: Verletzungen haben keinen Einfluss auf die Schätzungen von β, aber auf die Performanz der Signifikanztests (bei großen Stichproben unproblematisch).
- Unabhängigkeit der Residuen (z.B. bei Längsschnittdaten, Daten aus größeren Personen Gruppen): Starker Einfluss auf Signifikanztests
- Homoskedastizität (gleiche Varianz der Residuen): Starker Einfluss auf Signifikanztests
Beispiel
- Ein Beispiel wird gezeigt, wie Gewissenhaftigkeit und zehn zufällig generierte Variablen die Beurteilung durch Vorgesetzte beeinflussen.
Logistische Regression
- Die logistische Regression wird als geeignete Methode für dichotome Kriterien vorgestellt.
- Es wird erklärt, warum das ALM in diesem Fall ungeeignet ist.
- Das Modell, das für dichotome Kriterien geeignet ist, wird detailliert erläutert.
- Die Interpretation der Parameter dieses Modells wird diskutiert.
Interpretation der Parameter
- Die Interpretation von Parametern im ALM ist abhängig vom Skalenniveau der Prädiktoren und deren Anzahl.
Ein stetiger Prädiktor
- Die Konstante bo bestimmt die vorhergesagte Wahrscheinlichkeit, wenn der Prädiktor den Wert 0 annimmt.
- Je größer bo, desto größer die Wahrscheinlichkeit.
- Zentralisierung der stetigen Prädiktoren führt zu einer sinnvollen Interpretation.
- Berechnung und Interpretation der maximalen Wahrscheinlichkeitsänderung.
Ein kategorialer Prädiktor (2 Stufen)
- Konstante bo bestimmt die vorhergesagte Wahrscheinlichkeit des mit 1 kodierten Ereignisses in der Referenzkategorie.
- Gewicht b₁ berechnet die Wahrscheinlichkeit für die vergleichende Kategorterie.
Alternative Darstellungsformen
- Logit-Formulierung: alternative Darstellung des logistischen Regressionsmodells.
- Bedingte Wett-Quotienten (Odds-Ratios)
Zusammenfassung
- Voraussetzungen des ALM sind bei kategorialen Kriterien stark verletzt.
- Die logistische Regression beschreibt den Einfluss von Prädiktoren auf kategoriale Kriterien.
- Parameterinterpretation umfasst bedingte Wahrscheinlichkeiten, logit-Interpretation und bedingte Wettquotienten.
Literatur
- Eid, M., Gollwitzer, M., & Schmitt, M. (2017). Statistik und Forschungsmethoden (5. Aufl.). Beltz: Weinheim, Basel. (Kap. 22 relevante Abschnitte)
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Description
Dieses Quiz behandelt die Themen der logistischen Regression, die in der Vorlesung behandelt werden. Es werden wichtige Konzepte wie Prädiktoren, dichotome Variablen und Datenanalyse-Techniken besprochen. Testen Sie Ihr Wissen über die verschiedenen Aspekte und Anwendungen der logistischen Regression.