Logistische Regression Vorlesung
66 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Welches Modell wird in der Vorlesung am 05.11. behandelt?

  • Multiple Regression
  • Logistische Regression (correct)
  • Zeitreihenanalyse
  • Klassische Regression

Die Kategorien der Prädiktoren werden nur in der logistischen Regression verwendet.

False (B)

Nenne einen Typ von Modell, der in der Vorlesung am 19.11. diskutiert wird.

Liniertes Mischmodell (LMM)

Am 12.11. findet die Vorlesung über _____ statt.

<p>Logistische Regression II</p> Signup and view all the answers

Ordne den Vorlesungsthemen die entsprechenden Datenanalyse-Techniken zu:

<p>Allgemeines Lineares Modell I = Modell, Interpretation &amp; Inferenz CFA I = Grundmodell und Modellmatrix SEM II = Flexibilität von SEMs, Pfadanalyse</p> Signup and view all the answers

Welches Thema wird am 21.01. behandelt?

<p>Statistik und Kausalität (D)</p> Signup and view all the answers

Interaktionen zwischen Prädiktoren spielen in der logistischen Regression keine Rolle.

<p>False (B)</p> Signup and view all the answers

Was ist ein Ziel der logistischen Regression?

<p>Vorhersage der Wahrscheinlichkeit eines binären Ergebnisses.</p> Signup and view all the answers

Was stellt der Erwartungswert einer dichotomen Variable dar?

<p>Eine relative Häufigkeit (B)</p> Signup and view all the answers

Der Erwartungswert E(Wn | IQ = 8) bezieht sich auf die Auswirkung des IQ auf eine dichotome Variable.

<p>True (A)</p> Signup and view all the answers

Nennen Sie eine Verwendung der logistischen Regression.

<p>Vorhersage binärer Ereignisse.</p> Signup and view all the answers

Die Wahrscheinlichkeit einer dichotomen Variablen ist gleich dem ________ ihrer relativen Häufigkeit.

<p>Erwartungswert</p> Signup and view all the answers

Ordnen Sie die Begriffe den richtigen Definitionen zu:

<p>Erwartungswert = Durchschnittlicher Wert einer Zufallsvariable Logistische Regression = Statistische Methode zur Vorhersage von Wahrscheinlichkeiten Dichotome Variable = Variable mit zwei möglichen Werten Relative Häufigkeit = Anteil eines Ereignisses an der Gesamtzahl der Beobachtungen</p> Signup and view all the answers

Welche der folgenden Aussagen beschreibt am besten eine dichotome Variable?

<p>Sie hat nur zwei mögliche Zustände. (C)</p> Signup and view all the answers

Die Interpretation der Parameter einer logistischen Regression ist identisch mit der einer linearen Regression.

<p>False (B)</p> Signup and view all the answers

Was bedeutet die Abkürzung ALM in statistischen Modellen?

<p>Allgemeines lineares Modell.</p> Signup and view all the answers

Was bedeutet Homoskedastizität in einem statistischen Modell?

<p>Die Varianz der Fehler bleibt konstant mit den Prädiktoren. (C)</p> Signup and view all the answers

Heteroskedastizität tritt auf, wenn die Varianz der Fehler konstant ist.

<p>False (B)</p> Signup and view all the answers

Was sind die Auswirkungen von Heteroskedastizität auf die Güte der Signifikanztests?

<p>Sie beeinträchtigen die Güte der Signifikanztests.</p> Signup and view all the answers

Die Bedingung für Homoskedastizität ist, dass σ^2(X) = _____ ist.

<p>1</p> Signup and view all the answers

Ordnen Sie die folgenden Begriffe den entsprechenden Definitionen zu:

<p>Homoskedastizität = Varianz der Fehler bleibt konstant Heteroskedastizität = Varianz der Fehler variiert systematisch Populationsmodell = Mathematische Beschreibung einer Population Regressionskoeffizient = Maß für den Einfluss eines Prädiktors</p> Signup and view all the answers

Welches der folgenden Modelle ist ungeeignet, um den Einfluss von Prädiktoren auf ein dichotomes Kriterium zu untersuchen?

<p>Lineares Modell (C)</p> Signup and view all the answers

Eine Simulation zeigte, dass die Ablehnungsquote der Nullhypothese unter Heteroskedastizität höher ist als unter Homoskedastizität.

<p>True (A)</p> Signup and view all the answers

Wie variiert die Varianz bei der Bedingung Heteroskedastizität?

<p>Die Varianz der Fehler variiert systematisch mit den Prädiktoren.</p> Signup and view all the answers

Was beschreibt der beobachtete Wert einer Person j im ALM?

<p>Die Summe des bedingten Erwartungswerts und eines Fehlers (C)</p> Signup and view all the answers

Der bedingte Erwartungswert ist immer gleich 1.

<p>False (B)</p> Signup and view all the answers

Was ist das Symbol für den Fehler in der Gleichung Yn = E(Yn |X1n ,..., XP n ) + ✏n?

<p>✏n</p> Signup and view all the answers

Der bedingte Erwartungswert ist eine _____ .

<p>Wahrscheinlichkeit</p> Signup and view all the answers

Welche der folgenden Aussagen beschreibt am besten den Zusammenhang zwischen dem beobachteten Wert und dem bedingten Erwartungswert?

<p>Der beobachtete Wert kann größer als der bedingte Erwartungswert sein. (C)</p> Signup and view all the answers

Im ALM ist der bedingte Erwartungswert eine konstante Zahl.

<p>False (B)</p> Signup and view all the answers

Nennen Sie eine Anwendung des ALM in der Statistik.

<p>Regression Analyse</p> Signup and view all the answers

In der Gleichung Yn = E(Yn |X1n ,..., XP n ) + ____ , stellt XP n die _____ dar.

<p>✏n, erklärende Variable</p> Signup and view all the answers

Ordnen Sie die Begriffe den entsprechenden Bedeutungen zu:

<p>E(X) = Der bedingte Erwartungswert eines Zufallsvariablen Yn = Der beobachtete Wert ✏n = Der Fehlerterm Xn = Die unabhängigen Variablen</p> Signup and view all the answers

Welche der folgenden Variablen wird im ALM typischerweise als Störfaktor bezeichnet?

<p>✏n (A)</p> Signup and view all the answers

Ein Fehler im ALM beeinflusst nie den bedingten Erwartungswert.

<p>True (A)</p> Signup and view all the answers

Was bedeutet das Symbol Yn in der Gleichung Yn = E(Yn |X1n ,..., XP n ) + ✏n?

<p>Der beobachtete Wert einer Zufallsvariablen</p> Signup and view all the answers

Welche Annahme wird bei der logistischen Regression nicht getroffen?

<p>Homoskedastizität (C), Normalverteilung der Fehler (D)</p> Signup and view all the answers

Die logistische Regression kann nur bei linearen Datenmodellen angewendet werden.

<p>False (B)</p> Signup and view all the answers

Was bedeutet die Variable $Y_n$ in der logistischen Regression?

<p>Die Zielvariable oder abhängige Variable.</p> Signup and view all the answers

Die logistische Regression nutzt eine _______ Funktion zur Modellierung der Daten.

<p>nicht-lineare</p> Signup and view all the answers

Ordne die folgenden Begriffe den richtigen Definitionen zu:

<p>Normalverteilung = Verteilung der Fehler ist gewöhnlich Glockenförmig Homoskedastizität = Konstanz der Varianz der Fehler Logistische Regression = Modell zur binären Klassifikation Nicht-lineare Funktion = Funktion, die keine gerade Linie ist</p> Signup and view all the answers

Was ist eine Konsequenz, wenn die Normalverteilung und Homoskedastizität-Annahme nicht zutreffen?

<p>Eine nicht-lineare Funktion sollte verwendet werden (A)</p> Signup and view all the answers

Die logistische Regression erfordert, dass die Fehler normalverteilt sind.

<p>False (B)</p> Signup and view all the answers

Nenne eine Anwendung der logistischen Regression.

<p>Klassifikation von binären Ergebnissen.</p> Signup and view all the answers

Die logistische Regression wird häufig in der _______ verwendet, um binäre Outcomes vorherzusagen.

<p>Medizin</p> Signup and view all the answers

Ordne die folgenden Begriffe den entsprechenden Beispielen zu:

<p>Regression = Vorhersage von Verkaufszahlen Klassifikation = Vorhersage von Kreditnehmerstatus Clusteranalyse = Segmentierung von Kunden Zeitreihenanalyse = Vorhersage von Aktienkursen</p> Signup and view all the answers

Was stellt die Variable $X_{1n},..., X_{Pn}$ in der Gleichung dar?

<p>Unabhängige Variablen (C)</p> Signup and view all the answers

Was sind die Nachteile einer logistischen Regression?

<p>Annahmen der Normalverteilung, schwer zu interpretieren bei Mehrfachklassen.</p> Signup and view all the answers

Ein zentrales Konzept der logistischen Regression ist die _______-Funktion.

<p>logit</p> Signup and view all the answers

In welchem Bereich wird logistische Regression häufig genutzt?

<p>Alle oben genannten (D)</p> Signup and view all the answers

Die logistische Regression ist nur für quantitative Daten geeignet.

<p>False (B)</p> Signup and view all the answers

Was repräsentiert $Y$ in der logistischen Regression?

<p>Die abhängige Variable (C)</p> Signup and view all the answers

In der logistischen Regression können nur stetige Prädiktoren verwendet werden.

<p>False (B)</p> Signup and view all the answers

Welche Funktion wird oft verwendet, um die Wahrscheinlichkeit in der logistischen Regression zu berechnen?

<p>Logit-Funktion</p> Signup and view all the answers

In der Formel der logistischen Regression steht $b0$ für den _______.

<p>Achsenabschnitt</p> Signup and view all the answers

Ordne die Begriffe den korrekten Definitionen zu:

<p>Stetige Prädiktoren = Können Werte innerhalb eines Intervalls annehmen Kategoriale Prädiktoren = Nehmen eine begrenzte Anzahl von Werten an Regressionsparameter = Bestimmen den Einfluss der Prädiktoren Wahrscheinlichkeitsfunktion = Berechnet die Wahrscheinlichkeit eines Ereignisses</p> Signup and view all the answers

Welcher Begriff beschreibt den Zusammenhang zwischen Intelligenz (IQ) und Wahlteilnahme?

<p>Regression (B)</p> Signup and view all the answers

Die logistische Regression eignet sich nicht für binäre abhängige Variablen.

<p>False (B)</p> Signup and view all the answers

Welche mathematische Konstante müsste man in der Wahrscheinlichkeitsfunktion der logistischen Regression häufig nutzen?

<p>e (Euler'sche Zahl)</p> Signup and view all the answers

Die logistische Funktion wird als der Typ _______ bezeichnet.

<p>S-Kurve</p> Signup and view all the answers

Paar die Begriffe zu den passenden Variablen zu:

<p>IQ = Stetiger Prädiktor Wahlteilnahme = Kategoriale abhängige Variable Prädiktor = Unabhängige Variable Regression = Statistisches Modell</p> Signup and view all the answers

Was resultiert aus der logistischen Regression?

<p>Eine Wahrscheinlichkeit (B)</p> Signup and view all the answers

Ein Wert von $Y = 0$ in der Wahlteilnahme bedeutet, dass die Person nicht gewählt hat.

<p>True (A)</p> Signup and view all the answers

Wie nennt man die Gleichung, die die Wahrscheinlichkeit eines Ereignisses in der logistischen Regression beschreibt?

<p>Logistische Gleichung</p> Signup and view all the answers

Die Regressionsparameter $b1, b2, ..., bP$ bestimmen den _______ von Prädiktoren.

<p>Einfluss</p> Signup and view all the answers

Welche der folgenden Aussagen beschreibt die Grundlage der logistischen Regression am besten?

<p>Wahrscheinlichkeiten transformieren (A)</p> Signup and view all the answers

Flashcards

Homoskedastizität

Wenn die Varianz der Fehler nicht systematisch mit den Prädiktoren (bzw. den vorhergesagten Werten) variiert.

Heteroskedastizität

Wenn die Varianz der Fehler systematisch mit den Prädiktoren (bzw. den vorhergesagten Werten) variiert.

Einfluss auf Signifikanztests

Beide, Homoskedastizität und Heteroskedastizität, haben einen starken Einfluss auf die Güte der Signifikanztests.

Varianz der Fehler

Die Varianz der Fehler ist ein wichtiger Faktor, der die Güte der Signifikanztests beeinflusst.

Signup and view all the flashcards

Homoskedastizität im Populationsmodell

In einem Populationsmodell wird die Varianz der Fehler unter der Bedingung der Homoskedastizität als konstant angenommen.

Signup and view all the flashcards

Heteroskedastizität im Populationsmodell

In einem Populationsmodell wird die Varianz der Fehler unter der Bedingung der Heteroskedastizität als variabel mit den Prädiktoren angenommen.

Signup and view all the flashcards

Heteroskedastizität und Simulationsstudie

Eine Simulationsstudie mit 1000 Stichproben hat gezeigt, dass die Heteroskedastizität zu falsch positiven Ergebnissen führt.

Signup and view all the flashcards

Homoskedastizität und Güte von Signifikanztests

Die Güte (Validität) von Signifikanztests wird durch die Annahme von Homoskedastizität stark beeinflusst.

Signup and view all the flashcards

Multivariate Statistik

Ein statistisches Modell, das den Einfluss von mehreren Variablen (Prädiktoren) auf eine abhängige Variable (Kriterium) untersucht. Die Prädiktoren können metrisch (kontinuierlich) oder kategorial (diskret) sein.

Signup and view all the flashcards

Datenanalyse

Ein Teil der Datenanalyse, der sich auf die Untersuchung von Zusammenhängen zwischen Variablen konzentriert. Im Unterschied zur deskriptiven Statistik wird hier versucht, die zugrundeliegenden Muster und Beziehungen aufzudecken.

Signup and view all the flashcards

Allgemeines Lineares Modell (ALM)

Ein statistisches Verfahren, das die Beziehung zwischen einer oder meheren unabhängigen Variablen (Prädiktoren) und einer abhängigen Variable (Kriterium) modelliert. Die abhängige Variable muss metrisch (kontinuierlich) sein.

Signup and view all the flashcards

Kategoriale Prädiktoren

Eine Art von Prädiktoren, die verschiedene Kategorien oder Gruppen repräsentieren. Beispiele sind Geschlecht (männlich, weiblich), Bildung (Grundschule, Gymnasium, etc.).

Signup and view all the flashcards

Logistische Regression

Ein statistisches Modell, das die Wahrscheinlichkeit eines Ereignisses (z.B. Erfolg oder Misserfolg) in Abhängigkeit von mehreren Prädiktoren modelliert. Die abhängige Variable (Kriterium) muss dichotom sein (nur zwei Ausprägungen).

Signup and view all the flashcards

Lineare Regression

Eine Methode zur Modellierung der Beziehung zwischen einer unabhängigen und einer abhängigen Variable, wobei die Beziehung linear ist. Die Regression versucht, die beste Gerade zu finden, die die Punkte in einem Streudiagramm repräsentiert.

Signup and view all the flashcards

Modellgüte

Verfahren, das die Güte eines Modells bewertet, indem die Beziehung zwischen Prädiktoren (unabhängige Variablen) und Kriterium (abhängige Variable) untersucht wird.

Signup and view all the flashcards

Statistische Inferenz

Statistische Tests, die durchgeführt werden, um die Signifikanz der Ergebnisse zu beurteilen und die Wahrscheinlichkeit zu ermitteln, dass die Ergebnisse zufällig entstanden sind.

Signup and view all the flashcards

Erwartungswert einer dichotomen Variablen

Der Erwartungswert einer dichotomen Variablen (z.B. 'ja' oder 'nein') entspricht der relativen Häufigkeit oder Wahrscheinlichkeit, dass ein bestimmtes Ereignis eintritt.

Signup and view all the flashcards

Grundmodell der logistischen Regression

Das Grundmodell der logistischen Regression beschreibt die Beziehung zwischen einer dichotomen abhängigen Variablen und einer oder mehreren unabhängigen Variablen.

Signup and view all the flashcards

Parameterinterpretation in der logistischen Regression

Die Parameter in der logistischen Regression beschreiben die Stärke und Richtung des Einflusses der unabhängigen Variablen auf die Wahrscheinlichkeit, dass die abhängige Variable den Wert 1 annimmt.

Signup and view all the flashcards

Weitere Darstellungsformen der logistischen Regression

Die logistische Regression kann auf verschiedene Arten dargestellt werden: als Gleichung, als Tabelle oder als Grafik.

Signup and view all the flashcards

Auswirkungen von Heteroskedastizität

Heteroskedastizität kann zu fehlerhaften Schlussfolgerungen bei Signifikantesten führen.

Signup and view all the flashcards

Annahme im ALM

Der beobachtete Wert einer Person (Yn) setzt sich aus zwei Komponenten zusammen: dem bedingten Erwartungswert (E(Yn |X1n ,..., XP n )) und einem Fehlerterm (✏n). Der bedingte Erwartungswert repräsentiert den vorhergesagten Wert, der auf Basis der Prädiktoren (X1n ,..., XP n ) ermittelt wird. Der Fehlerterm spiegelt die Abweichung des beobachteten Werts vom vorhergesagten Wert wider.

Signup and view all the flashcards

Bedingter Erwartungswert als Wahrscheinlichkeit

Im Kontext eines dichotomen Kriteriums (z.B. Ja/Nein, Erfolg/Misserfolg) stellt der bedingte Erwartungswert die Wahrscheinlichkeit für ein bestimmtes Ereignis dar. Mit anderen Worten, der vorhergesagte Wert entspricht der Wahrscheinlichkeit, dass ein bestimmtes Ereignis eintritt.

Signup and view all the flashcards

Der Fehlerterm

Der Fehlerterm (✏n) in der Annahme des ALM repräsentiert die Abweichung des beobachteten Werts (Yn) vom vorhergesagten Wert (E(Yn |X1n ,..., XP n )). Dieser Fehler kann durch verschiedene Faktoren entstehen, wie z.B. Messfehler, unberücksichtigte Einflussfaktoren oder zufällige Schwankungen.

Signup and view all the flashcards

Normalverteilung der Fehler

Die Annahme, dass die Fehler in einem Modell normalverteilt sind.

Signup and view all the flashcards

Nicht-lineare Funktion

Die Beziehung zwischen den Prädiktoren und der abhängigen Variablen kann durch eine nicht-lineare Funktion beschrieben werden.

Signup and view all the flashcards

Modellübereinstimmung

Es ist wichtig, die Modellübereinstimmung zu überprüfen, um festzustellen, wie gut das Modell zu den Daten passt.

Signup and view all the flashcards

Methode der kleinsten Quadrate

Die Daten müssen mit der Methode der kleinsten Quadrate an die Regressionsgerade angepasst werden. Dadurch wird die Summe der quadrierten Fehler minimiert.

Signup and view all the flashcards

Homoskedastisches Modell

Ein Modell, in dem die Varianz der Fehler konstant ist, kann bei der Interpretation der Ergebnisse und der Durchführung von Signifikanztests als valide betrachtet werden.

Signup and view all the flashcards

Korrelation

Eine Methode, die verwendet wird, um die Beziehung zwischen zwei oder mehr Variablen zu untersuchen. Es gibt verschiedene Arten von Korrelationen, wie z.B. die Pearson-Korrelation.

Signup and view all the flashcards

Prädiktoren in der logistischen Regression

Die unabhängigen Variablen, die verwendet werden, um die Wahrscheinlichkeit des Ereignisses in der logistischen Regression zu modellieren. Sie können stetig (z.B. Alter) oder kategorial (z.B. Geschlecht) sein.

Signup and view all the flashcards

Abhängige Variable in der logistischen Regression

Die abhängige Variable in der logistischen Regression, die dichotom ist, d.h. nur zwei Ausprägungen haben kann (z.B. 0 oder 1, 'Ja' oder 'Nein').

Signup and view all the flashcards

Vorhergesagte Wahrscheinlichkeit (P(Y = 1))

Die Wahrscheinlichkeit, dass das Ereignis (Y = 1) eintritt, gegeben die Ausprägungen der unabhängigen Variablen (X1, ..., XP).

Signup and view all the flashcards

Konstante (b0) im logistischen Regressionsmodell

Die Konstante im logistischen Regressionsmodell (b0), die den Basiswert der Wahrscheinlichkeit darstellt, wenn alle Prädiktoren den Wert 0 haben.

Signup and view all the flashcards

Regressionskoeffizienten (b1, b2, ...) im logistischen Regressionsmodell

Die Regressionskoeffizienten (b1, b2, ...) im logistischen Regressionsmodell, die den Einfluss der jeweiligen unabhängigen Variablen auf die Wahrscheinlichkeit des Ereignisses angeben.

Signup and view all the flashcards

Odds Ratio (OR) in der logistischen Regression

Die Odds Ratio (OR) ist ein Maß, das die Veränderung der Odds angibt, wenn sich ein Prädiktor um eine Einheit erhöht. Man verwendet sie um die Stärke und Richtung des Einflusses eines Prädiktors auf die Wahrscheinlichkeit eines Ereignisses zu messen.

Signup and view all the flashcards

Modellgüte in der logistischen Regression

Eine Methode, um die Güte eines logistischen Regressionsmodells zu beurteilen. Sie gibt an, wie gut das Modell die beobachteten Daten erklärt.

Signup and view all the flashcards

Signifikanztest in der logistischen Regression

Ein statistischer Test, der durchgeführt wird, um die Signifikanz der Ergebnisse der logistischen Regression zu beurteilen. Er prüft, ob es einen Zusammenhang zwischen den unabhängigen Variablen und der abhängigen Variable gibt.

Signup and view all the flashcards

Homoskedastizität in der logistischen Regression

Wenn die Varianz der Fehler in einem logistischen Regressionsmodell nicht systematisch von den Werten der Prädiktoren abhängt.

Signup and view all the flashcards

Heteroskedastizität in der logistischen Regression

Wenn die Varianz der Fehler in einem logistischen Regressionsmodell systematisch von den Werten der Prädiktoren abhängt.

Signup and view all the flashcards

Simulationsstudie in der logistischen Regression

Ein Verfahren bei dem die Ergebnisse des Modells auf Basis von künstlichen Daten getestet werden, um die Robustheit und Gültigkeit zu überprüfen.

Signup and view all the flashcards

Anwendungen der logistischen Regression

Die logistische Regression wird oft angewandt, um die Wahrscheinlichkeit eines Ereignisses (z.B. Kaufentscheidung, Krankheitsrisiko) in Abhängigkeit von bestimmten Merkmalen (z.B. Alter, Geschlecht, Einkommensniveau) vorherzusagen.

Signup and view all the flashcards

Study Notes

Vorlesungsthemen

  • Multivariate Statistik und Datenanalyse, Wintersemester 2024/25, gehalten von Florian Scharf am 05. November 2024
  • Detaillierte Betrachtung der logistischen Regression, Fokus auf Modell und Interpretation von Modellparametern

Logistische Regression I: Modell und Parameterinterpretation

  • Die Vorlesung befasst sich mit dem Einfluss einer oder mehrerer metrischer oder kategorialer Prädiktoren auf ein metrisches Kriterium.
  • Die Grundgleichung des allgemeinen linearen Modells (ALM) für eine Person n wird präsentiert: Yn = bo + b₁· X₁n + b₂· X₂n + ...+ bp· Xpn + εn
  • Die Interpretation der ALM-Parameter und die Anwendung von Tests im ALM werden behandelt.
  • Es wird auf die Vielzahl der Modellierungsmöglichkeiten eingegangen, einschließlich Interaktionen und nicht-linearer Terme.

Modellwahl

  • Es gibt viele Modellierungsoptionen. Die Wahl eines geeigneten Modells wird diskutiert.
  • Idee 1: Direkter Vergleich weniger sinnvoller Kandidatenmodelle (z. B. Modell mit vs. ohne Interaktion). Signifikanztests (z. B. Likelihood-Ratio-Test, im ALM: F-Test) oder alternative Kriterien (nächste Folien) helfen bei der Modellwahl.
  • Idee 2: Schätzung einer größeren Anzahl plausibler Modelle und Wahl des besten Modells anhand eines Kriteriums. Das Problem mit R² ist, dass es mit zunehmender Anzahl der Prädiktoren immer größer wird (und der Standardschätzfehler immer kleiner). Das gilt auch, wenn die Prädiktoren in der Population nicht mit dem Kriterium zusammenhängen. Dadurch wird das Populations-R² überschätzt, je stärker die Zahl der Prädiktoren relativ zur Zahl der Personen wächst (Overfitting bias).
  • Eine Vielzahl von Modellgütemaßen wird vorgestellt, um die Modellkomplexität zu berücksichtigen: Adjustiertes R², AIC, BIC, ...
  • Es wird hervorgehoben, dass die Verwendung dieser Maße bei der Vergleich der Güte unterschiedlicher Modelle mit unterschiedlichen Prädiktoranzahlen sinnvoll ist.

Probleme: Inferenz nach Modellwahl

  • Stichprobenkennwerteverteilung eines Regressionsgewichtes nach intensiver Modellwahl, wenn der Populationswert B = 0 ist.
  • Signifikanztests basieren auf Stichprobenkennwerten ohne Modellwahl. Nach der Modellwahl dürfen lokale Tests der Koeffizienten und die Konfidenzintervalle nicht mehr interpretiert werden.

Verzicht auf Modellwahl

  • Idee 3: Schätzung einer größeren Anzahl plausibler Modelle und Mittelung der Ergebnisse gewichtet nach Gütekriterien (z. B. AIC). Das wird als Model averaging bezeichnet.
  • Dies führt in der Regel zu besseren Vorhersagen von Einzelwerten (vgl. ARMS).

Voraussetzungenprüfung

  • Normalverteilung der Residuen: Verletzungen haben keinen Einfluss auf die Schätzungen von β, aber auf die Performanz der Signifikanztests (bei großen Stichproben unproblematisch).
  • Unabhängigkeit der Residuen (z.B. bei Längsschnittdaten, Daten aus größeren Personen Gruppen): Starker Einfluss auf Signifikanztests
  • Homoskedastizität (gleiche Varianz der Residuen): Starker Einfluss auf Signifikanztests

Beispiel

  • Ein Beispiel wird gezeigt, wie Gewissenhaftigkeit und zehn zufällig generierte Variablen die Beurteilung durch Vorgesetzte beeinflussen.

Logistische Regression

  • Die logistische Regression wird als geeignete Methode für dichotome Kriterien vorgestellt.
  • Es wird erklärt, warum das ALM in diesem Fall ungeeignet ist.
  • Das Modell, das für dichotome Kriterien geeignet ist, wird detailliert erläutert.
  • Die Interpretation der Parameter dieses Modells wird diskutiert.

Interpretation der Parameter

  • Die Interpretation von Parametern im ALM ist abhängig vom Skalenniveau der Prädiktoren und deren Anzahl.

Ein stetiger Prädiktor

  • Die Konstante bo bestimmt die vorhergesagte Wahrscheinlichkeit, wenn der Prädiktor den Wert 0 annimmt.
  • Je größer bo, desto größer die Wahrscheinlichkeit.
  • Zentralisierung der stetigen Prädiktoren führt zu einer sinnvollen Interpretation.
  • Berechnung und Interpretation der maximalen Wahrscheinlichkeitsänderung.

Ein kategorialer Prädiktor (2 Stufen)

  • Konstante bo bestimmt die vorhergesagte Wahrscheinlichkeit des mit 1 kodierten Ereignisses in der Referenzkategorie.
  • Gewicht b₁ berechnet die Wahrscheinlichkeit für die vergleichende Kategorterie.

Alternative Darstellungsformen

  • Logit-Formulierung: alternative Darstellung des logistischen Regressionsmodells.
  • Bedingte Wett-Quotienten (Odds-Ratios)

Zusammenfassung

  • Voraussetzungen des ALM sind bei kategorialen Kriterien stark verletzt.
  • Die logistische Regression beschreibt den Einfluss von Prädiktoren auf kategoriale Kriterien.
  • Parameterinterpretation umfasst bedingte Wahrscheinlichkeiten, logit-Interpretation und bedingte Wettquotienten.

Literatur

  • Eid, M., Gollwitzer, M., & Schmitt, M. (2017). Statistik und Forschungsmethoden (5. Aufl.). Beltz: Weinheim, Basel. (Kap. 22 relevante Abschnitte)

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Description

Dieses Quiz behandelt die Themen der logistischen Regression, die in der Vorlesung behandelt werden. Es werden wichtige Konzepte wie Prädiktoren, dichotome Variablen und Datenanalyse-Techniken besprochen. Testen Sie Ihr Wissen über die verschiedenen Aspekte und Anwendungen der logistischen Regression.

More Like This

Use Quizgecko on...
Browser
Browser