Logistische Regression Vorlesung
66 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Welches Modell wird in der Vorlesung am 05.11. behandelt?

  • Multiple Regression
  • Logistische Regression (correct)
  • Zeitreihenanalyse
  • Klassische Regression
  • Die Kategorien der Prädiktoren werden nur in der logistischen Regression verwendet.

    False

    Nenne einen Typ von Modell, der in der Vorlesung am 19.11. diskutiert wird.

    Liniertes Mischmodell (LMM)

    Am 12.11. findet die Vorlesung über _____ statt.

    <p>Logistische Regression II</p> Signup and view all the answers

    Ordne den Vorlesungsthemen die entsprechenden Datenanalyse-Techniken zu:

    <p>Allgemeines Lineares Modell I = Modell, Interpretation &amp; Inferenz CFA I = Grundmodell und Modellmatrix SEM II = Flexibilität von SEMs, Pfadanalyse</p> Signup and view all the answers

    Welches Thema wird am 21.01. behandelt?

    <p>Statistik und Kausalität</p> Signup and view all the answers

    Interaktionen zwischen Prädiktoren spielen in der logistischen Regression keine Rolle.

    <p>False</p> Signup and view all the answers

    Was ist ein Ziel der logistischen Regression?

    <p>Vorhersage der Wahrscheinlichkeit eines binären Ergebnisses.</p> Signup and view all the answers

    Was stellt der Erwartungswert einer dichotomen Variable dar?

    <p>Eine relative Häufigkeit</p> Signup and view all the answers

    Der Erwartungswert E(Wn | IQ = 8) bezieht sich auf die Auswirkung des IQ auf eine dichotome Variable.

    <p>True</p> Signup and view all the answers

    Nennen Sie eine Verwendung der logistischen Regression.

    <p>Vorhersage binärer Ereignisse.</p> Signup and view all the answers

    Die Wahrscheinlichkeit einer dichotomen Variablen ist gleich dem ________ ihrer relativen Häufigkeit.

    <p>Erwartungswert</p> Signup and view all the answers

    Ordnen Sie die Begriffe den richtigen Definitionen zu:

    <p>Erwartungswert = Durchschnittlicher Wert einer Zufallsvariable Logistische Regression = Statistische Methode zur Vorhersage von Wahrscheinlichkeiten Dichotome Variable = Variable mit zwei möglichen Werten Relative Häufigkeit = Anteil eines Ereignisses an der Gesamtzahl der Beobachtungen</p> Signup and view all the answers

    Welche der folgenden Aussagen beschreibt am besten eine dichotome Variable?

    <p>Sie hat nur zwei mögliche Zustände.</p> Signup and view all the answers

    Die Interpretation der Parameter einer logistischen Regression ist identisch mit der einer linearen Regression.

    <p>False</p> Signup and view all the answers

    Was bedeutet die Abkürzung ALM in statistischen Modellen?

    <p>Allgemeines lineares Modell.</p> Signup and view all the answers

    Was bedeutet Homoskedastizität in einem statistischen Modell?

    <p>Die Varianz der Fehler bleibt konstant mit den Prädiktoren.</p> Signup and view all the answers

    Heteroskedastizität tritt auf, wenn die Varianz der Fehler konstant ist.

    <p>False</p> Signup and view all the answers

    Was sind die Auswirkungen von Heteroskedastizität auf die Güte der Signifikanztests?

    <p>Sie beeinträchtigen die Güte der Signifikanztests.</p> Signup and view all the answers

    Die Bedingung für Homoskedastizität ist, dass σ^2(X) = _____ ist.

    <p>1</p> Signup and view all the answers

    Ordnen Sie die folgenden Begriffe den entsprechenden Definitionen zu:

    <p>Homoskedastizität = Varianz der Fehler bleibt konstant Heteroskedastizität = Varianz der Fehler variiert systematisch Populationsmodell = Mathematische Beschreibung einer Population Regressionskoeffizient = Maß für den Einfluss eines Prädiktors</p> Signup and view all the answers

    Welches der folgenden Modelle ist ungeeignet, um den Einfluss von Prädiktoren auf ein dichotomes Kriterium zu untersuchen?

    <p>Lineares Modell</p> Signup and view all the answers

    Eine Simulation zeigte, dass die Ablehnungsquote der Nullhypothese unter Heteroskedastizität höher ist als unter Homoskedastizität.

    <p>True</p> Signup and view all the answers

    Wie variiert die Varianz bei der Bedingung Heteroskedastizität?

    <p>Die Varianz der Fehler variiert systematisch mit den Prädiktoren.</p> Signup and view all the answers

    Was beschreibt der beobachtete Wert einer Person j im ALM?

    <p>Die Summe des bedingten Erwartungswerts und eines Fehlers</p> Signup and view all the answers

    Der bedingte Erwartungswert ist immer gleich 1.

    <p>False</p> Signup and view all the answers

    Was ist das Symbol für den Fehler in der Gleichung Yn = E(Yn |X1n ,..., XP n ) + ✏n?

    <p>✏n</p> Signup and view all the answers

    Der bedingte Erwartungswert ist eine _____ .

    <p>Wahrscheinlichkeit</p> Signup and view all the answers

    Welche der folgenden Aussagen beschreibt am besten den Zusammenhang zwischen dem beobachteten Wert und dem bedingten Erwartungswert?

    <p>Der beobachtete Wert kann größer als der bedingte Erwartungswert sein.</p> Signup and view all the answers

    Im ALM ist der bedingte Erwartungswert eine konstante Zahl.

    <p>False</p> Signup and view all the answers

    Nennen Sie eine Anwendung des ALM in der Statistik.

    <p>Regression Analyse</p> Signup and view all the answers

    In der Gleichung Yn = E(Yn |X1n ,..., XP n ) + ____ , stellt XP n die _____ dar.

    <p>✏n, erklärende Variable</p> Signup and view all the answers

    Ordnen Sie die Begriffe den entsprechenden Bedeutungen zu:

    <p>E(X) = Der bedingte Erwartungswert eines Zufallsvariablen Yn = Der beobachtete Wert ✏n = Der Fehlerterm Xn = Die unabhängigen Variablen</p> Signup and view all the answers

    Welche der folgenden Variablen wird im ALM typischerweise als Störfaktor bezeichnet?

    <p>✏n</p> Signup and view all the answers

    Ein Fehler im ALM beeinflusst nie den bedingten Erwartungswert.

    <p>True</p> Signup and view all the answers

    Was bedeutet das Symbol Yn in der Gleichung Yn = E(Yn |X1n ,..., XP n ) + ✏n?

    <p>Der beobachtete Wert einer Zufallsvariablen</p> Signup and view all the answers

    Welche Annahme wird bei der logistischen Regression nicht getroffen?

    <p>Homoskedastizität</p> Signup and view all the answers

    Die logistische Regression kann nur bei linearen Datenmodellen angewendet werden.

    <p>False</p> Signup and view all the answers

    Was bedeutet die Variable $Y_n$ in der logistischen Regression?

    <p>Die Zielvariable oder abhängige Variable.</p> Signup and view all the answers

    Die logistische Regression nutzt eine _______ Funktion zur Modellierung der Daten.

    <p>nicht-lineare</p> Signup and view all the answers

    Ordne die folgenden Begriffe den richtigen Definitionen zu:

    <p>Normalverteilung = Verteilung der Fehler ist gewöhnlich Glockenförmig Homoskedastizität = Konstanz der Varianz der Fehler Logistische Regression = Modell zur binären Klassifikation Nicht-lineare Funktion = Funktion, die keine gerade Linie ist</p> Signup and view all the answers

    Was ist eine Konsequenz, wenn die Normalverteilung und Homoskedastizität-Annahme nicht zutreffen?

    <p>Eine nicht-lineare Funktion sollte verwendet werden</p> Signup and view all the answers

    Die logistische Regression erfordert, dass die Fehler normalverteilt sind.

    <p>False</p> Signup and view all the answers

    Nenne eine Anwendung der logistischen Regression.

    <p>Klassifikation von binären Ergebnissen.</p> Signup and view all the answers

    Die logistische Regression wird häufig in der _______ verwendet, um binäre Outcomes vorherzusagen.

    <p>Medizin</p> Signup and view all the answers

    Ordne die folgenden Begriffe den entsprechenden Beispielen zu:

    <p>Regression = Vorhersage von Verkaufszahlen Klassifikation = Vorhersage von Kreditnehmerstatus Clusteranalyse = Segmentierung von Kunden Zeitreihenanalyse = Vorhersage von Aktienkursen</p> Signup and view all the answers

    Was stellt die Variable $X_{1n},..., X_{Pn}$ in der Gleichung dar?

    <p>Unabhängige Variablen</p> Signup and view all the answers

    Was sind die Nachteile einer logistischen Regression?

    <p>Annahmen der Normalverteilung, schwer zu interpretieren bei Mehrfachklassen.</p> Signup and view all the answers

    Ein zentrales Konzept der logistischen Regression ist die _______-Funktion.

    <p>logit</p> Signup and view all the answers

    In welchem Bereich wird logistische Regression häufig genutzt?

    <p>Alle oben genannten</p> Signup and view all the answers

    Die logistische Regression ist nur für quantitative Daten geeignet.

    <p>False</p> Signup and view all the answers

    Was repräsentiert $Y$ in der logistischen Regression?

    <p>Die abhängige Variable</p> Signup and view all the answers

    In der logistischen Regression können nur stetige Prädiktoren verwendet werden.

    <p>False</p> Signup and view all the answers

    Welche Funktion wird oft verwendet, um die Wahrscheinlichkeit in der logistischen Regression zu berechnen?

    <p>Logit-Funktion</p> Signup and view all the answers

    In der Formel der logistischen Regression steht $b0$ für den _______.

    <p>Achsenabschnitt</p> Signup and view all the answers

    Ordne die Begriffe den korrekten Definitionen zu:

    <p>Stetige Prädiktoren = Können Werte innerhalb eines Intervalls annehmen Kategoriale Prädiktoren = Nehmen eine begrenzte Anzahl von Werten an Regressionsparameter = Bestimmen den Einfluss der Prädiktoren Wahrscheinlichkeitsfunktion = Berechnet die Wahrscheinlichkeit eines Ereignisses</p> Signup and view all the answers

    Welcher Begriff beschreibt den Zusammenhang zwischen Intelligenz (IQ) und Wahlteilnahme?

    <p>Regression</p> Signup and view all the answers

    Die logistische Regression eignet sich nicht für binäre abhängige Variablen.

    <p>False</p> Signup and view all the answers

    Welche mathematische Konstante müsste man in der Wahrscheinlichkeitsfunktion der logistischen Regression häufig nutzen?

    <p>e (Euler'sche Zahl)</p> Signup and view all the answers

    Die logistische Funktion wird als der Typ _______ bezeichnet.

    <p>S-Kurve</p> Signup and view all the answers

    Paar die Begriffe zu den passenden Variablen zu:

    <p>IQ = Stetiger Prädiktor Wahlteilnahme = Kategoriale abhängige Variable Prädiktor = Unabhängige Variable Regression = Statistisches Modell</p> Signup and view all the answers

    Was resultiert aus der logistischen Regression?

    <p>Eine Wahrscheinlichkeit</p> Signup and view all the answers

    Ein Wert von $Y = 0$ in der Wahlteilnahme bedeutet, dass die Person nicht gewählt hat.

    <p>True</p> Signup and view all the answers

    Wie nennt man die Gleichung, die die Wahrscheinlichkeit eines Ereignisses in der logistischen Regression beschreibt?

    <p>Logistische Gleichung</p> Signup and view all the answers

    Die Regressionsparameter $b1, b2, ..., bP$ bestimmen den _______ von Prädiktoren.

    <p>Einfluss</p> Signup and view all the answers

    Welche der folgenden Aussagen beschreibt die Grundlage der logistischen Regression am besten?

    <p>Wahrscheinlichkeiten transformieren</p> Signup and view all the answers

    Study Notes

    Vorlesungsthemen

    • Multivariate Statistik und Datenanalyse, Wintersemester 2024/25, gehalten von Florian Scharf am 05. November 2024
    • Detaillierte Betrachtung der logistischen Regression, Fokus auf Modell und Interpretation von Modellparametern

    Logistische Regression I: Modell und Parameterinterpretation

    • Die Vorlesung befasst sich mit dem Einfluss einer oder mehrerer metrischer oder kategorialer Prädiktoren auf ein metrisches Kriterium.
    • Die Grundgleichung des allgemeinen linearen Modells (ALM) für eine Person n wird präsentiert: Yn = bo + b₁· X₁n + b₂· X₂n + ...+ bp· Xpn + εn
    • Die Interpretation der ALM-Parameter und die Anwendung von Tests im ALM werden behandelt.
    • Es wird auf die Vielzahl der Modellierungsmöglichkeiten eingegangen, einschließlich Interaktionen und nicht-linearer Terme.

    Modellwahl

    • Es gibt viele Modellierungsoptionen. Die Wahl eines geeigneten Modells wird diskutiert.
    • Idee 1: Direkter Vergleich weniger sinnvoller Kandidatenmodelle (z. B. Modell mit vs. ohne Interaktion). Signifikanztests (z. B. Likelihood-Ratio-Test, im ALM: F-Test) oder alternative Kriterien (nächste Folien) helfen bei der Modellwahl.
    • Idee 2: Schätzung einer größeren Anzahl plausibler Modelle und Wahl des besten Modells anhand eines Kriteriums. Das Problem mit R² ist, dass es mit zunehmender Anzahl der Prädiktoren immer größer wird (und der Standardschätzfehler immer kleiner). Das gilt auch, wenn die Prädiktoren in der Population nicht mit dem Kriterium zusammenhängen. Dadurch wird das Populations-R² überschätzt, je stärker die Zahl der Prädiktoren relativ zur Zahl der Personen wächst (Overfitting bias).
    • Eine Vielzahl von Modellgütemaßen wird vorgestellt, um die Modellkomplexität zu berücksichtigen: Adjustiertes R², AIC, BIC, ...
    • Es wird hervorgehoben, dass die Verwendung dieser Maße bei der Vergleich der Güte unterschiedlicher Modelle mit unterschiedlichen Prädiktoranzahlen sinnvoll ist.

    Probleme: Inferenz nach Modellwahl

    • Stichprobenkennwerteverteilung eines Regressionsgewichtes nach intensiver Modellwahl, wenn der Populationswert B = 0 ist.
    • Signifikanztests basieren auf Stichprobenkennwerten ohne Modellwahl. Nach der Modellwahl dürfen lokale Tests der Koeffizienten und die Konfidenzintervalle nicht mehr interpretiert werden.

    Verzicht auf Modellwahl

    • Idee 3: Schätzung einer größeren Anzahl plausibler Modelle und Mittelung der Ergebnisse gewichtet nach Gütekriterien (z. B. AIC). Das wird als Model averaging bezeichnet.
    • Dies führt in der Regel zu besseren Vorhersagen von Einzelwerten (vgl. ARMS).

    Voraussetzungenprüfung

    • Normalverteilung der Residuen: Verletzungen haben keinen Einfluss auf die Schätzungen von β, aber auf die Performanz der Signifikanztests (bei großen Stichproben unproblematisch).
    • Unabhängigkeit der Residuen (z.B. bei Längsschnittdaten, Daten aus größeren Personen Gruppen): Starker Einfluss auf Signifikanztests
    • Homoskedastizität (gleiche Varianz der Residuen): Starker Einfluss auf Signifikanztests

    Beispiel

    • Ein Beispiel wird gezeigt, wie Gewissenhaftigkeit und zehn zufällig generierte Variablen die Beurteilung durch Vorgesetzte beeinflussen.

    Logistische Regression

    • Die logistische Regression wird als geeignete Methode für dichotome Kriterien vorgestellt.
    • Es wird erklärt, warum das ALM in diesem Fall ungeeignet ist.
    • Das Modell, das für dichotome Kriterien geeignet ist, wird detailliert erläutert.
    • Die Interpretation der Parameter dieses Modells wird diskutiert.

    Interpretation der Parameter

    • Die Interpretation von Parametern im ALM ist abhängig vom Skalenniveau der Prädiktoren und deren Anzahl.

    Ein stetiger Prädiktor

    • Die Konstante bo bestimmt die vorhergesagte Wahrscheinlichkeit, wenn der Prädiktor den Wert 0 annimmt.
    • Je größer bo, desto größer die Wahrscheinlichkeit.
    • Zentralisierung der stetigen Prädiktoren führt zu einer sinnvollen Interpretation.
    • Berechnung und Interpretation der maximalen Wahrscheinlichkeitsänderung.

    Ein kategorialer Prädiktor (2 Stufen)

    • Konstante bo bestimmt die vorhergesagte Wahrscheinlichkeit des mit 1 kodierten Ereignisses in der Referenzkategorie.
    • Gewicht b₁ berechnet die Wahrscheinlichkeit für die vergleichende Kategorterie.

    Alternative Darstellungsformen

    • Logit-Formulierung: alternative Darstellung des logistischen Regressionsmodells.
    • Bedingte Wett-Quotienten (Odds-Ratios)

    Zusammenfassung

    • Voraussetzungen des ALM sind bei kategorialen Kriterien stark verletzt.
    • Die logistische Regression beschreibt den Einfluss von Prädiktoren auf kategoriale Kriterien.
    • Parameterinterpretation umfasst bedingte Wahrscheinlichkeiten, logit-Interpretation und bedingte Wettquotienten.

    Literatur

    • Eid, M., Gollwitzer, M., & Schmitt, M. (2017). Statistik und Forschungsmethoden (5. Aufl.). Beltz: Weinheim, Basel. (Kap. 22 relevante Abschnitte)

    Studying That Suits You

    Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

    Quiz Team

    Description

    Dieses Quiz behandelt die Themen der logistischen Regression, die in der Vorlesung behandelt werden. Es werden wichtige Konzepte wie Prädiktoren, dichotome Variablen und Datenanalyse-Techniken besprochen. Testen Sie Ihr Wissen über die verschiedenen Aspekte und Anwendungen der logistischen Regression.

    More Like This

    Use Quizgecko on...
    Browser
    Browser