Logistische Regression I: Modell, Interpretation der Modellparameter (PDF)
Document Details
Uploaded by CohesiveDiscernment8610
Universität Kassel
2024
Florian Scharf
Tags
Related
- Multivariate Statistik und Datenanalyse Wintersemester 2024/25 PDF
- Multivariate Statistik und Datenanalyse Vorlesung PDF
- Multivariate Statistik und Datenanalyse - ALM II PDF
- Logistische Regression II: PDF
- Multivariate Statistik und Datenanalyse (Wintersemester 2024/25) PDF
- Multivariate Statistik und Datenanalyse Vorlesungsunterlagen PDF
Summary
This document is lecture notes on Logistische Regression I. It covers the model, interpretation of the model parameters, and discusses the topic of model selection. The notes also include examples and calculations relevant to the subject matter.
Full Transcript
Multivariate Statistik und Datenanalyse Wintersemester 2024/25 Florian Scharf 05. November 2024 Logistische Regression I: Modell, Interpretation der Modellparameter Themen der Vorlesung 1 22.10. Allgemeines Lineares Modell I: Modell...
Multivariate Statistik und Datenanalyse Wintersemester 2024/25 Florian Scharf 05. November 2024 Logistische Regression I: Modell, Interpretation der Modellparameter Themen der Vorlesung 1 22.10. Allgemeines Lineares Modell I: Modell, Interpretation & Inferenz 2 29.10. Allgemeines Lineares Modell II: Kategoriale Prädiktoren & Interaktionen 3 05.11. Logistische Regression I: Modell, Interpretation der Modellparameter 4 12.11. Logistische Regression II: Schätzung, Modellgüte und stat. Inferenz 5 19.11. LMM I: Grundidee, Modelltypen 6 26.11. LMM II: Modellschätzung, Interpretation 7 03.12. LMM III: Modellierung wiederholter Messungen 8 10.12. CFA I: Grundmodell und Modellmatrix 9 17.12. CFA II: Schätzung und Modellgültigkeit 10 14.01. SEM I: Grundidee, Schätzung und Parameterinterpretation 11 21.01. SEM II: Flexibilität von SEMs, Pfadanalyse und Probleme von SEMs 12 28.01. Längsschnittliche SEMs I: Latente Wachstumskurvenmodelle 13 04.02. Längsschnittliche SEMs II: Messinvarianz und weitere Modelle 14 11.02. Statistik und Kausalität 138 Rückblick Frage: Wie groß ist der Einfluss einer oder mehrerer metrischer oder kategorialer Prädiktoren (und ggf. deren Interaktionen) auf ein metrisches Kriterium? Grundgleichung des ALM für eine Person n: yn = b0 +𝑦b! 1=· 𝑏x"1n++𝑏#b⋅2𝑥·#!x+ 2n 𝑏+ $ ⋅... 𝑥$!+ +.b. p. +𝑏 · x%pn⋅ + 𝑥%!...++ 𝑒! bP · xP n + en AAAHu3icpVXbbtNAEJ22gEvKpYVHJGRRkJCQLCcS8FSpXFTxQEVQmzRSUkW2swkmvsnrhAYrv8UP8MwH8B0InkDi7NhpkoZcAFtez87MmTM7O17bkefKxDS/rq1vXLp8Rdu8Wti6dv3Gze2dW1UZ9mJHVJzQC+OabUnhuYGoJG7iiVoUC8u3PXFid18o+0lfxNINg+NkEIlT3+oEbtt1rASq5nZn0Az0Pd1umvojjEW94bTCRD9rpsVgyKrSWFVilWEYbIjGhmjKUB4bymwQTTDtmobJlz4rFHNhd//+90+f+1s/yuHOxl1qUItCcqhHPgkKKIHskUUSd52KZFIE3Sml0MWQXLYLGlIB2B68BDwsaLsYO5jVc22AuYopGe2AxcMTA6nTAzwHHNGGt2IVkCXeP/F8ZF3nvxjmYVMeY+As4JVndhfwzEMEM5j5manaqSoFqJ3KSkkRfBPO11lQt5RXI5kloXfnuS3zV77+yt5tVEjVW+aIwgJEjNGDxcWOiBUY1Lq78B1XdbH/GQ2gcxdWpU7HeSVHmY/qOMr9JTRZz6p8D/PqVfOOchmVQlJ7J3OmI1gTjAPUxOa+Ocijp3hHjFVxQo4xnMKn9IZzGnLPKXzMss9jsAKDx7ZRz89GP6TXU9H9ifgucMsZ5IT2zwxHUwxy7gpG9XyGSBHeFvwFczTOOzXLafUaScQa5ru3OouNDliNxUZn/dtKkqUrSTj3v9tt1ZkdPqeW7Uot3+MPjLZmmBSX+obb/DW7iDOYyL6/oOcVMuZvRyC6Oiv9/DxrcQUmI7bgo+Y9zLJ6ZKwX9PjfFC/+XWaFaskoPjEev8WP5zll1ybdoXv0EFV9Svv0ispUQUZf6BtO/1/anuZo7zUvc11fyzG3aerSer8BJ8ebkA== Interpretation der ALM-Parameter und Tests im ALM Vielfältige Modellierungsoptionen: Interaktionen, nicht-lineare Terme, … Abschluss ALM 139 Modellwahl viele Modellierungsoptionen… Wie wählt man ein “gutes“ Modell? Idee 1: Vergleiche wenige(!) sinnvolle Kandidatenmodelle direkt miteinander (z.B. Modell mit vs. ohne Interakion) – mit Signifikanztests, z.B. Likelihood-Ratio-Test (im ALM: F-Test) – mittels alternativer Kriterien (vgl. nächste Folien) – Vorteil: Interpretierbarkeit, direkter Test von Theorien – Nachteil: starke Theorie notwendig Abschluss ALM 140 Modellwahl viele Modellierungsoptionen… Wie wählt man ein “gutes“ Modell? Idee 2: schätze eine größere Anzahl plausibler Modelle und wähle anhand eines Kriteriums das „Beste“ aus ein Problem mit R2: mit zunehmender Anzahl der Prädiktoren wird R2 immer größer (und der Standardschätzfehler immer kleiner) – das gilt auch dann, wenn die Prädiktoren in der Population nicht mit dem Kriterium zusammenhängen – Populations-R2 wird umso mehr überschätzt, je stärker die Zahl der Prädiktoren relativ zur Zahl der Personen anwächst (sog. overfitting bias) Abschluss ALM 141 Beispiel Einfluss von Gewissenhaftigkeit (G) und zehn zufällig generierten Variablen (Z1- Z10) auf die Vorgesetztenbeurteilung (V)? Person G Z1 … Z10 V 1 5 -1 0 10 ALM mit G: 2 4 0 -1 4 3 5 0 0 6 𝑅! = 0.06 … 61 3 2 2 4 62 3 1 0 7 ALM mit G und Z1 – Z10: 63 4 -1 -1 4 𝑅! = 0.17 … 179 3 -2 0 2 180 3 0 0 7 Abschluss ALM 142 Modellwahl ein Problem R2: mit zunehmender Anzahl der Prädiktoren wird R2 immer größer (und der Standardschätzfehler immer kleiner) – das gilt auch dann, wenn die Prädiktoren in der Population nicht mit dem Kriterium zusammenhängen verschiedenste Modellgütemaße, die auch die Modellkomplexität berücksichtigen: adjustiertes R2, AIC, BIC, … gerade für den Vergleich der Güte von verschiedenen Modellen mit unterschiedlichen Anzahlen an Prädiktoren ist die Verwendung dieser Maße sinnvoll Abschluss ALM 143 Modellwahl Zur Erinnerung : AAAE2niclVNLbxMxEJ4tC5TwSuHIZUUE4tIoqVBBSEgVL3GhaoG0VR+qvBsnWNkXa6c0RLlwQYgrJ67wp7jzMzjwzWQDNFGB2lp7PI9vPo9nwzw21jUa37y5U/7pM2fnz1XOX7h46XJ14cqGzfpFpFtRFmfFVqisjk2qW864WG/lhVZJGOvNsPeQ7ZsHurAmS1+6Qa73EtVNTcdEykGVVd/TTdolR5oOsYbUoSFtU58KCugxVkMppobUx96lEd2DZRezgsg1yPflPEHgaEWvKIa2LXEBvAr6jpOhHjwynDSwRn/grP4nDu8WCOkMQgD9PrQTHEuv4etE7kBSFAFznV7Aa0jP4WkRP4K8SotAXqQm4+1Xa416Q0YwKzRLoUblWMsWvG1kaINThAolwstBjpHRYu4At0E5dHvIpYSTEbtGvgpi+/DS8GCGPaxdnHZKbYpzIlw5OkKWWOrHN7+B74kghvI2rqyOox/43pbvdVyGoSAzwwH2UBDHmM9gcai8/mdsUnqOThCZwz6AhWtgTxDJFXF4ybtSCe7KXDRco+gXziNYuLt6YuEONlIFhRvy+UB6J6AWuPMLTRACqVYbu5Jdlz06RlTA4z/BSQerv3CMgMv8LJj+rs7x/m0wMtDaqZc+PPLWHD/mo+mNWBJBZ6ZD6W+ONfAfCPeO3CxG9pHYmc2UHn3enO7qWWFjqd5cri+v366tPCg7fp6u0XW6ha6+Qyv0FH9OiyLPeZ+9L95Xf9d/53/wP45d57wy5iodGf6nn0X28Zw= adjustiertes R2: 𝑁−1 P = Zahl der Prädiktoren ! 𝑅"#$ = 1 − 1 − 𝑅! N = Zahl der Personen 𝑁−𝑃−1 ! QSRes se = N →P →1 Akaikes Informationskriterium: 𝑄𝑆%&' 𝐴𝐼𝐶 = 𝑁. 𝑙𝑛 + 2P − 2 𝑁 für den Modellvergleich scheint das AIC besser geeignet zu sein, da es die Modellkomplexität stärker bestraft (vgl. Fahrmeir et al., 2013) Vorteil: datengetriebene Modellwahl ohne starke Vorselektion möglich Abschluss ALM 144 Beispiel Einfluss von Gewissenhaftigkeit (G) und zehn zufällig generierten Variablen (Z1- Z10) auf die Vorgesetztenbeurteilung (V)? Person G Z1 … Z10 V 1 5 -1 0 10 ALM mit G: 2 4 0 -1 4 3 5 0 0 6 𝑅! = 0.06 ! … 𝑅"#$ = 0.06, 𝐴𝐼𝐶 = 715.8 61 3 2 2 4 62 3 1 0 7 ALM mit G und Z1 – Z10: 63 4 -1 -1 4 𝑅! = 0.17 ! … 𝑅"#$ = 0.11, 𝐴𝐼𝐶 = 714.5 179 3 -2 0 2 180 3 0 0 7 Abschluss ALM 145 Probleme: Inferenz nach Modellwahl Stichprobenkennwerteverteilung eines Regressionsgewichtes nach intensiver Modellwahl, wenn der Populationswert β = 0! Ohne Modellwahl Mit Modellwahl 500 1500 Häufigkeit Häufigkeit 300 1000 500 100 0 0 −0.4 −0.2 0.0 0.2 0.4 −0.4 −0.2 0.0 0.2 0.4 b1 b1 Abschluss ALM 146 Probleme: Inferenz nach Modellwahl Ohne Modellwahl Mit Modellwahl 500 1500 Häufigkeit Häufigkeit 300 1000 500 100 0 0 −0.4 −0.2 0.0 0.2 0.4 −0.4 −0.2 0.0 0.2 0.4 b1 b1 Signifikanztests basieren auf SKV ohne Modellwahl! Nach Modellwahl dürfen die lokalen Tests der Koeffizienten sowie die Konfidenzintervalle nicht mehr interpretiert werden. Abschluss ALM 147 Verzicht auf Modellwahl? viele Modellierungsoptionen… Wie wählt man ein “gutes“ Modell? Idee 3: schätze eine größere Anzahl plausibler Modelle und mittle deren Ergebnisse gewichtet an Gütekriterien (z.B. am AIC) – sog. Model averaging – führt i.d.R. zu besseren Vorhersagen von Einzelwerten (vgl. ARMS) Abschluss ALM 148 Rückblick Frage: Wie groß ist der Einfluss einer oder mehrerer metrischer oder kategorialer Prädiktoren (und ggf. deren Interaktionen) auf ein metrisches Kriterium? Grundgleichung des ALM für eine Person n: yn = b0 +𝑦b! 1=· 𝑏x"1n++𝑏#b⋅2𝑥·#!x+ 2n 𝑏+ $ ⋅... 𝑥$!+ +.b. p. +𝑏 · x%pn⋅ + 𝑥%!...++ 𝑒! bP · xP n + en AAAHu3icpVXbbtNAEJ22gEvKpYVHJGRRkJCQLCcS8FSpXFTxQEVQmzRSUkW2swkmvsnrhAYrv8UP8MwH8B0InkDi7NhpkoZcAFtez87MmTM7O17bkefKxDS/rq1vXLp8Rdu8Wti6dv3Gze2dW1UZ9mJHVJzQC+OabUnhuYGoJG7iiVoUC8u3PXFid18o+0lfxNINg+NkEIlT3+oEbtt1rASq5nZn0Az0Pd1umvojjEW94bTCRD9rpsVgyKrSWFVilWEYbIjGhmjKUB4bymwQTTDtmobJlz4rFHNhd//+90+f+1s/yuHOxl1qUItCcqhHPgkKKIHskUUSd52KZFIE3Sml0MWQXLYLGlIB2B68BDwsaLsYO5jVc22AuYopGe2AxcMTA6nTAzwHHNGGt2IVkCXeP/F8ZF3nvxjmYVMeY+As4JVndhfwzEMEM5j5manaqSoFqJ3KSkkRfBPO11lQt5RXI5kloXfnuS3zV77+yt5tVEjVW+aIwgJEjNGDxcWOiBUY1Lq78B1XdbH/GQ2gcxdWpU7HeSVHmY/qOMr9JTRZz6p8D/PqVfOOchmVQlJ7J3OmI1gTjAPUxOa+Ocijp3hHjFVxQo4xnMKn9IZzGnLPKXzMss9jsAKDx7ZRz89GP6TXU9H9ifgucMsZ5IT2zwxHUwxy7gpG9XyGSBHeFvwFczTOOzXLafUaScQa5ru3OouNDliNxUZn/dtKkqUrSTj3v9tt1ZkdPqeW7Uot3+MPjLZmmBSX+obb/DW7iDOYyL6/oOcVMuZvRyC6Oiv9/DxrcQUmI7bgo+Y9zLJ6ZKwX9PjfFC/+XWaFaskoPjEev8WP5zll1ybdoXv0EFV9Svv0ispUQUZf6BtO/1/anuZo7zUvc11fyzG3aerSer8BJ8ebkA== Interpretation der ALM-Parameter und Tests im ALM Welche Voraussetzungen macht das ALM? Rückblick 149 Voraussetzungsprüfung Normalverteilung der Residuen: - Verletzungen haben keinen Einfluss auf die Güte der Schätzungen von β, aber auf die Performanz der Signifikanztests - bei großen Stichproben unproblematisch Unabhängigkeit der Residuen (vgl. Sitzungen zum LMM) – bei Längsschnittdaten, Daten aus größeren Gruppen usw. verletzt – starker Einfluss auf die Güte der Signifikanztests Homoskedastizität: - starker Einfluss auf die Güte der Signifikanztests Rückblick 150 Illustration Populationsmodell: Yn = 3.0 + 0 ∙ Xn + εn mit εn ~ 𝑁 0, σ!(& – Bedingung Homoskedastizität: σ"!! = σ!) = 1 – Bedingung Heteroskedastizität: σ"!! = σ!) ∙ (0.1 + 0.2 ∙ Xn) § mit größer werdendem Xn wird die Varianz größer Rückblick 151 Homoskedastizität Varianz der Fehler darf nicht systematisch mit den Prädiktoren (bzw. den vorhergesagten Werten) variieren Rückblick 152 Heteroskedastizität Varianz der Fehler variiert systematisch mit den Prädiktoren (bzw. den vorhergesagten Werten) Rückblick 153 Illustration Populationsmodell: Yn = 3.0 + 0 ∙ Xn + εn mit εn ~ 𝑁 0, σ!(& – Bedingung Homoskedastizität: σ"!! = σ!) = 1 – Bedingung Heteroskedastizität: σ"!! = σ!) ∙ (0.1 + 0.2 ∙ Xn) Simulationsstudie: in 1000 Stichproben (N = 50, 75 oder 100) wurde eine einfache Regression berechnet und geprüft, ob der Regressionskoeffizient signifikant von Null abweicht Ergebnis: %-Ablehnungen der H0 Bedingung N = 50 N = 75 N = 100 Homoskedastizität 5.1 4.2 4.5 Heteroskedastizität 7.7 7.9 8.1 Rückblick 154 Überblick Frage: Wie groß ist der Einfluss einer oder mehrerer metrischer oder kategorialer Prädiktoren auf ein dichotomes Kriterium? Warum ist das ALM in dieser Situation ungeeignet? Wie sieht ein Modell aus, das in dieser Situation geeignet ist? Wie interpretiert man die Parameter dieses Modells? - drei „Varianten“ Logistische Regression I: 155 Grundmodell Parameterinterpretation weitere Darstellungsformen Beispiel Zusammenhang zwischen Intelligenz (IQ), Wohnort (DS; 0 = städtisch, 1 = ländlich), Alter (A) und Wahlteilnahme (W; 0 = nein, 1 = ja) Person IQ DS A W 1 13 0 51 1 2 17 1 75 1 3 13 1 42 1 4 13 0 20 0 5 20 1 50 1 6 13 1 71 1 7 15 1 26 1 8 8 0 75 0 … 400 13 1 34 1 Logistische Regression I: 156 Grundmodell Parameterinterpretation weitere Darstellungsformen Logistische Regression Wie hängen metrische und/oder kategoriale Prädiktoren mit einem dichotomen Kriterium zusammen? dichotome (0-1) Variablen treten häufig auf: - Diagnostik: Lösung einer Aufgabe ist richtig vs. falsch - Arbeitspsychologie: Arbeitslos ja vs. nein - Gesundheitspsychologie: Krank vs. Nicht-Krank (Tod vs. Gesund) - Klinische Psychologie: Therapie wirkt vs. wirkt nicht - … Warum ist das ALM in dieser Situation ungeeignet? Logistische Regression I: 157 Grundmodell Parameterinterpretation weitere Darstellungsformen Beispiel Zusammenhang zwischen Intelligenz (IQ) und Wahlteilnahme (W; 0 = nein, 1 = ja) Person IQ (X1) W (Y) 1 13 1 2 17 1 3 13 1 4 13 0 5 20 1 6 13 1 7 15 1 8 8 0 … 400 13 1 Logistische Regression I: 158 Grundmodell Parameterinterpretation weitere Darstellungsformen Warum nicht das ALM? Annahme im ALM: der beobachtete Wert einer Person n ist Summe des bedingten Erwartungswerts und eines Fehlers AAAHg3icpVXbbtNAEJ22FJdwa+ERCVmtkIpShaTi8lQp3CoeqAhqkwYlVWQnm7CKb/I6hWDyF/A1vMJH9F944OzYKUlDLoCt3Z2dnTMze3bWtgNHqiifP1taXrm0etlYu5K5eu36jZvrG7cqyu+FTVFu+o4fVm1LCUd6ohzJyBHVIBSWazvi2O4+1+vHpyJU0veOon4gTlyr48m2bFoRVI31B+8anrlnvtzW42ez2ogL3mDHzOVyO3pS8gb3zaxZF4GSDuyB2Mrn8vyYk0IhFbaKm/Xsl7Niv+RvrNylOrXIpyb1yCVBHkWQHbJI4a1RgfIUQHdCMXQhJMnrggaUAbYHKwELC9ou+g5mtVTrYa59KkY3EcVBC4E06R7aPnu0Ya2jCsgK40+0T6zr/FeEadiY+xA4C3htmbwZtGkIbwIzPTPNnWbJA3c6Ky0FsI043+YM3mLejeIoEb0/z22evbZ1F7ZugyHNt0oRmRmIEL2DFYkTEQtE0PvuwvY3q7PtP1IfOjmTlRodpUwOMx/yOMz9BTRJzep8D1L2KmlFSUbFkPTZqTTSIVYj9H1wYnPd7KfeY4wBY7Ufn30MxvAxveGcBlxzGh+y7HLvLRDB4bVhzU96P6DXY97dEf8SuPkR1Ij2zxEOxyKoqTsY8vkUngKMFuwFx6ifV2qS0+IcKfgapKe3eBQbFbBYFBuV9W87iebuJOLc/+60dWV2+Ds171Sq6Rl/YLQ1EUnH0ne4zbdZwk9/JPvTGTWvkSHfHQHv+lvppt+zFjMw6rEFGz3vYZbwkUS9oMf/pnDx7zIpVHZzhce5R2/x43lGybNGd2iTtsHqEyrSKypRGRl9pW/0nX4Yq0bW2DUeJqbLSynmNo09xt4vmsqHbw== Yn = E(Yn |X1n ,..., XP n ) + ✏n Logistische Regression I: 159 Grundmodell Parameterinterpretation weitere Darstellungsformen Beispiel Welchen Erwartungswert der „Wahlteilnahme“ würde man für eine Person mit einer Intelligenz von 8 erwarten? Population E(Wn | IQ = 8): 1 1.. 1 1 2 2.. 2 2 Erwartungswert einer 3 3.. 3 3 4 4.. 4 4 dichotomen Variable ist 5 5.. 5 5 6 6.. 6 6 eine relative Häufigkeit 7 7.. 7 7 8 8.. 8 8 bzw. eine Wahrscheinlichkeit 9 9.. 9 9.. Logistische Regression I: 160 Grundmodell Parameterinterpretation weitere Darstellungsformen Warum nicht das ALM? Annahme im ALM: der beobachtete Wert einer Person j ist Summe des bedingten Erwartungswerts und eines Fehlers AAAHg3icpVXbbtNAEJ22FJdwa+ERCVmtkIpShaTi8lQp3CoeqAhqkwYlVWQnm7CKb/I6hWDyF/A1vMJH9F944OzYKUlDLoCt3Z2dnTMze3bWtgNHqiifP1taXrm0etlYu5K5eu36jZvrG7cqyu+FTVFu+o4fVm1LCUd6ohzJyBHVIBSWazvi2O4+1+vHpyJU0veOon4gTlyr48m2bFoRVI31B+8anrlnvtzW42ez2ogL3mDHzOVyO3pS8gb3zaxZF4GSDuyB2Mrn8vyYk0IhFbaKm/Xsl7Niv+RvrNylOrXIpyb1yCVBHkWQHbJI4a1RgfIUQHdCMXQhJMnrggaUAbYHKwELC9ou+g5mtVTrYa59KkY3EcVBC4E06R7aPnu0Ya2jCsgK40+0T6zr/FeEadiY+xA4C3htmbwZtGkIbwIzPTPNnWbJA3c6Ky0FsI043+YM3mLejeIoEb0/z22evbZ1F7ZugyHNt0oRmRmIEL2DFYkTEQtE0PvuwvY3q7PtP1IfOjmTlRodpUwOMx/yOMz9BTRJzep8D1L2KmlFSUbFkPTZqTTSIVYj9H1wYnPd7KfeY4wBY7Ufn30MxvAxveGcBlxzGh+y7HLvLRDB4bVhzU96P6DXY97dEf8SuPkR1Ij2zxEOxyKoqTsY8vkUngKMFuwFx6ifV2qS0+IcKfgapKe3eBQbFbBYFBuV9W87iebuJOLc/+60dWV2+Ds171Sq6Rl/YLQ1EUnH0ne4zbdZwk9/JPvTGTWvkSHfHQHv+lvppt+zFjMw6rEFGz3vYZbwkUS9oMf/pnDx7zIpVHZzhce5R2/x43lGybNGd2iTtsHqEyrSKypRGRl9pW/0nX4Yq0bW2DUeJqbLSynmNo09xt4vmsqHbw== Yn = E(Yn |X1n ,..., XP n ) + ✏n - dichotomes Kriterium: der bedingte Erwartungswert (= vorhergesagter Wert) ist eine Wahrscheinlichkeit, d.h. AAAHh3icpVXbbtNAEJ22gNtwa+ERCVmtkIpahQRE4QUpBVTxQEVQmzSoqSI72YRVfJPXKQTjv+CFr+EVPqH/wgNnx05JGnIBbO3u7Oycmdmzs7YdOFJFhcLZwuLSpctXjOWV3NVr12/cXF27VVV+L2yKStN3/LBmW0o40hOVSEaOqAWhsFzbEUd294VePzoVoZK+dxj1A3HiWh1PtmXTiqBqrD561/DMZ2Z5Mx2Ln81aIy56ybaZz+e39aTsJeZ9c8usi0BJBxigNgr5Aj/muFDMhI3Sen3ry1mpX/bXlu5SnVrkU5N65JIgjyLIDlmk8B5TkQoUQHdCMXQhJMnrghLKAduDlYCFBW0XfQez40zrYa59KkY3EcVBC4E06R7aHnu0Ya2jCsgK40+0T6zr/FeESdiY+xA4C3htmb45tEkIbwwzOTPNnWbJA3c6Ky0FsI043+YU3mLejeIoEb0/z22WvbZ157ZugyHNt8oQuSmIEL2DFYkTEXNE0PvuwvY3q9PtP1IfOjmVlWM6zJgcZD7gcZD7S2jSmtX57mfsVbOKkoyKIemzU1mkA6xG6PvgxOa62cu8xxgDxmo/PvtIRvAxveGcEq45jQ9Zdrn35ojg8Nqg5se979PrEe/ukH8J3OwIakj75wgHIxHUxB0M+NyFpwCjBXvBMernlZrmND9HCr6S7PTmj2KjAuaLYqOy/m0n0cydRJz73522rswOf6dmnUotO+MPjLbGIulY+g63+TZL+OkPZX86peY1MuS7I+Bdfyvd7HvWYgaGPbZgo+c9zFI+0qgX9PjfFC/+XcaF6sN8cSf/+C1+PM8pfZbpDq3TJlh9QiV6RWWqIKOv9I2+0w9jxXhg7BhPU9PFhQxzm0YeY/cXdRaIUA== Yn = P (Yn = 1|X1n ,..., XP n ) + ✏n § Konsequenzen: o Normalverteilung- und Homoskedastizität-Annahme der Fehler trifft nicht zu o man muss eine nicht-lineare Funktion zur Modellierung der Daten verwenden Logistische Regression I: 161 Grundmodell Parameterinterpretation weitere Darstellungsformen Warum nicht das ALM? die Annahmen des ALMs treffen nicht zu εn AAAHWnicpVXbbtNAEJ2m0LQplxYQL0gookLiKUqQgNdSUMUDFa3apEFJVdnOJl3FN3k3hWDlJ3iFX+Av+AkkxJfwwNnxpiQNuQC2vB7Pzpkze3Zsu7EvlS6Xvy3llq9cXcmvrhXWr12/cXNj81ZNRb3EE1Uv8qOk7jpK+DIUVS21L+pxIpzA9cWx231h5o/PRaJkFB7pfixOAqcTyrb0HA1XvXnm6OLb0/B0Y6tcKvNRnDQq1tjavnvwQ37Z+bofbS7fpya1KCKPehSQoJA0bJ8cUjgbVKEyxfCdUApfAkvyvKABFYDtIUogwoG3i7GDp4b1hng2ORWjPbD4uBIgi/QQ1y5ndBFtWAVshftPXB/Y1/kvhmnYlMcEOAd4E5mdBVzTEOEEZnplRjujUgjtTFXGihGruV5vhm4pr0Yxi6azi9rmxZvYYOHoNhQyeiuLKMxAJBh9zEjsiFiAway7i9jfqs6Of099+ORMVRp0ZJUcVj7UcVj7S3iynjX17ln1arajJKNSWGbvlGU6xKzG2IcmLvfNrs2e4h4z1uSJOMdgDJ/SG65pwD1n8AnbAY/hAgw+zw17fjL7Hr0eyx6M5JfAzWdQI94/MxyOMaipKxjq+RyZYtwdxAvmaF50albT4hop5BrY3VucxUUHLMbiorP+bSV67ko01/53u206s8PfqXm7Urd7/I7RzgST4TLvcJvfZok8/ZHqz2f0vEEm/O4IZDffysB+z1qswGjGFmLMcw9PmR4Z6yU//jeVy3+XSaP2uFR5WnpygB/PDmXHKt2jB/QIqj6jbXpF+1TlN/gjfaLPK9/zufxafj0LzS1ZzG0aO/J3fgH+WXui Ŷn Logistische Regression I: 162 Grundmodell Parameterinterpretation weitere Darstellungsformen Warum nicht das ALM? ALM stetiges Outcome ALM dichotomes Outcome 1.0 5 0.8 0.6 0 y y 0.4 −5 0.2 0.0 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 x x 163 Warum nicht das ALM? eine nicht-lineare Funktion wird benötigt, um die Wahrscheinlichkeit zu modellieren AAAHWnicpVXbbtNAEJ2m0LQplxYQL0gookLiKUqQgNdSUMUDFa3apEFJVdnOJl3FN3k3hWDlJ3iFX+Av+AkkxJfwwNnxpiQNuQC2vB7Pzpkze3Zsu7EvlS6Xvy3llq9cXcmvrhXWr12/cXNj81ZNRb3EE1Uv8qOk7jpK+DIUVS21L+pxIpzA9cWx231h5o/PRaJkFB7pfixOAqcTyrb0HA1XvXnm6OLb0/B0Y6tcKvNRnDQq1tjavnvwQ37Z+bofbS7fpya1KCKPehSQoJA0bJ8cUjgbVKEyxfCdUApfAkvyvKABFYDtIUogwoG3i7GDp4b1hng2ORWjPbD4uBIgi/QQ1y5ndBFtWAVshftPXB/Y1/kvhmnYlMcEOAd4E5mdBVzTEOEEZnplRjujUgjtTFXGihGruV5vhm4pr0Yxi6azi9rmxZvYYOHoNhQyeiuLKMxAJBh9zEjsiFiAway7i9jfqs6Of099+ORMVRp0ZJUcVj7UcVj7S3iynjX17ln1arajJKNSWGbvlGU6xKzG2IcmLvfNrs2e4h4z1uSJOMdgDJ/SG65pwD1n8AnbAY/hAgw+zw17fjL7Hr0eyx6M5JfAzWdQI94/MxyOMaipKxjq+RyZYtwdxAvmaF50albT4hop5BrY3VucxUUHLMbiorP+bSV67ko01/53u206s8PfqXm7Urd7/I7RzgST4TLvcJvfZok8/ZHqz2f0vEEm/O4IZDffysB+z1qswGjGFmLMcw9PmR4Z6yU//jeVy3+XSaP2uFR5WnpygB/PDmXHKt2jB/QIqj6jbXpF+1TlN/gjfaLPK9/zufxafj0LzS1ZzG0aO/J3fgH+WXui Ŷn Logistische Regression I: 164 Grundmodell Parameterinterpretation weitere Darstellungsformen eine mögliche nicht-lineare Funktion… Verwendung der % logistischen Funktion: "! # #!" = !+ " ! ! = $%!"#$# !" !# !$ !% & % $ # " ' Logistische Regression I: 165 Grundmodell Parameterinterpretation weitere Darstellungsformen Logistische Regression Grundmodell der logistischen Regression: e b0 +b1 ·x1n +...+bP ·xP n AAAH+3icpVXbbtNAEJ20QEqg0MIjErKokIpaRTEV8ACVykUVD1QE9RbUFMt2NsGqb/I6pcFY4l94QEK88h08IyHxIzxwduy0SUMuBVtej2fnzJk9O7at0HVkXKn8KExNnzt/oThzsXTp8uyVq3Pz13Zk0I5ssW0HbhDVLFMK1/HFduzErqiFkTA9yxW71sFTNb97KCLpBP5W3AnFvme2fKfp2GYMlzH3ubr42vC1VU3XPmg1I9H9FA9HbCxr5XJZW1buatcN4w6sejMybS0RbxLLqCxZhq7V7UYQ50BtiZFLmmVUTyYATVMt0eE/O86YW6iUK3xog4aeGwtrD399//hzJaoG89M3qU4NCsimNnkkyKcYtksmSZx7pFOFQvj2KYEvguXwvKCUSsC2ESUQYcJ7gLGFp73c6+NZ5ZSMtsHi4oqA1Og2rnXOaCFasQrYEvffuN6zr/VfDMOwCY8RcCbwKjI7S7iGIfwBzPDKlHZKJR/aqaqUFSI25nrtEbolvBrJLDG9Pa5tXLyK9SaObkIhpbfMEaURiAijixkHOyImYFDrPkDsiaqj44+oA58zUpU92sqV7Fbe1bFb+zN4sp5V9W7k6u3kHeUwKoGl9k7mTJuYjTF2oInFfbOeZ09wDxmr8gScI+3DJ/SSa0q55xQ+Ytvj0Z+AweW5bs8PZt+gF33ZvZ78DnDjGWSP9+8Mm30McugKuno+RqYQdxPxgjnqx52a1TS5RhK50nz3Jmex0AGTsVjorH9bSTx2JTHXfrbdVp3Z4u/UuF2p5Xv8jtHmAJPiUu9wk99mB3k6PdUfjuh5hYz43RHIrr6VXv49a7ACvRkbiFHPbTxlemSsp/z43+in/y6Dxs7dsn6/fO8VfjxPKDtm6AbdokWo+oDW6DlVaZvswmxhpfCosFpMi5+KX4pfs9CpQo65Tn1H8dsfEw2ung== P (Yn = 1|X1n = x1n ,..., XP n = xP n ) = 1 + e b0 +b1 ·x1n +...+bP ·xP n – x1n, …, xPn: Ausprägungen der Person n in den stetigen und/oder kategorialen Prädiktoren – b0, …, bP: Regressionsparameter des logistischen Regressionsmodells Logistische Regression I: 166 Grundmodell Parameterinterpretation weitere Darstellungsformen Beispiel Zusammenhang zwischen Intelligenz (IQ) und Wahlteilnahme (W; 0 = nein, 1 = ja) Person IQ (X1) W (Y) 1 13 1 logistische Regression mit 2 17 1 einem stetigen Prädiktor: 3 13 1 e b0 +b1 ·IQn AAAHo3icpVXbbtNAEJ22QEq4pfCIhCyqSkWVohgEPCCkclEFgqopTdJKSRrZziZY8U1epxBMJH6K7+AZgcQL/AUPnB07JRdyAWx5PZ6dM2f27Ng2A8eWUaHweWl55czZc5nV89kLFy9dvpJbu1qRfje0RNnyHT88Mg0pHNsT5ciOHHEUhMJwTUccmp0nav7wRITS9r1S1AtE3TXant2yLSOCq5HbK24eNjztoaa/157vN7xbMGut0LC0WBzHZqOgbWlmQ9dqVtOPOKLf12J9azA5PtfIrRfyBT60SUNPjfXtB98+ffh6Jyz6ays3qEZN8smiLrkkyKMItkMGSZxV0qlAAXx1iuELYdk8L6hPWWC7iBKIMODtYGzjqZp6PTyrnJLRFlgcXCGQGm3g2uGMJqIVq4Atcf+J6x372v/FMA0b8xgCZwCvIpMzi2sawpvATK9MaadU8qCdqkpZAWIjrteaoVvMq5HMEtHr09rmxatYd+HoFhRSessUkZ2BCDE6mLGxI2IBBrXuDmJ/qzo7/i314LNnqlKlUqrkoPKBjoPan8KT9KyqdzdVr5J2lM2oGJbaO5kyHWA2wtiDJib3zU6aPcY9YKzK43OO/gg+pj2uqc89p/Ah2y6P3gIMDs8Nen4y+y69HMnuDuW3gZvPIIe8f2Y4GGGQU1cw0PMRMgW4G4gXzFE77dSkpsU1ksjVT3dvcRYTHbAYi4nO+reVRHNXEnHtf7fbqjPb/J2atytH6R6/YbQxwaS41Dvc4rfZRp7eUPUnM3peIUN+dwSyq2+lm37PmqzAcMYmYtRzF0+JHgnrmB//G3387zJpVG7n9Xv5u/v48Tym5Fil63STNqHqfdqmZ1SkMir6SF/oO/3IbGReZF5lSkno8lKKuUYjR6b+C9eKlAc= 4 13 0 P (Wn = 1|IQn ) = 1 + e b0 +b1 ·IQn 5 20 1 6 13 1 b0 = 0.41 AAAHcXicpVXbbtNAEJ220JRwS+EJIZDVCISEGtkowBNSuajigYqiNmmkpKpsZxOs+CavUwhWnvgaXuFr+A5eeeDseFOShlwAW16PZ+fMmT07tp3Y92Rqmt9XVtcuXFwvbFwqXr5y9dr10uaNuoz6iStqbuRHScOxpfC9UNRSL/VFI06EHTi+OHJ6L9X80alIpBeFh+kgFseB3Q29jufaKVwnpTuGc2Ia958Z22alahmtVhEOSznMilU9KZXNismHMW1Y2iiTPvajzbW71KI2ReRSnwISFFIK2yebJM4mWWRSDN8xZfAlsDyeFzSkIrB9RAlE2PD2MHbx1NTeEM8qp2S0CxYfVwKkQfdw7XJGB9GKVcCWuP/E9Yl93f9imIXNeEyAs4FXkflZxDULEU5hZlemtFMqhdBOVaWsGLEp1+vO0S3j1UhmSen9WW2L4lVssHR0BwopvaVGFOcgEow+ZjzsiFiCQa27h9jfqs6P/0gD+Ly5qjTpUCs5qnyk46j2V/DkPavq3dPq1XVHeYzKYKm9k5rpALMpxgE0cbhvdnX2DPeYsSpPxDmGE/iM3nJNQ+45hU/YDngMl2DweW7U89PZ9+jNRPZgLL8H3GIGOeb9M8PBBIOcuYKRns+RKcbdRrxgjtZZp+Y1La+RRK6h3r3lWRx0wHIsDjrr31aSLlxJyrX/3W6rzuzyd2rRrjT0Hn9gtD3FpLjUO9zht9lDnsFY9adzel4hE353BLKrb2Wgv2dtVmA8Yxsx6rmPp1yPnPWcH/8b6/zfZdqoP6pYTyqP31XLOy/0n2eDbtMWPYCqT2mHXtM+1VDRZ/pCX+nb+o/CrYJR2MpDV1c05iZNHIWHvwADT3wn 7 15 1 b1 = 0.14 8 8 0 … 400 13 1 Logistische Regression I: 167 Grundmodell Parameterinterpretation weitere Darstellungsformen Logistische Regression Grundmodell der logistischen Regression: e b0 +b1 ·x1n +...+bP ·xP n AAAH+3icpVXbbtNAEJ20QEqg0MIjErKokIpaRTEV8ACVykUVD1QE9RbUFMt2NsGqb/I6pcFY4l94QEK88h08IyHxIzxwduy0SUMuBVtej2fnzJk9O7at0HVkXKn8KExNnzt/oThzsXTp8uyVq3Pz13Zk0I5ssW0HbhDVLFMK1/HFduzErqiFkTA9yxW71sFTNb97KCLpBP5W3AnFvme2fKfp2GYMlzH3ubr42vC1VU3XPmg1I9H9FA9HbCxr5XJZW1buatcN4w6sejMybS0RbxLLqCxZhq7V7UYQ50BtiZFLmmVUTyYATVMt0eE/O86YW6iUK3xog4aeGwtrD399//hzJaoG89M3qU4NCsimNnkkyKcYtksmSZx7pFOFQvj2KYEvguXwvKCUSsC2ESUQYcJ7gLGFp73c6+NZ5ZSMtsHi4oqA1Og2rnXOaCFasQrYEvffuN6zr/VfDMOwCY8RcCbwKjI7S7iGIfwBzPDKlHZKJR/aqaqUFSI25nrtEbolvBrJLDG9Pa5tXLyK9SaObkIhpbfMEaURiAijixkHOyImYFDrPkDsiaqj44+oA58zUpU92sqV7Fbe1bFb+zN4sp5V9W7k6u3kHeUwKoGl9k7mTJuYjTF2oInFfbOeZ09wDxmr8gScI+3DJ/SSa0q55xQ+Ytvj0Z+AweW5bs8PZt+gF33ZvZ78DnDjGWSP9+8Mm30McugKuno+RqYQdxPxgjnqx52a1TS5RhK50nz3Jmex0AGTsVjorH9bSTx2JTHXfrbdVp3Z4u/UuF2p5Xv8jtHmAJPiUu9wk99mB3k6PdUfjuh5hYz43RHIrr6VXv49a7ACvRkbiFHPbTxlemSsp/z43+in/y6Dxs7dsn6/fO8VfjxPKDtm6AbdokWo+oDW6DlVaZvswmxhpfCosFpMi5+KX4pfs9CpQo65Tn1H8dsfEw2ung== P (Yn = 1|X1n = x1n ,..., XP n = xP n ) = 1 + e b0 +b1 ·x1n +...+bP ·xP n – x1n, …, xPn: Ausprägungen der Person n in den stetigen und/oder kategorialen Prädiktoren – b0, …, bP: Regressionsparameter des logistischen Regressionsmodells – der vorhergesagte Wert: die vorhergesagte Wahrscheinlichkeit ! * = 1|.. ) für Person n