Multivariate Statistik und Datenanalyse (Wintersemester 2024/25) PDF

Summary

This document is lecture notes for a Multivariate Statistik und Datenanalyse course, Wintersemester 2024/25. It covers various topics such as linear mixed models (LMM), and covers topics from general linear models, to logistic regression, confirmatory factor analysis (CFA), and structural equation modeling (SEM). The notes also include examples and formulas related to hierarchical data and mixed-level models.

Full Transcript

Multivariate Statistik und Datenanalyse Wintersemester 2024/25 Florian Scharf 26. November 2024 LMM II: Modelltypen, Modellschätzung, Interpretation Themen der Vorlesung 1 22.10. Allgemeines Lineares Modell I: Modell,...

Multivariate Statistik und Datenanalyse Wintersemester 2024/25 Florian Scharf 26. November 2024 LMM II: Modelltypen, Modellschätzung, Interpretation Themen der Vorlesung 1 22.10. Allgemeines Lineares Modell I: Modell, Interpretation & Inferenz 2 29.10. Allgemeines Lineares Modell II: Kategoriale Prädiktoren & Interaktionen 3 05.11. Logistische Regression I: Modell, Interpretation der Modellparameter 4 12.11. Logistische Regression II: Schätzung, Modellgüte und stat. Inferenz 5 19.11. LMM I: Grundidee, Modelltypen 6 26.11. LMM II: Modellschätzung, Interpretation 7 03.12. LMM III: Modellierung wiederholter Messungen 8 10.12. CFA I: Grundmodell und Modellmatrix 9 17.12. CFA II: Schätzung und Modellgültigkeit 10 14.01. SEM I: Grundidee, Schätzung und Parameterinterpretation 11 21.01. SEM II: Flexibilität von SEMs, Pfadanalyse und Probleme von SEMs 12 28.01. Längsschnittliche SEMs I: Latente Wachstumskurvenmodelle 13 04.02. Längsschnittliche SEMs II: Messinvarianz und weitere Modelle 14 11.02. Statistik und Kausalität 316 Hierarchische Daten Beispiel: Schüler*innen sind geschachtelt („genestet“) in Schulen Schule m A B C (Level-2) Schüler*in n 1 2 3 4 5 6 7 8 (Level-1) hierarchische Daten liegen immer dann vor, wenn jede Level-1 Einheit nur einer Level-2 Einheit angehört Anzahl der Level-1 Einheiten innerhalb einer Level-2 Einheit darf sich aber für die verschiedenen Level-2 Einheiten unterscheiden Rückblick 317 Multilevel-Modelle Gesamtmodell auf Populationsebene für einen Level 1: AAAIMHicpVVba9RAFD7bqtuut1YfBQkuilAoSfECglCrFB9arPS20pQlyc5uQ3MzM7t2Dfun/DUKgvjqb/DBbyaTutu4F3VCJmfOnO/7zpyZJG4S+FyY5pfK3Pyly1eqC4u1q9eu37i5tHzrgMfd1GP7XhzEacN1OAv8iO0LXwSskaTMCd2AHbqnL+X8YY+l3I+jPdFP2HHodCK/7XuOgKu59NUW7ExEcRo6QbbFeiwwrGeGMTBs23jXzKJwYDx4brjNzIS1Ig0Lhu21YmE08vkVw2YJ9wPQqbEdxVE3dFkKjtqibGWNNakBiYIZGh4sU7J1c1eZxhjTdFI5h1VwwNVcqpurpmpG2bC0USfdduLl+btkU4ti8qhLITGKSMAOyCGO64gsMimB75gy+FJYvppnNKAasF1EMUQ48J6i72B0pL0RxpKTK7QHlQB3CqRB93FvKkYX0VKVweZ4/sT9Ufk6/6UwDpupPgXOAV5G5lcN9zhEVMKMz0zWTlYpQu1kVtJKECtUvt6EumVqNVypCDo5z21avIwNZ45uo0Ky3lwjahMQKfoAMz52hM2gINd9itjfVZ0cf0Z9+PyJVTmiPV3JIvOijkXur+DJz6zMd1tX70CfKF+hMlhy77hW2sWsQN9HTVx1bjY1e4ZnorCSJ1YcgxF8Rm9UTgN15iQ+VXao+mgGhUDNFWe+zL5NWyPs4RC/D9x0BT7k/bPC7ogCH7uCop4vwJTg6SCeKQ37/KTmOc1eIw6ugd692VVcnIDZVFycrH9biZi6EqFy/7vdliezo75T03aloff4g0I7JSWpJd/htnqbffD0h7LvTTjzEpmqd4eBXX4rQ/09a6kKDDO2ECPHXYzyeuSqF/z431gX/y5l42Bt1Xqy+vjto/r6hv7zLNAdukcPUdWntE6vaYf2yatsVE4q7ytp9VP1c/Vb9XseOlfRmNs00qo/fgFWxLsb Level-1 Prädiktor: Ynm = b0m + b1m · Xnm + ✏nm Ynm = c00 + c10 · Xnm + u0m + u1m · Xnm + ✏nm AAAHqXicpVXNbtNAEJ62gEv4S0HigoQsKiSkSJVTCTghlYIqDlQ0apMGkiqynU1YxX/yOoVg5ZF4Aq68BBckrvAKHPh27JSkIT+ArV3Pzsw3M/vt2HYiT6rEsr6srK5duHjJWL9cuHL12vUbxY2bNRX2Y1dU3dAL47pjK+HJQFQTmXiiHsXC9h1PHDu9Z9p+fCpiJcPgKBlE4sS3u4HsSNdOoGoVq69baeAPzSem20ota2iWTC2VITXddpiY9cxeMvuwj4SyP2VuikhJDyH1ulXctLYsvsxpoZwLmzu3K1/lx93PB+HG2l1qUptCcqlPPgkKKIHskU0Kd4PKZFEE3Qml0MWQJNsFDakAbB9eAh42tD3MXawauTbAWsdUjHaRxcOIgTTpPsYeR3TgrbMKyArPnxgfWNf9rwyzsCnPMXA28NozuwsYsxDBFGZ2ZZo7zVIA7nRVWorgm3C97hzeUt6N4iwJvT2rbZG/9vWX9u6AIc23yhGFOYgYsweLxImIJTLofffg+5vV+f7vaQCdnMtKg45yJkeVj3gc1f4cmqxndb37OXu1vKMko1JI+uxUnukQ1gTzAJw43Dd7efQUz4ixOk7IMYYT+JRecU1D7jmNj1n2eQ6WyOCxbdTz09H36eVEdH8svgRucQY1pv1zhsOJDGrmDkZ8PkWkCE8b/oJzNM86NatpeY4UYg3z01s+i4MOWC6Lg876t50kC3eScO1/d9q6M7v8nVp0KvX8jN8x2p7KpHPpd7jDb7NEnMFY9adzel4jY353BKLrb6Wff8/azMB4xDZ89LqPVcZHlvWcHv+b8vm/y7RQ294qP9p6WMGPZ5eya53u0D16AFYf0w69oAOqoqJP9I2+0w+jZFSMuvEmc11dyTG3aOIy3F+rI5f7 Level 2: b0m = c00 + u0m m: Index der Level-2 Einheit (z.B. Schule) b1m = c10 + u1m n: Index der Level-1 Einheit (z.B. Person) c00 und c10: level-unspezifische Regressionskonstante und -gewicht u0m: Abweichung der Konstante einer Level-2 Einheit m von c00 u1m: Abweichung des Regressionsgewichts einer Level-2 Einheit m von c10 εnm: Level-1 Residuum Rückblick 318 Multilevel-Modelle basale Idee von Multilevel-Modellen: Schätze die Parameter des Zwei-Schritt-Vorgehens in einem Schritt Gesamtmodell auf Populationsebene für einen Level-1 Prädiktor: Ynm = c00 + c10 · Xnm + u0m + u1m · Xnm + ✏nm AAAHqHicpVXbbtNAEJ22QEq4pSDxgoQsKiREpchBAp6QSkEVD1Skam5VUkW2swmr+CavUwhWPokf4Jmf4AXxCt/AA2fHTkkacgFs7Xp2Zs7M7NmxbYeuVLFpfllb37hw8VJu83L+ytVr128Utm7WVDCIHFF1AjeIGralhCt9UY1l7IpGGAnLs11Rt/svtL1+KiIlA78SD0Nx4lk9X3alY8VQtQuV43bieyPjmeG0E9McGTtaKEFoOZ0gNhqpeccYwDwWSt6MuSVCJV1E1Ot2YdssmnwZs0IpE7Z3bx9+lR/3PpeDrY271KIOBeTQgDwS5FMM2SWLFO4mlcikELoTSqCLIEm2CxpRHtgBvAQ8LGj7mHtYNTOtj7WOqRjtIIuLEQFp0H2MfY5ow1tnFZAVnj8xPrCu918Z5mETniPgLOC1Z3rnMeYh/BnM/Mo0d5olH9zpqrQUwjfmep0FvCW8G8VZYnp7Vtsyf+3rrezdBUOab5Uh8gsQEWYXFokTEStk0Pvuw/c3q4v939MQOrmQlSZVMibHlY95HNf+Epq0Z3W9Bxl7tayjJKMSSPrsVJbpCNYY8xCc2Nw3+1n0BM+QsTpOwDFGU/iE3nBNI+45jY9Y9nj2V8jgsm3c87PRD+j1VHRvIr4EbnkGNaH9c4ajqQxq7g7GfD5HpBBPC/6Cc7TOOjWtaXWOFGKNstNbPYuNDlgti43O+redxEt3EnPtf3faujN7/J1adiqN7IzfMdqayaRz6Xe4y2+zRJzhRPWnC3peIyN+dwSi62+ll33POszAZMQOfPR6gFXKR5r1nB7/m9L5v8usUHtULD0pPj7Ej2eP0muT7tA9egBWn9IuvaIyVVHRJ/pG3+lH7mGunKvnjlPX9bUMc4umrpz9C5RTl9E= feste Zufalls- Effekte Effekte – Ziel: Schätze die § festen Effekte c00 und c10 2 AAAD1niclVJNTxsxEH1haYH0C9ojl6hRpZ6iDapCj0hQ1EslkAhEJRTtbpzUivdD6w00RPRW9dpTr+Vv8V849HlYqAiK2nrlnfGbmefnscPMaFv4/mVlzpt/8HBhcan66PGTp8+WV57v23SUR6odpSbNO2FgldGJahe6MKqT5SqIQ6MOwuGmix+cqNzqNNkrxpk6ioNBovs6CgpCXXvcVZnVJk0+rR0v1/2GL6N232mWTh3l2ElXKh/RRQ8pIowQQyFBQd8ggOV3iCZ8ZMSOMCGW09MSVzhHlbUjZilmBESH/A+4OizRhGvHaaU64i6GM2dlDa84t4UxZLbbVdG3tFecZ4INZu4wEWancEwbknFJGD8QL/CZGX+rjMvMGy3/UpkxPmbEdcD+R6XrR4E+3kofNE+WCeI6FN3ybDGSExtKpIZ3kjkgRyjrE/YuoW1Tu7ufG4aa9KpHG4hVwpKUjAH5clp3b07PbI0ReZ0+S6V/ujM7v0dFmqiduucvd27a1V/rUTiVSCzsTumEsb7UauaPRXtfTma4+7nEnZppvMp33px+1fed/bVGs9Vo7b6pb7TKF7+IVbzEa77qdWzgPXbYzYhn+IlfuPA63lfvm/f9OnWuUta8wJ3h/fgNSB/Fzw== § Varianz der Zufallseffekte, d.h. Var(u0m), Var(u1m) und sω § Kovarianz von u0m und u1m Rückblick 319 Terminologie Die „Mittelwerte“ (c00, c01, … c0n) werden in der Multilevel-Literatur häufig als fixed effects bezeichnet. Anstatt „c“ wird gelegentlich auch „γ“ geschrieben. Die Varianzen (s02, s12,…sn2) und Kovarianzen (s01,… s0n) werden häufig als random effects bezeichnet. Anstatt „s“ wird gelegentlich „τ“ geschrieben. Häufig fasst man random effects in Matrixform zusammen: τ02 τ01 Σ= [ var(int) cov(in/sl) var(slo) ] bzw. [ s02 s01 ] s12 bzw. [ τ12 ] Rückblick 320 In welcher Matrix leben wir? A) Σ= [ s02 s01 s12 ] [ ] = 5 0 0 B) Σ= [ s02 s01 s12 ] [ ] = 0 0 5 0 321 In welcher Matrix leben wir? Σ= [ s02 s01 s12 ] [ ] = 0 0 5 0 322 In welcher Matrix leben wir? A) Σ= [ s02 s01 s12 ] [ ] = 5 5 5 B) Σ= [ s02 s01 s12 ] [ ] = 5 -5 5 0 323 In welcher Matrix leben wir? Σ= [ s02 s01 s12 ] [ ] = 5 5 5 0 324 Deep-Talk zur Kovarianz s01 = Kovarianz zwischen den spezifischen Konstanten und Gewichten der Level-2- Einheiten Spezifischer bedeutet das: – s01 = 0: kein (linearer) Zusammenhang zwischen Konstante und Gewicht – s01 > 0: Je positiver die Konstante, desto positiver das Gewicht – s01 < 0: je positiver die Konstante, umso negativer das Gewicht – Achtung: ob der Effekt mit verschiedenen Werten der Konstante verstärkt oder abgeschwächt wird, hängt vom mittleren Effekt ab (d.h. c10) statistical models 325 (Extrem-)Beispiele c10 > 0, s01 > 0 c10 > 0, s01 < 0 c10 < 0, s01 > 0 c10 < 0, s01 < 0 326 Überblick Wie schätzt man LMMs? Welche statistischen Tests gibt es im LMM? Welche LMMs werden typischerweise untersucht und wie werden sie interpretiert? Linear Mixed Models II: 327 Schätzung der Parameter Statistische Inferenz Modelltypen und Interpretation Beispiel Schule Schüler*in IQ M A 1 1 8 A 2 2 7 A 3 2 8 A 4 3 9 Zusammenhang A 5 5 9 zwischen numerischer B 6 4 4 Intelligenz (IQ) B 7 4 6 und der Matheleistung B 8 5 6 von Schüler*innen (M) B 9 6 7 B 10 6 8 C 11 5 2 C 12 8 1 C 13 8 2 C 14 8 3 C 15 9 3 Linear Mixed Models II: 328 Schätzung der Parameter Statistische Inferenz Modelltypen und Interpretation Beispiel Zusammenhang zwischen numerischer Intelligenz (IQ) und der Mathematikleistung (M) innerhalb und zwischen Schulen Linear Mixed Models II: 329 Schätzung der Parameter Statistische Inferenz Modelltypen und Interpretation Multilevel-Modelle Gesamtmodell auf Populationsebene für Level 1: AAAIMHicpVVba9RAFD7bqtuut1YfBQkuilAoSfECglCrFB9arPS20pQlyc5uQ3MzM7t2Dfun/DUKgvjqb/DBbyaTutu4F3VCJmfOnO/7zpyZJG4S+FyY5pfK3Pyly1eqC4u1q9eu37i5tHzrgMfd1GP7XhzEacN1OAv8iO0LXwSskaTMCd2AHbqnL+X8YY+l3I+jPdFP2HHodCK/7XuOgKu59NUW7ExEcRo6QbbFeiwwrGeGMTBs23jXzKJwYDx4brjNzIS1Ig0Lhu21YmE08vkVw2YJ9wPQqbEdxVE3dFkKjtqibGWNNakBiYIZGh4sU7J1c1eZxhjTdFI5h1VwwNVcqpurpmpG2bC0USfdduLl+btkU4ti8qhLITGKSMAOyCGO64gsMimB75gy+FJYvppnNKAasF1EMUQ48J6i72B0pL0RxpKTK7QHlQB3CqRB93FvKkYX0VKVweZ4/sT9Ufk6/6UwDpupPgXOAV5G5lcN9zhEVMKMz0zWTlYpQu1kVtJKECtUvt6EumVqNVypCDo5z21avIwNZ45uo0Ky3lwjahMQKfoAMz52hM2gINd9itjfVZ0cf0Z9+PyJVTmiPV3JIvOijkXur+DJz6zMd1tX70CfKF+hMlhy77hW2sWsQN9HTVx1bjY1e4ZnorCSJ1YcgxF8Rm9UTgN15iQ+VXao+mgGhUDNFWe+zL5NWyPs4RC/D9x0BT7k/bPC7ogCH7uCop4vwJTg6SCeKQ37/KTmOc1eIw6ugd692VVcnIDZVFycrH9biZi6EqFy/7vdliezo75T03aloff4g0I7JSWpJd/htnqbffD0h7LvTTjzEpmqd4eBXX4rQ/09a6kKDDO2ECPHXYzyeuSqF/z431gX/y5l42Bt1Xqy+vjto/r6hv7zLNAdukcPUdWntE6vaYf2yatsVE4q7ytp9VP1c/Vb9XseOlfRmNs00qo/fgFWxLsb einen Level-1 Prädiktor: Ynm = b0m + b1m · Xnm + ✏nm Ynm = c00 + c10 · Xnm + u0m + u1m · Xnm + ✏nm AAAHqXicpVXNbtNAEJ62gEv4S0HigoQsKiSkSJVTCTghlYIqDlQ0apMGkiqynU1YxX/yOoVg5ZF4Aq68BBckrvAKHPh27JSkIT+ArV3Pzsw3M/vt2HYiT6rEsr6srK5duHjJWL9cuHL12vUbxY2bNRX2Y1dU3dAL47pjK+HJQFQTmXiiHsXC9h1PHDu9Z9p+fCpiJcPgKBlE4sS3u4HsSNdOoGoVq69baeAPzSem20ota2iWTC2VITXddpiY9cxeMvuwj4SyP2VuikhJDyH1ulXctLYsvsxpoZwLmzu3K1/lx93PB+HG2l1qUptCcqlPPgkKKIHskU0Kd4PKZFEE3Qml0MWQJNsFDakAbB9eAh42tD3MXawauTbAWsdUjHaRxcOIgTTpPsYeR3TgrbMKyArPnxgfWNf9rwyzsCnPMXA28NozuwsYsxDBFGZ2ZZo7zVIA7nRVWorgm3C97hzeUt6N4iwJvT2rbZG/9vWX9u6AIc23yhGFOYgYsweLxImIJTLofffg+5vV+f7vaQCdnMtKg45yJkeVj3gc1f4cmqxndb37OXu1vKMko1JI+uxUnukQ1gTzAJw43Dd7efQUz4ixOk7IMYYT+JRecU1D7jmNj1n2eQ6WyOCxbdTz09H36eVEdH8svgRucQY1pv1zhsOJDGrmDkZ8PkWkCE8b/oJzNM86NatpeY4UYg3z01s+i4MOWC6Lg876t50kC3eScO1/d9q6M7v8nVp0KvX8jN8x2p7KpHPpd7jDb7NEnMFY9adzel4jY353BKLrb6Wff8/azMB4xDZ89LqPVcZHlvWcHv+b8vm/y7RQ294qP9p6WMGPZ5eya53u0D16AFYf0w69oAOqoqJP9I2+0w+jZFSMuvEmc11dyTG3aOIy3F+rI5f7 Level 2: b0m = c00 + u0m m: Index der Level-2 Einheit (z.B. Schule) b1m = c10 + u1m n: Index der Level-1 Einheit (z.B. Person) c00 und c10: level-unspezifische Regressionskonstante und -gewicht u0n: Abweichung der Konstante einer Level-2 Einheit m von c00 u1m: Abweichung des Regressionsgewichts einer Level-2 Einheit m von c10 εnm: Level-1 Residuum Linear Mixed Models II: 330 Schätzung der Parameter Statistische Inferenz Modelltypen und Interpretation Beispiel Schule Schüler*in IQ M A 1 1 8 A 2 2 7 Gesamtmodell: A 3 2 8 Ynm = c00 + c10 · IQnm + u0m + u1m · IQnm + ✏nm AAAHqnicpVVLb9NAEJ62QEp4NIUjqLKokJCKIgcJOCGVhyqQqGhok6ZKqsh2NmEVv+R1CsHKkf/UA3+EK9fyEzjw7dgpSUMegK1dz87MNzP77di2Q1eq2DS/LS2vXLp8Jbd6NX/t+o2ba4X1W1UV9CJHVJzADaKabSnhSl9UYhm7ohZGwvJsVxza3ZfafngiIiUD/yDuh+LYszq+bEvHiqFqFqpHzcT3BsYzw2kmpjkwtrRQgtBwWkFsvCmn9i2jB/tQKHmT9oYIlXQRU6+bhU2zaPJlTAqlTNjcvntaPvuycboXrK9sUINaFJBDPfJIkE8xZJcsUrjrVCKTQuiOKYEugiTZLmhAeWB78BLwsKDtYu5gVc+0PtY6pmK0gywuRgSkQfcxdjiiDW+dVUBWeP7E+My6zn9lmIZNeI6As4DXnumdx5iG8Ccw0yvT3GmWfHCnq9JSCN+Y63Vm8JbwbhRnienDeW3z/LWvt7B3GwxpvlWGyM9ARJhdWCRORCyQQe+7C9/frM72/0R96ORMVup0kDE5rHzI47D2V9CkPavr3c3Yq2YdJRmVQNJnp7JM+7DGmPvgxOa+2cmiJ3iGjNVxAo4xGMMn9I5rGnDPaXzEssezv0AGl23Dnp+Mvktvx6J7I/ElcPMzqBHtnzPsj2VQU3cw5PM5IoV4WvAXnKNx3qlpTYtzpBBrkJ3e4llsdMBiWWx01r/tJJ67k5hr/7vT1p3Z4e/UvFOpZWf8kdHWRCadS7/DbX6bJeL0R6o/mdHzGhnxuyMQXX8rvex71mIGRiO24KPXPaxSPtKsF/T435Qu/l0mheqjYulJ8XEZP54XlF6rdIfu0QOw+pS26TXtUQUVfaXvdEY/cg9z73NHuXrquryUYW7T2JVr/QL0dZhz A 4 3 9 A 5 5 9 Feste Effekte: B 6 4 4 B 7 4 6 ! "" = %#%! B 8 5 6 !!" = $#!" B 9 6 7 B 10 6 8 Zufallseffekte: C 11 5 2 &%'#! ' $#%&# (! = $ $#%! !" C 12 8 1 C 13 8 2 % sω2)' = $#!" AAAD1niclVJNb9NAEH2pgbbhqwWJCxKKqJA4RXYPgWOlUsQFqSDSRjSlsp1NWGX9Ia9TGqJyq7hy4go/g7/Cb+hf6IG3ExfUVBGw1npm38y8fTu7UW60LX3/Z23Bu3L12uLScv36jZu3bq+s3tmx2aiIVTvOTFZ0otAqo1PVLnVpVCcvVJhERu1Gw00X3z1UhdVZ+qYc52o/CQep7us4LAl17UFX5VabLH23frCy5jd9GY3LTlA5axv3gtOTBz9eb2ertbfooocMMUZIoJCipG8QwvLbQwAfObF9TIgV9LTEFY5RZ+2IWYoZIdEh/wOu9io05dpxWqmOuYvhLFjZwCPO58IYMdvtquhb2jPOj4IN5u4wEWancEwbkXFZGF8SL/GeGX+rTKrMcy3/UpkzPmbEdcD+R6XrR4k+nkofNE+WC+I6FP/mecZIQWwokQa2JHNAjkjWh+xdStumdnc/5wwN6VWPNhSrhCWtGEPyFbTu3pye+Rpj8jp9lkr/dGd+fo+KNFE7c89HF27a1U/1KHyQSCLsTumEsb7UauaPRXtfTma4+7HEnZpZvM53Hsy+6svOznozaDVbr/jgW5iOJdzHQzzmq36CDbzANrsZ8wxf8Q3fvY73yTvxPk9TF2pVzV1cGN6XX1ylyOo= C 14 8 3 * C 15 9 3 Linear Mixed Models II: 331 Schätzung der Parameter Statistische Inferenz Modelltypen und Interpretation Beispiel Zusammenhang zwischen numerischer Intelligenz (IQ) und der Mathematikleistung (M) in jeder einzelnen Schule 3.34 + 0.48 ∙ IQn Linear Mixed Models II: 332 Schätzung der Parameter Statistische Inferenz Modelltypen und Interpretation Schätzung der Parameter Schätzung der Parameter erfolgt in der Regel über die Restringierte Maximum Likelihood Methode (kurz: REML) – REML besitzt bei der Schätzung von Varianzen gegenüber dem Standard Maximum Likelihood-Verfahren Vorteile – mit numerischen Methoden werden die Koeffi

Use Quizgecko on...
Browser
Browser