Multivariate Statistik und Datenanalyse PDF
Document Details
Uploaded by CohesiveDiscernment8610
Universität Kassel
2024
Florian Scharf
Tags
Related
- Multivariate Statistik und Datenanalyse Wintersemester 2024/25 PDF
- Multivariate Statistik und Datenanalyse Vorlesung PDF
- Logistische Regression II: PDF
- Multivariate Statistik und Datenanalyse PDF Wintersemester 2024/25
- Multivariate Statistik und Datenanalyse (Wintersemester 2024/25) PDF
- Multivariate Statistik und Datenanalyse - Wintersemester 2024/25 PDF
Summary
This document contains lecture notes for a multivariate statistics and data analysis course, covering topics such as Linear Models, Logistic Regression, LMM, CFA and SEM, and delivered by Florian Scharf during the Winter semester 2024/25.
Full Transcript
Multivariate Statistik und Datenanalyse Wintersemester 2024/25 Florian Scharf 17. Dezember 2024 CFA II: Schätzung und Modellgültigkeit Themen der Vorlesung 1 22.10. Allgemeines Lineares Modell I: Modell, Interpretation & Inferenz 2 29.10. Al...
Multivariate Statistik und Datenanalyse Wintersemester 2024/25 Florian Scharf 17. Dezember 2024 CFA II: Schätzung und Modellgültigkeit Themen der Vorlesung 1 22.10. Allgemeines Lineares Modell I: Modell, Interpretation & Inferenz 2 29.10. Allgemeines Lineares Modell II: Kategoriale Prädiktoren & Interaktionen 3 05.11. Logistische Regression I: Modell, Interpretation der Modellparameter 4 12.11. Logistische Regression II: Schätzung, Modellgüte und stat. Inferenz 5 19.11. LMM I: Grundidee, Modelltypen 6 26.11. LMM II: Modellschätzung, Interpretation 7 03.12. LMM III: Modellierung wiederholter Messungen 8 10.12. CFA I: Grundmodell und Modellmatrix 9 17.12. CFA II: Schätzung und Modellgültigkeit 10 14.01. SEM I: Grundidee, Schätzung und Parameterinterpretation 11 21.01. SEM II: Flexibilität von SEMs, Pfadanalyse und Probleme von SEMs 12 28.01. Längsschnittliche SEMs I: Latente Wachstumskurvenmodelle 13 04.02. Längsschnittliche SEMs II: Messinvarianz und weitere Modelle 14 11.02. Statistik und Kausalität 461 Faktorenanalyse zwei weitere Formulierungen des Grundmodells: 1. für eine Variable p (in Vektorenschreibweise): Yp = μp ∙ 1N + λp1 ∙ η1 + λp2 ∙ η2 + … + λpQ ∙ ηQ + εp 2. Formulierung in Matrixschreibweise: Y= μ +Λ∙ η + ε dabei ist Λ die Faktorladungsmatrix Rückblick 462 Herleitung von Σ zusätzliche Modellannahmen für die Herleitung: Kov(η1, ε) = 0 und i.d.R. Kov(εp, εk) = 0 Statistikprogramme nutzen die Matrixschreibweise des Modells: Σ = Λ ∙ Φ ∙ ΛT + Ψ - dabei ist: § Λ : Faktorladungsmatrix § Φ: Varianz-Kovarianz-Matrix der latenten Faktoren § Ψ: Matrix der Fehlervarianzen (und Kovarianzen) - sog. Grundgleichung der Faktorenanalyse Rückblick 463 Beispiel für 4 Variablen gilt bei Annahme eines 1-Faktor-Modells: AAAIUniclVTLbtNAFL1pG5KaAm1ZloVFRdVAVSWOVdggVSogNkhF0Bd1icbOxIzql2w3NERZ8ods+Ae+ALHgzMR9JHEgduTMzLnnnnvmzsh25Ikkrdd/lubmF8p3KtVF7e7SvfsPlldWD5PwInb4gRN6YXxss4R7IuAHqUg9fhzFnPm2x4/s8z0ZP+ryOBFh8DHtRfzMZ24gOsJhKaDWysJ3y+auCPrME27wdKBZH4TrM33jpZYFIp+lsbhEJOWXaf+QxYPNk1ajpm/oQ2Qv7CpkSz9pGflwMx82a7plaSO4IfFb4lm5SV0jX9eYotsc070NGxPlJnWbU3TNfF0zvxnmmOmsnFnTLB60r1stq+QdgIdzbbNW47NxO9/iKavpz0agLot5lAgPRzw0d5V6PcuRyKM1Z6OZkzTZqWJVjUL7MkZSZzNsFDY8o9w/ac1C+2qOpBY2nMObcf8zVr2hmYX2NX7Jh6vss9NaXq9v19WjT04a2WSdsmc/XCl9IovaFJJDF+QTp4BSzD1ilOB3Sg2qUwTsjPrAYsyEinMakIbcC7A4GAzoOf5drE4zNMBaaiYq20EVD2+MTJ2e4H2jFG2wZVWOeYLxD95vCnOnVugrZemwh9GG4qJSfAc8pS9g/C/Tz5hXXmbJjBDvISI7kBTIlP1IqUMvVB8EdhYpRHbIudZ5hUgM7FxFdHqtmC40bLXuoncBxgN4l+dzpaCrXrUxMjVypRJkigx6MUZ5btLPdI8OdKW/BE5vujOd34YjATQZO+fLkZOW+UM/nL6qiK/UpdM+Yh2VK8DvKe8dtTMP1QcqLt2M4xrueWP8Vk9ODo3txs72zntjfXcnu/FVWqPHtIlb/Zx26S3to5vOwq/yanmt/Kjyo/K7WqrOD6lzpSznIY081aW/yFFJuw== Var(Y1 ) Cov(Y1 , Y2 ) Cov(Y1 , Y3 ) Cov(Y1 , Y4 ) Cov(Y2 , Y1 ) Var(Y2 ) Cov(Y2 , Y3 ) Cov(Y2 , Y4 ) != Cov(Y3 , Y1 ) Cov(Y3 , Y2 ) Var(Y3 ) Cov(Y3 , Y4 ) Cov(Y4 , Y1 ) Cov(Y4 , Y2 ) Cov(Y4 , Y3 ) Var(Y4 ) 2 ω1 Var(ε) + Var(ϑ1 ) ω1 ω2 Var(ε) ω1 ω3 Var(ε) ω1 ω4 Var(ε) ω1 ω2 Var(ε) ω22 Var(ε) + Var(ϑ2 ) ω2 ω3 Var(ε) ω2 ω4 Var(ε) = ω1 ω3 Var(ε) ω2 ω3 Var(ε) ω23 Var(ε) + Var(ϑ3 ) ω3 ω4 Var(ε) ω1 ω4 Var(ε) ω2 ω4 Var(ε) ω3 ω4 Var(ε) ω24 Var(ε) + Var(ϑ4 ) 1 Rückblick 464 Überblick Was muss man bei der Spezifikation von CFA-Modellen beachten? Wie schätzt man die Parameter einer CFA? Wie bewertet man, ob ein CFA-Modell gut an die Daten passt? Was kann man tun, wenn ein CFA-Modell nicht gut an die Daten passt? Konfirmatorische Faktorenanalyse II: 465 Modellspezifikation Modellschätzung Modellbewertung Modellrevision 2. Schätzung Modellparameter zwei Voraussetzungen für die Schätzung der Modellparameter: - latente Variablen haben eine „Skala“ (d.h. eine „Einheit“) - Identifikation des Modells Skala der latenten Variable braucht: “Referenzpunkt“ für Mittelwert „Referenzgröße“ für Abstände zwischen Ausprägungen „technisch“: Intercept und Varianz der Faktoren müssen identifiziert werden Konfirmatorische Faktorenanalyse II: 466 Modellspezifikation Modellschätzung Modellbewertung Modellrevision Skala der latenten Variablen zwei Optionen für die Zuweisung einer Skala: - z-Standardisierung der Faktoren: § die Erwartungswerte der Faktoren werden auf 0 und ihre Varianzen auf 1 festgesetzt (d.h. E(η) = 0, Var(η) = 1) § die z-Standardisierung ist das Standardvorgehen in der Testkonstruktion Konfirmatorische Faktorenanalyse II: 467 Modellspezifikation Modellschätzung Modellbewertung Modellrevision Skala der latenten Variablen zwei Optionen für die Zuweisung einer Skala: - z-Standardisierung der Faktoren: § die Erwartungswerte der Faktoren werden auf 0 und ihre Varianzen auf 1 festgesetzt (d.h. E(η) = 0, Var(η) = 1) § die z-Standardisierung ist das Standardvorgehen in der Testkonstruktion - für jeden Faktor wird eine Markiervariable festgelegt (typischerweise die erste Variable): § die Ladungen dieser Variablen werden auf 1 und die Intercepts auf 0 festgesetzt (d.h. λ1q = 1, µ1 = 0) § Konsequenzen: Ø Mittelwert des Faktors = Mittelwert der Markiervariable Ø Einheit des Faktors an Einheit der Markiervariable gekoppelt Konfirmatorische Faktorenanalyse II: 468 Modellspezifikation Modellschätzung Modellbewertung Modellrevision Skala der latenten Variablen Statistikprogramme verwenden Hybridmethode: die Ladungen der Markiervariablen werden auf 1 und die Mittelwerte der Faktoren auf 0 festgesetzt zwei Konsequenzen aus der Nutzung der Hybridmethode: - das Intercept µp der Variable p entspricht dem arithmetischen Mittelwert der Variable (vgl. letzte Sitzung) - bei der Schätzung des CFA Modells spielt nur die modell- implizierte Varianz-Kovarianzmatrix Σ eine Rolle - Einheit des Faktors ist an Markiervariable gekoppelt Konfirmatorische Faktorenanalyse II: 469 Modellspezifikation Modellschätzung Modellbewertung Modellrevision Identifikation Voraussetzung für Schätzung der Modellparameter: das Modell ist exakt identifiziert oder über-identifiziert Vorgehen: (1) bestimme die Anzahl 𝑁!"#" der zu schätzenden Parameter in Σ Konfirmatorische Faktorenanalyse II: 470 Modellspezifikation Modellschätzung Modellbewertung Modellrevision Beispiel ε1 ε2 ε3 ε4 Y1 Y2 Y3 Y4 1 λ2 λ3 λ4 η1 1! Var η" + Var(ε" ) 1 ) λ! ) Var η" 1 ) λ# ) Var η" 1 ) λ$ ) Var η" λ!! Var η" + Var(ε! ) λ! ) λ# Var η" λ! ) λ$ Var η" Σ= λ!# Var η" + Var(ε# ) λ# ) λ$ Var η" λ!$ Var η" + Var(ε$ ) 𝑁!"#" = 8 Konfirmatorische Faktorenanalyse II: 471 Modellspezifikation Modellschätzung Modellbewertung Modellrevision Identifikation Voraussetzung für Schätzung der Modellparameter: das Modell ist exakt identifiziert oder über-identifiziert Vorgehen: (1) bestimme die Anzahl 𝑁!"#" der zu schätzenden Parameter in Σ, (2) Bestimme die Anzahl 𝑁$%& der Informationen in S, die zur Schätzung vorhanden sind 0.61 0.44 0.45 0.51 0.56 0.40 0.44 𝑆= 1.05 0.15 0.81 AAAEPHiclVJNbxMxEJ10aWnDVwpHLhYVUlFFlPQQuFSqxIfgAFok0lY0UbTreNNV9ktep21Y7Z1fxc9AQuLIDXHl1APPky3QVBHgyBn7vZnnt2P7WRTmptX6XFtyriyvXF1dq1+7fuPmrcb67b08nWipujKNUn3ge7mKwkR1TWgidZBp5cV+pPb98RPL7x8rnYdp8tZMM9WPvVESBqH0DKBBI3s9KF4mQSl2RM+oU8OKhVbDsnBLsfUn6EcTVRa9QHuycEVPDlMjNl3xULQflMV2yRLz5FZFil6SJpPYV3rQ2Gg1WzzE5UW7WmzsNoMvffkhcNP12jvq0ZBSkjShmBQlZLCOyKMcv0NqU4syYH0qgGmsQuYVlVRH7QRZChke0DH+R9gdVmiCvdXMuVrilAhTo1LQfcznrOgj256qsM4RzzDfMzZaeELBytbhFNGH4horvgJu6AgZf6uMq8xzL/9SmYGfgrEdyP+j0vbDUECPuQ8hvixjxHZI/tJ5CkYDGzMj6BlnjqDh8/4YvUsQu/Bu7+dcQXCvhogeR8UqSaXoQU8j2nuzfhZ7lNC1/nI4/d2dxflDOAqB5nP3fHrhpm39zI+iE2ZiVrdOC3AB14bIn7L3gL8swukl89bNPF7HO2/Pv+rLi73tZrvT7LzBg+/QbKzSXbpHm3jVj2iXXpCLbkr6RGe15dqK89H56nxzvs9Sl2pVzR26MJwfPwHsfO4E P · (P → 1) P · (P + 1) NInf = P + = 2 2 Konfirmatorische Faktorenanalyse II: 472 Modellspezifikation Modellschätzung Modellbewertung Modellrevision Erinnerung: Lineare Gleichungssysteme Wann ist ein lineares Gleichungssystem identifiziert? – d.h., wann gibt es eine eindeutige Lösung? 2x1 + 3x2 = 5 AAAED3iclVJNb9NAEJ3UfLTmK4UjlxURCAkRxaEELkiVCogLUpFIW1FXkT82ZhV7bXmdkhDlR/Az+AXcEFdOXOl/4cDbqUvVVBGw1npm38y8fTu7YZEqU3U6R40V58LFS5dX19wrV69dv9Fcv7lj8nEZyX6Up3m5FwZGpkrLfqWqVO4VpQyyMJW74WjLxncPZWlUrt9W00IeZEGi1VBFQQVo0Nxy/VAmSs+CVCVaxnO3Oxl44oF4NBl0xb1n4rHwfXfDYg9FDXmuL3V8WjFotjrtDg9x3vFqp0X12M7XG+/Ip5hyimhMGUnSVMFPKSCDb5886lAB7IBmwEp4iuOS5uSidowsiYwA6Aj/BKv9GtVYW07D1RF2STFLVAq6i/mSGUNk210lfAP7C/MjY8nSHWbMbBVOYUMwrjHja+AVvUfG3yqzOvNEy79UFohPEbEdMP9RaftR0ZCech8UTlYwYjsU/eF5jkgJbMQRQS84MwFHyOtD9E7D9qHd3s8Jg+BexbABW8ksumYMwFfC2nuzepZrjMBr9RkoPe3O8vwYihRQs3DPkzM3beuP9Uj6wJGM2a3SGWJDrlXIn7L2IZ8sxe5zjls1i7h9597iqz7v7HTbXq/de7PR2uzVL36VbtMduo9X/YQ26RVto5sRfaYf9JOOnE/OF+er8+04daVR19yiM8P5/htSdNdD 4x1 → x2 = 1 – Anzahl Gleichungen = Anzahl unbekannter Parameter – Jede Gleichung liefert „neue“ Informationen Gegenbeispiel: 2x1 + 3x2 = 5 AAAEEHiclVJNb9NAEJ3UfLTmK4UjF4sIhIQU2aGkvSBVoiAuSEUibUVdRf7YuKvYa8vrlIQof4KfwS/ghrhy4lp+CwfeTlyqpoqAtdYz+2bm7dvZDYtU6sp1Txsr1pWr166vrtk3bt66fae5fndP56MyEr0oT/PyIAy0SKUSvUpWqTgoShFkYSr2w+ELE98/EaWWuXpXTQpxlAWJkgMZBRWgfnPHD0Ui1TRIZaJEPLM7477nPHGejvsd59Fz55nj+/bGHOvWmOfavlDxeU2/2XLbLg/nsuPVTovqsZuvN96TTzHlFNGIMhKkqIKfUkAa3yF55FIB7IimwEp4kuOCZmSjdoQsgYwA6BD/BKvDGlVYG07N1RF2STFLVDr0EPMVM4bINrsK+Br2F+ZHxpKlO0yZ2SicwIZgXGPGN8ArOkbG3yqzOvNMy79UFohPEDEd0P9RafpR0YC2uA8SJysYMR2K/vDsIFICG3LEoZecmYAj5PUJeqdge9Bu7ueMweFexbABW8EsqmYMwFfCmnszepZrjMBr9GkoPe/O8vwYiiRQvXDP4ws3bernegR94EjG7EbpFLEB10rkT1j7gE+WYvcZx42aRdy8c2/xVV929jptr9vuvt1obXfrF79K9+kBPcar3qRtek276GZEn+kHndJP65P1xfpqfZunrjTqmnt0YVjffwPMDten 4x1 + 6x2 = 10 – Keine Widersprüche zwischen Gleichungen Gegenbeispiel: 2x1 + 3x2 = 5 AAAEEHiclVJNb9NAEJ3UfLTmK4UjF4sIhIQU2QFSLkiVaBEXpCKRtqKuIn9s3FXsteV1SkKUP9Gf0V/QG+LKiWv5LRx4O3WpmioC1lrP7JuZt29nNyxSqSvXPW0sWdeu37i5vGLfun3n7r3m6v1tnY/KSPSiPM3L3TDQIpVK9CpZpWK3KEWQhanYCYdvTHznUJRa5upjNSnEfhYkSg5kFFSA+s0N2w9FItU0SGWiRDyzO+O+5zxzno/7HefJa+el4/vz2JrtCxVflPSbLbft8nCuOl7ttKgeW/lq4xP5FFNOEY0oI0GKKvgpBaTx7ZFHLhXA9mkKrIQnOS5oRjZqR8gSyAiADvFPsNqrUYW14dRcHWGXFLNEpUOPMd8yY4hss6uAr2F/YX5hLFm4w5SZjcIJbAjGFWZ8D7yiA2T8rTKrM8+1/EtlgfgEEdMB/R+Vph8VDegV90HiZAUjpkPRH54NREpgQ444tMmZCThCXh+idwq2B+3mfs4ZHO5VDBuwFcyiasYAfCWsuTejZ7HGCLxGn4bSi+4szo+hSALVc/c8vnTTpv5Mj6DPHMmY3SidIjbgWon8CWsf8MlS7D7juFEzj5t37s2/6qvOdqftddvdDy9a6936xS/TQ3pET/Gq12id3tEWuhnRMf2gU/ppHVkn1lfr21nqUqOueUCXhvX9Nz9G14I= 2x1 + 3x2 = 7 Konfirmatorische Faktorenanalyse II: 473 Modellspezifikation Modellschätzung Modellbewertung Modellrevision Identifikation Voraussetzung für Schätzung der Modellparameter: das Modell ist exakt identifiziert oder über-identifiziert Vorgehen: (1) bestimme die Anzahl 𝑁!"#" der zu schätzenden Parameter in Σ, (2) Bestimme die Anzahl 𝑁$%& der Informationen in S, die zur Schätzung vorhanden sind, (3) die Differenz aus (2) und (1) ergibt die Freiheitsgrade - Freiheitsgrade: die Differenz df = 𝑁$%& – 𝑁!"#" - df < 0: Modell ist nicht identifiziert - df = 0: Modell ist exakt identifiziert - df > 0: Modell ist über-identifziert Konfirmatorische Faktorenanalyse II: 474 Modellspezifikation Modellschätzung Modellbewertung Modellrevision Beispiel 0.61 0.44 0.45 0.51 0.56 0.40 0.44 𝑆= 1.05 0.15 0.81 vs. 1! Var η" + Var(ε" ) 1 ) λ! ) Var η" 1 ) λ# ) Var η" 1 ) λ$ ) Var η" λ!! Var η" + Var(ε! ) λ! ) λ# Var η" λ! ) λ$ Var η" Σ= λ!# Var η" + Var(ε# ) λ# ) λ$ Var η" λ!$ Var η" + Var(ε$ ) df = NInf → NPara = 10 → 8 = 2 AAAD8HiclVLNThRBEK5l/IH1b4GT8TIRTEyMmxkOKxcSEsDoQbMmLhCRbHpme9bOzl+6Z4Flsy/AE3DSePXkVd6Ep/AFPPh17SBhyUbtSU9Vf1X19dfVHeSxMoXnnVdmnBs3b92enaveuXvv/oPa/MK2yfo6lK0wizO9GwgjY5XKVqGKWO7mWookiOVO0Nuw8Z0DqY3K0vfFIJf7ieimKlKhKAC1a8udyF1z37aHr9No5D63XlNoMQLoe1ivwllp15a8usfDve74pbO0/vDz4rPWT7eZzVc+0EfqUEYh9SkhSSkV8GMSZPDtkU8e5cD2aQhMw1MclzSiKmr7yJLIEEB7+Hex2ivRFGvLabg6xC4xpkalS08wXzJjgGy7q4RvYH9hHjPWnbrDkJmtwgFsAMY5ZnwDvKBPyPhbZVJmXmj5l8oc8QEitgPmPyptPwqKaJX7oHCynBHbofAPzyYiGliPIy5tcWYXHAGvD9C7FLYF7fZ+Lhhc7lUHVrCVzJKWjAJ8Gtbem9UzXWMIXqvPQOlld6bnd6BIATUT93x05aZt/ViPpEOOJMxulQ4Ri7hWIX/A2iM+WYzdRxy3aibxKt65P/mqrzvbK3W/UW+8w4Nv0HjM0iN6TE/xql/QOr2iJroZ0gl9px905mjn1PnifB2nzlTKmkW6MpxvvwEEM86e Konfirmatorische Faktorenanalyse II: 475 Modellspezifikation Modellschätzung Modellbewertung Modellrevision Exkurs: Über-Identifikation ein Gleichungssystem ist überidentifiziert, wenn es mehr Gleichungen als unbekannte Parameter gibt Beispiel: 2x1 + 3x2 = 5 AAAEJHiclVLLbtNAFL2pebTmlcKSzYgIhISI4rQNbJAq8RAbpCKRNqKuIj8m7ij22LKdkhDld/gMvoAdYsGGFVv4AhacuXGomioCxhrfO+fee+bMnfGzWBVlq/W1tmZduHjp8vqGfeXqtes36ps394t0lAeyG6Rxmvd8r5Cx0rJbqjKWvSyXXuLH8sAfPjXxgxOZFyrVb8pJJo8SL9JqoAKvBNSv92zXl5HSUy9WkZbhzG6P+454ILbG/ba490TsCNe1tw32UFSQY6DOPG1ngW3ZrtThKU2/3mg1WzzEecepnAZVYy/drL0ll0JKKaARJSRJUwk/Jo8KfIfkUIsyYEc0BZbDUxyXNCMbtSNkSWR4QIf4R1gdVqjG2nAWXB1glxgzR6Wgu5gvmNFHttlVwi9gf2G+ZyxaucOUmY3CCawPxg1mfAW8pGNk/K0yqTIXWv6lMkN8gojpQPEflaYfJQ3oMfdB4WQZI6ZDwR+eZ4jkwIYcEfScMyNw+Lw+Qe80bBfazf0sGAT3KoT12Epm0RWjB74c1tyb0bNaYwBeo6+A0tPurM4PoUgBLZbueXzmpk39XI+kdxxJmN0onSI24FqF/AlrH/DJYuw+47hRs4ybd+4sv+rzzn676XSandfbjd1O9eLX6Tbdoft41Y9ol17SHroZ0Ef6Tj/op/XB+mR9tr7MU9dqVc0tOjOsb78Bmdfc5Q== 4x1 → x2 = 1 6x1 + 5x2 = 13 Konsequenz: „überschüssige“ Gleichungen als „Gegenprobe“ - je mehr Freiheitsgrade, desto „härter“ ist der Test für die eingesetzten Parameter Konfirmatorische Faktorenanalyse II: 476 Modellspezifikation Modellschätzung Modellbewertung Modellrevision 2. Schätzung Modellparameter zwei Voraussetzungen für die Schätzung der Modellparameter: - latente Variablen haben eine „Skala“ - Identifikation des Modells schätze Parameter in Σ so als wenn Modell richtig wäre, d.h. finde Parameter, sodass die empirische Kovarianzmatrix S und Σ nahe beieinander liegen Konfirmatorische Faktorenanalyse II: 477 Modellspezifikation Modellschätzung Modellbewertung Modellrevision Beispiel Welche Ladungen, welche Faktorvarianz und welche Fehlervarianzen führen dazu, dass Σ „nah“ an S liegt? 0.61 0.44 0.45 0.51 0.56 0.40 0.44 𝑆= 1.05 0.15 0.81 vs. 1! Var η" + Var(ε" ) 1 ) λ! ) Var η" 1 ) λ# ) Var η" 1 ) λ$ ) Var η" λ!! Var η" + Var(ε! ) λ! ) λ# Var η" λ! ) λ$ Var η" Σ= λ!# Var η" + Var(ε# ) λ# ) λ$ Var η" λ!$ Var η" + Var(ε$ ) Konfirmatorische Faktorenanalyse II: 478 Modellspezifikation Modellschätzung Modellbewertung Modellrevision Beispiel Setze alle λs = 0.5, Var(η1) = 0.4 und alle Var(ε.) = 0.2: &$% *+,-(1) + *+,-!$ ) $' " % ' *+,-(1) $' " # ' *+,-(1) $' " ' ' *+,-(1) # $ ! $ " % *+,-(1) + *+,-! % ) % " % ' " # ' *+,-(1) " % ' " ' ' *+,-(1) ! #=$ ! $ " % # *+,- ( 1) + *+,-! # ) " # ' " ' ' *+,-(1) ! $ " ' *+,-(1) + *+,-! ' ) !" % % &$% ' !"' + !"% $' !"( ' !"' $' !"( ' !"' $' !"( ' !"' # $ ! $ % !"( ' !"' + !"% !"( ' !"( ' !"' !"( ' !"( ' !"' ! =$ % ! $ !"( ' !"' + !"% !"( ' !"( ' !"' ! $ !"( ' !"' + !"% !" % % & !"&! !"%! !"%! !"%! # $ ! $ !"#! !"$! !"$! ! =$ !"#! !"$! ! $ ! $ !"#! !" % Konfirmatorische Faktorenanalyse II: 479 Modellspezifikation Modellschätzung Modellbewertung Modellrevision Beispiel Welche Ladungen und Fehlervarianzen führen dazu, dass Σ „nah“ an S liegt? & !"&$ !"++ !"+* !"*$ # & !"&! !"%! !"%! !"%! # $ ! $ ! $ !"*& !"+! !"++ ! $ !"#! !"$! !"$! ! ,=$ '(" ! = $"!* !"$* ! $ !"#! !"$! ! $ ! $ ! $ ! !")$ " $ !"#! !" % % Ist das denn „nah“ genug? Konfirmatorische Faktorenanalyse II: 480 Modellspezifikation Modellschätzung Modellbewertung Modellrevision Beispiel Setze alle λs = 0.6, Var(η1) = 0.5 und alle Var(ε.) = 0.1: &%# *+,-(1) + *+,-!% ) %' " # ' *+,-(1) %' " & ' *+,-(1) %' ". ' *+,-(1) # $ ! $ " # *+,-(1) + *+,-! # ) # " # ' " & ' *+,-(1) " # ' ". ' *+,-(1) ! #=$ ! $ " # & *+,- ( 1) + *+,-! & ) " & ' ". ' *+,-(1) ! $ ". *+,-(1) + *+,-!. ) !" # % &%# ' !"( + !"% %' !"( ' !"' %' !"( ' !"' %' !"( ' !"' # $ ! $ # !"' ' !"( + !"% !"' ' !"' ' !"( !"' ' !"' ' !"( ! =$ # ! $ !"' ' !"( + !" % !" ' ' !"' ' !"( ! $ !"' ' !"( + !"%!" # % & !"'! !"&! !"&! !"&! # $ ! $ !"#$ !"%$ !"%$ ! =$ !"#$ !"%$ ! $ ! $ !"#$ !" % Konfirmatorische Faktorenanalyse II: 481 Modellspezifikation Modellschätzung Modellbewertung Modellrevision Beispiel Welche Ladungen und Fehlervarianzen führen dazu, dass Σ „nah“ an S liegt? & !"'% !"++ !"+* !"*% # & !"'! !"&! !"&! !"&! # $ ! $ ! $ !"*' !"+! !"++ ! $ !"#$ !"%$ !"%$ ! ,=$ ()" ! = %"!* !"%* ! $ !"#$ !"%$ ! $ ! $ ! $ ! !"$% " $ !"#$ !" % % Ist das besser? Konfirmatorische Faktorenanalyse II: 482 Modellspezifikation Modellschätzung Modellbewertung Modellrevision 2. Schätzung Modellparameter zwei Voraussetzungen für die Schätzung der Modellparameter: - latente Variablen haben eine „Skala“ - Identifikation des Modells schätze Parameter in Σ so, als wenn Modell richtig wäre, d.h. finde Parameter, sodass die empirische Kovarianzmatrix S und Σ nahe beieinander liegen zur effizienten Bestimmung der Parameter verwendet man eine (Fit-)Funktion F, die die Differenz zwischen S und Σ (d.h. S – Σ) minimiert Konfirmatorische Faktorenanalyse II: 483 Modellspezifikation Modellschätzung Modellbewertung Modellrevision Fit-Funktionen eine wichtige Fit-Funktion ist die Maximum-Likelihood Funktion: 1 AAAHk3icpVXbbtNAEJ22QEq4pSCeeMCiQipCrRLE5QFVKqWqeGhEUXqTmlLZzias6pu8m0Jw8zV8Da/wxL/wwNnxpiQNuQC2vB7Pzpkze3Zse0kglS6Xf8zMzl26fKUwf7V47fqNm7dKC7f3VNxOfbHrx0GcHniuEoGMxK6WOhAHSSrc0AvEvnfy2szvn4pUyTja0Z1EHIVuK5JN6bsaruPS6uZxVt3qOqtOELecs3pNtkLXOXMeOzpdqtX9Rqyd3Pk+W650HznLeWDtDNb2cWmxvFLmwxk2KtZYJHtsxwtz96lODYrJpzaFJCgiDTsglxTOQ6pQmRL4jiiDL4UleV5Ql4rAthElEOHCe4KxhadD643wbHIqRvtgCXClQDr0ENcmZ/QQbVgFbIX7T1yf2df6L4ZR2IzHFDgXeBOZn0VcoxDREGZ0ZUY7o1IE7UxVxkoQq7lef4xuGa9GMYumD+e1TYo3seHU0U0oZPRWFlG05yhUijHAjMSuiClYzNpPEPtb2fHxn6gDnxyrzCHtWDV71fe0dGztG/DkfWvqrVoF92xXSUZlsMz+KctUw6zG2IEuHvfOps2e4Z4w1uSJOUd3AJ/RW66py31n8CnbIY/RFAwBz/X6fjh7lbYGsod9+SVwkxlUn/fPDLUBBjVyBT09XyFTgruLeMEc9fNuzWuaXiOFXF27e9OzeOiA6Vg8dNa/rURPXInm2v9ut01ntvhbNWlXDuwef2S0O8RkuMx73OQ3WiJPp6/607E9n/KbI5DbfC1D+0Vr8Pr78zUQY57beMrVyDkv+PHHqVz8vwwbe09WKs9Xnr17uri2bv8983SPHtASNH1Ba/SGtmkXFX2hr/SNvhfuFl4W1gsbeejsjMXcoYGjUP0FcFOJ7A== FML = log|⌃| + tr (S · ⌃ ) log|S| P - je größer die Abweichung, desto größer FML à Ziel: Minimierung von FML - Minimierung von FML liefert die Maximum-Likelihood-Schätzungen der Modellparameter - Voraussetzung: Normalverteilung der Variablen daneben gibt es eine Reihe weiterer Fit-Funktionen, wie die Weighted Least Square Funktion FWLS oder die Diagonally Weighted Least Square Funktion FDWLS Konfirmatorische Faktorenanalyse II: 484 Modellspezifikation Modellschätzung Modellbewertung Modellrevision Beispiel Ergebnis in R: FML = 0.405 und Konfirmatorische Faktorenanalyse II: 485 Modellspezifikation Modellschätzung Modellbewertung Modellrevision Beispiel Welche Ladungen und Fehlervarianzen führen dazu, dass Σ „nah“ an S liegt? & !")$ !"(( !"(' !"'$ # & !")$ !"(' !"(% !"'$ # $ ! $ ! $ !"') !"(! !"(( ! $ !"') !"%( !"%& ! ,=$ *+" ! = $"!' !"$' ! $ $"!' !"%& ! $ ! $ ! $ ! !"#$ " $ !"#$ !" % % Das ist wohl „nah“ genug. Konfirmatorische Faktorenanalyse II: 486 Modellspezifikation Modellschätzung Modellbewertung Modellrevision 3. Modellbewertung Prüfung, ob das spezifizierte Modell zu den Daten passt, erfolgt mit globalen und lokalen Fit-Indizes bekanntester globaler Fit-Index: χ2-Test als „Vergleich“ der beobachteten und der modell-implizierten Kovarianzmatrizen - Teststatistik: TML = (N - 1) ∙ FML - TML ist χ2 – verteilt mit df = 𝑁$%& – 𝑁!"#" Freiheitsgraden - Nullhypothese H0: Das spezifizierte Modell ist mit dem Populationsmodell identisch! § Ziel ist es, die Nullhypothese () zu bestätigen! Konfirmatorische Faktorenanalyse II: 487 Modellspezifikation Modellschätzung Modellbewertung Modellrevision Beispiel TML = (N – 1) ∙ FML = 9 ∙ 0.405 = 3.645 - df = 2, p = 0.16 - Ergebnis in R (mit dem Paket lavaan): Konfirmatorische Faktorenanalyse II: 488 Modellspezifikation Modellschätzung Modellbewertung Modellrevision 3. Modellbewertung die Stichprobengröße beeinflusst die Güte des χ2-Tests: je größer N, desto eher führen triviale Abweichungen zur Ablehnung der H0 deshalb gibt es eine Reihe von zusätzlichen Fit-Indizes… - „Goodness“ vs. „Badness“ of Fit - absolute Fit-Indizes: Vergleich von Σ und S § bekanntester Index: RMSEA § Faustregel für gute Passung: RMSEA ≤ 0.08 § SRMR ≤ 0.08 - relative Fit-Indizes: Vergleich der Passung des eigenen Modells mit dem Fit eines Nullmodells § bekanntester Index: CFI; Faustregel: CFI ≥ 0.95 Konfirmatorische Faktorenanalyse II: 489 Modellspezifikation Modellschätzung Modellbewertung Modellrevision Beispiel ! * " #A %&'E) = #A"! ! Konfirmatorische Faktorenanalyse II: 490 Modellspezifikation Modellschätzung Modellbewertung Modellrevision Beispiel * * 𝜒$"%&'()& − df$"%&'()& − 𝜒+,-&'' − df+,-&'' CFI = * 𝜒$"%&'()& − df$"%&'()& Wie viel besser ist das Modell, als ein Nullmodell mit unabhängigen Items? Konfirmatorische Faktorenanalyse II: 491 Modellspezifikation Modellschätzung Modellbewertung Modellrevision 3. Modellbewertung betrachte Residuen in S - Σ und „entdecke“ mangelnde Passungen: & !"'( !"$$ !"$& !"&( # & !"'( !"$& !"$* !"&( # $ ! $ ! $ !"&' !"$! !"$$ ! $ !"&' !"*$ !"*+ ! -,%,! = $ ' ("!& !"(& ! $ ("!& !"*+ ! $ ! $ ! $ ! !")( " % $ !")( !" % & ! !"!( !"!# ! # ! $ ! " $P $P % s →ω̂ij &2 AAAEW3iclVJNb9NAEB03AdpQIAVx6sWiVEqFSONIBC6VKvEhLpVCIW1F3Ua2s0428UfwbkqD5Ts3fgD/iQM3DiD+BDcOvF27oKaKgI02M/Nm5u3z7LrjgAvZaHwxFkrlS5evLC5Vri5fu36junJzT8STxGMdLw7i5MB1BAt4xDqSy4AdjBPmhG7A9t3RY5XfP2GJ4HH0Sk7H7Ch0+hH3uedIQN3qh4ot2alMX+7u7GbmlmmLN4lMbT9xvNQWk7Cb8i0rO26beTAsgoD5smbmZQI1w8y8b9oDB62C90MnU1CW5myqgGem7fViaSIYIoUw4f2B3DhuZmm71r5nbWw2s6zSra416g29zIuOVThr2w8+fv/2+f2ndrxivCabehSTRxMKiVFEEn5ADgn8DsmiBo2BHVEKLIHHdZ5RRhX0TlDFUOEAHeG/j+iwQCPEilPobg+nBNgJOk1ax36mGV1Uq1MZfAH7E/udxvpzT0g1s1I4hXXBuKQZd4BLGqDib51hUXmm5V86x8hPkVETEP/RqeYhyadHeg4cXzbWiJqQ95vnCTIJsJHOmPRUV/bB4er4BLOLYDvQru7njMHUs+rBOtoyzRIVjA74Elh1b0rPfI0eeJU+AaV/pjO/vgdFHKiYuefTczet+nM9jN7qTKjZldIUOV/3ctRPtXZff1mA0zOdV2pmcfXOrdlXfdHZa9atVr31Ag++RflapFW6QzW86oe0Tc+pjWl69MNYNe4a66Wv5VK5Ul7OSxeMoucWnVvl278ANlz5Vw== $ ! !"!' !"!& ! " ij ↑ =$ ! # i=1 j=1 sii ·sjj ! % !"#$ SRMR = $ ! P(P + 1)/2 $ ! " ! % SRMR = Standardized Root Mean Residual = Wurzel des durchschnittlichen quadratischen Fehlers der Korrelationsresiduen; Faustregel für gute Passung: SRMR ≤ 0.08 Konfirmatorische Faktorenanalyse II: 492 Modellspezifikation Modellschätzung Modellbewertung Modellrevision Beispiel Ergebnisse zu den drei Fit-Indizes: Konfirmatorische Faktorenanalyse II: 493 Modellspezifikation Modellschätzung Modellbewertung Modellrevision 3. Modellbewertung der Sinn (und Unsinn) von Fit-Indizes wird in der Statistik kontrovers diskutiert - bei kleinem N und wenigen dfs scheint die Verwendung des RMSEA-Cutoffs z.B. nicht sinnvoll (Kenny et al., 2015) - eher heuristische Gesamtschau an relativen und absoluten Fit Indices wichtig als Cut-Off-Werte Zulässigkeit der Parameterschätzungen beachten, d.h. keine negativen Varianzen, Korrelation größer als 1, usw. (sog. Heywood-Cases) bei schlecht passenden Modellen immer die standardisierten Residuen oder Modifikationsindizes (vgl. Seminar) betrachten und ggf. das Modell revidieren Konfirmatorische Faktorenanalyse II: 494 Modellspezifikation Modellschätzung Modellbewertung Modellrevision 4. Modellrevision (vgl. Seminar) Achtung: Modifikationsindizes sind daten- gesteuerte Revisionen besser sind theoriegeleitete Modellmodifikationen Modellrevisionen sollten immer anhand neuer Stichproben geprüft werden (sog. Kreuzvalidierung) wenn alles nichts hilft: Konfirmatorische Faktorenanalyse II: 495 Modellspezifikation Modellschätzung Modellbewertung Modellrevision Beispiel Ergebnisse der Fit-Indizes, wenn Fehlerkorrelation zwischen Variable 3 und Variable 4 berücksichtigt wird Konfirmatorische Faktorenanalyse II: 496 Modellspezifikation Modellschätzung Modellbewertung Modellrevision Zusammenfassung Grundidee faktorenanalytischer Modelle: Zusammenhänge zwischen Variablen werden durch latente Variablen erzeugt mit der CFA kann die Gültigkeit a priori festgelegter Faktorenmodelle überprüft werden - Bewertung der Modellgüte kann „komplex“ sein die CFA ist ein wichtiger theoretischer Modellrahmen - Bsp.: Klassische Testtheorie ist Spezialfall der CFA Konfirmatorische Faktorenanalyse II: 497 Modellspezifikation Modellschätzung Modellbewertung Modellrevision Fragen? Konfirmatorische Faktorenanalyse II: 498 Modellspezifikation Modellschätzung Modellbewertung Modellrevision Literatur für heute Eid, M., Gollwitzer, M., & Schmitt, M. (2017). Statistik und Forschungsmethoden (5. Aufl.). Beltz: Weinheim, Basel. Kap. 24 (Relevante Abschnitte) alternativ: - Krohne, H. W. & Hock, M. (2007). Psychologische Diagnostik: Grundlagen und Anwendungsfelder. Stuttgart: Kohlhammer. S. 85-106 Konfirmatorische Faktorenanalyse II: 499 Modellspezifikation Modellschätzung Modellbewertung Modellrevision Vielen Dank für Ihre Workshop Aufmerksamkeit! R-Grundlagen 10.10.2016 Neujahrsvorsatz: Den Witz Workshop verstehen. R-Grundlagen 10.10.2016 Übungsaufgaben 1. Fortsetzung von Aufgabe 3 aus der vorigen Sitzung. Angenommen, der Wert der Likelihood-Fit-Funktion ist FML = 0.09 (N = 100). Nutzen Sie den χ2-Test und den RMSEA um zu prüfen, ob das Modell an die Daten passt. Interpretieren Sie die Ergebnisse! Hinweis: Sie können den kritischen χ2- Wert in R mit dem Befehl qchisq(p = 0.95, df =...) erhalten. 2. In einer CFA ist FML = 0.00403 (N = 2000, df = 5). Für das Baseline-Modell ergibt sich FML = 1.497 (df = 10). Berechnen Sie den CFI und interpretieren Sie das Ergebnis. 3. Sie haben fünf Items und definieren ein CFA-Modell mit einem Faktor. Sie gehen zusätzlich davon aus, dass die Fehler von Variable 3 und 4 und die Fehler von Variable 4 und 5 miteinander korrelieren. a. Bestimmen Sie die Freiheitsgrade des Modells. b. Angenommen, alle Ladungen würden auf den gleichen Wert festgesetzt werden. Wie viele Freiheitsgrade hat dann das CFA Modell? 502