Summary

This document provides a lecture on correlation analysis and factor analysis, discussing different types of validity, data reduction techniques, and specific methods like PCA and EFA. The document explores the concepts within a hypothetical study on the relation between various aspects of measurement and factors, like items or stimuli related to "fall depression" and the use of the WAIS as a measurement scale.

Full Transcript

Hoorcollege 1 Monday, November 11, 2024 8:45 AM Mededeling: Wat is factoranalyse Lijst stimuli en mensen vragen in welke mate dit van toepassing is op hen. Dat lijkt op een test, waarbij stimuli voorgelegd worden om op basis hiervan een score toe te kennen met wat er met die items gemeten wordt....

Hoorcollege 1 Monday, November 11, 2024 8:45 AM Mededeling: Wat is factoranalyse Lijst stimuli en mensen vragen in welke mate dit van toepassing is op hen. Dat lijkt op een test, waarbij stimuli voorgelegd worden om op basis hiervan een score toe te kennen met wat er met die items gemeten wordt. De gemeenschappelijke achtergrond tussen deze stimuli zou herfstdepressie kunnen zijn, deze stimuli zeggen iets over de mate van herfstdepressie. Factoranalyse helpt ons bij het zoeken van de gemeenschappelijke achtergrond, verklarende factor voor de antwoorden en reacties die mensen geven op een verzameling van stimuli. Verklarende factor voor de antwoorden gegeven door respondent. Geldigheid van de conclusies die je trekt, validiteit/ geldigheid Onderzoeksvaliditeit Externe validiteit Interne validiteit Begripsvaliditeit (instrumentele validiteit) geldigheid van de verkregen data. Dat de score meet wat hij moet meten. Meetinstrumenten die worden gebruikt, zijn die geldig en kunnen we daarop aan dat die score overeenkomt met iemands ware aard/gevoelens Mate waarin een test aan zijn doel beantwoordt. ○ Inhoudsvaliditeit (content validity) Representeert de inhoud van de test het gehele inhoudsdomein? Zijn de 10 stimuli voldoende om alle aspecten van herfstdepressie te vangen? Deskundigen oordeel/ indruksvaliditeit (face validity) & inhoudsvaliditeit ○ Begripsvaliditeit (construct validity) Meet de test het theoretische concept dat moet worden gemeten? Wordt het beoogde theoretische concept met de stimuli gemeten? 2 mogelijkheden: Relaties binnen test (interne structuur) vinden van een bevestiging op onze verwachting van de interne structuur. Verwachten 1 dimensie en vinden 1 dimensie is dit een ondersteuning van onze verwachtingen over de interne structuur van een element. En daarbij een ondersteuning van de begripsvaliditeit van de interne structuur. Bijv herfstdepressie met 10 factoren in vergelijking met een complexer instrument dat 4 achterliggende factoren meet. Of bij intelligentie, je kan veel verschillende aspecten onderscheiden. Met veel stimuli veronderstellen we dat er clusters van samenhang worden gemaakt om intelligentie te meten. Dit beoordeelt of we de achterliggende thema's ook uit de data kunnen halen, of we de meerdere factoren kunnen geven die de vraag beantwoorden over hoe de items zijn beantwoord. 2. Realiseren van datareductie We hebben een verzameling van stimuli die een theoretisch begrip moeten representeren, reacties of vragen/stellingen. Die comprimeren we tot 1 score ipv 12 losse scores met alle antwoorden. Dat is datareductie en dat kan alleen maar als we ondersteuning hebben gevonden voor het idee dat onze verzameling voor items/stimuli verklaard kan worden door theoretisch begrip. Deze reductie kan alleen onderbouwd als we bewijs hebben dat de stimuli kunnen worden verklaard. Dus in Nl: je kan pas de scores samenvoegen als is bewezen dat jouw meting ook echt intelligentie meet en niet iets anders. Kunnen we informatie uit groot aantal variabelen (items/reacties) samenvatten in kleiner aantal nieuw te construeren variabelen (= factoren)? --> explorerende factoranalyse (EFA) Tegenpool van conformerende factoranalyse. Nog geen idee van de aantal factoren en gaan bekijken hoeveel we er kunnen onderscheiden. --> hoofdcomponentenanalyse (PCA) Wechster adult intellegence scale (WAIS) Deze heeft aanpassingen gekregen door de factoranalyse 11 tests, voor elke test krijg je een score en dit meet samen de score op intelligentie. We veronderstellen dat een deel van deze tests performaal intelligentie meten en een deel verbale. Factoranalyse Stap 0: Datascreening Vraag: is een factoranalyse zinvol voor deze data? Ja, want er zijn er meerdere groter dan.30, dus deze correlatiematrix duidt erop dat er binnen de 11 test genoeg correlatie is om de factoranalyse te rechtvaardigen. Het gaat een betekenisvol antwoord opleveren. We kunnen nu dus op zoek naar mogelijke achterliggende factoren. Vuistregel: minstens één absolute correlatiecoëfficiënt [r] groter dan 0.30. Gebruik gemaakt van datamatrix om samenhang tussen de verschillende tests laten zien. Is pas zinvol als er ook werkelijk correlatie is tussen de 11 tests. Er moet minstens 1 correlatie zijn groter dan 0.30. Zonder correlaties kan je ook een factoranalyse uitvoeren maar zal het resultaat willekeurig en niet zinvol zijn. Je hebt correlatie nodig om de analyse geldigheid te geven. Stap 1: keuze factormodel PCA: Principal Components Analyses Hoofdcomponenten analyse Begin bij Z vierkantjes, dit zijn 11 Z-scores, de testscores zijn getransformeerd met z-scores, dit is een gestandardiseerde score. De 11 tests zijn afgenomen bij respondenten en de scores worden weergegeven in de vierkantjes. Voor de PCA gaan we nu de vraag benatwoorden: hoe gaan we met zo weinig mogelijk hoofdcomponenten/factoren zoveel als mogelijk variantie kunnen representeren. De observaties van de 11 tests kan zijn dat een groep leerlingen niet allemaal dezelfde scores heeft, er is spreiding in scores, niet iedereen scoort hetzelfde of antwoord hetzelfde. Er is variatie. De statistische maat voor de grootte van variatie is variantie: zegt iets over spreiding van scores op een variabele. Elke test verschillen de scores onder de respondenten en er is in alle scores spreiding. We veronderstellen dat een factor iets van de spreiding kan vatten We zoeken naar zo weinig mogelijk achterliggende factoren om zoveel mogelijk variatie/sprediing van scores representeren? We veronderstellen dat de 11 tests samenhangen met in dit geval 2 factoren. A = geeft de factorlading aan, hoe goed de test wordt gerepesenteerd door 1 of 2 factoren. Sterkte van de samenhang tussen observatie/score en de niet zichtbare maar wel statistische werkelijkeheid, de componenten/ factoren. Alle 11 tests hebben een pijl naar c1 en c2. Alle variabele in de analyse hebben een bepaalde samenhang met ALLE onderscheidde factoren. EFA: Explratory Factor Analyses Exploratieve factoranalyse Weer 11 observaties, maar het aantal factoren is vooraf onbekend. De pijlen worden andersom gezet en er wordt een u aan toegevoegd. Aantal factoren van te voren onbekend, exploratieve factor Factoren zijn een verklaring voor de observaties De u staat voor de unieke factor. Voor alle observaties zien we dat er een aantal factoren invloed op kunnen hebben, maar er is ook een factor die niet nader gespecificeerd is. Alle variantie wordt dus niet verklaard in dit geval, de unieke factor zit niet in PCA CFA: Confirmatory factor analyses Confirmatieve factoranalyse Gebruiken wanneer we van te voren een heel duidelijk beeld hebben over het aantal achterliggende factoren. We gaan na of het idee van de achterliggende structuur ook wordt ondersteund door de data. Eht model is gespecificeerd, twee factoren met verschillende paden. Een aantal observcaties hebben met F1 en een aantal met F2 te maken, geen overlap. Dit is dus met verbale en perfomale intelligentie. Zeer vergelijkbaar met PCA maar nu is het heel duidelijk welke test bij welke factor hoort. Als we deze toetsen vinden we een bevestiging voor onze verwachting. Als er ondersteuning is hebben we te maken met begrips valdiditeit ondersteuning. Verstekrt ons idee vna hoe een model werkt. Toelichting factormodel: Geobserveerde variabele (X, Zx) X = individuele score op variabele Zx = X getransformeerd naar Z-score Factorlading (a) Correlatie van variabele met factor, samenhang tussen de observatie en de samenhang die we onderscheiden. Grote a = veel samenhang. Kleine a= kleine samenhang, je kunt het beschouwen als correlatie. NB. De factorladingen a worden geschat, spelen een belangrijke rol in de volgende stappen van de analyse Factor (F) / component Achterliggende verklaring voor variatie (variantie) in en samenhangen (correlaties) tussen de variabelen. 1. zijn er uberhaupt achterliggende factoren 2. kunnen we die achterliggende factoren een samenhang geven? NB. In PCA spreekt men van componenten in plaats van factoren. Unieke Factor (u) Unieke factor voor verklaring van specifieke en error variantie. Welk factormodel kies je? Het resultaat (factoroplossing) van de modellen komt overeen, maar Hoofdcomponentanalyse (PCA) als reductie het doel is van de factoranalyse. Dit was het tweedde mogelijke doel. Puur zoeken naar factoren, verklaring is niet belangrijk. Reduceren naar minder variabelen. Explorateve factoranalyse (EFA) als inhoudelijke interpretatie van nog onbekend aantal factor(en) het doel is van de factoranalyse. Interpretatie speelt meer een rol, als de inhoudelijke interpretatie van mogelijke factoren nog onbekend is gebruik je deze. Je moet een instrument ontwikkelen, legt een verzameling van stimuli voor aan mensen en wil weten of er een of meerdere factoren te zijn onderschijden om Confirmatieve factoranalyse (CFA) als beoordeling van de verwachte interne structuur (= validiteit) het doel is van de factoranalyse. Beoordeling van dimensionaliteit die we verwachten. We verwachten dat van de 11 schalen 2 achterliggende factoren zijn met de interpretatie die wij verwachten. Bevestiging van de begipsvaliditeit en interne structuur. Soms kiezen we voor een pragmatische oplossing, omdat het resultaat vaak sterk overeen komt. Ookal is het daar niet per se voor bedoeld, er zijn voorkeuren en er is een koppeling tussen het doel en de factoranalyse. De oplossingen komen vaak overeen. Resultaat factoranalyse Schatting van de factorladingen (a), hoe sterk is de samenhang Factorscores, er kan een schaalcore berekend worden, gewogen som van informatie van variabele uit de analyse Informatie voor keuze aantal te onderscheiden factoren: eigenwaarden, factorcorrelaties, verklaarde variantie. Vergelijking voor factorscore F Verzameling van gegevens reduceren tot factorscores, ipv 11 observaties, 2 factorscores. Die wordt bepaald door de vergelijking: F staat voor factorscore. Som van producten/ vermenigvuldigen. A = factorlading x z = score op de test. Zo doe je dit voor elk item op de test. Dus stel je scoort 10, dan gebruik je niet 10 maar de z-score, die liggen altijd tussen de 0 en 2-3 Factorscore F Voor ieder individu een score op (elke) factor Voor persoon i is Fji de gewogen som, (linearie combinatie) van k naar z gestandaardiseerde variabelen. Observaties/testscores/ recties worden getransformeerd naar z-scores, de som van deze z-scores wordt zo gedaan dat degene met de grootste a de grootste bijdrage levert voor een hoge factorscore. F is een nieuwe variabele Voor verdelign van factorscores geldt: ○ Gemiddelde M = 0 ○ Standaardafwijking SD = 1, je zit 1 SD boven het gemiddelde. Factorscore van 2= je zit 2 boven het gemiddelde Stappen factoranalyse Stap 0: datascreening Stap 1: welk model kies je? PCA, EFA, CFA Stap 2: bepalen aantal factoren? Dit zijn weer de 11 tests die zijn afgenomen bij de steekproef, die hebben scores opgeleverd. We hebben het model dat we twee scores verwachten, verbale (eerste 6 testscores) en performale factor (laatste 5) Dit is het achterliggende verwachtingspatroon van de interne structuur van de WAIS. Binnen de correlatiematrix zal het zijn dat sommige tests samenhangen en andere minder. Van die correlatiematrix zien we niet meteen of de 11 testscores inderdaad 2 factoren te onderscheiden zien. Zijn er twee statistisch gezien zinvolle factoren te onderschieden die een samenhang weergeven voor de data. Zijn er twee zinvol te onderscheiden factoren? --> confirmerende factoranalyse Levert informatie op, de belangrijkste is de factorladingen. Hoe zit het met de samenhang tussen elke afzonderlijke test en de factor. Dti zegt iets over de sterkte van de samenhang tussen de test, scores, en de factor die we onderscheiden. Zijn de twee ook statistisch zinvol? Verklaart zo'n factor een aanzienlijk deel van de variantie, kan de factor de spreiding van de scores vatten/ representeren. HIervoor gebruiken we eigenwaarde: Zijn deze twee factoren statistisch zinvol? Hiervoor gebruiken we eigenwaarde. Aantal factoren Aantal mogelijke factoren: maximaal aantal factoren is gelijk aan totaal aantal variabelen (k) in de analyse Doel factoranalyse: met zo weinig mogelijk factoren zo veel mogelijk variantie in variabelen verklaren (datareductie). Maar wel op een manier dat de data goed wordt gerepesentateerd. Verklaarde variantie factoren Factor 1: verklaart zo groot mogelijk deel van de testvariantie, dit is de belangrijkste factor. Factor 2: verklaart zo groot mogelijk deel van restvariantie, probeert van de hoeveelheid spreiding de meeste te verklaren of representeren. Zo verklaard elke factor een steeds kleinere deel van de variantie maar alle factoren verklaren samen alle variantie IN een Hoofdcomponenten analyse (want geen unieke factor) Factor k: verklaart zo groot mogelijk deel van restvariantie Voorlopige keuze aantal factoren: gebaseerd op verklaarde variantie door factoren (= statistisch criterium). Dit wordt toegepast op basis van de eigenwaarde: verklaarde variantie op basis van de factor. Hoeveel variantie wordt er door die factor verklaard. Groot getal = veel, klein getal = weinig. Er is ook een formule voor, die geeft de som van alle gekwadrateerde ladingen op een factor. Alle 11 tests als ik ze in een kolom kwadrateer en optel kom ik tot de eigenwaarde van de ene factor. Als ik dit voor een andere factor ook doe kom ik weer op de eigenwaarde van die factor. Het aantal zinvol te omschrijven factoren vast te stellen. Kies voor factoren met een eigenwaarde groter dan 1. Je kiest het aantal factoren met een eigenwaarde > 1. het is bijna een regel maar leidt ertoe dat er soms teveel factoren worden onderscheden. Alle ladingen zijn in de rechterste twee kolommen gekwadrateerd. De onderstaande getallen is de eigenwaarde. Als ik meer factoren had toegevoegd waren de factoren steeds kleiner geworden. De tweede is al niet groter dan 1, dus als ik deze informatie over de eigenwaarde gebruik kan ik dat eigenwaarde >1 toepassen en kom ik tot het aantal statistishc gezien zinvol te onderschieden factoren is dat 1. Deze data wijzen op 1 factor, onderscheid tussen verbaal en performaal komt er niet goed uit. Geen ondersteuning van de begripsvaliditeit, heeft ertoe geleid dat de tweede factor is versterkt in het toetsingsproces. Scree plot: Het lijkt op een rots Op de x-as staan 11 nummers, deze representeren de 11 mogelijke factoren die we kunnen gebruiken als we 11 tests gebruiken. Voor elke factor is er een eigenwaarde. Die staat op de y-as aangegeven, f1 heeft een eigenwaarde van 3.... en de rest is allemaal lager dan 0. Er zit een knik in de plot door een lijn te trekken tussen de twee data. Aantal factoren boven de knik is het aantal factoren dat we kiezen met behulp van het knikcriterium of scree criterium Het aantal is mindergroot dan het eigenwaarde critetrium. Eigenwaarde kan soms een overschatting zijn, scree-plot komt meer overeen met de werkelijk zinvol te onderscheiden factoren. Kies het aantal factoren voor de knik in de plot. Conclusie: één factor selecteren. Stap 3: Interpretatie factor(en)? Wat is de inhoudelijke betekenis (= interpretatie) van de factor(en)? Leiden de twee factoren wellicht toch tot een interpretatie van de factoren. Aanpak: roteren (orhogonaal of oblique) van de factoroplossing. Roteren stelt ons in staat om een beter beeld te krijgen van de data (stoel draaien zodat je het kan herkennen) toegestande manipulatie die de zich todp de data verbeterd. Na de rotatie verandert de factorlading en kunnen we het beter interpreteren. Gebruik vervolgens ladingen a van variabelen op de factoren en de inhoud van de variabelen. Variabelen met hoogste lading is meest kenmerkend voor factor Loop variabelen in aflopende lading af Gebruik de variabelen met hoge lading |a|>.3 = vuistregel. Absolute waarde, het gaat niet om het teken -/+ maar om de factorlading. Kijken hoe dit zit voor test 9 : blokpatronen Ziet hier waarde tests op de factorladingen terecht komen. Op f1 en F2. De positie is gebaseerd op de factorladingen van de factoren. Voor twee factoren is dit goed te zien. Dit zijn de posities van de 11 tests, nu gaan we de mannipulatie toepassen. De posities zijn hetzelfde, maar door de rotatie krijg ik een andere factorlading. Test 9 heeft nu hoge lading op 2 en lage op 1. Door de rotatie worden de factorladingen prominenter, hoger op de ene en laag op de ander. Je kan dus makkelijker variabelen/ tests toeschrijven aan een factor. Zo kun je makkelijker komt tot een interpretatie Kijk naar test 9, nu duidelijker toe te schrijven aan factor 2. Meerdere andere variabele zijn nu ook duidelijker toe te schrijven aan factor 2. Wat er voor de rotatie aan interpretatie mogelijk is vergeet je, het minteken moet je ook niet problematiseren. Eentje die beide factoren steun geeft is een schendig vna de mooie spreiding die je zou verwachten, maar de test was miss ook onduidelijk. De oplossing van 2 factoren past niet perfect. Factorcorrelatiematrix Orthogonale rotatie (rechte) Resultaat: Na rotatie ongecorreleerde factoren, assen staan na rotatie loodrecht op elkaar. Interpretatie factorladingen na rechte rotatie: correlaties tussen factoren en variabelen in de analyse. Onafhankelijke factoren, geen samenhang tussen factoren. Interpretatie van factorladingen is gelijk als voor de rotatie, mate van samenhang tussen factor en item in de analyse Oblique rotatie (scheve) Na rotatie meer of minder gecorreleerde factoren, assen niet loodrecht op elkaar (zie de factor correlatiemix) Interpretatie factorlading na scheve rotatie: (partiële) regressiegewichten in plaats van correlaties. Wel correlaties tussen factoren. Meer of minder gecorreleerde factoren, de assen draaien naar elkaar toe. Dat de factoern niet onafhankelijk zijn van elkaar, deze factoren van intelligentie hebben ook samenhang. Dus het is logisch dat ze dichterbij elkaar liggen. Ezelsbruggetje: “Recht is simpel” Orthogonale rotatie houdt het simpel door geen samenhang toe te laten, net zoals een rechte weg eenvoudiger te volgen is dan een bochtige weg. Orthodontist = rechte tanden Oblique is schuin Oblique rotatie is scheef en complex, omdat factoren elkaar beïnvloeden. Net zoals een scheve toren ingewikkelder is om recht te krijgen. A = sterkte van de samenhang tussen variabele en factor. Twee verschillende rotaties komen tot dezelfde oplossing Definitieve Factoroplossing: oplossing dei we uiteindelijk kiezen die het best past bij de data en onze theoretische verwachting Definitieve keuze voor aantal factoren Gekozen rotatie (orthogonaal of oblique) In voorbeeld: Een of twee factoren? De keuze voor 1 of 2 moet beargumenteerd worden, nu gehouden op 2 Othogonale of oblique oplossing? Hiervoor gebruik je deze correlatie tussen factoren. Dat blijkt hier 0.231 te zijn. Als r > is dan.30 dan wijst het op inhoudelijke overlap en het samenvoegen de factoren. Dus geen bewijs voor samenvoegen van factoren. Dus orthogonaal geroteerde tweefactor oplossing, Rotatie Roteren is een hulpmiddel bij interpretatie factoren. Assen (factoren) draaien zodat ze beter door clusters van variabelen gaan. Twee vormen: orthogonale (rechte) rotatie en oblique (scheve) rotatie. Na rotatie laadt, in de regel, elke variabele hoog op de ene factor en laag op andere factor (‘simple structure’). Gebruik ladingen na rotatie en de inhoud van de variabele voor interpretatie van factoren. Ga factorcorrelaties na voor definitieve factoroplossing. Eenvoud van structuur (Simple structure) Op elke factor klein aantal variabelen met sterke lading. Op elke factor groot aantal variabelen met zwakke lading. Elke variabele heeft op één factor een sterke lading. Mooie structuur waarbij elke afzonderlijke variabele sterk is toe te wijze aan een van de factoren. Dus duidelijk bij welke factor een item hoort. Stap 4: kwaliteit factoroplossing? Simple structure, eenvoudig van structuur Correlatie tussen factoren Onderstaand overgeslagen Proportie verklaarde variantie factoren Vuistregel: Matig bij = 30% verklaarde variantie door factoren Goed bij = 50% verklaarde variantie door factoren Proportie verklaarde variantie in afzonderlijke variabelen door alle factoren in het model (Communaliteit / uniciteit) Proportie verklaarde variantie Totale variantie veriabelen: som gestandaardiseerde varianties is gelijk aan kx1 = k Proportie verklaarde variantie doro een factor: Proportie door één factor verklaarde varinatie in alle variabelen Communaliteit h2 De proportie door alle factoren gezamenlijk verklaarde variantie van één variabele h2 Resultaat factoranalyse Schatting van de factorladingen (a), hoe sterk is de samenhang Factorscores, er kan een schaalcore berekend worden, gewogen som van informatie van variabele uit de analyse Informatie voor keuze aantal te onderscheiden factoren: eigenwaarden, factorcorrelaties, verklaarde variantie. Vergelijking voor factorscore F Verzameling van gegevens reduceren tot factorscores, ipv 11 observaties, 2 factorscores. Die wordt bepaald door de vergelijking: F staat voor factorscore. Som van producten/ vermenigvuldigen. A = factorlading x z = score op de test. Zo doe je dit voor elk item op de test. Dus stel je scoort 10, dan gebruik je niet 10 maar de z-score, die liggen altijd tussen de 0 en 2-3 Factorscore F Voor ieder individu een score op (elke) factor Voor persoon i is Fji de gewogen som, (linearie combinatie) van k naar z gestandaardiseerde variabelen. Observaties/testscores/ recties worden getransformeerd naar z-scores, de som van deze z-scores wordt zo gedaan dat degene met de grootste a de grootste bijdrage levert voor een hoge factorscore. F is een nieuwe variabele Voor verdelign van factorscores geldt: ○ Gemiddelde M = 0 ○ Standaardafwijking SD = 1, je zit 1 SD boven het gemiddelde. Factorscore van 2= je zit 2 boven het gemiddelde

Use Quizgecko on...
Browser
Browser