Correlationeel HC 2 PDF
Document Details
Uploaded by PlayfulLosAngeles6523
Tags
Summary
This document covers the concept of multiple regression analysis, focusing on how to analyze relationships between multiple variables to predict outcomes, particularly in educational settings. It explains how to describe and test linear relationships and quantify the strength of relationships between variables.
Full Transcript
Hoorcollege 2 Monday, November 18, 2024 9:28 AM Multipele regressie Hoe goed kunnen we met deze kenmerken verschillen in schoolprestaties verklaren? Met welk van deze factoren kunnen we de schoolprestaties het best voorspellen. Er is een analysetechniek die in een keer al deze factoren meeneemt, d...
Hoorcollege 2 Monday, November 18, 2024 9:28 AM Multipele regressie Hoe goed kunnen we met deze kenmerken verschillen in schoolprestaties verklaren? Met welk van deze factoren kunnen we de schoolprestaties het best voorspellen. Er is een analysetechniek die in een keer al deze factoren meeneemt, die ook rekening houdt met de onderlinge verhoudingen en aan kan geven welke van de predictoren het meeste invloed heeft Multipele regressie: Grote verzameling van invloeden in een keer analyseert en daarmee rekening houdt met de onderlinge samenhang Grootste garantie dat je precies weet hoe het zit met de afzonderlijke factoren Dit padmodel geeft observaties aan (X) en een afhankelijke variabele (y) en een bolletje met E (error) Model met meerder eonafhankelijke variabele en eeen afhankelijke y. je kan uitspraken doen over een predictor en het hele model De predictoren die zijn genoemd moeten een meetniveau van minimaal interval hebben, dichotome variabele voor categorieën mogen als dichotoom opgenomen worden, met twee categroieën (premaster en bachelor, met rijbewijs of zonder rijbewijs. Dus interval/ratio of dichotoom Introductie regressie-analyse Voorbeeld: Kunnen we kennis van literatuur bij adolescenten verklaren met persoons-, gezins- en schoolkenmerken? Populatie: adolescenten Variabelen: Afhankelijke variabele Y Kennis van literatuur Onafhankelijke variabele X (predictoren) algemene clusters, hierbinnen specificeren we wat we ermee bedoelen. Persoonlijke kenmerken Kenmerken ouderlijk huis Kenmerken school Doel: Voor de populatie beschrijven en toetsen van de relaties tussen afhankelijke vairabele Y en de predictoren X Beschrijven van wat we vinden aan de relaties en de relaties uit de steekproef te toetsen. Algemene Onderzoeksvraag multipele regressie? Kunnen we iemands waarde op een kenmerk verklaren met kennis over andere kenmerken? Of we verschillen op een kenmerk (prestaties/meningen/vaardigheden) kunnen verklaren met andere kenmerken (persoonlijk, ouders, school) Doelen analyse: doelen die we kunnen onderscheiden bij regressieanalyse Beschrijven lineaire relaties tussen variabelen (regressiemodel) Toetsen hypothesen over relaties (significantie) Kwantificeren van relaties (effectgrootte) maat om de grootte of sterkte van effecte te beoordelen Kwalificeren van relaties (klein, middelmatig, groot) uitspraak over hoe goed een predictor in staat is om iets te doen. Beoordelen relevantie relaties (subjectief) Voorspellen van iemands waarde met regressiemodel (puntschatting en intervalschatting) als we iets kunnen verklaren met een verklaringsmodel stelt dit ons in staat om iets te voorspellen voor de doelpopulatie op basis van dit model als we de andere kenmerken hebben gemeten. Maar dat alleen als we een goed verklaringsmodel hebben gevonden. Waarschuwing correlationeel onderzoek : doe op basis van statistische samenhang geen uitspraken over causaliteit. Op basis van de analyse/conclusies mag je niet formuleren in termen van causaliteit. We stellen een oorzaak – gevolg relatie, maar an sich kan een correlatie geen overtuigende uitspraak doen over deze causaliteit. Hiervoor is een experiment nodig. Verwachte relaties baseren we wel op causale relatie. Meetniveau: ratio, interval, nomaal en ordinaal Afhankelijke variabele Y (kennis literatuur) Kenmerk gemeten op minimaal interval meetnivau Hier geldt de uitzondering niet! Onafhankelijke variabele X Kenmerk gemeten op minimaal interval meetniveau Categorische kenmerk met twee categorieën: nominaal meetniveau met twee categorieën = dichotoom Categorisch kenmerk met meer dan twee categorieën: nominaal/ordinaal meetniveau wordt omgezet in dummyvariabelen De laatste twee kunnen niet zomaar meegenomen worden, daarvoor moeten we dummyvariabelen meenemen (later in dit college meer uitleg) Lineaire wordt toegevoegd, omdat we veronderstellen dat er tussen de predictoren en afhankelijke variabele er lineaire (rechtlijnige) relaties bestaan Histogram: De scores lopen tussen 0 –8, er is dus variatie in kennis van literatuur. We willen deze variantie verklaren op de variabele read, we willen de variatie zo goed mogelijk verklaren met behulp van predictoren die op een of andere manier samenhangen met kennis van literatuur. Regressiemodel: 6 variabele onderscheiden en twee (SES en moth educ) doen dus niet mee. E = we kunnen niet alle variatie verklaren, dit is de error, het deel dat je niet kan verklaren wat niet in dit model zit. Kunnen we met deze 6 voldoende verklaren of moeten we op zoek naar andere predictoren? Kan ook in een vergelijking. Y = kennis literatuur E = niet verklaarde variatie in kennis van literatuur, voorspellingsfout B1 = wat er verandert in y bij x =0, geeft de relatie tussen y en x weer Modelvergelijking Y voor de observatie. Met kenmerken van de respondenten kun je een voorspelling doen, dat doen we met het lineaire regressiemodel. Voor geobserveerde variabele y Dit is het lineaire verklaringsmodel. Met kennis over de X weet ik iets over de Y = lineair regressiemodel. Voorspellingsfout in symbool = E Met zo'n model kun je iets verklaren, maar niet alles, wat je niet kunt verklaren noemen we de voorspellingsfout. Regressievergelijking ^y Voor voorspellen (schatten) van waarde op Y = ^y Als ik weet hoe alle B0/B1 eruit zien kan ik een schatting maken voor ^y. Het model probeert zo goed mogelijk de kennis van literatuur van iemand te schatten. Hierin zit ook een error, maar die weet je niet precies omdat je niet de Y hebt, dus gebruik je RSME Enkelvoudige regressie: variatie in kennis van de literatuur te verklaren Voorbeeld: Kan literatuurkennis van adolescenten verklaard worden met opleiding? Model: Vragen: Hoe ziet regressievergelijking er uit? Wat is de b en de b1 gegeven de data die we hebben verzameld? Wat voorspellen we voor kennis van iemand met educ =4? Hoe goed is het model? Hoe goed past het model bij de data? Kunnen we iets zeggen over de grootte van de voorspellingsfout? Hoe groter de fout hoe slechter het model, hoe kleiner de fout hoe beter het model. Regressielijn: best passende rechte lijn volgens kleinste kwadraten criterium. Hoe ziet de trend van de relatie eruit? Naarmate de opleiding toeneemt is de kennis van de literatuur ook hoger. Basismodel: stel ik heb geen informatie over een predictor. Ik wil alleen op basis van kennis van de literatuur een voorspelling doen. Dan gebruik ik dit gemiddelde als voorspelling van kennis van de literatuur. Dit is 2.32 als we verder geen andere predictoren zouden inzetten om kennis van de literatuur te voorspellen --> nulmodel Modellen: H0 nulmodel = gemiddelde Y= 2.32 H1 lineair model met intercept en educ Wanneer je educ weet kun je een verbetering krijgen van de voorspelling van de literatuurkennis. Deze tabel geeft precies wat we nodig hebben. Voor het bovenste H0 model, hebben we de waarde 2.32, de intercept van H0. Als we educatie toevoegen hebben we voor beide een andere schatting, we kunnen nu de regressievergelijking invullen. We hebben nu een regressievergelijking voor kennis van de litaratuur met als predictor educatie. Voorspelling Wat voorspel je voor educ = 4? Je kan het aflezen in de grafiek, maar je kan ook de regressievergelijking gebruiken om een preciezere voorspelling te doen. Dit laat dus zien dat die regressielijn ons in staat stelt om met kennis over de predictoren een voorspelling te doen over de variabelen. Goodness of fit? Hoe goed is het model in het voorspellen van literatuur op basis van educatie. Sterretje Yi: iemand met opleiding 4 en kennis literatuur 0. Zou ik het basismodel gebruiken is het gelijk aan de deviatie/ voorspellingsfout. Alle verschillen ten opsichte van het basismodel zijn steeds deviatie. Voor deze persoon is dat nu zo groot als de t. Maar met het regressiemodel kunnen we tot een betere voorspelling komen dan met deze Als ik het basismodel gebruik is de fout groter gemaakt. Omdat het wordt opgesplitst t groter is dan de rest. Als ik het lineaire model gebruik wordt de r, onverklaarde deel residu, Alle fout die wordt gemaakt in de voorspelling kan worden verklaard door het deel dat door het lineaire model wordt verklaard en een deel dat niet wordt verklaard door het model. Basismodel: t Lineair model: r Verklaarde deel: m Opsplitsen variatie Opsplitsen kwadratensommen Hoe verhouden deze kwadratensommen zich tot elkaar? De modelkwadraden som M : de totaal kwadratensom T = hoe goed kan mijn model alle variatie verklaren? Bepalen goodness of fit (r2) hoe goed is mijn model in staat om vairatie te verklaren R2 is proportie door lineaire model verklaarde variantie in Y Voor de 0 is nog niks verklaard, daarom is die 0. Voor H1 is de R2 = 0.274./ 27% Die proportie is een waarde tussen 0 en 1, ofwel alles wordt verklaard = 1 ofwel niks wordt verklaard = 0 Schatting van de populatie, wnat is gebaseerd op de steekproef. Je kan, bij een aselecte steekproef, gebruiken als schatting voor de populatie. Dus R2 is een schatting voor p2 (rho). Staat voor het proportie verklaarde variantie in de populatie. Adjusted r2 is een beter schatting, houdt rekening met het aantal predictoren en houdt rekening met meer aspecten. R2 is schatting van p2 Adjusted R2 is betere (gecorrigeerd voor aantal predictoren) schatting van p2 R2 x 100% is percentage verklaarde variantie in Y door alle predictoren Waardering model 1. Significantie = toetsen van het model, kunnen de predictoren überhaupt iets van de variantie verklaren? Dat is de toetsing van het model. Als dit positief (ja) beantwoord wordt. Is het een toevallige uitkomst, of niet --> dit doe je met de f-toets voor poportie verklaarde variantie model. Is de verklaarde variantie significant groter dan 0? 2. Kwalificeren = beoordeling effectgrootte r2, hoeveel van de variantie kan er dan verklaard worden? In getal uitdrukken --> effectgrootte aangegeven met R2 F-toets voor model F-toets voor toetsing p2 Is verklaarde variantie R2 significant (a=5%) groter dan 0? Hoe groot is modelvariantie (MSm) in verhouding tot residuele variantie (MSr)? ○ F-ratio of F-toetsingsgrootheid Toetsingsgrootheid f MS= mean sum of quares --> variantie Gebruiken niet de kwadratensom, maar mean sum of squares. Hoe verhouden de modelvariantie zich tot dee toevalsvariantie? Hoe toetsen we dit: Statistische hypothesen model H0 : ρ2 = 0 (er wordt geen variantie verklaard door model) H1 : ρ2 > 0 (er wordt wel variantie verklaard door model) Toets voor p2 Gebaseerd op steekproefvariatie. Met overschrijdingskans p voor F beoordeel je de statistische significantie (a=5%) van R2 Bij de F kan een overschrijdingskans worden bepaald (p-waarde) en dit betekent dat het resultaat significant is. Conclusie: het model verklaart significant variantie voor kennis van literatuur. Effectgrootte = 0.27 Kwalificeren R2 Proportie verklaarde variantie R2 Kwalificeren R2 vuistregels, niet uit je hoofd leren 0.1 = klein (small).09 = middelmatig (medium).25 = groot (large) Conclusie: het enkelvoudige lineaire model met educ als predictor verklaard 27% van de variantie in kennis van de literatuur (read) bij adolescenten. Dit is een groot effect gegeven de criteria gebruikt. We hebben de toets gedaan voor het hele model, maar voor maar 1 predictor. We willen ook weten hoe het zit met de predictoren, we moeten voor toets 2 nu de afzonderlijke coëfficiënten toetsen. T-toets voor predictor(en) Statistische hypothesen regressiecoëfficiënt H0 : β1 = 0 H1 : β1 ≠ 0 Toets voor β Met t-toets beoordeel je statistische significantie (a=5%) Toetsresultaat Toetsing gebeurt met t De nulhypothese verwerpen, t(593) = 14.96, p samenhang van educ met read is statistisch significant. Onthoud: Toets 1: het hele model met R2 Toets 2: de afzonderlijke predictoren Multipele regressie Voorbeeld: kan literatuurkennis van adolescenten verklaard worden met literatuurkennis vader en literatuurkennis moeder en aantal boeken in ouderlijk huis? We beginnen met een model met 3 predictoren. Model: Beschrijven en toetsen Toets 1: Proportie verklaarde variantie model Toets 2: Afzonderlijke bijdragen predictoren UItvoer model: DIt gebruiken we voor toets 1 We zien dat de R2 = 0.137 Toetsresultaat: De nulhypothese verwerpen, F(3; 590) = 31.29, p Nominaal (dichotoom) Moth_educ 1= grade school 2 = high school Categorisch kenmerk met vier geordende categorieën --> ordinaal 3= bachelor 4 = master Antwoord: Dichotome variabele kun je zonder meer opnemen in een regressieanalyse Ordinale/nominale variabelen met meer dan twee categorieën kun je niet zonder meer opnemen - -> maak gebruik van dummyvariabelen Dummyvariabelen Omzetten naar dummyvariabelen Voor SES Dummyvariabelen die de twee representeert geeft aan of je in de hoge of lage categorie zit. Bij dummyvariabelen kennen we alleen 0 en 1 toe. Hoe je die toewijst mag je zelf weten. 2-1 = 1 dummy Voor Moth_educ 3 dummyvariabelen nodig, zoveel variabelen als aantal categorieën -1. 4-1 = 3 dummy's Je krijgt een 1 op de hoogst afgeronde opleiding, voor de andere opties krijg je dan 1. Als iemand in dit geval alleen maar grade school heeft afgerond heeft ze voor alle drie de variabelen een 0, daarom is een vierde categorie niet nodig, want als je overal een 0 op hebt Referentiecategorie: de categorie die allemaal 0 heeft, waarmee je de rest mee vergelijkt. Model met dummy's X7 en X8 moet weg, deze moeten verplaatst worden met de dummy's. De B coëfficiënten zeggen iets over de dummy, het verschil tussen de dummy en de referentiecategorie Model met dummy's voor SES en Moth_educ Vraag: Is verklaarde variantie r2 van model met SES en moth_educ significant (a=5%) groter dan 0? Is er sprake van verklaarde variantie door het opnemen van deze variabelen? Hypothese: Toetsing Gebruik toetsingsgrootheid F voor toetsing van p2. Uitvoer model Toetsresultaat Het model met SES en Moth_educ verklaart variantie (r2 =.25) in read, f(4,589) = 49.82, p