Statistiek - Hfst 1 (PDF)
Document Details
Uploaded by DivineSelenite
Tags
Summary
This document provides an overview of descriptive statistics, including different types of graphs and tables for representing data distributions. It covers both categorical (e.g., bar charts, pie charts) and quantitative (e.g., histograms, frequency polygons) data.
Full Transcript
STATISTIEK I: MEETSCHALEN & BESCHRIJVENDE STATISTIEK HFST 1: VISUALISREN VAN DATA: VERDELING DEEL 1: WEERGEVEN VAN VERDELING MET GRAFIEKEN 1. TABELLEN 1.1 VERZAMELTABELLEN OF DATAFILE 1.2 SAMENVATTENDE TABEL 1.3 FREQUENTIETABEL (1 VARIABEL) De verdeling van een variabele geeft weer W...
STATISTIEK I: MEETSCHALEN & BESCHRIJVENDE STATISTIEK HFST 1: VISUALISREN VAN DATA: VERDELING DEEL 1: WEERGEVEN VAN VERDELING MET GRAFIEKEN 1. TABELLEN 1.1 VERZAMELTABELLEN OF DATAFILE 1.2 SAMENVATTENDE TABEL 1.3 FREQUENTIETABEL (1 VARIABEL) De verdeling van een variabele geeft weer WELKE WAARDEN die variabele aanneemt en HOE VAAK die waarden voorkomen. Verdelingen (= vorm van figuur) kunnen op vele manieren voorgesteld worden, de keuze moet worden bepaald in functie van de aard van de variabele en de “leesbaarheid” Categorische variabele Kwantitatieve variabele Kolomdiagram (Histogram) Histogram Staafdiagram Staafdiagram Strookdiagram Frequentieveelhoek Taartdiagram Cumulatief histogram Lijndiagram Pictogram 1|Pa ge 2. GRAFIEKEN VOOR KWALITATIEVE VARIABELEN (CATEGORISCHE VARIABELEN 2.1 KOLOMDIAGRAM 2.2. STROOKDIAGRAM 2.3 TAARTDIAGRAM 2.4 PICTOGRAM 2|Pa ge 2.5 BESLUIT OVER GRAFISCHE VOORSTELLING VOOR KWALITATIEVE DATA “MOOI” is niet hetzelfde als “duidelijk” of “informatief” Sommige (mooie) grafische voorstellingen zijn ronduitmisleidend en moeten daarom zeer goed toegelicht worden OF beter niet gebruikt … Kolomdiagrammen en strookdiagrammen (of histogrammen) zijn vaak de beste keuze 3D voorstellingen zijn “mooi” maar moeilijk exact af te lezen (door positionering tov de achtergrond) Pictogrammen beter vermijden vanwege verwarring over “grootte” (“hoogte” of “oppervlakte”?) 3. GRAFISCHE VOORSTELLING VAN KWANTITATIEVE VARIABELEN (GEBASEERD OP GEWONE OF CUMULATIEVE FREQUENTIETABEL) 3.1 HISTOGRAM 3.2 STAAFDIAGRAM 3.3 FREQUENTIEVEELHOEK 3|Pa ge 3.4 CUMULATIEVE HISTOGRAM 3.5 STAM (- EN BLAD) DIAGRAM 3.6 TIMEPLOT 4. GRAFISCHE VOORSTELLING VAN CONTINUE KWANTITATIEVE DATA/ VARIABEL Meetwaarden groeperen in klassen Per klasse tellen hoeveel analyse-eenheden meetwaarden binnen die klasse vertonen =(klasse)frequentie F 4|Pa ge 4.1 FREQUENTIEVERDELING Meetwaarden groeperen in klassen (categorieën): → Meerdere meetwaarden vormen samen 1 klasse Eisen gesteld aan klassenindeling → Exhaustief : elke meetwaarde behoort tot een klasse → Disjunct : klassen overlappen niet Exacte klasse voor continue variabelen → Exacte klassegrenzen geven een interval van (continue) waarden van de variabele die door eenzelfde meetwaarde op de (discrete) meetschaal worden voorgesteld 4.2 SAMENVATTING: GRAFISCHE VOORSTELLING VAN VERDELING Nominale data (staafdiagram of evt. taartdiagram) → klassen in willekeurige volgorde → beginpunt heeft geen belang → alle kolommen/staven even breed, spatie naar keuze Ordinale data (idem + histogram, frequentiepolygoon, cumulatieve histogram) → klassen in stijgende volgorde Interval en Ratio data (idem + cumulatieve frequentiecurve, ogief) → klassen in stijgende volgorde → Spatie tussen kolommen krijgt betekenis → 0-punt horizontale as zo mogelijk in snijpunt van de assen 5|Pa ge 5. VERDELING BEKIJKEN Begin een data-analyse altijd met het bekijken van algemene patronen en opvallende afwijkingen van die patronen Beschrijf het algemeen beeld naar vorm, het centrum en de spreiding. Een belangrijke “afwijking” is een uitschieter, een gegeven dat (ver) buiten het algemene patroon valt Een verdeling is symmetrisch als de linker en rechter helften (ongeveer) elkaars spiegelbeeld zijn. Een verdeling is scheef naar rechts (“rechts scheef”) als aan de rechter zijde van de verdeling (met de hoogste waarden) een langere “staart” is. Een verdeling is scheef naar links (links scheef) als er aan de linker zijde een relatief lange staart is. Bij verdelingen kunnen we ook uitschieters waarnemen: → Uitschieters: zijn waarnemingen die (duidelijk) buiten het algemeen patroon van de waarnemingen vallen Bij het analyseren van een figuur is het belangrijk om: → Assen te bekijken: wat is er afgebeeld → Is het symmetrisch, asymmetrisch → Zijn r vreemde dingen aanwezig; uitschieters… 6|Pa ge DEEL 2: KARAKTERISTIEKE MATEN OF GROOTHEDEN DEEL 2.1: GROOTHEDEN VAN CENTRALE TENDENS 1. CENTRUMMATEN Ze geven een indruk van een typische of gemiddelde waarde in de data en helpen om de gegevens samen te vatten in een enkele waarde → Mate dat ons aan geeft waar onze waarnemingen zich bevinden 1. 1. REKENKUNDIGE GEMIDDELDE Het (rekenkundig) gemiddelde: van een verzameling gegevens is de som van de waargenomen waarden gedeeld door het aantal waarnemingen. Voor observaties x1 , x2 , x3 , …, xn , is het gemiddelde: Het gemiddelde is (erg) gevoelig voor extreme waarnemingen, men zegt dat het gemiddelde “geen robuuste” maat is. → Uitschieter kan de som van alle waarden sterk beïnvloeden. → Dit trekt het gemiddelde in de richting van de uitschieter, waardoor het gemiddelde minder representatief wordt voor de meeste waarden in de dataset. 1.1.1 MEETKUNDIGE GEMIDDELDE Het meetkundig gemiddelde: is een gemiddelde dat vaak wordt gebruikt voor datasets met waarden die exponentieel of proportioneel veranderen, zoals groeipercentages. 1.1.2 HARMONISCHE GEMIDDELDE Commenté [MT1]: Gemiddeldes die gebruikt worden binnen bepaalde situaties, maar niet echt binnen Het harmonische gemiddelde: is een type gemiddeld dat gebruikt wordt om de centrale tendens van psychologie een dataset te berekenen, vooral wanneer je te maken hebt met verhoudingen of snelheden. 1.2 MEDIAAN De mediaan mdX (syllabus)= M (boek) = Mdn (APAstyle): is de meetwaarde voor dewelke de helft van alle waarnemingen kleiner zijn (en de andere helft groter) Werkwijze: 1. Orden alle waarnemingen van klein naar groot. 2. De mediaan Mdn is gelijk aan de middelste waarneming (als het aantal waarnemingen n oneven is), of het gemiddelde van de 2 centrale waarnemingen als n even is. 7|Pa ge De mediaan is een andere maat voor centrale tendens die minder gevoelig is voor uitschieters VOORBEELD: CENTRALE TENDENS Bepaal het gemiddelde en de mediaan voor onderstaande gegevens over de dagelijkse reistijd naar het werk van 20 toevallig gekozen pendelaars: GEMIDDELDE EN MEDIAAN VERGELIJKEN Het gemiddelde en de mediaan vertegenwoordigen verschillende “visies” op centraliteit, beide zijn nuttig. Bij vrijwel symmetrische verdelingen liggen het gemiddelde en de mediaan zeer dicht bijeen → Als een verdeling exact symmetrisch is zijn Gemiddelde en mediaan exact gelijk. → Bij scheve (regelmatige) verdelingen ligt het gemiddelde dichter bij de langste “staart” van de verdeling van de mediaan 1.3 MODUS De modus (Mo): van een verdeling is de waarde met de hoogste frequentie, typisch de meetwaarde die overeenkomt met de hoogste top van de verdeling → = de meest voorkomende waarde → Modus gaat naar de top van de verdeling 8|Pa ge Bi-modale en multi-modale verdeling: frequentievrdeling met 2 of meerdere toppen → strikt genomen zou “bi-modaal” vereisen dat een verdeling 2 toppen zou hebben met exact dezelfde hoogste frequentie 2.2 GROOTHEDEN VAN SPREIDING 1.. POSITIEMATEN Positiematen zijn statistische maten die de ligging van gegevens in een dataset weergeven. → Ze geven aan waar de data zich bevindt op een schaal en helpen om het centrum of een specifieke positie in de gegevens te beschrijven. 1. 1 KWARTIELEN (Q1 EN Q3) Kwartielen helpen om te begrijpen hoe de data verspreid zijn en waar de meeste waarden liggen. Dit is vooral nuttig als de data scheef verdeeld zijn, omdat kwartielen minder gevoelig zijn voor uitschieters dan bijvoorbeeld het gemiddelde. Het eerste kwartiel (Q1 ) is de mediaan van de waarnemingen die kleiner zijn dan de mediaan. Het derde kwartiel (Q3 ) is de mediaan van de waarnemingen die groter zijn dan de mediaan. Het tweede kwartiel (Q2 ) is de mediaan. → (Interkwartielafstand: is een maat voor de spreiding van het middelste 50% van de data en helpt om te bepalen of er uitschieters zijn) 1.2 DE SAMENVATTING IN 5 CIJFERS: De 5-cijfers samenvatting van een verdeling omvat → Het minimum → Het eerste kwartiel (Q1 ) → De mediaan (Mdn) → Het derde kwartiel (Q3 ) → Het maximum Minimum Q1 Mdn Q3 Maximum 9|Pa ge 1.3 UITSCHIETERS Uitschieters : zijn waargenomen waarden die sterk afwijken van de (meeste) waargenomen waarden Regel: → Alle waarnemingen KLEINER dan Q1 -1.5 IKA GROTER dan Q3+1.5 IKA noemen we buitenbeentjes Karakteristieke waarden die gebaseerd zijn op alle waarnemingen (rekenkundig gemiddelde, standaarddeviatie, …) of op extreme waarden (variatiebreedte, minimum, maximum) zijn gevoelig voor het voorkomen van buitenbeentjes. Andere waarden zoals mediaan, de kwantielen, interkwartiel zijn niet gevoelig voor buitenbeentjes, ze zijn ROBUUST 1.3.1 VERDACHTE UITSCHIETERS Het interkwartiel IKA is niet enkel een maat van spreiding, maar kan ook helpen om uitschieters (of “buitenbeentjes”) te detecteren. → De (1.5 x IKA) regel voor uitschieters Een waarneming wordt een uitschieter genoemd als die hoger is dan 1.5 x IKA boven Q3 (of onder Q1). 1.3.2 BOXPLOT 10 | P a g e VOORBEELD: PENDELAARS Commenté [MT2]: Hoe bepaal je Q1 en Q3 1.4 KWANTIELEN Een kwantiel is de waarde van de variabele waarvoor de relatieve cumulatieve frequentie het niveau dat overeenkomt met het kwantiel bereikt → Kwartielen: Q1 is de meetwaarde waarvoor de cumulatieve frequentie ¼ van het aantal waarnemingen bedraagt → Decielen: D3 is de meetwaarde waarvoor de cumulatieve frequentie 3/10 van het aantal waarnemingen bedraagt → Percentielen: P23 is de meetwaarde waarvoor de cumulatieve frequentie23% van het aantal waarnemingen bedraagt Bijgevolg: Mediaan = Mdn = Q2 = D5 = P50 → Definitie kwantiel p = 1.4.1 KWANTIEL BEREKENING b = exacte ondergrens vd kwantielklasse i = klassebreedte van kwantielklasse n = steekproefgrootte p = kwantielproportie (=0,5 voor mdn) Cb = cumulatieve frequentie van b Fp = frequentie van kwantielklasse 11 | P a g e 2. SPREIDINGSMATEN Spreidingsmaten zijn statistische waarden die de variabiliteit of spreiding van een dataset beschrijven. → Spreidingsmaten helpen om te begrijpen of de data dicht bij elkaar liggen of juist ver uit elkaar verspreid zijn 2.1 INTERKWARTIELAFSTAND (Interkwartielafstand: is een maat voor de spreiding van het middelste 50% van de data en helpt om te bepalen of er uitschieters zijn) 2.2 INTERDECIELAFSTAND De interdecielafstand is een spreidingsmaat die de afstand meet tussen het 1e en het 9e deciel van een dataset. Het geeft aan hoe ver de middelste 80% van de gegevens uiteen ligt 2.3 VARIANTIE Kwadraat van de afstand van xi tot het rekenkundig gemiddelde → “versterkt” de relatieve grootte van deze afstand en negeert de richting (+ of -) Delen door n of door (n-1) → Delen door n om data te “beschrijven” Commenté [MT3]: We houden ons aan delen door n Met tot doel de steekproef te beschrijven: delen door n → Delen door (n-1) om op basis van steekproef data de spreiding in de populatie te “schatten” Met tot doel het gemiddelde (= “de verwachting”) van de populatie te schatten: delen door n-1 → Populatie beschrijven is meestal de bedoeling, bovendien levert deling door (n-1) een overschatting van de spreiding, wat “strenger” is. Variantie: Gemiddelde gekwadrateerde afstand tot het gemiddelde → = “gemiddelde afstand” van de waarnemingen tot het gemiddelde 2.4 STANDAARDDEVIATIE De standaarddeviatie s: geeft de “gemiddelde afstand” van de waarnemingen tot het gemiddelde. 12 | P a g e Eigenschappen standaarddeviatie → s is een karakteristieke maat van spreiding rond het gemiddelde en kan dus enkel worden gebruikt wanneer het gemiddelde berekend KAN worden (meetniveau interval of ratio is vereist) → s = 0 als alle waarnemingen gelijk zijn, anders geldt s > 0. Maw iedereen heeft exact dezelfde score gehad → s is gevoelig voor uitschieters (net als het gemiddelde) 2.5 VARIATIEBREEDTE De variatiebreedte (of bereik: is het verschil tussen de grootste en de kleinste waarde in een dataset. Het geeft een idee van de spreiding van de data. 2.6 VARIATIECOEFFICIENT De coëfficiënt van variatie (CV): is de verhouding van de standaardafwijking tot het gemiddelde, uitgedrukt als een percentage. Het geeft aan hoe groot de spreiding is ten opzichte van het gemiddelde. 2.7 GEMIDDELDE ABSOLUTE AFWIJKING De gemiddelde absolute afwijking: is de gemiddelde afstand van elke waarde in de dataset tot het gemiddelde. Het geeft een idee van hoe verspreid de waarden zijn rondom het gemiddelde, zonder rekening te houden met de richting (positief of negatief). 13 | P a g e HOE EN WELKE MATEN KIEZEN? Mediaan en Interkwartielafstand (IKA): Kies deze maten als de verdeling scheef is of als er uitschieters zijn. De mediaan is minder gevoelig voor extreme waarden, en de IKA meet de spreiding van de middelste 50% van de data. Gemiddelde en Standaardafwijking: Gebruik deze bij een symmetrische verdeling zonder uitschieters, omdat het gemiddelde gevoelig is voor extreme waarden. De standaardafwijking geeft de spreiding rond het gemiddelde aan → beide types maten geschikt zijn voor interval- en ratioschalen, hangt de keuze af van de verdeling van de gegevens. 2.3 GROOTHEDEN VAN VORM 1. SYMMETRIE EN GEPIEKTHEID 1.1. SYMMETRIE 1.2. GEPIEKTHEID OF AFPLATTING Een gepiekt verdeling heeft een hogere top en dikkere staart Een platte verdeling heeft lagere top en heeft geen staarten → Het gepiektheid is niet de normale verdeling hoger of platter maken, maar dat is tov van die verdeling Commenté [MT4]: Meer uitleg vragen 14 | P a g e 2. KARAKTERISTIEKE MATEN VAN VORM 2.1. COEFFIECIENT VAN FISHER, GEBASEERD OP CENTRALE MOMENTEN 2.1.1 SYMMETRIE, EVEN CENTRALE MOMENTEN 2.1.2 SYMMETRIE, ONEVEN CENTRALE MOMENTEN 2.1.3 GEPIEKTHEID 15 | P a g e 3. KARAKTERISTEIKE MATE VAN SYMMETRIE 3.1 EMPIRISCHE COEFFICIENT VAN PEARSON S 16 | P a g e DEEL 3: DICHTHEIDSKROMME EN NORMALE VERDELINGEN KWANTITAIVE DATA VERKENNEN Maak altijd een figuur van je data vb histogram Kijk naar de vorm, het centrum en de spreiding, en kijk naar uitschieters. Bereken karakteristieke maten van positie (=centrum: mdn; gem; mod) en variabiliteit (=spreiding: IKA, sd, …). Soms krijg je de indruk dat gegevens eigenlijk komen uit een verdeling met een gladde curve.. Wanneer je een kleine steekproef heb dan is het moeilijk om de normaal verdeling af te leiden, naarmate de steekproef groter wordt hoe leesbaarder het wordt → Hoe meer steekproef hoe beter de echte voorstelling van de populatie is De rode curve die aanwezig is wordt gemaakt adhv van de formule van de normaal verdeling 1. DICHTHEIDSKROMME Als de schaal op de vertikale as zodanig wordt aangepast dat de totale oppervlakte onder de curve gelijk is aan 1, dan noemen we de curve een dichtheidskromme. → Het donkere gedeelte onder de curve geeft een wiskundige benadering van de oppervlakte links van 6.0. Die bedraagt 0.293. Dat is erg dicht bij 30,3%. Een dichtheidskromme is een curve die: → altijd op of boven de horizontale as ligt → een “oppervlakte onder de curve” precies gelijk aan 1 (= 100%) heeft → Een dichtheidskromme beschrijft het algemene beeld van een frequentieverdeling. → De oppervlakte onder de curve tussen 2 waarden op de horizontale as (een interval) is gelijk aan de proportie van waarnemingen die in dat interval liggen. bij deze grafiek kunnen we een buigpunt waarnemen → Buigpunt is wanneer je van hol naar bol gaat Commenté [MT5]: Van blij smile naar tristig smile Of omgekeerd → Buigpunt ligt vlak op standaardafwijking 17 | P a g e 1.1 MEDIAAN VS GEMIDDELDE VAN DICHTHEIDSKROMME De mediaan van een dichtheidskromme verdeelt de oppervlakte onder de curve in 2 precies gelijke delen. Het gemiddelde van een dichtheidskromme is het evenwichtspunt van de verdeling. → Bij een symmetrische dichtheidskromme zijn de mediaan en het gemiddelde gelijk. → In een scheve verdeling ligt het gemiddelde dichter bij de langste “staart” 2. NORMAAL VERDELING £ Mo = Mdn = m g1 = 0 (symmetrisch) g2 = 0 (mesokurtisch) Normaal verdeling worden volledig bepaald door σ en µ 18 | P a g e 0.8 0.7 0.6 0.5 m=0 s=1 0.4 m = 0 s = 0,5 0.3 m=0 s=3 0.2 0.1 0 -10 -5 0 5 10 Wellicht de meest belangrijke soort dichtheidskrommen zijn de normale krommen, die Normaalverdelingen beschrijven. → Alle Normaalverdelingen zijn symmetrisch, hebben 1 top (unimodaal) en zijn klok-vormig. → Elke normaalverdeling wordt volledig bepaald door zijn verwachting (gemiddelde) µ en standaarddeviatie σ. Notatie: N(µ ; σ). 2.1 DE 68-95-99.7 (VUIST)REGEL In de Normaalverdeling met verwachting µ en standaard deviatie σ → ligt bij benadering 68% van alle observaties tussen µ en σ. → ligt bij benadering 95% van de waarnemingen minder dan 2σ verwijderd van µ. → Ligt zowat 99.7% van alle observaties minder dan 3σ verwijderd van µ. 19 | P a g e Oppervlakte boven [-1,0] (= relatieve frequentie) = 0.3413 Commenté [MT6]: Afbeelding geeft hetzelfde weer als Oppervlakte boven [0,2] =.3413 +.1359 = 0.4772 bij de 65… regel behalve dat het allemaal samengevoegd is Oppervlakte boven [-3,1] =.0215 +.1359 +.3413 +.3413 = 0.8400 Deze tabel geeft aan hoeveel je onder of boven de standaardafwijking bent 20 | P a g e 21 | P a g e 2.2 WAARNEMINGEN STANDAARDISEREN: LINEAIRE STANDAARDMEETWAARDE Meetwaarden van een willekeurige variabele x met verwachting µ en standaardafwijking σ, kunnen worden gestandaardiseerd tot z-scores, die aangeven “hoeveel sd elke meetwaarde groter is dan het gemiddelde” door: Alle Normaalverdelingen worden gelijk als we ze voorstellen in z-scores Commenté [MT7]: Oefeningen zie slide 19 - 24 De standaard Normaal verdeling is de Normaal verdeling met verwachting µ = 0 en standaardafwijking σ = 1 , notatie: N(0,1). 3. CONTINUECORRECTIE Wanneer data gemeten op een continue schaal worden gegroepeerd in klassen moet rekening worden gehouden met “gewone” afrondingsregels ▪ Vb. alle cijfers in het interval [7,5 ; 8,5[ worden afgerond op 8 en komen bijgevolg allemaal in de “klasse met klassemidden = 8” terecht 3.1 EXACTE KLASSEN VOOR CONTINUE VARIABELEN Exacte klassegrenzen geven een interval van (continue) waarden van de variabele die door eenzelfde meetwaarde op de (discrete) meetschaal worden voorgesteld 22 | P a g e DEEL 4: SAMENHANG TUSSEN TWEE VARIABELEN 1. WAT IS DE SAMENHANG TUSSEN 2 VARIABELEN? Verklaarde variabele meet een uitkomst van een studie. Verklarende variabele verklaart of veroorzaakt veranderingen in de verklaarde variabele. Samenhang tussen 2 variabelen: kennis van de waarde van de ene variabele laat toe om de waarde van de andere varabele beter te voorspellen. → Aard van het verband (lineair, exponentieel, …) o richting o vorm → Mate waarin de ene variabele variabiliteit in de andere kan verklaren (= sterkte van het verband) → Grootte van het effect 2. SPREIDINGSDIAGRAM Een spreidingsdiagram: (ook wel een scatterplot genoemd) is een grafiek die wordt gebruikt om de relatie tussen twee kwantitatieve variabelen te visualiseren. → Soms kan je ook een derde variabel toevoegen en om het gemakkelijker te visualiseren kan je verschillende kleuren gebruiken → OF je kan je scatterplot in twee dimensies delen 80 70 60 2.0 Zelfbewustheid 1.8 50 Zelfbewustheid 1.6 Gender 40 80 70 1.4 60 30 50 1.2 40 mannen 30 vrouwen 20 1.0 20 70 80 90 100 110 120 130 140 70 80 90 100 110 120 130 IQ IQ Hoe kan je een scatterpolt lezen: → Kijk naar het algemene beeld en naar duidelijke afwijkingen daarvan: o Beschrijf het algemene beeld in termen van richting, vorm, en sterkte van het verband en grootte van het effect. o Uitschieters zijn belangrijke afwijkingen van de algemene trend. 23 | P a g e 2.1 SOORTEN SCATTERPLOTEN 2.2 WELK VERBAND KAN JE WAARNMEN? 2.2.1 ALANYTISCH OF STOCHASTSICH VERBAND Analytisch verband: Kennis van meetwaarde voor 1 variabele laat toe de meetwaarde voor de andere variabele perfect te voorspellen Stochastisch verband: Kennis van meetwaarde voor 1 variabele laat slechts toe de meetwaarde voor de andere variabele min of meer correct te schatten 2.2.2 MONOTOON OF NIET MONOTOON VERBAND 24 | P a g e MATEN VAN SAMENHANG 1. 2 DICHTOMIE VARIABELEN: HET BEREKENEN VAN Lambda: geeft aan hoeveel procent de voorspellingsfout wordt verminderd door rekening te houden Commenté [MT8]: Wordt in praktijk niet veel gebruikt met de onafhankelijke variabele. → Maw: Lambda laat zien hoe goed je iets kunt voorspellen als je een extra stukje informatie gebruikt. Het vertelt je hoeveel beter je voorspellingen worden als je weet wat er gebeurt met een andere variabele. VOORBEELD → Wanneer ik het geslacht ken maak ik 17% minder foute voorspellingen, dan wanneer ik het geslacht niet ken 2. CORRELATIECOEFFICIENT 2.1 DETERMINANTCOEFFICIENT: r² Determinantiecoefficient (r²): In welke mate verbetert de voorspelling van y indien x gekend is → Determinantiecoefficient lijkt heel veel op berekenen van de lambda 25 | P a g e 2.2 CORRELATIECOEFFICIENT De correlatiecoëfficiënt is een getal dat de sterkte en richting van een lineaire relatie tussen twee variabelen beschrijft. Het wordt vaak aangeduid met de letter r en heeft een waarde tussen -1 en 1. Wat betekent de waarde van r? → r = 1: Perfecte positieve relatie (bv. meer studeren = hogere cijfers). → r = -1: Perfecte negatieve relatie (bv. meer uitgaven = minder spaargeld). → r = 0: Geen lineair verband (de ene variabele zegt niets over de andere in een rechte lijn). Sterkte van de relatie: → Hoe dichter r bij 1 of -1, hoe sterker de relatie. → Hoe dichter r bij 0, hoe zwakker de relatie. Speciaal geval: → Een perfecte lijn (r = -1 of r = 1) komt zelden voor en gebeurt alleen bij een perfect lineair verband. Type verband: → r > 0: Positieve relatie (variabelen bewegen in dezelfde richting). → r < 0: Negatieve relatie (variabelen bewegen in tegengestelde richtingen). Belangrijke eigenschappen van correlatie: → Geen onderscheid: Correlatie zegt niets over oorzaak en gevolg. → Kwantitatieve data: Beide variabelen moeten meetbaar zijn (getallen), of één mag dichotoom zijn (bv. ja/nee). → Geen eenheid: Correlatie heeft geen meeteenheid en verandert niet door een andere schaal (bv. meters naar kilometers). → Uitschieters: Uitschieters kunnen de waarde van r sterk beïnvloeden. 26 | P a g e METHODE VAN DE KLEINSTE KWADRANTEN 1. LINEAIRE REGRESSIEMODEL (CORRELATIE) Regressie wordt gebruikt om een voorspelling te maken van een variabele op basis van een andere variabele. Het doel is een lijn te vinden die het best de relatie tussen de twee variabelen weergeeft. Regressielijn van Y op X → Wat betekent dit? o Je voorspelt YYY (de afhankelijke variabele) op basis van een gegeven XXX (de onafhankelijke variabele). → Hoe werkt het? o Voor elke waarde van XXX, bereken je de gemiddelde waarde van YYY. o Deze punten worden verbonden en vormen een gebroken lijn. → Gebruik: o Bijvoorbeeld: je wilt weten hoeveel mensen gemiddeld verdienen (YYY) op basis van hun werkervaring (XXX). Regressielijn van X op Y → Wat betekent dit? o Je voorspelt XXX (de afhankelijke variabele) op basis van een gegeven YYY (de onafhankelijke variabele). → Hoe werkt het? o Voor elke waarde van YYY, bereken je de gemiddelde waarde van XXX. o Deze punten worden verbonden en vormen ook een gebroken lijn. → Gebruik: o Bijvoorbeeld: je wilt weten hoeveel jaar werkervaring (XXX) iemand heeft op basis van hun inkomen (YYY) Regressierechten in het lineaire regressiemodel → De gebroken lijnen uit bovenstaande voorbeelden worden in het lineaire regressiemodel vervangen door een rechte lijn. → Deze lijn wordt de “best passende lijn” genoemd (of least-squares regressielijn). → Het is de lijn die de totale afwijking (de verschillen tussen de waargenomen punten en de lijn) minimaliseert. 1.1 KLEINSTE KWADRATEN REGRESSIERECHTEN De Kleinste Kwadraten Regressie Rechte (LSRL) is een rechte lijn die gebruikt wordt om de relatie tussen twee variabelen te modelleren. Het doel is een lijn te vinden die de verticale verschillen (residuen) tussen de waargenomen datapunten en de lijn zo klein mogelijk maakt. De verschillen worden gekwadrateerd om negatieve en positieve afwijkingen gelijk te behandelen. N ( Totaal residu =å y i - b0 - b1xi ) 2 i=1 27 | P a g e 1.1.1 REGRESSIECOEFFICIENT Betekenis van b1 : → b1 geeft aan hoeveel y verandert als x met 1 eenheid toeneemt. Wanneer stijgt of daalt de lijn? → b1 > 0: o De lijn stijgt: er is een positief verband tussen x en y. o Voorbeeld: meer studeren (x) leidt tot hogere cijfers (y). → b1 < 0: o De lijn daalt: er is een negatief verband tussen x en y. o Voorbeeld: meer tijd op sociale media (x) leidt tot lagere cijfers (y). → b1 = 0: o De lijn is horizontaal: er is geen verband tussen x en y. 1.2 FEITEN OVER DE KLEINSTE KWADRATEN REGRESSIE 1. Relatie tussen standaarddeviaties en correlatie → Als x met 1 standaarddeviatie verandert, verandert y met r-maal de standaarddeviatie van y. o r is de correlatiecoëfficiënt en bepaalt de sterkte van de relatie tussen x en y. o Bij een sterke correlatie ( r dicht bij 1) zal een verandering in x leiden tot een grote verandering in y. VOORBEELD Stel dat r = 0.8 (positieve, sterke correlatie) en de standaarddeviatie van x en y zijn beide 10. Als x met 10 toeneemt (1 standaarddeviatie), zal y gemiddeld met 0.8⋅10 = 8 toenemen. 2. De regressierechte gaat altijd door (xˉ,yˉ) → De regressierechte snijdt altijd het punt waar de gemiddelden van x en y elkaar kruisen: o xˉ = gemiddelde van x o yˉ = gemiddelde van y 28 | P a g e → Waarom? o Dit is een eigenschap van de Kleinste Kwadraten Regressie: de lijn wordt zo berekend dat ze de gemiddelde trends in de data weergeeft. VOORBEELD Als het gemiddelde inkomen (y) 2000 euro is en het gemiddelde aantal werkuren per week (x) 40 uur, dan zal de regressierechte door het punt (40,2000) gaan. 3. Onderscheid tussen verklarende en verklaarde variabelen → In regressie moet je duidelijk bepalen welke variabele je wilt voorspellen: o Verklarende variabele (x): De variabele die je gebruikt om iets te voorspellen. o Verklaarde variabele (y): De variabele die je probeert te voorspellen. → Waarom belangrijk? o De regressielijn voor yyy op xxx (y/xy/xy/x: "voorspel yyy met xxx) is niet hetzelfde als de regressielijn voor xxx op yyy. o De berekeningen en resultaten verschillen, omdat het model verschillende fouten minimaliseert: ▪ y/x: minimaliseert fouten in y. ▪ x/y: minimaliseert fouten in x. 1.3 CORRELATIECOEFFICIENT EN REGRESSIERECHTE De correlatiecoëfficiënt r beschrijft de sterkte en richting van de lineaire relatie tussen twee variabelen Commenté [MT9]: ++ gevoelig voor uitschieters (X en Y). Hier zijn de belangrijkste kenmerken en situaties: Uitschieters kunnen ervoor zorgen dat r sterk veranderd 1. r = 0 : geen lineaire verband → Er is geen lineaire relatie tussen X en Y. De punten in een scatterplot vertonen geen stijgend of dalend patroon. o De regressierechten Y/X (voorspel Y met X) en X/Y (voorspel X met Y) staan loodrecht op elkaar (ze vormen een hoek van 90°). → Belangrijk: o Hoewel r = 0 geen lineair verband betekent, kan er wel een niet-lineair verband zijn (bijvoorbeeld een kromme relatie). 2. r = +1 : volkomen positief lineaire verband → Er is een perfecte, positieve lineaire relatie tussen X en Y. o Als X toeneemt, neemt Y exact proportioneel toe. o De regressierechten Y/X en X/Y vallen samen en vormen één stijgende lijn. → Kenmerken: o Alle datapunten liggen exact op een stijgende rechte lijn. o Voorbeeld: Als iemand elke maand precies 100 euro meer spaart, dan is er een perfecte positieve correlatie tussen de maand en het spaargeld. 29 | P a g e 3. R = −1 : volkomen negatief lineaire verband → Er is een perfecte, negatieve lineaire relatie tussen X en Y. o Als X toeneemt, neemt Y exact proportioneel af. o De regressierechten Y/X en X/Y vallen samen en vormen één dalende lijn. → Kenmerken: o Alle datapunten liggen exact op een dalende rechte lijn. o Voorbeeld: Als de snelheid van een auto met 10 km/u toeneemt, neemt de reistijd met een vast aantal minuten af (bij constante afstand). 1.4 t-TEST: De t-test is een statistische toets die wordt gebruikt om te bepalen of een verband in een steekproef sterk genoeg is om te besluiten dat er ook in de populatie een verband bestaat. Bij een correlatie tussen twee variabelen x en y, gaat het specifiek om het toetsen van de nulhypothese H0: er is geen verband in de populatie (r=0r). Stappen bij de t-test: → Hypothesen formuleren: o H0: Er is geen verband (r = 0). o H1: Er is wél een verband (r ≠ 0). → Significantie toetsen: o Hoe hoger de correlatie r, des te sterker het verband. o Hoe groter de steekproefomvang NN, des te betrouwbaarder het resultaat. → Vuistregel voor t-waarde: o Als de berekende t-waarde ≥2, wordt H0H_0 verworpen. Dit wijst op een significant verband tussen x en y in de populatie. Besluit: → Bij een hoge r2 (de proportie verklaarde variantie) en een grote N, is de kans kleiner dat H0 overeind blijft. 30 | P a g e Kort: → De t-test helpt bepalen of een steekproefcorrelatie (r) groot genoeg is om te concluderen dat er in de populatie ook een verband bestaat. Een t-waarde van minstens 2 duidt op een significant resultaat. OPGELET: een statistisch significant resultaat (bijvoorbeeld een hoge t-waarde) niet automatisch betekent dat het resultaat theoretisch of praktisch belangrijk is. Dit komt doordat: → t-waarde en steekproefomvang: o De t-waarde (tN−2t) wordt groter naarmate de steekproefgrootte (NNN) toeneemt, zelfs als de correlatie r heel klein is. o Bij een heel groot NNN kan een minieme correlatie (r) toch significant zijn, zoals in het voorbeeld (r=0.04, N=3000, t=2.19). → Formule: o De t-waarde hangt af van rrr, NNN, en de formule laat zien dat t ≥ 2 significant is. o Maar een kleine r2 (hier r2=0.0016) betekent dat slechts een zeer klein deel van de variatie wordt verklaard. → Belangrijkste boodschap: o Statistisch significant ≠ Theoretisch relevant: Een resultaat kan statistisch significant zijn door een grote steekproef, maar dat maakt het nog niet praktisch of inhoudelijk belangrijk. Kort: wees kritisch en interpreteer resultaten niet alleen op basis van significantie, maar kijk ook naar de grootte en relevantie van het effect. 31 | P a g e WAARSCHUWINGEN IVM CORRELATIE EN REGRESSIE 1. REGRESSIETECHTEN EN VOORSPELLINGEN Een regressierechte is een lijn die de relatie tussen twee variabelen beschrijft (bijvoorbeeld IQ en zelfbewustzijn). De rechte voorspelt de waarde van de afhankelijke variabele (Y) op basis van de onafhankelijke variabele (X). 1.1 BEPALEN VAN DE REGRESSIERECHTEN Er zijn twee soorten regressierechten: 1. Y/X: De regressierechte waarbij Y wordt voorspeld op basis van X. 2. X/Y: De regressierechte waarbij X wordt voorspeld op basis van Y. Met de regressierechte kun je voorspellingen maken. Bijvoorbeeld: → Als X = IQ en Y = zelfbewustzijn, dan kun je met de rechte schatten hoeveel zelfbewustzijn hoort bij een bepaald IQ. 2. REGRESSIERECHTEN IN Z-SCORE Bij een regressierechte analyseren we de relatie tussen twee variabelen (x en y). Als we de gegevens standaardiseren met z-scores, brengen we alle waarden terug naar een schaal gebaseerd op standaarddeviaties: → Een z-score geeft aan hoe ver een waarde van het gemiddelde ligt in termen van standaarddeviaties. Wat gebeurt er bij een toename van 1 standaarddeviatie in x? → r: De correlatiecoëfficiënt tussen x en y. Deze ligt altijd tussen −1 en +1. → Toename in x: ▪ Een toename van 1 standaarddeviatie in x leidt tot een verandering van r standaarddeviaties in y. Dit betekent dat de sterkte van de verandering in y afhankelijk is van hoe sterk x en y met elkaar gecorreleerd zijn. SAMENVATTING Een toename van 1 standaarddeviatie in x leidt tot een verandering van r-standaarddeviaties in y. Hoe dichter ∣r∣ bij 1 ligt, hoe sterker de verandering in y. Dit geldt zowel in gestandaardiseerde (z-scores) als in originele waarden van x en y. 3. TRANSFORMEREN VAN RELATIES Uitschieters (extreme waarden) kunnen de regressierechte sterk beïnvloeden Controleer en verwijder uitschieters als ze ongebruikelijk zijn. Soms helpt het om een logaritmische transformatie toe te passen, vooral als de data niet lineair zijn. Bijvoorbeeld: → In plaats van X en Y, gebruik log(X) en log(Y) om de relatie beter te modelleren. 32 | P a g e VOORBEELD Bij dieren (hersengewicht versus lichaamsgewicht) zijn uitschieters zoals de Brachiosaurus of de Cavia problematisch. Door transformatie (log) krijg je een betere rechte. BELANGRIJKSTE INZICHTEN 1. Statistische significantie betekent niet automatisch dat een relatie praktisch belangrijk is. 2. Let op de verklarende kracht (r2) en wees kritisch bij uitschieters. 3. Transformaties kunnen complexe relaties eenvoudiger maken en uitschieters neutraliseren. 4. RESIDUENDIAGRAM Een residuendiagram is een belangrijk hulpmiddel bij regressieanalyses en wordt gebruikt om de kwaliteit ("fit") van een regressiemodel te evalueren. Het vergelijkt de residuen (de verschillen tussen de waargenomen en voorspelde waarden) met de verklarende variabele of de voorspelde waarden. → Residu: geeft aan hoe ver een waarneming afwijkt van de regressielijn. Hoe ziet een residuendiagram? → X-as: De verklarende variabele (XXX) of de voorspelde waarden (YvoorspeldY_{\text{voorspeld}}Yvoorspeld). → Y-as: De residuen. → Doel: Een residuendiagram toont of er systematische patronen in de residuen zitten. Als het model correct is: → De residuen moeten random verspreid liggen rond 0. → Geen duidelijke patronen mogen zichtbaar zijn. Wat zegt een residuendiagram? → Random verspreiding rond 0: o Dit duidt op een goed passend regressiemodel en een lineair verband. → Uitschieters zijn punten die sterk afwijken in YYY (y-richting) of XXX (x-richting). Ze hebben een grote invloed op het regressiemodel: o Uitschieters in de y-richting: → Deze hebben grote residuen. Bijvoorbeeld: in het dierenvoorbeeld is de Bever een uitschieter in hersengewicht ten opzichte van lichaamsgewicht. 33 | P a g e o Uitschieters in de x-richting: → Deze beïnvloeden de regressierechte sterk. Als zo’n punt wordt verwijderd, verandert de regressielijn aanzienlijk. VOORBEELD Bij de analyse van de Gesell Adaptive Score en Leeftijd van het eerste woord: → Voor het volledige dataset: r2 = 0.41. Dit betekent dat 41% van de variantie in de Gesell Adaptive Score wordt verklaard door de leeftijd van het eerste woord. → Na het verwijderen van kind 18 (een duidelijke uitschieter): r2 = 0.11. Dit toont aan hoe groot de invloed van één enkele uitschieter kan zijn op de regressieanalyse. Uitschieters in residuendiagrammen? → Uitschieters zijn punten die sterk afwijken in YYY (y-richting) of XXX (x-richting). Ze hebben een grote invloed op het regressiemodel: o Uitschieters in de y-richting: → Deze hebben grote residuen. Bijvoorbeeld: in het dierenvoorbeeld is de Bever een uitschieter in hersengewicht ten opzichte van lichaamsgewicht. o Uitschieters in de x-richting: → Deze beïnvloeden de regressierechte sterk. Als zo’n punt wordt verwijderd, verandert de regressielijn aanzienlijk. VOORBEELD Bij de analyse van de Gesell Adaptive Score en Leeftijd van het eerste woord: → Voor het volledige dataset: r2 = 0.41. Dit betekent dat 41% van de variantie in de Gesell Adaptive Score wordt verklaard door de leeftijd van het eerste woord. → Na het verwijderen van kind 18 (een duidelijke uitschieter): r2 = 0.11. Dit toont aan hoe groot de invloed van één enkele uitschieter kan zijn op de regressieanalyse. Afstanden die positief zijn, zijn punten die boven regressierechten zitten Afstanden die negatief zijn, zijn punten die onder regressierechten zitten 34 | P a g e Waarom zijn residuendiagrammen belangrijk? → Ze helpen je te bepalen of een lineair regressiemodel geschikt is. → Ze wijzen op problemen zoals: o Niet-lineaire relaties. o Variabele variantie (heteroscedasticiteit). o Sterke invloed van uitschieters of invloedrijke waarnemingen. 5. EXTRAPOLATIE Extrapolatie is het gebruik van een regressiemodel om voorspellingen te doen voor waarden van XXX die buiten het bereik van de waarnemingen in de steekproef liggen. VOORBEELD Het model voorspelt de lichaamslengte op 42 maanden: dit ligt binnen het bereik van de waarnemingen en is relatief betrouwbaar. Het model voorspelt de lichaamslengte op 30 jaar (360 maanden): dit ligt ver buiten de waargenomen waarden en kan tot onrealistische resultaten leiden. Probleem: Bij extrapolatie wordt aangenomen dat het verband tussen X en Y lineair blijft buiten het geobserveerde bereik, wat vaak niet klopt. 5.1 AANDACHTSPUNTEN BIJ EXTRAPOLATIE 1. Spreidingsdiagram evalueren: → Voordat je een regressiemodel toepast, controleer het verband visueel via een spreidingsdiagram. → Patronen of afwijkingen (zoals krommingen) geven aan dat een lineair model mogelijk niet geschikt is. 2. Uitschieters vermijden: → Uitschieters in X of Y kunnen een groot effect hebben op de regressielijn en leiden tot misleidende voorspellingen. 3. Voorzichtigheid bij extrapolatie: → Voorspellingen voor X-waarden buiten het geobserveerde bereik zijn vaak onbetrouwbaar. → Bijvoorbeeld: het voorspellen van lichaamslengte op 30 jaar met gegevens van kinderen jonger dan 5 jaar. 4. Verborgen variabelen: → Mogelijke derde variabelen (bijv. genetica, voeding) kunnen een invloed hebben op de relatie tussen X en Y. → Deze factoren worden niet altijd in de analyse opgenomen, maar spelen wel een belangrijke rol. 35 | P a g e 5. Correlatie impliceert geen causaliteit: → Een lineair verband tussen X en Y betekent niet dat X de oorzaak is van veranderingen in Y. → Bijvoorbeeld: een hoge lichaamslengte correleert mogelijk met een goede voeding, maar voeding is de onderliggende oorzaak. 6. AANDACHTSPUNTEN BIJ CORRELATIE EN REGRESSIE Controleer altijd de dataset visueel: Gebruik een spreidingsdiagram om de lineariteit van het verband te beoordelen. Let op de rol van uitschieters: Uitschieters kunnen de regressielijn sterk beïnvloeden en extrapolatie verder verstoren. Blijf binnen het bereik van waarnemingen: Gebruik regressie alleen om voorspellingen te doen binnen het geobserveerde bereik van X. Identificeer mogelijke derde variabelen: Overweeg welke externe factoren mogelijk een invloed hebben op het verband. 36 | P a g e DATA ANALYSE VOOR CONTINGENTIETABELLEN 1. CONTINGENTIETABELLEN (2-WEGSTABELLEN) 1.1 MARGINALE VERDELING Dit zijn de totaaltellingen of percentages per categorie van één variabele, zonder rekening te houden met een andere variabele. Voorbeeld in de tabel: → "Bijna geen kans" komt voor bij 194 personen van de 4826 (4% van de totale steekproef). 1.2 VOORWAARDELIJKE VERDELINGEN Beschrijven hoe de verdeling van een variabele verandert afhankelijk van een specifieke waarde van een andere variabele. Voorbeeld: het percentage mannen en vrouwen per kanscategorie: → Bij "Bijna geen kans" zijn zowel mannen als vrouwen gelijk (4%). → Bij "Een goede kans" ligt het percentage voor mannen iets hoger (31%) dan voor vrouwen (28%). 1.2.1 VISUALISATIES VAN VERDELINGEN Grafieken zoals zij-aan-zij-strookdiagrammen of gesegmenteerde strookdiagrammen worden gebruikt om verschillen in voorwaardelijke verdelingen tussen groepen (bijv. mannen en vrouwen) visueel te vergelijken. Dit helpt patronen of afwijkingen duidelijk te maken, bijvoorbeeld dat mannen vaker rapporteren dat ze "bijna zeker" vermogend zullen worden (24% vs. 21%). 37 | P a g e 3. SIMPSON’S PARADOX Wat is Simpson's paradox? → Dit is een fenomeen waarbij het verband tussen twee variabelen binnen subgroepen (op basis van een derde variabele) kan verschillen of zelfs omgekeerd kan worden wanneer de subgroepen worden samengevoegd tot één enkele groep. VOORBEELD In een dataset over boekenprijzen kan het lijken dat dikkere boeken goedkoper zijn als je alle boeken samen bekijkt. Maar als je onderscheid maakt tussen "hardcovers" en "paperbacks" (de derde variabele), kan blijken dat binnen beide subgroepen dikkere boeken juist duurder zijn. Belang: → Het herkennen van derde variabelen is cruciaal, omdat ze een verband kunnen beïnvloeden of zelfs vertekenen. Door ze te negeren, kun je verkeerde conclusies trekken. 4. CONCLUSIE Bij het interpreteren van verbanden tussen variabelen: 1. Analyseer eerst de marginale verdelingen. 2. Bestudeer vervolgens de voorwaardelijke verdelingen om verbanden tussen twee variabelen te begrijpen. 3. Overweeg altijd of een derde variabele invloed kan hebben (zoals in Simpson's Paradox) voordat je definitieve conclusies trekt. 38 | P a g e SAMENHANG OORZAAK EN GEVOLG 1. SAMENHANG OORZAAK EN GEVOLG 1.1 OORZAAK GEVOLG Hier wordt een directe causale relatie afgebeeld, waarbij een verandering in variabele X leidt tot een verandering in variabele Y. → Bijvoorbeeld: X veroorzaakt Y en er is een correlatie tussen beide variablen 1.2 GEMEENSCHAPPELIJK AFHANKELIJKHEID In dit scenario hebben zowel X als Y een gemeenschappelijke oorzaak, namelijk Z. → Voorbeeld: X (gebruik van hulpdiensten) en Y (ernst van het ongeval) worden beide beïnvloed door Z (de aard van het ongeval). 1.3 VERSTRENGELING (COMMON REPSONS) Hier lijkt het alsof X Y beïnvloedt, maar in werkelijkheid is er een derde variabele Z die zowel X als Y beïnvloedt. Z is de zogenaamde confounder. → Voorbeeld: X (BMI moeder) lijkt Y (BMI dochter) te beïnvloeden, maar dit wordt ook beïnvloed door Z (eetgewoonten). 1.4 TOEVAL In dit geval is er geen echte relatie tussen X en Y; de waargenomen relatie is puur toevallig. 39 | P a g e AANVULLING ASSOCIATIEMATEN 1. IMPLICATIES IN 2X2 CONTINGENTIETABELLEN Deze afbeelding illustreert de implicaties in 2×2 kruistabellen en laat zien hoe de waarde van Q varieert afhankelijk van de verdeling van de waarden in de tabel. De tabellen zijn opgebouwd uit de frequenties a, b, c en d, die staan voor de celfrequenties in een 2×2- tabel. Hieronder een uitleg van de weergegeven situaties: 1.1 STRUCTUUR CONTINGENTIETABEL Item 1 (variabele 1) heeft waarden 0 en 1 (rijen). Item 2 (variabele 2) heeft waarden 0 en 1 (kolommen). De cellen a, b, c, en d geven de aantallen of frequenties voor de combinaties van deze waarden: → a: frequentie waar Item 1 = 0 en Item 2 = 0, → b: frequentie waar Item 1 = 0 en Item 2 = 1, → c: frequentie waar Item 1 = 1 en Item 2 = 0, → d: frequentie waar Item 1 = 1 en Item 2 = 1. 1.2 INTERPRETATIE VAN Q De Q-waarde beschrijft de sterkte en richting van het verband tussen de twee variabelen. → Q = 1: Perfect positief verband. Dit betekent dat de waarden van de variabelen perfect overeenkomen (bijvoorbeeld, als Item 1 = 1, dan ook Item 2 = 1). → Q = −1: Perfect negatief verband. Dit betekent dat de waarden van de variabelen precies omgekeerd zijn (bijvoorbeeld, als Item 1 = 1, dan is Item 2 = 0). → Q = 0: Geen verband tussen de variabelen. 40 | P a g e 1.3 SITUATIES IN DE AFBEELDING a. Q = 1: → Het onderste gedeelte van de tabel bevat een 0 in c of a. → Interpretatie: o Als c = 0: Item 1 = 1 impliceert dat Item 2 = 1. o Als a = 0: Item 1 = 0 impliceert dat Item 2 = 0. o Dit duidt op een perfect positief verband. b. Q = −1: → Het onderste gedeelte van de tabel bevat een 0 in b of d. → Interpretatie: o Als b = 0: Item 1 = 0 impliceert dat Item 2 = 1. o Als d = 0: Item 1 = 1 impliceert dat Item 2 = 0. o Dit duidt op een perfect negatief verband. c. Q = 0: → Alle celfrequenties zijn groter dan 0, en er is geen consistent patroon in de verdeling. Dit betekent dat de variabelen onafhankelijk zijn. 2. Q-COEFFICIENT De Q-coëfficiënt (ook wel bekend als de Q van Yule) is een maat om de samenhang tussen twee variabelen te berekenen, specifiek wanneer deze variabelen dichotoom (twee mogelijke waarden) zijn. → Het wordt vaak gebruikt in kruistabellen en is een indicator voor de sterkte en richting van de associatie. 2.1 FROMULE VAN DE Q- COEFFICIENT De Q-coëfficiënt wordt berekend met de volgende formule: a,b,c,d: Dit zijn de frequenties in een 2x2 kruistabel: → a: aantal observaties waarbij beide variabelen positief zijn. → b: aantal observaties waarbij de eerste variabele positief is en de tweede negatief. → c: aantal observaties waarbij de eerste variabele negatief is en de tweede positief. → d: aantal observaties waarbij beide variabelen negatief zijn. 2.2 BETEKENIS VAN DE WAARDEN VAN Q 1. Q = 0: Geen verband → Wanneer Q=0, is er geen samenhang tussen de twee variabelen. → Dit gebeurt wanneer ad = bc, oftewel de mate van overeenkomst en afwijking is exact in balans. 2. Q = 1: Maximale positieve samenhang → Dit treedt op wanneer b = 0. 41 | P a g e → In dit geval betekent het dat er een perfecte samenhang is tussen de variabelen. Alle positieve waarden in de ene variabele komen overeen met positieve waarden in de andere. 3. Q = −1: Maximale negatieve samenhang → Dit gebeurt wanneer a=0a = 0a=0 of d=0d = 0d=0. → Hier betekent het dat er een perfecte tegengestelde samenhang is. Alle positieve waarden in de ene variabele komen overeen met negatieve waarden in de andere. 2.3 VOOR ORDINALE DATA: DICHTOMIE OP DE MEDIAAN Bij ordinale data, waar de waarden gerangschikt zijn, kan de Q-coëfficiënt ook toegepast worden door de data te splitsen in twee categorieën, bijvoorbeeld boven en onder de mediaan (een zogenaamde dichotomie). → Dit reduceert de ordinale data tot dichotome data, zodat de Q-formule gebruikt kan worden. 2.4 SAMENVATTING De Q-coëfficiënt is een handige maat voor associatie in 2x2 tabellen, waarbij: → Q = 1 een perfecte positieve relatie aangeeft, → Q = −1een perfecte negatieve relatie aangeeft, → Q = 0 geen relatie aangeeft. Het is eenvoudig te berekenen en geschikt voor dichotome of omgezette ordinale data. 3. CHI-KWADRAAT χ² De χ² (chi-kwadraat)-test is een statistische toets die gebruikt wordt om te bepalen of er een significant verband is tussen twee categorische variabelen. → De basis van de test is het vergelijken van de geobserveerde celfrequenties (wat er daadwerkelijk gemeten is) met de verwachte celfrequenties (wat je zou verwachten als de variabelen onafhankelijk zijn). 42 | P a g e 3.1 GEOBSERVEERD CELFRREQUENTIES Dit zijn de daadwerkelijke waarnemingen in een kruistabel. In jouw voorbeeld: → Er zijn 200 studenten in totaal. → Percentage jongens: 80/200 = 40%. → Percentage zittenblijvers: 70/200 = 35%. 3.2 VERWACHTE CELFREQUENTIE De verwachte celfrequenties worden berekend onder de aanname van statistische onafhankelijkheid. Dit betekent dat de variabelen (bijvoorbeeld geslacht en zittenblijven) geen verband hebben, en de verdelingen proportioneel zijn Formule voor verwachte celfrequentie: In jouw voorbeeld: → Verwacht percentage jongens die zittenblijven = 35% × 40% = 14% → Verwachte frequentie = 14% × 200= 28 Herhaal deze berekening voor elke cel in de kruistabel. 3.3 BEREKENEN VAN χ² De χ²-waarde wordt berekend door voor elke cel het verschil te nemen tussen de geobserveerde frequentie en de verwachte frequentie, dit verschil te kwadrateren, en te delen door de verwachte frequentie. De resultaten van alle cellen worden opgeteld. Formule voor χ²: 3.4 INTERPRETATIE VAN χ² Statistisch onafhankelijk: Als χ² = 0, zijn de variabelen volledig onafhankelijk (geen verschil tussen geobserveerde en verwachte frequenties). Statistisch afhankelijk: Hoe groter de waarde van χ², hoe groter het verschil tussen de geobserveerde en verwachte frequenties, en hoe waarschijnlijker het is dat de variabelen een verband hebben. 43 | P a g e 4. Φ-COEEFICIENT De Φ-coëfficiënt (phi) is een maat voor associatie die wordt gebruikt bij 2×2 kruistabellen (vier cellen). Het is een specifieke variant van correlatiematen, ontworpen voor nominale (categorische) variabelen. 4.1 FORMULE VAN DE Φ-COEEFICIENT De Φ-coëfficiënt wordt berekend met de volgende formule: Waarbij: → χ2 = de chi-kwadraatwaarde van de tabel, → N = het totaal aantal waarnemingen in de tabel. 4.2 INTERPRETATIE VAN Φ De Φ-coëfficiënt meet de sterkte van het verband tussen twee dichotome variabelen. → Φ = 0: Er is geen verband tussen de variabelen (volledige onafhankelijkheid). → Φ > 0: Positieve samenhang, wat betekent dat hogere waarden van de ene variabele samenhangen met hogere waarden van de andere. 4.3 KENMERKEN VAN Φ 1. Bijzonder geval: 2×2 kruistabellen → De Φ-coëfficiënt is speciaal ontworpen voor 2×2 tabellen en geeft een eenvoudig en intuïtief resultaat. 2. Geen normering → De waarde van Φ is niet genormeerd. Dit betekent dat de maximale waarde van Φ niet altijd 1 is, maar afhankelijk is van het kleinste aantal rijen of kolommen in de kruistabel. → De maximale waarde van Φ2 wordt gegeven door: o Maximale Φ2 =L−1 Commenté [MT10]: Tot de tweede o Waarbij L= min (aantal rijen,aantal kolommen) 4.4 SAMENVATTING De Φ-coëfficiënt is een handige maat om de sterkte van het verband tussen twee dichotome variabelen te berekenen in een 2×2 kruistabel. Terwijl Φ = 0 onafhankelijkheid aanduidt, geeft een hogere absolute waarde van Φ een sterkere relatie aan, hoewel de schaal niet genormeerd is. 44 | P a g e 5. CONTINGENTIECOEFFICIENT (C) De contingentiecoëfficiënt (C): meet het verband tussen twee categorische variabelen. → Kenmerken: o C = 0: Geen verband tussen de variabelen. o C < 1: De waarde is niet genormeerd, maar blijft altijd kleiner dan 1. o Het wordt vaak gebruikt bij kruistabellen (meerdere rijen en kolommen) om te evalueren of er een associatie bestaat tussen variabelen. 6. RANGCORRELATIES 6.1 KENDALL’S TAU (τ): Kendall's Tau wordt gebruikt voor rangcorrelaties en kijkt naar de volgorde van scores tussen twee variabelen. Berekening: → Concordante paren (C): Paren waarbij de rangorde tussen twee variabelen hetzelfde is (bijv. als score A > score B ). → Discordante paren (D): Paren waarbij de rangorde tussen twee variabelen omgekeerd is. → Formule: Interpretatie: → τ = 1: Perfect positief verband (monotone stijging). → τ = −1: Perfect negatief verband (monotone daling). → τ = 0: Geen verband. 7. GAMMA Gamma (γ) is een alternatieve maat voor rangcorrelaties en houdt rekening met geknoopte paren (gelijke scores). Kenmerken: → Geknoopte paren (gelijke scores) worden meegenomen in de analyse. → Formule: Waarbij G staat voor geknoopte paren. Interpretatie: → γ = 1: Perfect stijgend verband. → γ = −1: Perfect dalend verband. → γ = 0: Geen verband. Bij knopen: → γ heeft een hogere waarde dan τ, omdat knopen anders worden behandeld. 45 | P a g e 8. RANGCORRELATIECOEFFICIENT VAN SPEARMAN De Spearman-coëfficiënt (rs): is een maat voor de mate waarin de rangordes van twee variabelen overeenkomen. Berekening: → Di: Het verschil tussen rangnummers van twee variabelen voor elk paar. → Formule: Waarbij n het aantal observaties is. Interpretatie: → rs = 1: Perfect positief verband (volledige overeenstemming in rangorde). → rs = −1: Perfect negatief verband (volledige omgekeerde rangorde). → rs = 0: Geen verband. 9. SAMENVATTEND 1. C: Maat voor categorische data, kleiner dan 1. 2. τ: Rangcorrelatie voor concordante en discordante paren. 3. γ: Rangcorrelatie met inclusie van geknoopte paren. 4. rs: Rangcorrelatie met een eenvoudige formule, vooral nuttig bij kleine datasets zonder veel ex- aequos. 46 | P a g e