Samenvatting Statistiek PDF

Module 1 – Inleiding tot de statistiek 1.1 Inleiding Om onszelf te begrijpen hebben we wetenschap nodig. Wetenschap gaat over het verzamelen van data en het zoeken van verklaringen voor die data. We hebben volgende onderzoeksmethoden: Kwalitatieve onderzoeksmethoden Kwantitatieve onderzoeksmethoden Wanneer de gegevens bestaan uit woorden of Wanneer data bestaan uit cijfers hebben we tekst, dan hebben we kwalitatieve kwantitatieve onderzoeksmethoden nodig. onderzoeksmethoden nodig om de woorden en hun betekenis te analyseren. Het is een set van tools en technieken die gebruikt wordt voor het beschrijven, Veelvoorkomende kwalitatieve organiseren en interpreteren van informatie verzamelingsmethoden zijn interviews en en gegevens. focusgroepen. We worden steeds overspoeld door cijfergegevens, en dan kan je twee dingen doen: of je gelooft het, of je wilt er meer over weten en nagaan of het wel klopt. Voorbeeld: In een boek over de ontwikkeling kan men lezen rond welke leeftijd een baby normaal begint te kruipen. Als je kind op die dag nog niet kruipt gaan mensen al snel denken dat hun kind een ontwikkelingsprobleem heeft. Veel mensen begrijpen niet dat rond de gemiddelde variatie bestaat. 1.2 Het onderzoeksproces. 1.2.1 Genereer een onderzoeksprobleem (wat je doet) Bij elk onderzoek start je met de formulering van een onderzoeksvraag. Op die vraag wil je een antwoord weten. Belangrijk is dat de vraag ondubbelzinnig moet geformuleerd worden. De onderzoeksvraag kan voortkomen uit iets dat je vaststelt, doordat je de wereld observeert. 1.2.2 Observeer de wereld of lees (hoe je het doet) Als je niets observeert kan je voorgaande literatuur lezen en een leemte ontdekken dat verder onderzoek vereist. 1.2.3 Raadpleeg een theorie. Theorie = een uitleg of set van principes die een breed fenomeen verklaart en die goed onderbouwd is door herhaaldelijk te zijn getest. Belangrijk: Theorieën zijn heel algemeen van toepassing op alle entiteiten of situaties. 1 1.2.4 De populatie (waar je het op doet) Populatie = een theoretische groep waarover je conclusies wilt trekken. (Vb. Bij klanttevredenheid studies kan je populatie klanten zijn) 1.2.5 Genereer een hypothese. Hypothese = vooropgestelde verklaring voor een vrij beperkt fenomeen of reeks waarnemingen.  Verschillend met theorie: Zowel theorieën als hypotheses proberen de wereld te verklaren. MAAR... een theorie verklaart een breed scala aan fenomenen en werd reeds veelvuldig getest. Terwijl een hypothese een enger fenomeen probeert te verklaren en nog niet getest is geweest. 1.2.6 Verzamelen data om hypothese te testen. Dataset = verzameling van gegevens die op de ene of andere manier aan elkaar gekoppeld zijn. Het gaat om data die men op één plek Datasets kunnen worden beschreven met twee termen: - Variabele = alles dat kan worden gemeten en dat kan verschillen (of veranderen of variëren) tussen entiteiten of in de tijd (kolom in de dataset) - Case = de gegevens uit één bron van één of meerdere variabelen (rij in de dataset). ALGEMEEN: een dataset is een spreadsheet met variabelen als kolommen en cases/observaties als rijen. Elke variabele vertegenwoordigt een verzameling van één type gegeven, terwijl een case alle gegevens over alle variabelen in de dataset uit één enkele bron omvat. 2 A. Soorten variabelen. Variabelen kunnen verder verdeeld worden in twee termen: Kwalitatief (categorisch) Kwantitatief (scale) Is opgebouwd uit categorieën waarbij een entiteit Variabelen die een bepaalde numerieke slechts in één van de categorieën kan worden weergave hebben en numerieke informatie geplaatst. bevatten. (Vb. Lengte, gewicht en leeftijd) Vb. Koe, kat en hond. Een dier is slechts één van Met kwantitatieve gegevens kan men de drie en niet van elk een beetje. berekeningen doen. (Vb. We kunnen de leeftijd van twee personen optellen) Een speciale vorm is binaire of dichotome variabel. Hierin heeft een categorische variabele slechts twee verschillende categorieën. (Vb. Man en vrouw, levend en dood, …) Kwalitatieve gegevens zijn niet numeriek van aard, maar kunnen als een getal worden gecodeerd (Vb: mannen = 1 en vrouwen = 2) B. Meetniveau ’s. Meetniveau/meetschaal = relatie tussen wat wordt gemeten en de getallen die vertegenwoordigen wat er wordt gemeten. We hebben verschillende vormen van meetniveau ’s. Nominaal en ordinaal behoren tot de categorische variabele en interval en ratio bij de scale variabele: 3 Nominale (variabelen) Interval (variabelen) Is de eenvoudigste meetschaal. (Vb. Geslacht, Intervalschalen hebben geen echt nulpunt, kleur, chocoladesoort, …) waarden onder de nul zijn dus mogelijk. De verhoudingen zijn zinloos. Dit zijn labels zonder orde. We kunnen niet zeggen dat de ene superieur is aan de andere. Vb. Kalenderjaren, temperatuur, … deze meetschaal heeft geordende categorieën en vereist dat de intervallen tussen de categorieën gelijk zijn. Ordinale (variabelen) Ratio (variabelen) Vb: olympische medailles, rang en tevredenheid. Deze meetschaal heeft dezelfde vereisten als Deze variabelen hebben een betekenisvolle interval, maar gaat nog een stap verder. Hier volgorde. moeten ook de verhoudingen zinvol zijn. De intervallen tussen de waarden in de schaal Om dit te laten kloppen, moet de schaal een zijn mogelijk niet gelijk. echt en zinvol nulpunt hebben. Een nulpunt waar er een volledige afwezigheid is van Vb: er is een groot verschil tussen tevreden en hetgeen je aan het meten bent. ontevreden, maar een klein verschil tussen ontevreden en zeer ontevreden Voorbeelden: leeftijd, gewicht, lengte, behaalde punten op het examen... De intervallen zijn consistent: 100 kg => 150 kg = 0 kg => 50 kg Er is een betekenisvol nulpunt: 0 kg = gewichtloos Het hebben van een betekenisvol nulpunt betekent dat verhoudingen/ratio’s worden gehandhaafd. C. Classificatie van de kwantitatieve variabele. Kwantitatieve variabelen kunnen enerzijds discreet of continu zijn: - Discrete variabelen = kunnen een eindig aantal verschillende gehele waarden aannemen. Waarden voor deze variabelen worden meestal verkregen door te tellen. Voorbeeld: het aantal leerlingen in een klas kan 19 of 20 zijn, maar niet 19,80. Opgelet: kwalitatieve variabelen zijn altijd discreet! - Continue variabelen = hebben een oneindig aantal kommagetallen. Waarden voor deze variabelen kunnen niet worden geteld. Voorbeeld: leeftijd (2j, 6 maanden, 23 dagen, enzovoort) en temperatuur. 4 Het onderscheid tussen discrete en continue variabelen kan vervagen. Men kan bijvoorbeeld continue variabelen gebruiken in discrete termen. We maken van een continue variabelen een discrete variabelen. Voorbeeld: leeftijd drukt men zelden uit in nanoseconden. We beperken ons dus tot jaren. Nanoseconden is continue en jaren discreet. Daarnaast behandelen we discrete variabelen vaak alsof ze continue zijn. Voorbeeld: Het aantal vriendjes dat meisjes gehad hebben is een discrete variabele. In de boekjes lees je aantal vriendjes dat meisjes gehad hebben gestegen is van 2,3 naar 3,5. Dit veronderstelt dat de variabele continu is. Deze scores zijn zinloos. Niemand heeft eigenlijk 3,5 vriendjes. D. Direct meetbare vs indirectmeetbare variabelen. Direct meetbare variabelen Indirect meetbare variabelen Vb: lengte, gewicht en leeftijd. Deze variabelen Vb. Depressie, angst, intelligentie, geluk en kan men makkelijk meten. klanttevredenheid. Indirect meetbare variabelen kunnen ook constructen genoemd worden. Het gaat om kenmerken of eigenschappen die niet direct gemeten kunnen worden. Om constructen te meten heb je operationele definities nodig van constructen. Hetgeen een procedure is of een reeks procedures zijn om deze te kwantificeren. Voorbeeld: de operationele definitie van klanttevredenheid kan bijvoorbeeld antwoord zijn op 3 vragen: 1. Ik vind de winkel leuk 2. Hoe vaak bent u de afgelopen zes maanden in deze winkel geweest? 3. Uitstekende klantenservice ontvangen? De eerste vraag kan gemeten worden aan de hand van een likertschaal. Het een vijf- of zevenpunt schaal die wordt gebruikt om het individu in staat te stellen uit te drukken hoeveel hij/zij het eens of oneens is met een bepaalde stelling.  Controversieel onderwerp: het is ordinaal van aard, maar lijken op intervalschalen. Daarnaast hangen de beoordelingen af van subjectieve gevoelens. (Vb Stel dat beide respondenten zeggen dat jullie de winkel even leuk vinden, hoe kunnen we ervan uitgaan dat dit werkelijk is?) Belangrijke analyse hier is de cronbach’s alpha analyse. Cronbach’s alpha is een manier om vast te stellen of meerdere items samen één schaal mogen vormen. Het wordt ook wel een betrouwbaarheidsanalyse genoemd. De Cronbach’s alpha zelf is de maatstaf. Dit wordt getoetst op basis van de onderlinge correlatie van de verschillende items. 5 Er is hier een kanttekening: je zou denken dat 0,83 beter is dan 0,43, maar dit is schijn door het verschil tussen het aantal items. Daarom moet je de correlatie van elk item uitzonderlijk onderzoeken. Toepassing 6 E. Voorspellende vs uitkomstvariabele. De meeste hypotheses kunnen worden uitgedrukt in termen van twee variabelen: voorspellende en uitkomstvariabele. - Voorspellende = de waarde is niet afhankelijk van andere variabelen (onafhankelijke variabelen). Het wordt ook verklarende variabele genoemd omdat het kan gebruikt worden om de scores van een andere variabele te voorspellen. Voorbeeld winkellocatie: men verklaart de klanttevredenheid door de winkellocatie. - Uitkomstvariabele = de waarde is afhankelijk van een andere variabele (afhankelijke variabele). Het wordt ook de verklaarde variabele genoemd omdat de de scores trachten te verklaren aan de hand van een andere variabele. Voorbeeld klanttevredenheid Beide zijn variabelen, want de winlellocatie kan veranderen, waardoor de tevredenheid ook kan veranderen. F. Steekproef. We willen een vraag beantwoorden met behulp van gegevens. Het probleem is dat je conclusies wil trekken over de hele populatie. Het is echter onhaalbaar om gegevens te verzamelen van elke entiteit binnen die populatie. Daarom gebruiken we een steekproef, dit is een kleinere set van entiteiten uit de populatie. Een populatie verwijst naar het totaal aantal dingen waarin we geïnteresseerd zijn. Een populatie kan katten, mensen, auto’s... betreffen. Een steekproef is een subgroep of een deel van die populatie dat gebruikt wordt voor onderzoek. We kunnen de gegevens in de steekproef gebruiken om statistiek te berekenen. Een statistiek is iets dat de steekproef samenvat. De gemiddelde klanttevredenheid van de steekproef is dus een statistiek. We kunnen dit gebruiken om te schatten wat de waarde was geweest als we de gegevens van de hele populatie hadden verzameld. De waarde in de populatie is gekend als een parameter. Een parameter is iets dat de populatie samenvat. De gemiddelde klanttevredenheid wordt een parameter genoemd. Algemeen: Statistieken worden rechtstreeks berekend op de gegevens die we verzamelen bij de steekproef. Terwijl de parameters iets zijn dat we alleen maar kunnen schatten op basis van de steekproefgegevens. 7 G. Gelden onze conclusies van de steekproef voor de rest van de populatie? Stel dat we willen weten of veertigjarige moeders een meer autoritaire opvoedingsstijl hebben dan vijfentwintigjarige moeders. Stel dat we in onze steekproef van veertigjarige moeders onbewust enkel gescheiden vrouwen opnemen. Mogelijk vinden we dan een verschil in opvoedingsstijl tussen de twee leeftijden en concluderen we ten onrechte dat dit verschil in de hele populatie voorkomt. Door niet representatieve steekproeven (BIAS) trekken we mogelijk verkeerde conclusies. Het is daarom belangrijk dat de observaties uit onze steekproef representatief zijn voor de bredere populatie. We kunnen de kans op representativiteit verhogen door onze observaties willekeurig te selecteren. Een eenvoudige willekeurige steekproef is een subset van de populatie waarin elk lid een gelijke kans heeft om gekozen te worden. Dit is bedoeld op de steekproef zo representatief als mogelijk te maken. H. Steekproefvertekening (sample bias). Steekproefvertekening = soort vertekening die wordt veroorzaakt door het kiezen van niet- willekeurige gegevens voor statistische analyses.  De vertekening bestaat door een fout in het steekproefselectieproces, waarbij een subset van de gegevens systematisch wordt uitgesloten vanwege een bepaald kenmerk.  We willen dus dat de entiteiten die we kiezen voor onze steekproef representatief zijn voor de bredere populatie. Dat kunnen we doen door ze willekeurig te selecteren. Wanneer twee mensen beiden een steekproef nemen van de populatie bevatten deze steekproeven niet dezelfde personen. Dit illustreert twee belangrijke dingen: - Steekproevenvariatie: Statistieken varieren tussen verschillende steekproeven. - Steekproeffout: Omdat we naar een subgroep van de populatie kijken krijgen we niet alle informatie over die populatie. Vanwege natuurlijke variatie zal elke steekproef slechts de populatie benaderen. Het verschil tussen wat de populatieparameter werkelijk is en de waarde die op basis van de steekproef wordt geschat staat bekend als de steekproeffout. Je kan dus niet van iedereen informatie krijgen, dus neem je in plaats daarvan een willekeurige steekproef en gebruik je de gegevens in de steekproef om de parameter in de populatie in te schatten. Deze schatting kan onjuist zijn, omdat steekproeven van elkaar verschillen en omdat deze ook enigszins verschillen van de populatie. 8 Algemeen: Hoe representatiever en groter de steekproef, hoe beter je beeld van de populatie. I. Twee belangrijke benaderingen om gegevens te verzamelen. Observationele/correlationele studie Experimentele studie Kenmerken: Kenmerken: - De onderzoeker observeert natuurlijk - Een oorzaak-gevolgrelatie kan je enkel gebeurtenissen. vinden door experimenten waarbij je het - Hij observeert een deel van de populatie. ding/de variabele waarvan je denk dat - Hij beïnvloedt of verandert de het de oorzaak is. omstandigheden niet. - Er is een control groep (die zijn gedrag niet aanpast) en een treatment groep (die zijn gedrag aanpast) Verschillende manieren: Belangrijke type experimentele studie: - Cross-sectioneel onderzoek = op één - Quasi experiment: Bij dit soort bepaald moment verschillende experimenten vindt er geen willekeurige variabelen meten over verschillende toewijzing van proefpersonen plaats. Bij cases heen. de uitvoering van een experiment deel je - Longitudinaal = variabelen herhaaldelijk je steekproef willekeurig op in twee of op verschillende tijdstippen te meten. meer groepen. De ene groep volgt bijvoorbeeld een training en de ander niet. Bij een quasi- experiment valt die willekeur weg doordat de mensen zelf kiezen of ze de training volgen of niet. Je vertrekt dus eigenlijk uit twee populaties: vrijwilligers en niet- vrijwilligers. Dit kan een probleem vormen wanneer de mensen die de training volgden beter zouden presteren, kan je niet weten of de training voor iedereen werkt of enkel voor enthousiaste vrijwilligers. Correlationeel onderzoek geeft ons een heel natuurlijk beeld van de vraag die we onderzoeken, omdat we geen invloed hebben op wat er gebeurt en de metingen niet mogen beïnvloed worden door de aanwezigheid van de onderzoeker. We betalen wel een prijs: het vertelt ons niet over het feit of de ene variabele de andere variabele veroorzaakt (= causaliteit). 9 1.2.7 Analyseer de data die je hebt verzameld. De volgende fase van het onderzoeksproces is het analyseren van de gegevens die je hebt verzameld. Het komt erop neer dat je twee dingen wilt doen met de gegevens: - Beschrijvende statistiek = je kan een grafiek maken of samenvattende, beschrijvende gegevens berekenen zoals de gemiddelde klanttevredenheid. kan alleen worden gebruikt om de gegevens te beschrijven die uit een steekproef zijn verzameld. - Inferentiële statistiek = stelt ons in staat om de gegevens die uit een steekproef zijn verzameld, te generaliseren naar de populatie waaruit die steekproef afkomstig is. 1.2.8 Veralgemeen de resultaten. Door gebruik te maken inferentiële statistiek kunnen we resultaten die we in de steekproef vinden veralgemenen of extrapoleren naar de populatie. Eens we inferentiële statistiek hanteren is het belangrijk om ons ervan te vergewissen zijn dat onze steekproef representatief is voor de populatie waartoe we veralgemenen. 1.2.9 Delen van resultaten. Wetenschappers schrijven onderzoeksrapporten of papers volgens een bepaald format. Deze cursus richt zich op de secties methodologie en resultaten. - In de methodologie-sectie wordt uitgelegd wat je hebt gedaan en hoe je het hebt gedaan, zodat lezers je onderzoek kunnen evalueren. Deze sectie bevat het volgende: soort onderzoek dat je hebt gevoerd, hoe je jouw gegevens verzamelde/analyseerde en je motivatie om voor een bepaalde onderzoeksmethode te hebben gekozen. - In de sectie resultaten rapporteer je de bevindingen en resultaten van je onderzoek. Dit gedeelte heeft een overzicht van de gegevens die zijn verzameld en de statistische analyses die zijn uitgevoerd. 10 1.2.10 Schematische overzicht. 1.3. Toepassing. Ben is eigenaar van een lokale ijsketen met vijf locaties. Hij merkte op dat de verkoop op sommige locaties is gedaald. Hij vermoed dat sommige van zijn winkelmanagers geen belang hechten aan klanttevredenheid. Maar hij heeft meer dan een buikgevoel nodig om hen te overtuigen hun manier van werken aan te passen. Hij beslist het te onderzoeken. Hij begint het onderzoeksproces met het genereren van de onderzoeksvraag: verschilt de klanttevredenheid over de vijf locaties? De eerste stap in het beantwoorden van de onderzoekvraag is het zoeken naar een relevante theorie. Ben wil conclusies trekken over klanten, dit is dan ook de populatie waar hij geïnteresseerd in is. Ben kan vertrekken vanuit de theorie van de klanttevredenheid. Deze zegt dat klanttevredenheid wordt beïnvloed door vele factoren (onder andere: vriendelijke en behulpzame winkelmanagers). Op basis van de klanttevredenheidtheorie kan de volgende hypothese worden gegenereerd: klanttevredenheid verschilt per winkellocatie. Ben zal data verzamelen. Hij gaat na wat de klanttevredenheid is in elke winkel. 11 Module 2 – Beschrijvende statistiek en grafieken. Het doel van deze cursus is ons iets bijbrengen over de sectiesmethodologie en resultaten uit een empirische paper. In deze module gaan we stap voor stap door de sectie resultaten. Deze begint met beschrijvende statistiek. 2.1 Beschrijvende statistiek. Wanneer we gegevens verzamelen over een bepaalde steekproef om onze onderzoeksvragen te beantwoorden, is het belangrijk om onze steekproef te begrijpen. Voor we inferentiële statistiek loslaten op de data is het noodzakelijk om de dataset te beschrijven en zo inzicht te krijgen in de data. Het probleem met datasets is dat ze meestal teveel datapunten bevatten om in één oogopslag te worden begrepen door ons brein. We moeten ons brein helpen door de gegevens te organiseren in een meer begrijpbare en gestructureerde vorm. Er bestaan 3 vormen van berschrijvende statistiek: - Verdeling (distribution) = betreft de frequentie van de observaties. - Centrummaten (central tendency) = betreffen de gemiddelden van de observaties. - Spreidingsmaten (variability) = betreffen de spreiding van de observaties. Er bestaan 2 manieren om beschrijvende manieren om beschrijvende statistiek te analyseren: - Door middel van getallen. - Door middel van grafieken. 2.2 Vorm 1: (frequentie)verdeling. 2.2.1 Absolute frequentie. Frequentieverdeling is een manier om gegevens samen te vatten. Dit kan zowel een tabel als een grafiek zijn, die elke mogelijk score laat zien samen met het aantal keer dat die score in de dataset voorkomt. 12 Het is een proces dat ruwe, niet gegroepeerde data neemt en samenvat in een tabelvorm. Het is een manier om een dataset te organiseren en te beschrijven. Om er één te maken nemen we ongeordende data en ordenen we elke mogelijke score/categorie op de meetschaal van de laagste naar de hoogste score. Vervolgens maken we een tweede tabel voor de frequentie. Frequentietabellen geven dus een visueel overzicht van een hele set van scores. Als je de frequenties optelt krijg je de steekproefgrootte deze wordt weergegeven door de kleine letter n.  De frequentieverdeling kan zowel gebruikt worden voor kwalitatieve als kwantitatieve variabelen.  We vermelden alle categorieën zelfs als de waarde van een bepaalde categorie gelijk is aan 0. 2.2.2 Relatieve frequentie. We kunnen gegevens nog duidelijker maken door te kijken naar de relatieve frequentie. Dit is het aantal keer dat een waarde in een variabele voorkomt relatief ten aanzien van het totale aantal observaties. Voorbeeld: Er zijn twee klanten die de afgelopen 6 maand tien keer naar de winkel zijn geweest. In totaal zijn er 20 klanten in de steekproef. De relatieve frequentie is dus 2/20 = 0,10. In plaats van te zeggen dat het aandeel van de klanten die in de laatste 6 maand tien keer hebben gewinkeld 0,10 is, kunnen we zeggen dat 10% van de steekproef tien keer heeft gewinkeld in de laatste 6 maand. 13 2.2.3 Cumulatieve frequenties. We kunnen ook kijken naar de cumulatieve frequentie. Dit betekent dat we kijken naar de totale frequentie van alles scores/waarden tot en met de score/waarde waarin we geïnteresseerd zijn. Voorbeeld: De score 1 heeft een frequentie van één. Er zijn geen waarden voor deze score dus de cumulatieve frequentie is ook één. Score 2 komt ook éénmaal voor in de dataset, ook hier is de frequentie dus één. Maar de cumulatieve frequentie is de frequentie van deze categorie en de categorie ervoor. Belangrijk: Het cumulatieve frequentiegetal dat je hebt voor de laatste waarde moet gelijk zijn aan het totaal aantal observaties in de dataset. 2.2.4 Cumulatief percentage. Het cumulatief percentage van een score/waarde is een getal dat aangeeft hoeveel procent van de scores de genoemde of een lagere score heeft. We kunnen dit op twee manieren berekenen: - Formule: (cumulatieve frequentie/aantal observaties) X 100 - We tellen de relatieve frequenties uitgedrukt in percentage op. Wat is de betekenis van 50% in onderstaande figuur? “50% van de klanten is vijf keer of minder gaan winkelen gedurende de laatste 6 maanden.” 14 2.2.5 Speciale frequentieverdeling: gegroepeerde frequentieverdeling. Wanneer de observaties een groot bereik hebben is het te omslachtig om data in een frequentieverdeling te zetten. Voorbeeld: Bij een minimumscore van 8 en een maximumscore van 32 zouden we 25 rijen nodig hebben om elke score weer te geven. We gebruiken dan beter een gegroepeerde frequentieverdeling. Hierbij groeperen we de scores. We verdelen de meetschaal in gelijke delen (= klassen/intervallen). Een schaal van 1 tot 10 kan bijvoorbeeld worden ingedeeld in vijf gelijke klassen (1-2, 3- 4...). De hoeveelheid getallen in een interval staat gekend als de klassebreedte/intervalbreedte. Hoe weet je hoe breed je een interval moet maken? - We moeten genoeg intervallen hebben om het patroon van de gegevens te zien, maar niet teveel zodat de frequentieverdeling niet onordelijk wordt. - Men streeft naar: niet minder dan 5 klassen en niet meer dan 15 klassen. - De intervallen die je creëert moeten elke waarde van de meetschaal bevatten, maar mogen elkaar niet overlappen. (Vb. Je kan geen interval 5-7 en 7-9 hebben, want beide intervallen bevatten de waarde 7. - Maak van de intervalbreedte een eenvoudig getal: (meervoud van) 2, (meervoud van) 5, … - De ondergrens van het interval moet een meervoud van de intervalbreedte zijn. (Vb. Als de intervalbreedte 3 is, dan moeten de intervallen beginnen op 0 of een veelvoud van 3). 15 Toepassing Stap 1: Klassebreedte bepalen. Stel je voor dat we tien intervallen willen. De hoogste score is 32 en de laagste score is 8. De intervalbreedte zou dan normaal 2,4 zijn. Het is moeilijk om met zo een intervalbreedte te werken, daarom ronden we af naar 3. Stap 2: Met welke waarde moeten we het eerste interval starten? We beginnen steeds met een waarde dat een veelvoud is van de breedte. De breedte is 3, dus we kunnen beginnen met 3,6,9..... Als we het eerste interval beginnen met 6, dan zal het eerste interval met een breedte van 3, de waarden 6, 7 en 8 bevatten. Dit is ideaal, omdat het laagste getal in de dataset in dit interval vervat zit. Stap 3: We vullen de andere intervallen aan en tellen per interval de frequentie Opmerking: om te bekijken hoeveel leerlingen een score lager dan 32 behaalden moet je kijken naar het cumulatieve percentage tot aan de categorie 30-32. 2.3 Frequenties weergeven aan de hand van een grafiek. 2.3.1 Kwantitatieve variabelen of variabelen op de interval- of ratio- meetschaal. Als je kwantitatieve variabelen of variabelen op de interval- of ratio-meetschaal hebt, kan je een histogram of frequentiepolygoon gebruiken om de frequentie van de scores/waarden weer te geven. Grafieken maken het makkelijker om de patronen van de gegevens te herkennen. 16 Deze grafieken geven de mogelijke scoren van de gemeten variabele op de X-as weer en de frequentie waarmee elke score voorkomt op de Y-as. Het verschil tussen beiden is dat een histogram de frequenties als staven weergeeft en een polygoon als punten die vervolgens met elkaar worden verbonden door rechte lijnen. Opmerking: De grafiek van een polygoon heeft een extra categorie boven en onder de grenzen van de schaal zodat polygoon op nul kan beginnen en eindigen. 2.3.2 Kwalitatieve variabelen of variabelen op de nominale of ordinale meetschaal. Kwantitatieve variabelen of variabelen op de nominale of ordinale meetschaal moeten anders worden geïllustreerd. Manier 1: Staafdiagram Een staafdiagram toont categorieën van nominale of ordinale variabelen langs de X- as. Met staafhoogtes die de frequentie weergeven op de Y-as. Verschil met histogram: gaten tussen de balken en categorieën en geen cijfers op de X-as. Manier 2: Taartdiagram Een taartdiagram toont de frequentie van de entiteiten die in verschillende categorieën vallen. Het is meestal duidelijker om deze informatie te presenteren als een staafdiagram, omdat de vorm van de segmenten in een taartdiagram maakt dat de 17 gegevens moeilijk af te lezen zijn. Relatieve verhoudingen zijn gemakkelijker te zien in staafdiagrammen. 2.3.3 Wanneer met niet één maar twee variabelen wilt weergeven. Wanneer met niet één maar twee variabelen wilt weergeven, gebruikt men een Scatterplot. Hierbij plaatst men de ene variabele op de X-as en de andere op de Y- as. Dit plot laat zien of er een verband is tussen de variabelen en wat voor verband het is. Elk punt in een Scatterplot vertegenwoordig de scores van twee variabelen voor één enkele case/observatie. 18 In de figuur kunnen we individuele werknemers als individuele punten zien. De werknemer die wordt weergeven door het meest linkse punt had vorig jaar voor ongeveer 12 000 euro verkopen en dit jaar voor ongeveer 27 000 euro. We kunnen de trend in de gegevens samenvatten door een lijn toe te voegen deze lijn wijst naar boven, hetgeen suggereert dat lage scores op de verkoop vorig jaar gepaard gaan met lage scores op de verkoop dit jaar en dat hoge scores op de verkoop vorig jaar gepaard gaan met hoge scores op de verkoop dit jaar. - Als de puntenwolk naar boven lijkt te wijzen, suggereert dit een positieve relatie tussen beide variabelen. - Als de puntenwolk naar onder lijkt te wijzen, suggereert dit een negatieve relatie tussen beide variabelen. - Als de puntenwolk noch naar boven, noch naar onder lijkt te wijzen, duidt niet op een niet bestaand of zeer klein verband tussen beide variabelen. 2.3.4 De normaalverdeling. Frequentieverdelingen zijn er in veel vormen en maten. Het is belangrijk om een aantal algemene beschrijvingen te hebben voor veelvoorkomende verdelingen. In een ideale wereld zouden onze gegevens symmetrisch verdeeld zijn over het centrum van alle scores. Als we een verticale lijn door het centrum zouden trekken, dan zouden beiden zijden er hetzelfde moeten uitzien. Dit staat gekend als de normaalverdeling en wordt gekenmerkt door de klokvormige curve. Deze vorm impliceert dat de meerderheid van de scores rond het centrum van de verdeling ligt. Naarmate we ons verder verwijderen van het centrum worden de staven kleiner/neemt de frequentie af. Het wordt de normaalverdeling genoemd omdat het een vaak voorkomende verdeling is. Veel natuurlijk voorkomende dingen hebben deze vorm. Voorbeeld: De meeste mannen zijn 1,75 m groot. Sommige zijn wat groter andere wat kleiner, maar de meeste groeperen zich rond 1,75 m. 19 Opmerking: Echte gegevens (bijvoorbeeld: de klanttevredenheid op een schaal van 1 tot 5) volgen niet altijd perfect de curve van een normaalverdeling. Het is voldoende om visueel de normaalverdeling te herkennen. Er zijn twee manieren waarop men kan afwijken van de normaalverdeling: Afwijking 1: scheefheid (skewness) Bij een scheve verdeling zijn de meest voorkomende scores/de hoge staven op de grafiek geclusterd aan één kant van de schaal. Er ontstaat dus een cluster van frequente scores aan de ene kant van de schaal en een cluster van lage frequenties van scores aan de andere kant van de schaal. - Een scheve verdeling kan rechtsscheef of positively skewed zijn: de frequente scores zijn aan de onderkant geclusterd en de straat wijst naar de hoge scores. - Een scheve verdeling kan linksscheef of negativiley skewed zijn: de frequente scores zijn aan de bovenkant geclusterd en de staart wijst naar de lagere scores. Algemeen: De scheefheid wordt bepaald door de richting van de staart. 20 Afwijking 2: kurtosis (platheid) Er zijn te veel of weinig scores in de uiteindes/de staarten van de verdeling. - Positieve kurtosis/leptokurtosis = er zijn teveel scores in de staarten. Ze zien er puntig uit en nemen snel af (= zware staartverdeling) - Negatieve kurtosis/platykurtosis = er zijn te weinig scores in de staarten. Ze zijn vlakker dan normaal (= lichte staartverdeling) Kurtosis is visueel moeilijker te herkennen doordat het wordt bepaald door het aantal scores in uitersten van de verdeling. 21 2.4 Vorm 2: centrummaten. We kunnen nu de verdeling trachten te beschrijven door ze samen te vatten met behulp van centrummaten. Met andere woorden we willen het centrum van de frequentieverdeling kwantificeren. Om te berekenen waar het centrum van een frequentieverdeling ligt worden doorgaans drie maatstaven gebruikt. - De modus - De mediaan - Het gemiddelde (mean) 2.4.1 De modus. Stel dat we willekeurige steekproef van 10 studenten hebben genomen en hun score noteren voor een test. De modus is de waarde die het meeste voorkomt. Deze waarde is gemakkelijk te herkennen in een frequentieverdeling Omdat het de score met de grootste frequentie is. In dit voorbeeld heeft de waarde 30 een frequentie van 3. Deze frequentie is hoger dan de frequentie van elke andere waarde en daarom is 30 de modus. De modus is nuttig omdat het de meest populaire waarde vertegenwoordigt en in tegenstelling tot andere centrummaten altijd een waarde zal zijn die daadwerkelijk in de dataset voorkomt. Er is ook een keerzijde aan de medaille de modus kan namelijk vaak meerdere waarden aannemen. Als de student die 28 gescoord heeft 29 had gescoord dan waren er twee waarden met de frequentie van 3. Er zouden dan twee modi zijn. We noemen zo’n verdeling bimodaal. Verdelingen met 3 of meer modi worden multimodaal genoemd. Een ander probleem is dat frequenties van bepaalde scores sterk op elkaar lijken. Hierdoor kan de modus slechts door een klein aantal observaties worden beïnvloed. 22 2.4.2 De mediaan De mediaan is de middelste score wanneer de scores in oplopende volgorde zijn gerangschikt. Om de mediaan voor een dataset te berekenen rangschikken we eerst de scores in oplopende volgorde. Vervolgens vinden we de positie van de middelste score. Dit kunnen we visueel doen als we een kleine dataset hebben voor grotere datasets kan het nuttig zijn om een formule te gebruiken. 23 Stap 1: bepaal de positie van de mediaan. Dit gebeurt aan de hand van deze formule: Stap 2: We moeten de score vinden die op de plaats staat die we net hebben berekend. Toegepast op voorbeeld: Er is een vijfde score en een zesde, maar geen op plaats vijf en half. We gaan dus de score op de vijfde en zesde plaats optellen en delen door twee → (30 + 30) / 2 = 30 Het is minder ingewikkeld als het aantal observaties (n) een oneven getal is, want dan is de positie van de mediaan namelijk een even getal. 2.4.3 Het gemiddelde. Om het gemiddelde van een steekproef te berekenen tellen we alle scores bij elkaar op en delen we vervolgens door het aantal scores (aantal datapunten) dat we hebben. 24 Besluit: De waarde 28,1 is een waarde die we niet waarnemen in de feitelijke gegevens. Dit illustreert dat we onze gegevens aan het samenvatten zijn. Er is een verschil tussen de formule van het steekproefgemiddelde en de formule voor het populatiegemiddelde: - Bij het populatiegemiddelde gebruiken we de hoofdletter N om het aantal observaties weer te geven, omdat we van een hele populatie scores hebben. - Bij het steekproefgemiddelde gebruiken we de kleine letter n om het aantal observaties weer te geven, omdat we enkel score hebben van een steekproef. De mediaan en het gemiddelde zijn beide centrummaten, maar ze meten het centrum op een verschillende manier. - De mediaan verwijst naar het fysieke middelpunt. - Het gemiddelde daarentegen kan worden beschouwd als een evenwichtspunt dat wil zeggen dat de afstanden tussen elke score onder het gemiddelde en het gemiddelde gelijk zijn aan de afstanden tussen elke score boven het gemiddelde en het gemiddelde. Elke toevoeging of afname van een observatie zal het gemiddelde veranderen, tenzij die observatie gelijk is aan de waarde van het gemiddelde zelf. Voeg je een observatie toe aan de gegevens die gelijk zijn aan het gemiddelde, dan blijft het gemiddelde hetzelfde. Voeg je een observatie toe die verschillende is van het gemiddelde, dan zal het gemiddelde veranderen. 25 2.4.4 Welke centrummaat moet ik gebruiken? Bij elke afweging van welke centrummaat je zal gebruiken moet je nadenken over de volgende zaken: A. Welke soort data die je hebt? Nominale data: Als je nominale data hebt zoals de kleur van de ogen, dan kan je alleen de modus gebruiken, omdat de modus gebaseerd is op frequenties. We zouden bijvoorbeeld kunnen tellen hoeveel personen blauwe, groene en bruine ogen hebben en dan de modus bepalen. Het bepalen van een mediaan of gemiddelde heeft geen zin voor nominale gegevens omdat de mediaan vereist dat de gegevens kunnen worden geordend en het gemiddelde gebasseerd is op de afstand tussen de scores. Ordinale data: Bij ordinale data kun je zowel de modus als de mediaan gebruiken, omdat mediaan gebaseerd is op de ordening van scores. Het gemiddelde is niet geschikt, omdat het gebaseerd is op de afstand tussen de verschillende scores en omdat het ervan uitgaat dat de afstand op alle punten van de schaal gelijk is. Interval en ratio data: Voor interval en ratio data kan je de modus berekenen indien de data discreet is. Als de gegevens continu zijn, zijn er mogelijk niet veel waarden die veel voorkomen. 26 Kommagetallen maken het berekenen van de modus moeilijk, daarom bereken je de modus best niet voor continue interval of ratio data. Zowel de mediaan als het gemiddelde zijn geschikt voor interval en ratio data, want van zodra data interval van aard zijn kunnen de scores geordend worden. B. De extreme scores (score outliers) Een uitschieter of outlier is een score die heel anders is dan de rest van de data. In onze dataset blijkt dat de score 11 heel laag is in vergelijking met de negen andere scores. Deze waarde wordt een uitschieter genoemd. Wanneer uitschieters geïsoleerd zijn, zijn ze vrij gemakkelijk te herkennen met behulp van grafieken. Outliers kunnen worden beschouwd als gegevenspunten die heel atypisch zijn. Als we één of meer van deze punten hebben kunnen centrummaten beïnvloed worden. De vraag is dus moeten we outliers negeren of weglaten? Vaak vertellen die waarden ons iets zeer interessant en dan moeten we ze eerder analyseren in plaats van weglaten. Algemeen: Een outlier heeft weinig invloed op de modus en de mediaan. Een outlier heeft wel een (vrij sterke) invloed op het gemiddelde. Dit komt omdat ze het centrum op een verschillende manier meten. Het gemiddelde wordt gedefinieerd in afstanden tot centrum. Een score ver van het centrum kan het gemiddelde sterk beïnvloeden. De mediaan niet het als de middelste score en de modus meet het als de meest frequente score. De mediaan heeft als doel de gegevens in twee gelijke helften op te splitsen zonder rekening te houden met de afstand van elke score tot het centrum. 27 Is de mediaan dan beter dan het gemiddelde? Niet noodzakelijk. Het gemiddelde heeft veel nuttige kenmeren. Het gebruikt elke score uit de dataset en is dus normaal vrij representatief. Het belangrijkste is dat het over het algemeen vrij stabiel is over steekproeven heen. Dat wil zeggen dat als je meerdere steekproeven zou nemen en er hetzelfde in zou meten, de gemiddelde in die steekproeven relatief hetzelfde zouden moeten zijn. Dit is minder waar voor de mediaan. 2.5. Spreidingsmaten (variability). Nu we het midden van de verdeling kunnen identificeren hebben we een manier nodig om de spreiding van de scores te kwantificeren. De spreiding geeft aan hoever de scores uit elkaar liggen. Voorbeeld: In de eerste set scores zien we bijvoorbeeld enige variabiliteit. De volgende set scores heeft hetzelfde gemiddelde namelijk 4, maar bevat veel minder variabiliteit dan in de vorige set. De laatste set heeft opnieuw een gemiddelde van 4, maar bevat helemaal geen variabiliteit. De scores verschillen niet van elkaar. Spreiding/variatie kan worden gezien als een maat van hoe verschillend de scores van elkaar zijn. Door middel van centrummaten trachtte we een representatieve 28 waarden te vinden voor onze dataset. Spreidingsmaten daarentegen laten zien hoeveel variatie er in de verdeling zit. 2.5.1 De spreidingsbreedte. De spreidingbreedte is de eenvoudigste maatstaf van de variabiliteit en is vrij intuïtief. Het is de afstand tussen de hoogste en de laagste score. De spreiding breed wordt berekend door de laagste score in een verdeling af te trekken van de hoogste score. Spreidingsbreedte = maximum score – minimum score In ons voorbeeld is de breedte gelijk aan 21 (32-11). Belangrijk is dat outliers de breedte radicaal kunnen beïnvloeden. Stel als we 11 niet meerekenen, maar 32-28 = 4 hebben. Een oplossing is het bereken van de spreidingsbreedte met uitsluiting van de waarden aan de uiteinden van de verdeling. Het is gebruikelijk om de bovenste en onderste 25% van de scores af te snijden en de spreidingsbreedte van de middelste 50% van de scores te berekenen. Dit staat bekend als de interkwartielafstand. 2.5.2 Interkwartielafstand. Stap 1: Bereken de kwartielen. Dat zijn de drie waarden die de gesorteerde gegevens in vier gelijke delen opsplitsen. Het gaat eigenlijk over het berekenen van drie medianen. Je berekent eerst de mediaan van de hele dataset, deze wordt ook wel het tweede kwartiel genoemd. Dit omdat het de gegevens in twee gelijke delen splitst. De onderste helft van de scores wordt [11, 28, 29, 29 en 30] en de bovenste helft van de scores wordt [30, 30, 31, 31 en 32]. We moeten nu de mediaan van de beide helften berekenen. Voor de onderste helft zal volgens de formule de mediaan op positie 3 in de lijst staan. De mediaan van de eerste helft is dus 29, deze wordt het eerste kwartiel genoemd. Voor de bovenste helft zal volgens de formule de mediaan ook op plaats 3 staan. De mediaan van de bovenste helft is dus 31, deze wordt het derde kwartiel genoemd. 29 Stap 2: Bereken de interkwartielafstand. De interkwartielafstand kan je berekenen door: kwartiel 3 – kwartiel 1 OF Q3 – Q1. In het voorbeeld is dat dus: Q3 – Q1 = 31 – 29 = 2 Wordt de interkwartielafstand beïnvloed door de extreme scores/outliers? De interkwartielafstand verandert niet als je de extreme score uitsluit. Het wordt niet beïnvloed door de outliers omdat het zich concentreert op de middelste 50% van de scores. Nadeel: Je negeert de helft van je gegevens. Opmerking: Kwartielen zijn speciale gevallen van kwantielen. Kwantielen zijn waarden die datasets in gelijke delen opsplitsen. Kwartielen zijn getallen die de gegevens in 4 gelijke delen splitsen. Je kan ook andere kwantielen hebben. Percentielen zijn punten die gegevens in 100 gelijke delen splitsen. Nonielen zijn punten die de gegevens in 9 gelijke delen splitsen. 2.5.3 De variantie. Als we alle gegevens willen gebruiken in plaats van de helft kunnen we de spreiding van de scores berekenen door te kijken hoe verschillend elke score is ten opzichte van het gemiddelde. We gaan dus het verschil berekenen tussen elke score en het gemiddelde, dit verschil noemen we de afwijking. Als de afwijkingen groot zijn, moeten we concluderen dat er veel variabiliteit zit in onze dataset. Als de afwijkingen klein zijn, concluderen we dat er niet veel variabiliteit tijd is. Als we de totale afwijking willen weten, kunnen we de afwijking van elke score ten opzichte van het gemiddelde bij elkaar optellen. 30 Toepassing. De totale afwijking is nul, alsof er helemaal geen afwijking is. Dit kan niet waar zijn, omdat we in het diagram kunnen zien dat het gemiddelde anders is dan de geobserveerde scores. Dit komt omdat het gemiddelde in het midden van de verdeling staat en dus zijn sommigen van de afwijkingen positief en anderen negatief. Dit geeft ons een totaal van nul. Oplossing: Het berekenen van het kwadraat van iedere afwijking (= de gekwadrateerde afwijking). We kunnen dan deze kwadratische afwijkingen opstellen. Tenzij je scores precies hetzelfde zijn, zal het kwadraat groter zijn dan nul. Dit geeft aan dat er inderdaad sprake is van een afwijking ten opzichte van het gemiddelde. Merk op: Geen van de kwadratische afwijkingen is negatief. De totale kwadratische afwijking is dus een positief getal. 31 Probleem: Als men tien scores zou toevoegen zou de gekwadrateerde afwijking groter worden. Dus hoewel we de kwadratisch afwijking kunnen gebruiken als indicator voor de totale afwijking t.o.v. van het gemiddelde, zal de groter afhangen van het aantal observaties dat we in de dataset hebben. Dit is vervelend als we de totale afwijking willen vergelijken over steekproeven van verschillende groottes heen. Een eenvoudige oplossing is om te delen door het aantal observaties om de gemiddelde afwijking in het kwadraat te verkrijgen (= variantie (S2)). We zullen echter delen door het aantal observaties min één (= n – 1). De reden hiervoor is dat we meestal steekproeven van populaties meten en dat statistici hebben vastgesteld dat varianties die berekend zijn op basis van steekproeven, de varianties van populaties systematisch onderschatten. In ons voorbeeld: variatie (S’) = 12 : (9-1) = 1,5  Het gemiddelde verschil van de scores van de studenten ten opzichte van het gemiddelde is ongeveer 1,52.  Hier is op zich niets mis mee om dit zo uit te drukken, maar soms is het handiger om het om te zetten naar de oorspronkelijk meetschaal zodat we kunnen praten over punten en niet over punten in het kwadraat→standaardafwijking. 2.5.4 De standaardafwijking/standaarddeviatie. Zoals we hebben gezien is de variantie de gemiddelde afwijking in het kwadraat tussen het gemiddelde en de verschillende scores. Het probleem is dat de variantie een maat geeft in het kwadraat. Voor de interpretatie kan het nuttig zijn om de variantie om te zetten naar de oorspronkelijke meeteenheid. Hiervoor nemen we de vierkantswortel van de variantie. Deze maat staat bekend als de standaardafwijking (S). Een standaardafwijking van 1,22 betekent dat de scores gemiddeld 1,22 punten afwijken van het gemiddelde. 32 Als maatstaf voor de variabiliteit vertelt de standaardafwijking ons hoeveel elke score is een dataset gemiddeld afwijkt van het gemiddelde. Een kleine standaardafwijking ten opzichte van het gemiddelde geeft aan dat de datapunten dicht bij het gemiddelde liggen. Een grote standaardafwijking ten opzichte van het gemiddelde geeft aan dat de datapunten ver van het gemiddelde liggen. Een standaardafwijking van nul zou betekenen dat alle scores gelijk zijn. Deze twee datasets hebben gemiddeld dezelfde score van 20,2, maar de scores zelf zeer verschillend. De eerste grafiek heeft een standaardafwijking van 1,6. Dit is relatief klein t.o.v. van het gemiddelde. De scores liggen dicht bij het gemiddelde of met andere woorden de scores zijn niet te wijd verspreid over het gemiddelde. Dit in tegenstelling tot de tweede grafiek waarin de scores een standaardafwijking van 12 hebben, wat redelijk hoog is ten opzichte van het gemiddelde. Eigenlijk is het gemiddelde representatiever voor de scores van de eerste grafiek dan voor de scores dan de tweede grafiek. Dit komt ook tot uiting in de lage standaardafwijking. De variantie en de standaardafwijking vertellen ons over de vorm en de verdeling van de scores. Als het gemiddelde representatief is voor de scores zullen de meeste scores dicht bij dat gemiddelde liggen en zal de resulterende standaardafwijking relatief klein zijn ten opzichte van dat gemiddelde. 33 2.5.5 Welke spreidingsmaat moet ik gebruiken? Bij de afweging van welke spreidingsmaat je zal gaan gebruiken moet je nadenken over de volgende zaken. A. Welke soort data die je hebt? Nominale data: Omdat voor alle spreidingsmaten gegevens moeten worden gerangschikt is geen enkele spreidingsmaat geschikt voor gegevens op het nominale niveau. Ordinale data: De spreidingsbreedte en interkwartielafstand zijn geschikt voor ordinale data. De interkwartielafstand heeft meestal de voorkeur omdat deze informatiever is dan de spreidingsbreedte. Interval en ratio data: Voor interval en ratio data zijn alle spreidingsmaten geschikt. De standaardafwijking heeft meestal de voorkeur. Standaardafwijking of variantie zijn echter niet geschikt wanneer er extreme scores in de dataset zitten. In deze situatie heeft de interkwartielafstand de voorkeur. 34 B. Box-plot. Een box-plot is één van de nuttigste manieren om gegevens grafisch weer te geven. Een box-plot bestaat uit een box die middelste 50% van de scores bevat en twee lijnen die uitsteken om de grenzen van de gegevens weer te geven, met uitzondering van eventuele extreme scores. Deel 1: De box In het midden van de box wordt de mediaan aangeduid. De bovenkant van de doos toont het derde kwartiel en de onderkant toont het eerste kwartiel. Dit betekent dat de boven- en onderkant van de box de grenzen zijn waarbinnen de 50% van de waarnemingen vallen (= de interkwartielafstand). Deel 2: De lijnen die uitsteken De lijnen die uitsteken beginnen bij het derde en het eerste kwartiel. Ze tonen ons ongeveer de bovenste en onderste 25% van de scores. Waarom ongeveer? Omdat de grafiek rekening houdt met eventuele outliers, dus voordat we de lijnen tekenen beschouwen we de scores die groter zijn dan het derde kwartiel en de scores die kleiner zijn dan het eerste kwartiel. Als er geen outliers zij in die scores, dan tonen de 35 lijn precies de bovenste en onderste 25% van de scores. Als er wel uitschieters/outliers zijn, dan tonen ze ongeveer de bovenste en onderste 25% van de scores. Dit omdat de uitschieters worden uitgesloten. De outliers/uitschieters zelf worden getoond als stippen buiten de lijnen. Je krijgt dus meteen een overzicht van hoeveel uitschieters er in de data zitten. 36 Module 3 - De Grondbeginselen van de Inferentiële Statistiek: Hypothesetoetsing. Uit vorige modules weten we dat beschrijvende statistiek ons toelaat om data op een betekenisvolle manier te presenteren hetgeen het eenvoudiger maakt de gegevens te interpreteren. Het uitvoeren van een beschrijvende statistische analyse van je dataset is cruciaal. Wanneer je dit niet doet verlies je waardevolle inzichten in je data. Vervolgens gaan we over naar de inferentiële statistiek: Inferentiële statistiek wordt gebruikt om iets af te leiden over de populatie op basis van de kenmerken uit een steekproef van de populatie.  Met andere woorden, inferentiële statistiek stelt ons in staat om de verzamelde gegevens uit een steekproef te begrijpen en te veralgemenen naar de populatie waaruit die steekproef afkomstig is. We aanvaarden de hypothese slechts als er voldoende bewijs voor is. Inferentiële statistiek zal ons helpen te beslissen of de steekproefgegevens het resultaat zijn van toeval/een steekproeffout (= sampling error) of daadwerkelijk een weerspiegeling is van wat er zich in de populatie voordoet. De zwakte van de statistiek is dat men nooit iets met 100% zekerheid kan bewijzen. Hypothesetoetsing en inferentiële statistiek zijn gebaseerd op de aanname dat je niet kan bewijzen of iets al dan niet waar is. Het idee is dat we veronderstellen dat er niets bijzonders aan de hand is tot we bewijs hebben van het tegendeel. 3.1 Hypothesetoetsing. Hypothesetoetsing = veel gebruikte methode om wetenschappelijke theorieën te beoordelen. Het is ook een belangrijke procedure in inferentiële statistiek. Het is gebaseerd op het idee dat we uitspraken kunnen doen over de populatie op basis van een steekproef. 37 Een hypothesetoetsing gebeurt in 5 stappen: Voorbeeld: De geautomatiseerde productielijn van een fabriek vult tijdens elke shift duizenden dozen met ontbijtgranen. De operations manager is verantwoordelijk voor het controleren van de hoeveelheid ontbijtgranen die in elke doos wordt geplaatst. Om consistent te zijn met het etiket van de verpakking moeten de dozen gemiddeld 368 g Ontbijtgranen bevatten. Er waren de afgelopen dagen technische problemen en de operations manager heeft de indruk dat sinds die technische problemen het gewicht van de dozen afwijkt van de normale 368 gram. Hij stelt voor om het proces aan te passen. Aangezien hiervoor de productielijn moet worden stilgelegd vindt de CEO dit geen goed idee. Voor de productie wordt stilgelegd wil de operations manager dit grondiger analyseren. Onderzoeksvraag: Moet het vulproces aangepast worden? Hypothese: Het gewicht van een doos ontbijtgranen ≠ 368 gram. Het wegen van elke afzonderlijke doos is duur, tijdrovend en inefficiënt daarom neemt de operations manager een steekproef. Hij weegt elke doos uit de steekproef en analyseert deze gegevensverzameling. Hij berekent eerst beschrijvende statistieken om inzicht te krijgen in de verzamelde data en nadien maakt hij gebruikt van inferentiële statistiek om de bevindingen van de steekproef te veralgemenen naar de populatie. 38 3.2 Stel de nulhypothese en de alternatieve hypothese op. Een hypothese is een beredeneerde veronderstelling, die gebaseerd is op wetenschappelijke theorieën en die met wetenschappelijke methoden kan worden getoetst. - Alternatieve hypothese = hypothese waarvoor je bewijs wenst te leveren. Met deze hypothese wil je dat er een effect of verband bestaat. Voorbeeld: de manager wil weten of het gemiddelde gewicht afwijkt van 368 gram. - Nulhypothese = hypothese die de onderzoeker probeert te weerleggen. De nulhypothese verwijst meestal naar de status quo en gaat ervan uit dat er geen relatie of verband bestaat. Voorbeeld: de nulhypothese houdt in dat het gewicht van de doos niet beïnvloed wordt door de technische problemen of dat het gewicht gelijk is aan 368 gram. In de meeste onderzoek zul je alleen de alternatieve hypothese duidelijk uitgeschreven terugvinden. De impliciete nulhypothese wordt niet vermeld. Hoewel alleen info uit de steekproef beschikbaar is wordt de hypothese opgesteld in termen van de populatieparameter, omdat je in sé geïnteresseerd bent in de populatie. De nulhypothese fungeert als uitgangspunt omdat het de toestand is die als waar wordt aangenomen bij gebrek aan andere informatie. In ons voorbeeld moet de operations manager aannemen dat de dozen 368 gram wegen tot hij het tegendeel kan bewijzen. Als de gewichten uit de steekproeven voldoende boven of onder de 368 gram liggen, dan kan je de nulhypothese verwerpen ten voordele van de alternatieve hypothese. Als er geen bewijs is dat de nulhypothese verwerpt moet je er van uit gaan dat de gemiddelde vulling 368 gram is. Let op: je hebt niet bewezen dat de gemiddelde vulling 368 gram is, maar je bent er niet in geslaagd te bewijzen dat de gemiddelde vulling geen 368 gram is.  Als je de nulhypothese niet kan verwerpen, kan je alleen maar concluderen dat er onvoldoende bewijs is om de verwerping ervan te rechtvaardigen. Je hebt ze dus niet bewezen. 39 De nulhypothese bevat altijd een verklaring van gelijkheid, terwijl de alternatieve hypothese een aanvulling is van de nulhypothese en een verklaring van ongelijkheid bevat. De aard van deze ongelijkheid kan twee vormen aannemen: - Een niet-directionele hypothese = als de hypothese geen richting heeft aan de ongelijkheid. Tweezijdige toets: we zijn geïnteresseerd in twee richtingen hoger en lager dan een bepaalde waarde. - Een directionele hypothese = als de hypothese richting (meer dan/minder dan) heeft aan de ongelijkheid. Eenzijdige toets: als de hypothese een richting in veranderingen die of hoger of mager zijn dan een bepaalde waarde. 3.3 Bepaal een significantieniveau/drempelwaarde. In deze stap zullen we nagaan hoeveel bewijs we effectief nodig hebben om de nulhypothese te verwerpen. 3.3.1 Significant effect. Significant effect = effect dat in een steekproef naar voor komt is een bewijs van een effect in de populatie waaruit de steekproef is getrokken. Het effect dat in de steekproef wordt gevonden is niet aan toeval te wijten.  We moeten wat speelruimte laten in hoe zeker we zijn dat het effect te wijten is aan iets anders dan toeval. M.a.w. we kunnen er niet 100% zeker van zijn dat wanneer we een effect vinden in de steekproef dat effect ook aanwezig zal zijn in de populatie. 3.3.2 Significantieniveau. Alleen als de kans heel klein is dat we bij toeval een effect vinden in de steekproef, concluderen we dat er inderdaad een effect is in de populatie. Het punt waarop de kans laag genoeg is dat het effect niet aan toeval te wijten is wordt uitgedrukt als een significantieniveau. Significantieniveau/drempelwaarde is het risico dat we bereid zijn te nemen of te accepteren dat we de nulhypothese verwerpen terwijl ze eigenlijk klopt. Onderzoekers gebruiken doorgaans 0,05 als significatieniveau (= de alfawaarde). Dit betekent dat de wetenschappers voldoende vertrouwen hebben om aan te nemen dat er een effect is in de populatie wanneer slechts 5% kans is om het effect in de steekproef te vinden als er eigenlijk geen effect is in de populatie. Door het significantieniveau in te stellen op 5% accepteren we een kans van 5% om een effect in de steekproef te vinden dat geen effect vertegenwoordigd in de populatie 40 waaruit de steekproef is getrokken m.a.w. we accepteren dat er een kans van 5% bestaat dat we onterecht de nulhypothese verwerpen. Andere veel voorkomende significantieniveaus zijn 0,01 en 0,10 Bij het trekken van statistische conclusies hebben we twee mogelijke beslissingen: - We verwerpen de nulhypothese. - We verwerpen de nulhypothese niet en aanvaarden ze. Bij het testen van hypotheses is de beslissing van het al dan niet verwerpen gebaseerd op een steekproef en niet op de volledige populatie. Er bestaat dus altijd een kans dat we de verkeerde beslissing nemen. Men kan twee soorten fouten maken: - Type 1 fout: komt voor als de nulhypothese ten onrechte wordt verworpen. - Type 2 fout: komt voor als de nulhypothese ten onrechte wordt aanvaard. Bij het testen van hypothese toont alfa-waarde (α) (= significatieniveau) ons wat de kans is om een Type 1 fout te maken. De kans op het maken van een Type 2 fout wordt aangeduid als bèta (β). Idealiter gaat men het aantal Type 1 en Type 2 fouten minimaliseren. Dit is niet altijd gemakkelijk en niet altijd onder jouw controle. Je hebt volledige controle over het Type 1 fout-niveau of de hoeveelheid risico die je bereid bent te nemen. Je zou een strengere alfa kunnen instellen door bijvoorbeeld 0,01 te gebruiken om het risico te verkleinen dat je Type 1 fout begaat. Dit verhoogt echter het risico op het maken van een Type 2 fout. Hoewel Type 2 fouten niet beheersbaar zijn, zijn er manieren om ze te minimaliseren aangezien ze verband houden met factoren zoals steekproefomvang. Om Type 2 fouten te minimaliseren heb je dus een grote steekproef nodig. 41 3.3.3 Verwar statistische significantie niet met praktische effectgrootte. Het probleem met het woord significant is dat het in het alledaags taalgebruik een andere betekenis heeft dan in het statistische jargon. In alledaags taalgebruik kan significant groot of belangrijk betekenis. In statistische analyses kan significant iets heel anders betekenen. Iets kan klein en onbelangrijk zijn, maar toch statistisch significant zijn. Als een resultaat statistisch significant is, hebben we bewijs dat het resultaat/effect dat we in de steekproef waarnemen ook in de populatie bestaat. De effectgrootte geeft het waargenomen verschil tussen twee waarden weer en geeft de praktische betekenis van een bevinding weer. 3.4 Trek een steekproef en kies de correcte statistische toets. Stap 3 bestaat uit het trekken van een steekproef uit de populatie om je hypothese te testen. Zodra je data hebt verzameld is het tijd om de juiste statistische test te selecteren. Welke test je best gebruikt is afhankelijk van je steekproef en onderzoeksvraag. 3.5 Voer de statistische test uit en bepaal de P-waarde. De p-waarde wordt meestal berekent door een computerpakket zoals SPSS. In het algemeen starten we met de aanname dat nulhypothese waar is. We nemen een steekproef uit een populatie en berekenen een statistiek. Vervolgens gaan we na hoe waarschijnlijk het is om deze statistiek of dit effect te bekomen als de nulhypothese waar is (= P-waarde of sig.). Een P(robalility)-waarde is een kans. We willen weten of een effect dat in de steekproef optreedt een aanwijzing is voor een effect in de populatie. De P-waarde verteld ons de kans dat we een effect vinden in de steekproef door toeval en wanneer er dus eigenlijk geen effect is in de populatie.  De p-waarde geeft de kans aan dat we de nulhypothese ten onrechte zouden verwerpen. 42 3.6 Interpreteer de resultaten en trek een conclusie. Gebruik de P-waarde om te beslissen of de nulhypothese moet worden verworpen. - Als de P-waarde kleiner is dan het significantieniveau dat je eerder hebt gekozen: verwerp je de nulhypothese en aanvaard je de alternatieve hypothese. Dit wordt een significant resultaat op het 5%-niveau genoemd. Hoe kleiner de P-waarde, hoe minder bewijs we hebben dat de nulhypothese waarschijnlijk verkeerd is. - Als de P-waarde groter is dan het significantieniveau dat je eerder hebt gekozen: verwerp je de nulhypothese niet, maar aanvaarden we ze. Dit wordt een niet-significant resultaat op het 5%-niveau genoemd. Een grote P-waarde heeft aan dat er een grote kans bestaat dat de nulhypothese waar is. 3.7 Toepassing van ontbijtgranen. Stap 1: Hypotheses: H0: μ = 368 gram H1: μ ≠ 368 gram Voor de operations manager is de nulhypothese dat dozen met ontbijtgranen het juiste gewicht hebben. Het gemiddelde gewicht van de graandozen is 368 gram. De operations manager is van mening dat het gemiddelde gewicht niet meer gelijk is aan 368 gram vanwege de technische problemen. Het gemiddelde gewicht is dus niet gelijk aan 368 gram. 43 Stap 2: Bepalen van significantieniveau. 𝛼 = 0.05 De operations manager besluit een significantieniveau van 0.05 hanteren. Als de P- waarde lager is, zal hij de nulhypothese verwerpen. Stap 3: Steekproef en statistische toets. Nadat de operation manager zijn hypothese heeft opgesteld en het significantieniveau heeft bepaald, zal hij een willekeurig nemen van 25 dozen ontbijtgranen uit de huidige graandozen. Hij weegt de dozen en noteert hun gewicht. Hij berekent het gemiddelde van de steekproef. Het gemiddelde gewicht is 369,6 gram. Levert deze uitkomst voldoende bewijs dat de dozen ontbijtgranen niet het juiste gewicht hebben of is dit resultaat toeval? Stap 4: P-waarde. De operations manager gebruikt SPSS om de P-waarde te berekenen van zijn analyse waarin hij zijn steekproef- gemiddelde vergelijkt met 368 g. De bekomen P-waarde is 0,01. Deze P-waarde betekent dat als het populatie- gemiddelde voor alle dozen 368 g is dat er dan 1% kans is dat een steekproefgemiddelde niet gelijk is aan 368 g.  Er is slechts 1% kans om een steekproefgemiddelde van 369,6 gram te verkrijgen in de steekproef als er niets mis is met het vulproces. Dat wil zeggen, als de nulhypothese waar is en het gemiddelde gewicht van de graandozen 368 gram is. Stap 5: Conclusie. Hoe kleiner de P-waarde, hoe kleiner de kans dat het resultaat dat we kregen het gevolg is van toeval. Een P- waarde van 0,01 is lager dan het significantieniveau en levert dus voldoende bewijs om de nulhypothese te verwerpen. De operations manager heeft dus voldoende bewijs kunnen verzamelen dat de vulling aanzienlijk verschilt van de normale 368 gram. 44 Module 4 - Verschil- en Variantieanalyse: t-Testen en One-Way ANOVA Er bestaan verschillende soorten statistische toetsen binnen de hypothesetoetsing. Ze worden gebruikt in een ander context, maar ze doen hetzelfde: controleren of de nulhypothese al dan niet moet worden verworpen. Om de juiste toets de kunnen kiezen dienen we na te gaan of het onderzoek op zoek is naar een verschil tussen groepen of naar een relatie tussen variabelen. Wij behandelen de testen die gebaseerd zijn op een verschil, namelijk t-testen en ANOVA. Al deze testen gaan verschillen na in gemiddelde scores. 4.1. De One-sample T-test. Bij een one sample t-test testen we slechts één gemiddelde score. De one-sample t- test vergelijkt het gemiddelde van een enkele steekproef met een bekend of verwacht populatiegemiddelde. De one sample t-test vergelijkt het gemiddelde van één steekproef met een bepaalde constante. Voorbeeld: Grace is de manager van een klein bedrijf dat bijlessen verschaft aan leerlingen. Ze coördineert hierbij 27 leerkrachten. Grace wil een manier vinden om te bewijzen dat haar docenten de beste zijn in de omgeving. Ze besluit het medeleven en de vriendelijkheid van haar medewerkers te beoordelen met als doel deze scores te vergelijken met de concurrenten in de omgeving. Ze stelt twee enquêtes op die een 45 score op een schaal van 100 weergeven. De nationale gemiddelden (μ) zijn voor medeleven = 55 en voor vriendelijkheid = 45. Grace heeft twee onderzoeksvragen: OV1: Zijn de docenten van Grace’s bedrijf meer medelevend dan de concurrentie? OV2: Zijn de docenten van Grace’s bedrijf vriendelijker dan de concurrentie. Stap 1: Hypotheses: OV1: H0: μ ≤ 55 H1: μ > 55 OV2: H0: μ ≤ 45 H1: μ > 45 Omdat Grace enkel wil weten of haar docenten beter zijn dan die van de concurrenten stelt ze een richtinggevende/ eenzijdige hypothese. Als ze wou weten of de vriendelijkheid en het medeleven van de concurrenten gewoon anders was zou ze een tweezijdige hypothese hebben toegepast. Stap 2: bepaal het significantieniveau. Grace stelt het significatieniveau in op de standaardwaarde, nl. 0,05. Dit betekent dat ze bereid is om 5% kans op een Type 1 fout te accepteren. Stap 3: Steekproef en statistische test Grace heeft de steekproefresultaten van 27 docenten klaar staan om te analyseren. Grace heeft een one sample t-test omdat ze het gemiddelde van één enkele steekproef wil vergelijken met een gekende testwaarde of een verwacht populatiegemiddelde. Stap 4: Bereken de P-waarde (OV1). Uit de output van SPSS blijkt dat voor een steekproef van 27 deelnemers de gemiddelde score op medeleven 55,10 bedraagt. Moet Grace zich afvragen of het geen toeval is dat het gemiddelde in haar steekproef iets hoger ligt dan die van de populatie of kan ze besluiten dat er effectief bewijs is dat de gemiddelde score van haar docenten hoger ligt dan het gemiddelde van 55? Om hier een conclusie over te trekken heeft ze een P-waarde nodig. We zien een P- waarde in de kolom sig. (2- tailed) staan. De P-waarde is voor een tweezijdig test. Je moet de P-waarde dus in twee delen om de eenzijdige P-waarde te verkrijgen. Voor je dit doet moet je bepalen of de richting van de t-statistiek (= het resultaat van een 46 statistische berekening waarop de P-waarde is gebaseerd) consistent is met de alternatieve hypothese. OV1: In dit geval bevat onze alternatieve hypothese een >-teken. We zoeken dus naar een positieve t-statistiek. Onze t-statistiek is positief dus we kunnen doorgaan en de tweezijdige P-waarde in twee delen om een eenzijdige P-waarde te bekomen. Als de t-statistiek niet in overeenstemming zou zijn met de alternatieve hypothese, dan moeten we meteen besluiten om onze nulhypothese niet te verwerpen en dus te aanvaarden. Eenzijdige P-waarde = 0,961/2 = 0,48 (in huidige versie van SPSS moet je enkel naar one sided SIG kijken, dat is uw eenzijdige hypothese) Stap 5: conclusie (OV1) P = 0,48 > 0,05 De resultaten zijn dus niet statistisch significant, dus: Er is niet voldoende bewijs om de nulhypothese te verwerpen. Grace moet dus geloven dat haar docenten minder of net zo meelevend zijn als de concurrentie. 47 Laat ons andere gegevens van de SPSS bekijken: Mean difference/gemiddelde verschil = is het verschil tussen het geobserveerde steekproefgemiddelde en het verwachte gemiddelde/de gespecifieerde testwaarde.  Een mean difference van nul zou betekenen dat er geen verschil is tussen het steekproefgemiddelde en het verwachte gemiddelde. In ons geval is het gemiddelde verschil positief hetgeen aangeeft dat het gemiddelde van de steekproef groter is dan de verwachte waarde. Confidence/interval/betrouwbaarheidsinterval. Gewoonlijk kijken we naar 95%-betrouwbaarheidsintervallen en soms naar 99%- betrouwbaarheidsintervallen. Ze hebben een vergelijkbare interpretatie. Het zijn grenzen die zo zijn geconstrueerd dat voor een bepaald percentage van de steekproeven de werkelijke waarde van de populatieparameter binnen deze grenzen valt. Met andere woorden als je een 95% betrouwbaarheidsinterval van een gemiddelde ziet, denk er dan als volgt over: als we 100 willekeurige steekproeven op identieke wijze hadden verzameld en in elk van die steekproeven het gemiddelde en het betrouwbaarheidsinterval voor dat gemiddelde hadden berekend, dan bevat het interval voor 95 van die steekproeven het populatiegemiddelde. Het probleem is dat je niet weet of het betrouwbaarheidsinterval van een bepaalde steekproef behoort tot de 95% die het populatie gemiddelde bevat of tot de 5% die dat niet doet. OPGELET: Een betrouwbaarheidsinterval wordt zeer vaak verkeerd geïnterpreteerd. Let goed op deze foutieve interpretatie: een 95% betrouwbaarheidsinterval bevat met een kans van 95% de waarde van de populatieparameters. Die uitspraak is fout. In feite is voor een bepaald betrouwbaarheidsinterval de kans dat het de populatiewaarde bevat nul of één. Een bepaald betrouwbaarheidsinterval bevat de populatiewaarde wel of niet. Je kan echter niet weten welk van de twee het is. Het enige wat we concluderen is dat als we 100 steekproeven uit een populatie zouden trekken bij 95 daarvan het betrouwbaarheidsinterval de populatieparameter bevat. In de output zien we een 95%-betrouwbaarheidsinterval van het verschil tussen het geobserveerde steekproefgemiddelde en het verwachte gemiddelde. Dit interval geeft aan dat in 95% van de steekproeven het gemiddelde verschil tussen -4,2 en 4,4 zal vallen. P-waarden en de betrouwbaarheidsintervallen zijn het altijd eens over de statistische significantie. Je kan dus ook kijken naar de betrouwbaarheidsintervallen 48 om te bepalen of je de nulhypothese al dan niet verwerpt. Dit wil zeggen dat als het betrouwbaarheidsinterval niet de nulhypothesewaarde bevat dat je resultaat dan statistisch significant zijn. Aangezien ons betrouwbaarheidsinterval een interval is van het gemiddelde verschil is de nulhypothesewaarde in ons voorbeeld nul. Hetgeen betekent dat er geen verschil is tussen het steekproefgemiddelde en het verwachte gemiddelde. Nul bevindt zich in het betrouwbaarheidsinterval hetgeen aangeeft dat het gemiddelde verschil in 95% van de steekproeven zal vallen tussen -4,2O en 4,40 en dus ook nul zou kunnen zijn. In 95% van de steekproeven zou het verschil tussen het steekproefgemiddelde en het verwachte gemiddelde dus 0 kunnen zijn. Onze resultaten zijn dus niet statistisch significant, dus we gaan de nulhypothese verwerpen. Stap 4: Bereken de P-waarde (OV2) Uit de output van SPSS blijkt dat voor een steekproef van 27 deelnemers de gemiddelde score op vriendelijkheid 57, 67 bedraagt. We zien een P-waarde in de kolom sig. (2-tailed) staan. Deze P-waarde is voor een tweezijdig test. Je moet de P-waarde dus in twee delen om de eenzijdige P-waarde te verkrijgen. Dit moet je enkel doen als je alternatieve hypothese een richting aangeeft. In dit geval bevat onze alternatieve hypothese een >-teken. We zoeken dus naar een positieve t-statistiek. Onze t-statistiek is positief dus we kunnen doorgaan en de tweezijdige P-waarde in twee delen om een eenzijdige P-waarde te bekomen. Als de t-statistiek niet in overeenstemming zou zijn met de alternatieve hypothese, dan moeten we meteen besluiten om onze nulhypothese niet te verwerpen en dus te aanvaarden. Eenzijdige P-waarde = 0,000/ 2 = 0,000 49 Stap 5: Conclusie (OV2) Dit verschil is statistisch significant. Men kan de nulhypothese verwerpen en de alternatieve hypothese aanvaarden. Grace heeft voldoende bewijs om aan te tonen dat haar docenten vriendelijker zijn dan de concurrenten.  Omdat we een statistische significantie hebben gevonden zullen we een effectgrootte berekenen. De effectgrootte geeft het waargenomen verschil tussen twee waarden weer en geeft de praktische betekenis van een bevinding weer. De meest voorkomende effectgrootte is Cohen’s d. Dit staat voor het verschil tussen een steekproefgemiddelde en een populatiegemiddelde uitgedrukt in standaardafwijkingen. Het wordt berekend door de verschilscore te delen door de standaardafwijking: De effectgrootte betekend dat de gemiddelde steekproefscore 1,05 standaardafwijking groter is dan de gemiddelde populatiescore. 50 Het confidence Interval/betrouwbaarheidsinterval. In de output zien we een 95%-betrouwbaarheidsinterval van het verschil. Dit interval geeft aan dat in 95% van de steekproeven het gemiddelde verschil tussen 7,88 en 17,45 zal vallen. Dit betrouwbaarheidsinterval neemt de waarde nul niet mee op. Dit geeft aan dat 95% van de gemiddelde verschillen in de steekproef niet gelijk kunnen zijn als nul. Dit is dezelfde conclusie als de conclusie bij de P-waarde. Onze resultaten zijn statistisch significant op het niveau van 5%. 4.2 Two-samples T-test. Bij een two samples t-test vergelijken we gemiddelden van twee groepen. Er zijn twee categorieën van two samples t-test: - Paired samples t-test/match samples t-test/repeated measures = vergelijkt de gemiddelden tussen twee verwante groepen. Gepaarde steekproeven is eigenlijk gewoon één steekproef met twee metingen bij elk van de onderwerpen of waarnemingen. Voorbeeld: We willen een score vergelijken voor en na de bijlessen. Wij zijn geïnteresseerd in de verschillen tussen de twee metingen. Dezelfde persoon tweemaal scoren helpt om rekening te houden met variatie tussen mensen. - Idependent samples t-test = vergelijkt de gemiddelden tussen twee niet- verwanten groepen. Voorbeeld: Men vergelijkt de belangrijkste scores van mensen die face-to-face- onderwijs hebben gehad en degenen die via een online-cursus hebben geleerd. In dit geval zijn er twee steekproeven. Eén voor elke groep mensen. De twee steekproeven zijn onafhankelijk. Er is geen verband tussen de mensen in de ene groep en de mensen in de andere groep. 51 Toepassing OV1 en OV2 zijn voorbeelden van onderzoeksvragen die geanalyseerd worden aan de hand van de paired samples t-test. OV3 en OV4 met de independent samples t- test. Stap 1: Hypothese opstellen OV1: H0: µd ≤ 0 H1: µd > 0 Men wil de typvaardigheid vergelijken tussen werknemers bij aanwerving en na 6 maand op het werk. Hiervoor meet hij twee keer de typsnelheid van de werknemers in woorden per minuut. Eén keer bij de start van de job en één keer na 6 maand. De werkgever gelooft dat de werknemers na 6 maand beter kunnen typen dus hij denkt dat het gemiddelde verschil groter zal zijn dan nul. Er wordt een eenzijdige hypothese opgesteld.  De hypotheses zijn identiek aan die van de one sample t-test met uitzondering van de toevoeging d. Hetgeen het verschil in het populatiegemiddelde weergeeft (μd = μT2 - μT1).  Bij een paired samples t-test wordt het verschil tussen populatiegemiddelde steeds vergeleken met nul. 52 OV2: H0: µd = 0 H1: µd ≠ 0 => Dit betekent dat de tevredenheid na 6 maand verschillend is dan bij aanwerving. Dit kan zowel hoger als lager zijn. De werkgever wil de tevredenheid van de werknemers 6 maanden na aanwerving vergelijken met de tevredenheid op het moment van aanwerving. Hij meer de tevredenheid van de medewerkers twee keer. Eén keer bij de aanwerving en één keer 6 maand na de aanwerving. De werkgever weet niet of medewerkers na zes maanden op het werk meer of minder tevreden zullen zijn in vergelijking met het moment van aanwerving stelt hij een tweezijdige hypothese op. Stap 2: Significantieniveau bepalen. De werkgever stelt zijn significantieniveau (α) in op de standaardwaarde 0,05. Stap 3: Steekproef + statistische proef De werkgever heeft een steekproef genomen van 151 werknemers. Hij heeft iedere werknemer twee keer gemeten: één keer bij aanwerving en één keer 6 maand na de aanwerving. Stap 4: Bereken de P-waarde. OV1: We zien dat voor een steekproef met 151 proefpersonen het gemiddelde verschil tussen meetmoment één en meet moment twee 2,39 is. De werkgever kan zich bij dit resultaat afvragen of het toeval is dat de typsnelheid na 6 maanden dienst hoger is dan bij de aanwerving. Of bewijst dit verschil dat werknemers weldegelijk beter presteren 6 maanden na de aanwerving dan bij aanwerving? Om hierover te kunnen beslissen heeft hij een P-waarde nodig. 53 We zien een P-waarde in de kolom sig. (2-tailed) staan. Deze P-waarde is voor een tweezijdig test. Je moet de P-waarde dus in twee delen om de eenzijdige P-waarde te verkrijgen. Let op: eerst moet je nagaan of de t- statistiek in dezelfde richting is als jouw alternatieve hypothese. De alternatieve hypothese is > (groter dan), dit wijst op een positieve t-waarde. We kunnen de tweezijdige P-waarde dus in twee delen om een éénzijdige P- waarde te bekomen. Eénzijdige P-waarde = 0,004 / 2 = 0,002 OV2: We zien dat voor een steekproef met 151 proefpersonen het gemiddelde verschil tussen meetmoment één en meet moment twee 0,03 is. De werkgever kan zich bij dit resultaat afvragen of het toeval is dat de tevredenheid na 6 maanden dienst iets hoger is dan bij de aanwerving. Of bewijst dit verschil dat werknemers weldegelijk meer tevreden zijn 6 maanden na de aanwerving dan bij aanwerving? Om hierover te kunnen beslissen heeft hij een P-waarde nodig. 54 We zien een P-waarde in de kolom sig. (2-tailed) staan. Aangezien deze set van hypotheses bestaat uit een niet-directionele of tweezijdige hypothese, hoeven we de tweezijdige P-waarde niet te delen. De P-waarde is dus: 0,829. Stap 5: Conclusie. OV1: Dit verschil is statistisch significant. Men kan de nulhypothese verwerpen en de alternatieve hypothese aanvaarden. De werknemer concludeert dat werknemers 6 maanden na de aanwerving meer typvaardig zijn dan bij de aanwerving.  Omdat we een statistische significantie hebben gevonden zullen we een effectgrootte berekenen. 55 OV2: Het verschil is niet statistisch significant, dus: Er is niet voldoende bewijs om de nulhypothese te verwerpen. Er is onvoldoende bewijs dat werknemers 6 maanden na hun aanwerving en ander niveau van tevredenheid hebben dan wanneer ze in dienst werden genomen. 4.3 Independent samples T-test. Bij een paired samples t-test wordt elk studieobject twee keer gemeten, waardoor we de resultaten van beide meetmomenten per individu van elkaar kunnen aftrekken. Nadien hebben we het gemiddelde verschil over individuen vergeleken met de waarde nul. In een independent samples t-test kunnen we zo een verschil niet berekenen, omdat we maar één stuk informatie hebben over elk individu. We moeten in de plaats twee gemiddelden met elkaar vergelijken: het gemiddelde van elke groep. 56 Stap 1: Hypothese opstellen. OV3: H0: µman = µvrouw => H0: µman - µvrouw = 0 H1: µman ≠ µvrouw => H1: µman - µvrouw ≠ 0 OV4: H0: µervaren ≤ µonervaren => H0: µervaren - µonervaren ≤ 0 H1: µervaren > µonervaren => H1: µervaren - µonervaren > 0 Stap 2: Significantieniveau bepalen. De werkgever stelt zijn significantieniveau (α) in op de standaardwaarde 0,05. Stap 3: Steekproef + statistische proef. De werkgever heeft een steekproef genomen van 151 werknemers. Dit waren 74 mannen en 77 vrouwen. 72 werknemers hadden enige typervaring terwijl 79 geen ervaring hadden. Stap 4: Berekenen van de P-waarde. OV3: We zien dat de mannelijke groep 74 deelnemers had, terwijl de vrouwelijke groep 77 deelnemers had. Mannen typen gemiddeld 69,36 woorden per minuut. Vrouwen typen gemiddeld 69,01 woorden per minuut. De werkgever kan zich bij dit resultaat afvragen of het verschil tussen mannen en vrouwen per toeval is in zijn steekproef. Of bewijst dit dat vrouwen ook in de populatie sneller typen dan mannen? Om hierover te kunnen beslissen heeft hij een P-waarde nodig. Er zijn echter twee rijen zichtbaar nl. equal variances assumed en equal variances not assumed. Om te weten welke rij je moet beschouwen, moet je eerst de uitkomst van de Levene’s test (= statistische toets die nagaat of varianties over de groepen heen al dan niet verschillen of gelijk zijn aan elkaar) bekijken. De nulhypothese voor de Levene’s test is dat de varianties gelijk zijn en de alternatieve hypothese is dat de varianties verschillend zijn. Binnen het onderdeel van de Levene’s test zien we een P-waarde van 0,98 hetgeen een niet significant resultaat betekent. We moeten de nulhypothese dus behouden en aannemen dat de varianties gelijk zijn. We moeten dus enkel rekening houden met de waarden in de rij equal variances asumed. We zien de nodige P- waarde staan onder sig. (2-tailed). Aangezien deze set van hypotheses bestaat uit een niet-directionele of tweezijdige hypothese, hoeven we de tweezijdige P-waarde niet te delen. De P-waarde is: 0,69. 57 OV4: We zien dat de ervaren groep 72 deelnemers had, terwijl de onervaren groep 79 deelnemers had. Ervaren werknemers typen gemiddeld 71,65 woorden per minuut. Onervaren werknemers typen gemiddeld 66,00 woorden per minuut. De werkgever kan zich bij dit resultaat afvragen of het verschil dat hij opmerkt in de steekproef toevallig is. Of bewijst dit dat er ook in de populatie een verschil is tussen de typsnelheid van ervaren en onervaren werknemers? Om hierover te kunnen beslissen heeft hij een P-waarde nodig. Er zijn echter twee rijen zichtbaar nl. equal variances assumed en equal variances not assumed. Om te weten welke rij je moet beschouwen, moet je eerst de uitkomst van de Levene’s test bekijken. We zien een niet significant resultaat voor de Levene’s test hetgeen betekent dat we de nulhypothese mogen aanvaarden. We kunnen er dus van uitgaan dat de varianties gelijk zijn aan elkaar en beschouwen de rij equal variances asumed. We zien de nodige P-waarde staan onder de titel sig. (2-tailed). Dit is de tweezijdig P- waarde, maar aangezien onze alternatieve hypothese een eenzijdig hypothese is, moeten we de tweezijdige P-waarde delen door twee. Let op: eerst moet je nagaan of de t-statistiek in dezelfde richting is als jouw alternatieve hypothese. De alternatieve hypothese bevat een > (groter dan) -teken, dit wijst op een positieve t-waarde. We kunnen de tweezijdige P-waarde dus in twee delen om een éénzijdige P-waarde te bekomen. Eénzijdige P-waarde = 0,001 / 2 = 0,0005. 58 Stap 5: Conclusie. OV3: P = 0,69 > 0,05 (α) Het verschil is niet statistisch significant, dus: Er is niet voldoende bewijs om de nulhypothese te verwerpen. Er is onvoldoende bewijs om te concluderen dat mannen en vrouwen met een verschillende snelheid typen als ze worden aangenomen. OV4: P = 0,00 < 0,05 (α) Dit verschil is statistisch significant. Men kan de nulhypothese verwerpen en de alternatieve hypothese aanvaarden. Er is voldoende bewijs om te concluderen dat ervaren werknemers sneller typen dan onervaren werknemers.  Omdat we een statistische significantie hebben gevonden zullen we een effectgrootte berekenen. In dit geval vertegenwoordigt cohen’s d het verschil tussen de gemiddelde van beide steekproeven uitgedrukt in standaardafwijkingen. Het wordt berekend door het verschil tussen de gemiddelden van de steekproeven te delen door de gepoelde standaardafwijking. 59 Absolute value of d Size of effect 0.8 Large effect De effectgrootte heeft aan de ervaren werknemers 0,58 standaardafwijkingen sneller typen dan onervaren werknemers. Dit is een middelgroot effect. 4.4 One-way ANOVA = Analyses of variances. One-way ANOWA = een statistische test die wordt gebruikt wanneer we gemiddelden willen vergelijk van meer dan twee onafhankelijke groepen. Voorbeeld: Je zou een one-way ANOVA kunnen gebruiken om te begrijpen of de examenprestaties verschillend zijn op basis van de faalangst van studenten. Waarbij studenten in drie onafhankelijke groepen worden ingedeeld: lage, medium en hoge faalangst. Toepassing: De marketingmanager van een bedrijf heeft een webdesignbureau gecontacteerd om een nieuwe look voor haar website te creëren. Met als doel de hoeveelheid tijd die bezoekers op haar website spenderen te verbeteren. Het bureau ontwerpt vier verschillende designs. Om na te gaan welk van de ontwerpen zou resulteren in de grootste hoeveelheid tijd die op de website wordt doorgebracht ontwerpt de marketingmanager een experiment. Het is een experiment waarbij websitebezoekers willekeurig worden toegewezen aan één van de vier ontwerpen. Hierbij worden het aantal seconden dat op de website wordt doorgebracht vastgelegd. De manager wil de groepen met elkaar vergelijken en bekijken of de verschillende ontwerpen resulteren in een verschillende tijdsduur voor het bekijken van de website. Het websiteontwerp met de langste bezoektijd wordt het nieuwe ontwerp. OV: Beïnvloedt het websiteontwerp de hoeveelheid tijd die iemand doorbrengt op de website? De manager start met een beschrijvende analyse. Ze gebruikt SPSS om beschrijvende statistieken te berekenen. 60 Uit de tabel kunnen we afleiden dat de bezoekers van ontwerp B de neiging hebben om meer tijd door te brengen op de website dan de bezoekers van de andere ontwerpen. We willen weten of deze verschillen in de steekproef toevallig of dat deze verschillen in de steekproef een bewijs zijn voor bestaande verschillen in de populatie waaruit de steekproef is getrokken. Om de onderzoeksvraag na te gaan maken we gebruik van een one-way ANOVA. Total variance = within group variance + between group variance - Total variances : de verschillen tussen alle gespendeerde tijden samen. - Within group variances : eventuele verschillen in gespendeerde tijd binnen een groep.  Worden veroorzaakt door toeval: mensen verschillen van elkaar. - Between group variance : verschillen in de totale gespendeerde tijd tussen de groepen.  Worden veroorzaakt door het groepseffect + toeval. 61 Stap 1: Hypotheses. Binnen ANOVA kunnen geen richtingen worden aangegeven, dit maakt het opstellen van hypotheses eenvoudiger. H0: μ1 =μ2 =μ3 =μ4 H1: niet alle groepsgemiddelde zijn gelijk ANOVA vertelt ons dat groepsgemiddelden verschillen, MAAR... niet waar of welke verschillen plaatsvinden. Om te weten wat het aangetoonde verschil betekent zullen we een extra analyse moeten doen, genaamd een post hoc analyse. Stap 2: Significantieniveau. De manager stelt zijn significantieniveau (α) in op de standaardwaarde 0,05. Stap 3: Steekproef + statistische test. De manager verzamelt gegevens over 22 websitebezoekers. Ze wijst hen willekeurig toe aan één van de ontwerpen. 62 Stap 4: Bereken de P-waarde. In de output van SPSS zie je eerst en vooral de beschrijvende statistiek voor iedere groep afzonderlijk. We zien dat de gemiddelden in de steekproef duidelijk verschillend zijn. De manager kan zich bij dit resultaat afvragen of het verschil er per toeval is. Of dat dit verschil een bewijs is van het feit dat dit verschil ook voorkomt in de populatie? Om hierover te kunnen beslissen heeft hij een P- waarde nodig. De P-waarde is: 0,000. Stap 5: Conclusie. P = 0,00 < 0,05 (α) Dit verschil is statistisch significant. Men kan de nulhypothese verwerpen en de alternatieve hypothese aanvaarden m.a.w. er is minstens één gemiddelde verschillend van de andere gemiddelden.  Omdat we een statistische significantie hebben gevonden zullen we een effectgrootte berekenen. 63 = 63% van de totale variatie wordt verklaard door websitedesign. ANOVA vertelt ons dat de groepsgemiddelden verschillen, MAAR.... niet welke groepsgemiddelden verschillen  POST HOC ANALYSE (enkel bij statistisch significant) 64 In de output van SPSS zie je in de P-waarde-kolom dat: - Ontwerp A niet significant verschilt van ontwerpen C en D - Ontwerp B niet significant verschilt van ontwerp C - Ontwerp C niet vignificant verschilt van ontwerp A en D  Omdat de P-waarde tussen deze groepen groter is dan 0,05. Je kan dit ook zien aan het kleine bolletje dat na het getal staat. - Ontwerp A significant verschilt van ontwerp B - Ontwerp B significant verschilt van ontwerp D We hebben twee homogene subgroepen geïdentificeerd. Een groep met de ontwerpen D, A en C en één met de ontwerpen C en B. Optie 1: De manager kan gebruik maken van design B en C. Optie 2: De manager dient B te gebruiken omdat design B een ander gemiddelde heeft dat de andere groepen. 65 Module 5 - Correlatie In deze module starten we met testen die focussen op relaties tussen variabelen. In deze module starten we met correlaties. 5.1 Definitie Correlatie = is een statistische maat die de lineaire relatie tussen 2 variabelen uitdrukt. De correlatiecoëfficiënt toont ons aan hoe de waarde van de ene variabele verandert als de waarde van variabele ook verandert.  Het meet hoeveel variabele samen veranderen. In module 2 hebben we de correlatie grafisch weergegeven door middel van een scatterplot en een rechte die de trend in gegevens samenvat.  Doel: relatie tussen twee variabelen te kwantificeren. Dit gebeurt via de berekening van de correlatiecoëfficiënt. Er zijn verschillende manieren om dit te doen: Pearson, spearman en kendalls. In deze module bespreken we de pearson. 5.2 Pearson Het is de meest voorkomende maatstaf die de correlatie berekent. Het is de index die de lineaire relatie tussen twee variabelen weergeeft.  Het is een index omdat een correlatiecoëfficiënt geen betekenisvolle eenheden geeft. Wat is een lineaire relatie? Lineair verwijst naar een rechte lijn. Als er sprake is van een lineaire verband, dan zal dit grafisch een rechte zijn. De correlatiecoëfficiënt van Pearson toont de richting en de sterkte aan van de lineaire relatie tussen twee kwantitatieve variabelen. 66 5.2.1 Richting Er zijn twee mogelijke richtingen: Bij positieve relaties (spreidingsdiagram met een opwaartse helling) gaan beide variabelen tegelijkertijd in de dezelfde richting (Vb. Hoe meer je studeert, hoe hoger je examenscore zal zijn) Bij negatieve relaties (spreidingsdragram met een neerwaartse helling) gaat de ene variabel omhoog terwijl de ander omlaaggaat. (Vb. Hoe meer je sport, hoe lager je gewicht) 5.2.2 Sterkte De absolute waarde van de correlatiecoëfficiënt meet de sterkte van de lineaire relatie. Deze varieert steeds tussen -1 en +1. Hoe dichter de coëfficiënt ligt bij -1 en +2, hoe sterker de lineaire relatie. De twee sterkste relaties zijn -1 en -2. In dit geval spreken we van perfecte lineaire relaties. De data punten volgen in deze gevallen een perfecte rechte lijn.  We kunnen zeggen dat er voor elke waarde van de ene variabele één en slechts één mogelijke waarde is voor de andere variabele. 67 Bij een correlatie van 0 spreken we van een afwezigheid van een verband tussen de variabelen. In een spreidingsdiagram kan je dit herkennen door het zien van een vormloze puntenwolk. Een veelgemaakte fout treedt op wanneer studenten aannemen wanneer een positieve relatie sterker is dan een negatieve relatie en dit telkens door het teken. Een r = -0,7 is sterker dan r = 0,5. De sterkte van de relatie hangt af van de absolute waarde van de correlatiecoëfficiënt. 5.3 Toepassing Sofia is de eigenaar van een aannemersbedrijf en wordt ingehuurd door eigenaars van huizen en wordt ingehuurd voor projecten. Dit project vergt veel werk en moet zich beroepen op verschillende partijen (schrijnwerkers, elektriciens, …) en moet zorgen dat elke renovatie rendabel is. Ze heeft een grote verscheidenheid aan project en begint een patroon op te merken. De grote opdrachten lijken minder op te leveren. De complexiteit lijkt te resulteren tot een grotere kost dan de kleinere projecten, wat leidt tot minder winst. Wanneer Sofia meer geld verdient op kleinere projecten, wilt ze zich daar beter op focussen. Om te weten of haar patroon effectief correct is, is het onvoldoende af te gaan op haar buikgevoel. Ze heeft data nodig om dit verband te onderzoeken en heeft bewijs voor nodig. Om dit te onderzoeken bekijkt ze haar dossiers. Als eerste bekijkt ze het aantal dagen per opdracht (variabele 1) en de winst per dag (variabele 2). Haar onderzoeksvraag is of er een lineaire relatie is tussen de duurtijd van de opdracht en de winst per dag. Hiervoor zal ze een pearsons relatie coëfficiënt berekenen. 68 Stap 1: Opstellen van hypotheses De eerste stap is het opstellen van een nulhypothese en de alternatieve hypotheses. Dit betekent dat we een parameter nodig hebben om een correlatie in de populatie weer te geven. Dit wordt weergegeven in

Samenvatting Statistiek PDF

Document Details

Tags

Related

Summary

Full Transcript

Upgrade to continue