Statistiek 1 Notities PDF
Document Details
Uploaded by PrettyBohrium
UGent
Tags
Summary
These notes provide a comprehensive summary of statistical analysis techniques, encompassing descriptive and inductive approaches. They cover the empirical cycle, including hypothesis formulation, and various statistical concepts, making them relevant for statistical studies, research, and data-driven decisions.
Full Transcript
Statistiek: Redeneren met Data Inhoud Hoofdstuk 1: wetenschappelijk onderzoek op basis van de empirische cyclus I. Beschrijvende analyse Hoofdstuk 2: Een onderzoek naar smartphonegebruik en mentaal welzijn Hoofdstuk 3: Enkele beschrijvende technieken uitgelicht II. Inductieve...
Statistiek: Redeneren met Data Inhoud Hoofdstuk 1: wetenschappelijk onderzoek op basis van de empirische cyclus I. Beschrijvende analyse Hoofdstuk 2: Een onderzoek naar smartphonegebruik en mentaal welzijn Hoofdstuk 3: Enkele beschrijvende technieken uitgelicht II. Inductieve analyse Hoofdstuk 4: De Binomiaaltoets Hoofdstuk 5: Betrouwbaarheidsintervallen III. Beschrijvende en inductieve analyse Hoofdstuk 6: Samenhang tussen twee variabelen Hoofdstuk 1: wetenschappelijk onderzoek op basis van de empirische cyclus De empirische cyclus: 1. Observatie= waarnemen/verzamelen van empirisch feitenmateriaal ik zie mijn fiets niet staan tegen de boom. 2. Inductie= hypotheses formuleren op basis van de observatie mijn fiets staat niet meer op haar plaats, ze is waarschijnlijk gestolen. 3. Deductie= opstellen van voorspellingen op basis van de hypotheses als mijn fiets gestolen is, zal ze niet meer aan het stationsplein staan. 4. Toetsing= aftoetsen van de voorspelling op basis van nieuw empirisch feitenmateriaal na wat zoeken vind ik mijn fiets terug in een fietsrek. 5. Evaluatie= resultaat van de toetsing kritisch beoordelen mijn fiets is niet gestolen, maar iemand heeft ze verplaatst. Voorbeeld van de empirische cyclus in een onderzoek: à Je doet onderzoek naar de relatie tussen digitaal schermgebruik en het mentaal welzijn van jongeren. Observatie Schermgebruik: positieve of negatieve invloed? Inductie Goudlokje-principe » Beperkt schermgebruik: OK » Overmatig schermgebruik: niet OK 1 Deductie Mentaal welzijn zal niet dalen bij een beperkt schermgebruik Mentaal welzijn zal wel dalen bij een overmatig schermgebruik Toetsen Gegevens van 120 115 Engelse scholieren Gemiddeld genomen in lijn met de deductie Evaluatie Goudlokje-principe kunnen we niet verwerpen (maar ook niet bewijzen). Wijziging in mentaal welzijn is eerder beperkt. Geen causaal besluit. Vervolgonderzoek is nodig (de cyclus dus) Statistiek binnen de cyclus Statistiek= De wetenschap van het leren uit data en van het meten, controleren en communiceren van onzekerheid. Komt aan bod in toetsen, maar ook bij inductie, deductie en evaluatie. Vb. mentaal welzijn van scholieren die Geen smartphone gebruiken (180 scholieren) Dagelijks ongeveer 5 uur op de smartphone zitten (634 scholieren) Voor wie is het mentaal welzijn het hoogst? Gemiddelde Standaardafwijking Statistische geletterdheid= is het vermogen om te redeneren door middel van statistiek en data. Belangrijk voor: De gedragswetenschapper Maar ook daarbuiten: sleutelvaardigheid in een wereld waar kennis wordt aangedreven door data Statistische kennis is relevant voor: 1. Het formuleren van de onderzoeksvraag die beantwoord worden door middel van data 2. Het ontwerpen van de studie en het verzamelen van de data 3. Het verkennen van de verzamelde data via beschrijvende analyses 4. Het formuleren van conclusies die verder reiken dan de geobserveerde data via inductieve analyses 2 Deel I: Een Beschrijvende Analyse Hoofdstuk 2 Een onderzoek naar smartphonegebruik en mentaal welzijn Introductie: waarom dit onderzoek? Methode: hoe werd de studie uitgevoerd? Resultaten: statistische analyses Discussie: conclusies en open vragen Waarom dit onderzoek? à Adolescenten spenderen steeds meer tijd online. Moeten we het gebruik beperken? En wat is dan de wetenschappelijke evidentie voor de veranderingshypothese? à Er lijkt ook evidentie te zijn van een Goudlokje-principe, we zetten een onderzoek op om hier meer inzicht in te krijgen. Hoe werd de studie uitgevoerd? Wie? Populatie: Scholieren in Engeland die 15 jaar oud werden in 2013-2014 Observationele eenheden: scholieren Probleem: er zijn 650 000 scholieren Steekproef: oplossing Steekproefkader: de manier waarom we de steekproef bekomen Observationele eenheden: de eenheden waarvoor men data zal verzamelen. Steekproefkader: de lijst met info over de personen in de populatie die we gebruiken om de steekproef samen te stellen. Steekproeftrekking 1. Enkelvoudige aselecte steekproeftrekking (EAS) of enkelvoudige lukrake steekproeftrekking of simple random sampling 2. Gestratificeerde streekproeftrekkingen: populatie onderverdelen in strata en dan EAS per stratum 3. Gemakshalve steekproeftrekkingen (convenience sampling): theoretisch niet de beste keuze omwille van selectiebias, maar in de praktijk vaak gebruikt Enkelvoudige aselecte/lukrake steekproeftrekking= elke steekproef heeft dezelfde kans om gekozen te worden. Dit impliceert dat elk element in het steekproefkader dezelfde kans heeft om tot de steekproef te behoren Gestratificeerde steekproeftrekking= we delen de populatie op in een aantal strata en binnen en stratum voeren we een enkelvoudige aselecte steeproeftrekking uit. De proportie personen per stratum is gelijk aan die in de populatie Gemakshalve steekproeftrekking= personen die makkelijker bereikbaar zijn hebben een grotere kans om tot de steekproef te behoren. Nadeel: kan resulteren in een selectiebias 3 Toegepast op het onderzoek Gestratificeerde steekproeftrekking: 290 080 scholieren, lokale besturen als strata N= 112 153 150 000 scholieren hebben niet deelgenomen: non respons bias (Hele grote steekproef ten opzichte van de populatie) Wat werd er gemeten? Uitkomstvariabele mentaal welzijn via Warwick-Edinbrugh Mental Well-Being Scale Verklarende variabelen: gemiddelde aantal uur per dag (week/weekend) à Films, series à Games à Chatten, mails, schoolwerk op de pc à Sociale media, mails, games op gsm Controlevariabelen: à Geslacht à Etniciteit à Regio Doel= variabiliteit in de uitkomstvariabele verklaren via de verklarende variabelen en eventuele controlevariabelen in rekening brengen Variabelen= karakteristieken van de observationele eenheden die we wensen te onderzoeken. Operationaliseren= het meetbaar maken van de eigenschappen die men wenst te bestuderen. Analysestrategie/protocol Protocol: Belangrijk voor de repliceerbaarheid van de studie HARKing tegengaan Elementen van een protocol: Het doel van de studie De variabelen die gemeten zullen worden De onderzoekshypotheses De wijze waarop de steekproef verkregen zal worden De wijze waarop de data statistisch geanalyseerd zullen worden om de onderzoekshypotheses te valideren of falsificeren Cross-sectionele studie= een type studie waarbij men variabelen slechts op één moment in de tijd bevraagt. Longitudinale studie= een type van studie waarbij men een of meerdere variabelen op verschillende momenten in de tijd bevraagt. 4 Observationele studie= een type van studie waarbij men enkel observeert zonder een interventie uit te voeren. Experimentele studie= een type van studie waarbij men een interventie uitvoert om de impact van de interventie te onderzoeken. HARKing= hypotethisizing after the results are known, een werkwijze waarbij men onderzoekshypotheses opstelt op basis van bevindingen in de data en vervolgens diezelfde data gebruikt om hypotheses te toetsen. Deze manier is in strijd met de empirische cyclus. 2.3. Resultaten: de univariate analyse Beschrijvende analyse= hierbij gebruiken we statistische methoden om inzicht te krijgen in de data. We maken hierbij gebruik van tabellen, samenvattende maten en figuren. De analysetechniek hangt af van het type van variabele en de waarden die ze aanneemt. Volgende vragen kunnen gesteld worden: Wat is de verhouding jongen-meisje? Hoeveel scholieren identificeren zich als wit? Wonen er scholieren in gedepriveerde regio’s? … à deze vragen kunnen we beantwoorden door de verdeling van variabelen te bekijken. De verdeling= geeft weer welke waarden de variabele kan aannemen en hoe vaak elke waarde wordt aangenomen. Dit kan uitgedrukt worden in absolute of relatieve frequenties. De verdeling van één variabele wordt de univariate verdeling genoemd. Frequenties en odds Absolute frequentie= aantal keer dat een waarde van een variabele voorkomt in de steekproef. Relatieve frequentie= absolute frequentie gedeeld door de steekproefgrootte. Synoniem= proportie. AF= 53 273 & 58 880 RF= 53 273/112 153= 47.5% & 58 880/112 153= 52.5% 5 Odds= aantal keer dat een waarde van een variabele wordt aangenomen gedeeld door het aantal keer dat een andere waarde wordt aangenomen. (zie voorbeeld hierboven): de odds voor de meisjes is gelijk aan de verhouding van het aantal meisjes ten opzichte van het aantal andere scholieren. De odds is bijgevolg gelijk aan 58 880/53 273= 1.1 Hoe interpreteren we odds?: de odds geeft in voorgaande voorbeeld aan dat het aantal meisjes in de steekproef 10% hoger is dan het aantal jongens. OF de odds kunnen we interpreteren als het feit dat er per 10 jongens 11 meisjes zijn. Soorten variabelen o Kwalitatieve variabele (categorisch) à nominaal/ordinaal Nominaal= wanneer de waarden van een variabele niet geordend kunnen worden vb. geslacht) Ordinaal= wanneer de waarden van een variabele wel geordend kunnen worden vb. uitslag van een wedstrijd o Kwantitatieve variabele (numeriek) à interval/ratio Interval= wanneer er geen absoluut nulpunt is vb. temperatuur Ratio= wanneer er wel een absoluut nulpunt is vb. lengte à discreet/continu Discreet= wanneer de variabele een beperkt aantal waarden kan aannemen Continu= wanneer de variabele veel waarden kan aannemen ! een variabele die maar 1 waarde kan aannemen is GEEN variabele, want dat varieert namelijk niet en is dus constant ! Binaire variabele= Een variabele die slechts twee waarden aannemeent. Vb. een muntstuk kan enkel de waarden “kop” of “munt” aannemen. 6 Staafdiagram op maat à dit is geen goede diagram, doordat de sprongen van staven die genomen worden niet gelijk (niet equisidant) zijn & omdat ze bij de waarde 7 stopt. Een staafdiagram wordt vaak gebruikt wanneer het gaat om KWALITATIEVE VARIABELEN Deze diagrammen vormen een beter alternatief. De sprongen hier zijn gelijk, en ze gaan door na 7+ 7 2.3.4 Centrum en spreidingsmaten Mediaan & het gemiddelde= centrummaten want ze geven een idee over het centrum van de verdeling. Spreidingsmaten= maten die in staat zijn om de spreiding van variabelen te kwantificeren. Synoniem= variatie. Wanneer er geen spreiding is, nemen ze de waarde 0 aan, en worden groter naarmate dat er meer spreiding is. Ze kunnen ook nooit negatief zijn. o Bij geen spreiging: waarde 0 o Groter naarmate er meer spreiding is o Kunnen nooit negatief zijn Variatiebreedte= eenvoudige spreidingsmaat die gelijk is aan het verschil tussen de maximale en de minimale waarde van een variabele. Standaardafwijking= standaarddeviatie, de gemidelde afstand tussen de waarden en het steekproefgemiddelde Variantie= het kwadraat van de standaardafwijking. 8 Interkwartielafstand= spreidingsmaat die gelijk is aan het derde kwartiek Q3 min het eerste kwartiel Q1. Als we de elementen van een steekproef ordenen van klein naar groot en opdelen in vier gelijke stukken, dan krijgen we 4 kwartielen: 1. Q1: waarde van de variabele zodat 25% een waarde heeft kleiner dan deze waarde en 75% een waarde heeft groter dan deze waarde 2. Het tweede kwartiel: de mediaan Q2/MD waarde van de variabele zodat 50% een waarde heeft die kleiner is dan deze waarde en 50% een waarde heeft groter dan deze waarde 3. Q3: waarde van de variabele zodat 75% een waarde heeft kleiner dan deze waarde en 25% een waarde heeft groter dan deze waarde 2.3.5. histogram en boxplot Histogram= soort staafdiagram op basis van gegroepeerde data. Deze figuur wordt vaak gebruikt als een numerieke variabele veel waarden aanneemt. De vorm van het histogram hangt af van de manier waarop de data in groepen zijn opgedeeld. 2.3.6 Boxplot Boxplot= figuur op basis van de kwartielen en het minimum en maximum, die ook toelaat uitschieters te visualiseren. 9 De linkerkant van de rechthoek komt overeen met Q1, de rechterkant met Q3, en de stip in het midden de mediaan. De stippelijnen worden staarten genoemd, en lopen tot de kleinste en de grootste waarde die geen uitschieter is. Om te bepalen of een waarde een uitschieter is, wordt gebruik gemaakt van een rekenregel. Is de waarde groter dan Q3 + 1.5 x IKA, of is ze kleiner dan Q1 – 1.5 x IKA, dna wordt ze een uitschieter genoemd, anders niet. Uitschieters worden visueel weergegeven via de stippen. Symmetrische verdeling= de mediaan ligt in het midden van de rechthoek en de staarten zijn ongeveer even lang. Verdeling scheef naar links= de mediaan ligt rechts van het midden van de rechthoek en de staart links is langer dan die naar rechts. Verdeling scheef naar rechts= de mediaan ligt links van het midden van de rechthoek en de staart naar links is korter dan die naar rechts 2.4 Resultaten: bivariate analyses Bivariate verdeling= de verdeling van twee variabelen gezamenlijk. Wanneer we naar bivariate analyses kijken, zijn we geïnteresseerd in hun samenhang. 2.4.1 Kruistabellen à de som van alle cellen in de tabel is steeds gelijk aan de steekproefgrootte! à op basis van de bivariate verdeling kunnen we steeds de univariate verdeling opstellen door de rijden en kolommen op te tellen HORIZONTAAL= kolomtotaal VERTICAAL= rijtotaal 10 De relatieve frequenties ten opzichte van de totale steekproef: De voorwaardelijke relatieve frequenties ten opzichte van de kolomtotalen: De voorwaardelijke relatieve frequenties ten opzichte van de rijtotalen: De som van alle cellen is steeds gelijk aan 100%! Voorwaardelijke relatieve frequentie= de relatieve frequentie van die waarde binnen een deelverzameling van de steekproef. Kruistabel= tabel waarbij we de waarden van een variabele kruisen. Een kruistabel laat toe de bivariate verdeling van twee categorische variabelen op te stellen. Op basis van een kruistabel kunnen we verschillende relatieve frequenties berekenen: we kunnen delen door de steekproefgrootte, de kolomtotalen of de rijtotalen. De laatse twee mogelijkheden resulteren in voorwaardelijke relatieve frequenties. 11 Staafdiagrammen: De voorwaardelijke relatieve frequenties laten ons toe om de samenhang te bestuderen. Indien er geen samenhang is, dan verwachten we dat de komommen ongeveer gelijk zullen zijn. 12 Associatiematen voor kruistabellen: 1. Risicoverschil Risicoverschil= Het verschil tussen voorwaardelijke relatieve frequenties Relatief risico= de verhouding van twee voorwaardelijke relatieve frequenties. Het is de conventie om de grootste van beide frequenties in de teller te zetten zodat het relatief risico groter is dan 1. Odds ratio= is gelijk aan de verhouding van twee voorwaardelijke odds. Het is de conventie om de grootste van beide odds in de teller te zetten zodat de odds ratio groter is dan 1. à Wanneer Fa gelijk is aan Fb, het risicoverschil gelijk is aan 0 en de odds ratio gelijk zijn aan 1, dan hebben we geen samenhang! (uit de tabellen en maten van samenhang kunnen we besluiten dat er een samenhang is tussen etniciteit en regio. Scholieren met een andere etniciteit wonen vaker in een gedepriveerde regio dan witte scholieren.) 13 Spreidingsdiagram: Een nuttige figuur om de samenhang tussen beide variabelen te visualiseren is een spreidingsdiagram Toch is deze figuur niet geschikt om de samenhang te onderzoeken. Omdat 1 stip meerdere scholieren voorstelt, en omdat alle stippen even groot zijn, missen we belangrijke informatie. Deze figuur geeft ons een beter beeld, we zien een sterke positieve samenhang. 14 Spreidingsdiagram= tweedimensionale figuur waarop we de waarden van twee variabelen uitzetten ten opzichte van elkaar. Ze laat toe de verdeling van twee numerieke variabelen te visualiseren. Indien er veel eenheden eenzelfde waarde hebben, kun je ervoor kiezen om de grootte van de punten evenredig te maken aan het aantal herhalingen. Als we de samenhang van een kruistabel willen kwantificeren, dan kunnen we dit doen aan de hang van een pearson correlatiecoëfficiënt Rxy. à we zien een sterke positieve samenhang tussen smartphonegebruik in de week en in het weekend. We zien dit zowel visueel als numeriek. Correlatiecoëfficiënt= Rxy is een maat voor de lineaire samenhang tussen twee numerieke variabelen die een waarde tussen -1 en 1 aanneemt. Indien er geen samenhang is, zal de waarde rond 0 liggen. Bij een toenemende lineaire samenhang zal de waarde verder afwijken van nul. Regressierechte= de beste passende rechte voor de puntenwolk. 15 Correlatie en causatie + steekproef en populatie Causaliteit= een oorzaak- gevolgrelatie tussen twee variabelen waarbij wijzigingen in de ene variabele veroorzaakt worden door wijzigingen in de andere variabele. Vereenvoudiging: 0 vs 5 smartphonegebruik per dag Conceptueel: contrafeitelijk (counterfactual) denken In de praktijk: randomisatie Contrafeitelijk denken= door middel van contrafeitelijk te denken proberen we ons voor te stellen hoe de werkelijkheid zou zijn bij een bepaalde interventie zonder dat we die interventie hebben uitgevoerd. Terug naar observationeel onderzoek Opdelen volgens controlevariabelen 16 Het verschil in gemiddeld mentaal welzijn kan veroorzaakt worden door het smarphonegebruik, maar we weten nu dat het ook (deels of volledig) veroorzaakt kan worden door geslacht, omdat we ook jongens met meisjes vergelijken en meisjes vaker lager scoren op het mentaal welzijn. Confounder= een variabele die de relatie tussen twee andere variabelen kan verstoren/verwarren. We kunnen pas spreken over een confounder als: - de variabele met beide andere variabelen een samenhang vertoont! Causaliteit: randomisatie is nodig Observationele studie: geen randomisatie – voorzichtig formuleren (ook indien je controlevariabelen in rekening brengt) Van steekproef naar populatie 17 Hoofdstuk 3: enkele beschrijvende technieken uitgelicht Spreidingsmaten Spreidingsmaten kijken naar de verschillen tussen waarden. Het is net doordat de waarden van elkaar verschillen, dat we variatie hebben. Als een variabele meer variatie vertoont, dan zijn haar waarden meer gespreid. 1. Variatiebreedte De variatiebreedte vx: max-min Interpretatie: maximale verschil tussen 2 waarden à niet ideaal, ze is te eenvoudig en geeft een beperkt beeld Als de vx 0 is, wil dat zeggen dat de waarden even groot zijn aan elkaar. 2. Gemiddelde absolute afwijking gax interpreteren we als de gemiddelde absolute afwijking van de waarden van de variabelen ten opzichte van het steekproefgemiddelde. à als de waarden van een variabele dicht rond haar gemiddelde liggen, zal de gemiddelde absolute afwijking klein zijn à als de waarden van de variabele meer gespreid liggen, zal de gemiddelde absolute afwijking toenemen. 18 3. Standaardafwijking en variantie Standaardafwijking sx is de meest gebruikte spreidingsmaat. Variantie= s2x Over het algemeen gebruiken we vaker de standaardafwijking, omdat de variantie een andere meeteenheid heeft. Boxplot, uitschieters en de vorm van een verdeling Boxplot bestaat uit: o Eerste kwartiel o De mediaan o Derde kwartiel o Kleinste en grootste waarde o Stip in rechthoek= mediaan o Lengte van de rechthoek is gelijk aan de IKA en geeft een idee over de spreiding van de verdeling 19 o De helft van de waarnemingen ligt in de rechthoek o De boxplot laat toe te evalueren of de verdeling symmetrisch is. Als een verdeling symmetrisch is, verwachten we dat de mediaan in het midden van de rechthoek ligt en dat de stippellijnen (staarten) even lang zijn o De boxplot visualiseert eventuele uitschieters: dit zijn waarden die ver van de centrale helft van de waarnemingen liggen Gevoeligheid voor uitschieters 20 Het gemiddelde en de standaardafwijking zijn gevoelig voor uitschieters. De mediaan en de IKA zijn minder gevoelig voor uitschieters. à hoe meer de verdeling scheef naar links is, hoe groter het percentage observaties dat groter is dan het gemiddelde à hoe meer de verdeling scheef naar rechts is, hoe groter het percentage observaties dat kleiner is dan het gemiddelde Spreidingsmaten, correlatie en regressie Spreidingsmaten laten ons toe om de samenhang tussen 2 numerieke variabelen te visualiseren. Correlatie Het spreidingsdiagram bestaat uit 4 kwadranten: 1. Kwadrant 1 linksboven: hier kunnen waarden liggen waarvoor xi < gemiddelde x en yi > gemiddelde y waardoor (xi-gem x)(yi-gem y) negatief is 2. Kwadrant 2 rechtsboven: hier kunnen waarden liggen waarvoor xi > gemiddelde x en yi < gemiddelde y waardoor (xi-gem x)(yi-gem y) positief is 3. Kwadrant 3 rechtsonder: hier kunnen waarden liggen waarvoor xi > gemiddelde x en yi < gemiddelde y waardoor (xi-gem x) (yi-gem y) negatief is 4. Kwadrant 4 linksonder: hier kunnen waarden liggen waarvoor xi < gemiddelde x en yi < gemiddelde y waardoor (xi-gem x) (yi-gem y) positief is Kwadranten 2 en 4= positieve kwadranten Kwadranten 1 en 3= negatieve kwadranten 21 Covariatie= een maat voor lineaire samenhang tussen twee variabelen X en Y. correlatiecoëfficiënt= à in de praktijk gaan we vaker de correlatiecoëfficiënt gebruiken ipv de covariatie, dat komt omdat de covariatie niet begrensd is. Ze kan gelijk welke waarde aannemen. De correlatiecoëfficiënt daarentegen kan enkel waarden tussen -1 en 1 aannemen. 22 De meerwaarden van een correlatiecoëfficiënt komt pas tevoorschijn bij onderstaande figuur. Beide spreidingsdiagrammen geven dezelfde data weer, maar de assen verschillen. De figuur rechts geeft de infruk dat de samenhang minder sterk is in vergelijking met de figuur links. De correlatiecoëfficiënt helpt ons deze fout niet te maken. 23 Tot slot= we merken dat de correlatiecoëfficiënt tussen X en Y dezelfde is als die tussen Y en X, rxy=ryx. De volgorde van de variabelen heeft dus geen invloed op de waarde van de correlatie. Regressie Een regressierechte stelt een rechte voor die het best bij de punten past. Dat wil niet zeggen dat die rechte door alle punten gaat, want dit zal vaak niet mogelijk zijn. Daarom kiezen we voor de best passende rechte of de kleinste kwadratenrechte. Y= de uitkomstvariabele X= de verklarende variabele (Intercept= het punt op de Y-as waar de rechte begint) Regressierechte= een rechte die het best bij de puntenwolk past. Ze wordt weergegeven door de vergelijking: y= a+bx 24 à de regressierechte gaat altijd door het gemiddelde van X en het gemiddelde van Y Residu Residu= geeft het verschil weer tussen de geobserveerde waarde en haar voorspelling Residuendiagram= een spreidingsdiagram met ei op de verticale as en xi op de horizontale as. Eigenschappen van de regressierechte à 100 studenten hebben een score (x op 20) op een tussentijdse test. Ook hebben ze een score (y op x) op het echte examen. We willen inzicht krijgen in hoe de prestatie op de tussentijdse test samenhangt met de prestetie op het echte examen. Anderzijds willen we ook de prestatie op het eindexamen voorspellen op basis van het resultaat op de tussentijdse test. 25 We zien een positieve samenhang: de studenten die beter scoren op de tussentijdse test, scoren doorgaans ook beter op het examen. De correlatiecoëfficiënt bevestigd dit. Op deze afbeelding zien we dat de studenten die 14 haalden op de tussentijdse test, een score op het examen hebben dat varieert tussen 44 en 84, terwijl de voorspelling van het regressiemodel 17.3+3.2 x 14= 62.1. Dit komt doordat studenten die dezelfde score haalden op de tussentijdse test, verschillende scores op het examen kunnen behalen. à de voorspelling van het regressiemodel kan dus geïnterpreteerd worden als de GEMIDDELDE score op het examen voor alle studenten die een bepaalde score op de tussentijdse test hebben. Intercept= indien we xi= 0 invullen, verkrijgen we y(gem)= a + b x 0= a. Het intercept, hier a= 17.3, geeft de voorspelde gemiddelde score op het examen voor studenten die een 0 hadden op de tussentijdse test. Merk op dat we in de steekproef geen studenten hebben met een 0 op de tussentijdse test, waardoor deze voorspelling en extrapolatie is: we doen een voorspelling voor een waarde die buiten het geobserveerde gebied van de verklarende variabele ligt. Het is mogelijk dat de regressierechte geen goede beschrijving is in dit gebied en omdat we geen observaties hebben om dit na te gaan, proberen we extrapolaties te vermijden. Soms kan het ook zijn dat het intercept geen interpretatie heeft. Denk aan een voorbeeld waarbij je het gewicht in kg wil voorspellen op basis van de lengte van een persoon in cm. Het intercept geeft dan het gemiddelde gewicht van personen die 0 cm groot zijn, wat onzinnig is. In dergelijke gevallen berekenen we het intercept (want we hebben dat nodig om de regressierechte te tekenen en om voorspellingen te doen), maar we interpreteren het niet. Helling= om de helling te interpreteren, bekijken we twee groepen studenten: studenten met een score x op de tussentijdse test en studenten die 1 punt hoger scoren, een score x+1 dus. Voor de eerste groep geeft de regressierechte een voorspelde score op het examen van a+bx, terwijl dit voor de tweede groep gelijk is aan a+b(x+1)= a+bx+b. Het verschil in beide voorspellingen is gelijk aan b (en dit geldt voor elke waarde die je kunt invullen voor x). De helling geeft dus het verschil in voorspelde gemiddelde score op het examen indien de score op de tussentijdse test met 1 punt stijgt. Toegepast op het voorbeeld krijgen we b=3.2: 26 studenten die 1 punt hoger scoren op de tussentijdse test, scoren gemiddeld 3.2 punten meer op het examen. Extrapolatie= wanneer we de regressierechte gebruiken om voorspellingen te doen voor een waarde die buiten het geobserveerde gebied van de verklarende variabele ligt wordt dit een extrapolatie genoemd. Je kan de geschiktheid van de regressierechte visueel inspecteren op het spreidingsdiagram, of door gebruik te maken van het residuendiagram. Indien de regressierechte een goede beschrijving vormt, verwacht je dat de residuen geen patroon vertonen. Zie afbeelding à Correlatie herbekeken De gekwadrateerde correlatiecoëfficiënt geeft de proportie van de totale variantie in de uitkomstvariabele die verklaard kan worden door wijzigingen in de voorspelde score op basis van de regressierechte (en dus op basis van wijzigingen van de verklarende variabele). We bedoelen hiermee: als we kijken naar de scores op het eindexamen, dan zien we dat ze variëren. De variantie hiervan is gelijk aan 197.8. Via het regressiemodel kunnen we deze scores voorspellen en deze voorspellingen zullen ook variëren omdat de scores op de tussentijdse test variëren. De variantie van de voorspellingen is gelijk aan 109.6. Als we de verhouding bekijken tussen beide varianties, verkrijgen we 109.6/197.8= 0.55, wat gelijk is aan de gekwadrateerde correlatiecoëfficiënt cor xy= 0.744^2= 0.55. We kunnen dus via het regressiemodel 55% van de variantie in de score op het eindexamen verklaren. Of anders uitgedrukt: de voorspellingen op basis van de score op de tussentijdse test verklaren 55% van de variantie in de score op het eindexamen. We kunnen geen 100% verklaren (er zijn verschillende factoren die je score op het eindexamen kunnen beïnvloeden). Maar we kunnen er toch een groot deel van de variantie verklaren aan de hand van de prestatie op de tussentijdse test. Omwille van deze interpretatie geven we r^2xy een speciale naam= de determinantiecoëfficiënt. Determinantiecoëfficiënt= is gelijk aan de gekwadrateerde correlatiecoëfficiënt en geeft de proportie weer van de totale geobserveerde variantie in de uitkomstvariabele die verklaard kan worden door wijzigingen in de verklarende variabele. 27 = de determinantiecoëfficiënt (zie pagina 90 voor voorbeelden van grafieken!) Uitschieters Bij deze grafiek is de volle lijn de regressierechte wanneer we de uitschieter (laagste score op de tussentijdse test) wel in kaart brengen, en de stippelijn toont de regressierechte wanneer we de uitschieter niet in kaart brengen. We zien dat het punt hier een beperkte invloed heeft op de correlatiecoëfficiënt. Die is 0.8 met en zonder uitschieter 0.82 Bij deze figuur verschillen beide rechten wel sterk, omdat het punt de trend van de puntenwolk niet volgt. Volgens de puntenwolk verwacht je een lagere score op het examen als je score op de tussentijdse test slechts 2/20 is. De regressierechte zal de som van de gekwadrateerde verticale afstanden minimaliseren en omdat dit punt zo ver weg ligt, zal het als het ware de rechte deels naar zich toe trekken. Dit vertaalt zich ook in de correlatiecoëfficiënt, die is 0.8 als we de uitschieter in rekening brengen en 0.51 wanneer we dat niet doen. 28 Bij deze figuur is er ook een punt dat de trend van de puntenwolk niet volgt bij een score van 11/20 voor de tussentijdse test. De impact van deze observatie op de regressierechte is echter beperkt omdat de waarde van de predictor meer centraal ligt. Als de rechte dichter naar dit punt wil komen, zul je verticaal moeten verschuiven in plaats van te roteren zoals de vorige figuur. Als we ze verticaal verschuiven, zal de afstand tot alle andere punten echter groter worden, waardoor ze niet langer de rechte zal zijn met de kleinste gekwadrateerde afstand. De correlatiecoëfficiënt wijzigt ook niet veel. 0.8 op basis van alle punten, en 0.75 wanneer we de uitschieter negeren. (zie ook de residuendiagrammen op p.91: voor de residuendiagrammen voor de 1ste en de 3e figuur, zien we dat de residuendiagrammen symmetrisch rond 0 liggen, terwijl dat voor de 2e figuur negatief is. Dit komt omdat de rechte de puntenwolk niet goed beschrijft) à het punt in de middelste figuur is een invloedrijke observatie, omdat ze een grote impact heeft op de regressierechte, terwijl dit niet het geval is bij de uitschieters bij de andere 2 figuren. Vaak is het niet wenselijk dat een enkele observatie een grote impact heeft op de regressierechte, maar dat wil niet impliceren dat we die invloedrijke observaties gaan verwijderen uit de dataset. Het is wel belangrijk dat we ons bewust blijven van de invloed van die observatie op de regressierechte. Invloedrijke observatie= een observatie die een grote impact heeft op de regressierechte of de correlatiecoëfficiënt. Correlatie en causatie 29 We mogen niet zomaar causale besluiten trekken wanneer we een samenhang waarnemen tussen twee variabelen x en y. Soms kan een samenhang ontstaan door een derde variabele z, dat is een confounder. Wanneer spreken we van een confounder? à wanneer de variabele zowel een samenhang vertoont met X als met Y. De confounder kan zowel numeriek als binair zijn. Voorbeeld= de samenhang tussen de tussentijdse test en het echte examen kan deels verklaard worden door een derde variabele die het gemiddelde aantal uur per week weergeeft dat de student tijdens het jaar gestudeerd heeft voor het vak. Studenten die meer studeren halen doorgaans hogere scores op zowel de tussentijdse test als het examen. Dus: de score op het examen kan verklaard worden door de tussentijdse test, maar ook het aantal uur studeren voor het vak. Simpsons paradox Confounders kunnen er ook voor zorgen dat de samenhang wordt omgedraaid. Onderstaande figuren illustreren dat. à hier zien we een zwakke negatieve trend, waarbij studenten die meer studeren lager scoren. Hoe komt dat? Het komt omdat we de scores hebben voor 2 vakken. De rechtse figuur laat ons toe de samenhang voor twee vakken te bekijken. We zien per vak een 30 positieve samenhang. Het vak is hier dus een confounder: die hangt samen met de studietijd (studenten spenderen meer tijd aan vak 1) en met de score (de score van vak 2 ligt hoger). Eventueel kan dit zijn omdat vak 1 moeilijker is. Dit is een voorbeeld van een simpsons paradox, waarbij de samenhang van richting wijzigt als we gegevens van verschillende groepen combineren. Simpsons paradox= een bijzonder geval van confounding waarbij de richting van de associatie wijzigt wanneer de confounder in rekening wordt gebracht. Deel II: Een inductieve analyse Hoofdstuk 4: De binomiaaltoets Introductie binomiaaltoets Statistiek= inzicht krijgen in de variabiliteit Variabiliteit staat centraal bij de beschrijvende analyses: Verdeling van een variabele Variabiliteit verklaren Steekproeftrekking: Onderhevig aan toeval Resulteert ook in variabiliteit (tussen steekproeven): steekproefvariabiliteit Het steekproefgemiddelde is: Constant als we 1 steekproef bekijken Is een variabele vanuit het perspectief van een herhaling van de studie En we denken na over herhalingen omdat we de besluiten niet willen laten afhangen van toeval Nog een andere vorm van variabiliteit= variabiliteit als gevolg van toeval, veroorzaakt door de toevalstrekking van een steekproef. Wanneer we een studie meerdere malen uitvoeren, telkens met een andere steekproef, dan is er variabiliteit, en kan het zijn dat de data verschillen van steekproef tot steekproef. Steekproefvariabiliteit= bij een herhaling van de studie, op basis van een nieuwe steekproef, zijn samenvattende maten variabelen omdat hun waarden kunnen variëren van steekproef tot steekproef. à het steekproefgemiddelde is een variabele wanneer we de studie herhalen! à in het ideale geval is de variabiliteit klein, zodat de waarde niet te veel verschilt van studie tot studie à wanneer de variabiliteit groot is, dan brengt het de repliceerbaarheid van de beschrijvende analyses in gevaar (hoe waardevol zijn de studieresultaten dan?) 31 In de praktijk hebben we vaak niet de middelen om een studie meerdere keren te herhalen, maar hoe krijgen we dan een inzicht in de variabiliteit? Dit doen we aan de hand van kansmodellen. Statistische analyses die rekening houden met deze variabiliteit worden inductieve analyses genoemd. Kansmodel= een wiskundige weergave van de werkelijkheid die rekening houdt met de rol van toeval bij de steekproeftrekking. We gebruiken deze modellen om data te genereren die we nadien vergelijken met de waargenomen data. Inductieve analyse= we kijken verder dan de geobserveerde data! We stellen ons de vraag wat er precies zou gebeuren als we de studie vele malen zouden herhalen (maar doen dit niet effectief) Voorbeeld: Bij het opwerpen van een muntstuk weten we niet op voorhand of we ‘kop’ of ‘munt’ zullen gooien. Maar wat we wel weten, is dat wanneer we het muntstuk vele malen opgooien, we in de helft van de gevallen ‘kop’ zullen gooien, en in de helft van de gevallen ‘munt’. We doen hier een voorspelling over de relatieve frequentie zonder dat we de studie moeten herhalen. Verschil beschrijvende en inductieve analyses: 1. Beschrijvende analyses= de variabiliteit in één dataset, de waargenomen data, staat hier centraal 2. Inductieve analyses= de variabiliteit TUSSEN datasets staat hier centraal, waarbij de datasets worden verkregen door de studie herhaaldelijk uit te voeren. De datasets worden niet waagenomen omdat we de studie niet daadwerkelijk zullen herhalen. Kansmodellen zullen ons in staat stellen om die niet-waargenomen data te beschrijven. Inductieve analyse= verklarende/inferentiële analyse: maakt gebruik van kansmodellen om de steekproefvariabiliteit in rekening te brengen. Een inductieve analyse laat ons toe om verder te kijken dan de geobserveerde data, door in rekening te brengen wat er zou gebeuren indien we de studie herhaaldelijk uitvoeren onder gelijkaardige condities. De verkregen data van ons onderzoek is een momentopname in het toevalsproces. Dat wil zeggen dat er een eindeloze reeks van mogelijke observaties is wanneer we de studie vele malen zouden herhalen, en dat onze data een momentopname van deze reeks is. Dit omdat die studie 1 keer werd uitgevoerd. Voorbeeld: je werpt een geldstuk 10 keer op en je telt het aantal keer ‘kop’. Dit aantal zal verschillen als je de studie herhaaldelijk uitvoert en een momentopname bestaat uit 1 reeks van 10 worpen. Hierbij kunnen we onderliggende processen bestuderen: namelijk is het geldstuk eerlijk? Non-responses en meetfouten kunnen ook resulteren in een variabiliteit van de uitkomsten. 32 Toevalsproces= een herhaalbaar proces waarbij de individuele uitkomsten op voorhand onbekend zijn, maar een patroon vertonen bij voldoende herhalingen. We zullen de data van een wetenschappelijke studie bekijken als een toevalsproces: op voorhand weten we niet welke data we zullen observeren, maar als we de studie herhaaldelijk uitvoeren (op basis van nieuwe steekproeven die aan toeval onderhevig zijn), dan kunnen we wel patronen voorspellen. Onderzoek naar morele intuïtie bij baby’s Zijn we van nature goed? Verkiezen baby’s een pop die een goede daad stelt boven een pop die een slechte daad stelt? Steekproeftrekking: 16 baby’s van 10 maanden (experimentele eenheden) Uit New Haven (Yale university) Enkele vaststellingen: Geen populatie Geen steekproefkader Steekproef eventueel niet representatief voor bepaalde populaties omdat: Inkomen ouders evt hoger Opleidingsniveau ouders evt hoger Experimentele eenheden= de eenheden (vaak personen) die men in een experimentele studie zal bestuderen en waarvoor men data zal verzamelen. Poppenspel is NIET de realiteit! Waarom is de studie een voorbeeld van een experimentele en cross-sectionele studie? Omdat de onderzoekers via het poppenspel een interventie opzetten en de keuze slechts op 1 specifiek moment in de tijd geobserveerd wordt. Causaliteit Balanceren Rol van de lastpost/helpen omwisselen Volgorde van het poppenspel verschillen Volgorde van het aanbieden van de pop verschillen Balanceren= de waarden van een variabele gelijk verdelen over de eenheden. Dit wordt vaak gedaan om mogelijke confounders uit te schakelen. 33 Blinderen Ouder moet ogen sluiten Onderzoeksleider weet niet welk figuur de lastpost is en welk figuur de helper is Blinderen= bepaalde informatie wordt tijdens de studie achtergehouden voor personen die betrokken waren bij de studie, om zo ongewenste en onbewuste invloeden te elimineren. Blinderen komt vaak voor bij klinische studies waarbij men een nieuw medicijn wil vergelijken met een placebo. Zowel de proefpersonen als de arts weten dan niet welke pil het medicijn is en welke het placebo is. De onderzoekers die niet bij het experiment betrokken zijn weten dit uiteraard wel. Dit wordt een dubbel-geblindeerde studie genoemd. Beschrijvende analyse Odds: voor elke zeven baby’s die kiezen voor de helper, kiest er één baby voor de lastpost. antwoord= visueel lijkt het alsof het staafdiagram overeenkomt met de oorspronkelijke studie, maar 9-7 is een kleiner verschil dan 14-2. 34 Het toevalsproces en de steekproeftrekking Het toevalsproces Het toevalsproces bij de huidige studie kunnen we alsvolgt beschrijven: Er worden 16 baby’s van 10 maanden oud gerekruteerd Elke baby krijgt het poppenspel te zien Elke baby krijgt beide poppen aangeboden De keuze van de baby wordt bijgehouden De voorgaande vier stappen moeten exact hetzelfde verlopen als in de oorspronkelijke studie. Geen enkelvoudige aselecte steekproef, maar we zullen ze zo toch behandelen. Nulhypotheses Nulhypothese: baby’s hebben geen voorkeur Nulhypothese heeft betrekking op het toevalsproces (de populatie) Vertaling van de nulhypothese: indien we de studie eindeloos herhalen volgens dezelfde procedure, dan zal de helper even vaak gekozen worden als de lastpost. Op basis van de data (de keuzes van de 16 baby’s) zullen we een uitspraak doen over de nulhypothese: inductie Idee hypothesetoets: bewijs in de data zoeken om de nulhypothese te ontkrachten Nulhypothese= een bewering of aanname over het toevalsproces (de keuze van de baby bij het poppenspel) die we naar voren schuiven en die we wensen te toetsen aan de hand van de data. Als de data in lijn zijn met de nulhypothese, dan zullen we de bewering als plausibel bestempelen. Als de data niet in lijn zijn, dan zullen we ze als niet-plausibel bestempelen. Inductie: op basis van het bijzondere het algemene besluiten. Door gebruik te maken van kansmodellen gaan we proberen de nulhypothese te toetsen. Om dit te testen gebruiken we een muntstuk, waarbij het gooien van ‘kop’ we kunnen zien als het kiezen van de helper. Hier spreken we van modellering. Waarom? Omdat het opwerpen van het geldstuk het model is om het toevalsproces (de keuze van de baby wanneer we veronderstellen dat er geen voorkeur is) te beschrijven. Simuleren= het artificieel nabootsen van een toevalsproces door gebruik te maken van kansmodellen. 35 Inductieve analyse= hierbij willen we inschatten heo repliceerbaar de resultaten van de studie zijn als we de studie opnieuw kunnen uitvoeren op basis van een nieuwe steekproef. Het toevalsproces dat aanleiding geeft tot de data staat hierbij centraal. Dit toevalsproces gaan we moddeleren via een kansmodel. Bij een hypothesetoets modelleren we dit proces in de veronderstelling dat de nulhypothese waar is. Geld opwerpen= kansmodel Twee interpretaties: Aantal keer kop bij 16 worpen Aantal keer helper gekozen bij 16 baby’s indien ze geen voorkeur hebben We vergelijken nu 14 met de gesimuleerde herhalingen van de studie Besluit: Weinig waarschijnlijk dat baby’s willekeurig zullen kiezen Weinig waarschijnlijk dat baby’s geen voorkeur hebben Samenvatting 36 Hypothesetoets: formeel 5 stappen: 1. Hypotheses formuleren 2. Toetsingsgrootheid vastleggen (= koppeling hypothese en data) 3. Toevalsproces modelleren (= kansmodellen gebruiken om het onderzoek artificieel te herhalen) 4. Nulverdeling opstellen (= wereld waarin de nulhypothese waar is, simuleren via het toevalsproces) 5. P-waarde berekenen en interpreteren (= bewijskracht tegen de nulhypothese evalueren) Stap 1: hypotheses formuleren Er zijn 2 soorten hypotheses: de nulhypothese en de alternatieve hypothese Nulhypothese en alternatieve hypothese= zijn twee complementaire aannames over het toevalsproces. We zoeken bewijs in de data tegen de nulhypothese in het voordeel van de alternatieve hypothese. Het is de conventie om de nulhypothese steeds te schrijven in termen van een gelijkheid en de alternatieve hypothese in termen van ongelijkheid (groter dan, kleiner dan, of verschillend van). We gebruiken de notatie H0 voor de hulhypothese en Ha voor de alternatieve hypothese. P(Yi = 1): kans dat de helper wordt gekozen à kans is de relatieve frequentie van de keuze voor de helper wanneer we het toevalsproces eindeloos zouden kunnen observeren. De kans wordt ook wel de parameter van het proces genoemd. Soms noemt een parameter ook een populatieparameter omdat je hem kunt interpreteren als de relatieve frequentie in de populatie. 37 Parameter= een numerieke eigenschap van het toevalsproces dat we wensen te bestuderen. Kans= de kans op een gebeurtenis is gelijk aan de relatieve frequentie van die gebeurtenis als we het toevalsproces blijvend observeren. Symbolisch stellen we dit voor als P(A), wat je moet lezen als ‘de kans dat gebeurtenis A zich voordoet’. Als A het werpen van kop voorstelt, dan geldt: P(A) = P(kop werpen)= 0.5. Als we een eerlijk geldstuk vele malen na elkaar opwerpen, zullen we in de helft van de gevallen kop werpen. Als A het werpen van 4 is met een dobbelsteen, dan geldt: P(A)= P(4 werpen)= 1/6. Als we een dobbelsteen vele malen na elkaar opwerpen, zullen we in een zesde van de gevallen een 4 werpen. De kans op een gebeurtenis is een voorbeeld van een parameter. H0: p= 0.5 Ha: p > 0.5 Stap 2: toetsingsgrootheid vastleggen T= toetsingsgrootheid (= statistiek) Absolute frequentie: 14 Relatieve frequentie: 14/16 T= geobserveerde toetsingsgrootheid: 14 Relatieve frequentie kun je interpreteren als een schatter van de parameter p. Als we de schatter berekenen op basis van de steekproef, bekomen we de schatting die we noteren als Statistiek= een samenvatting van de gegevens uit een steekproef. Voorbeelden van statistieken zijn de absolute frequentie, de relatieve frequentie, het gemiddelde, de standaardafwijking en de correlatiecoëfficiënt. Toetsingsgrootheid= een statistiek die info geeft over de hypotheses die we wensen te toetsen. Geobserveerde toetsingsgrootheid= de toetsingsgrootheid die we berekenen op basis van de geobserveerde data. Schatter= een parameter van het toevalsproces kan geschat worden obv een statistiek. Als de parameter een kans is, is de relatieve frequentie de schatter van de kans. De waarde van de schatter berekend obv de steekrpoef wordt de schatting van de parameter genoemd. Stap 3: het toevalsproces modelleren Essentie: vele malen een geldstuk 16 keer opwerpen. Hier complexer omdat we het algemeen willen introduceren. Kansmodel: model voor toevalsproces dat aanleiding geeft tot T. 38 Doel: steekproevenverdeling van T opstellen (= verdeling van Twanneer we de studie vele malen herhalen) Steekproevenverdeling= de verdeling van een statistiek wanneer we de studie herhaaldelijk uitvoeren obv nieuwe steekproeven. Kansmodel= een wiskundige benadering van de werkelijkheid die ons kan helpen de werkelijkheid beter te begrijpen en die ons in staat stelt om kansen te berekenen. We gebruiken een kansmodel om de steekproevenverdeilng van de toetsingsgrootheid te modelleren. De binomiale verdeling Binomiale verdeling= wiskundige uitdrukking om de kans te bepalen bij n herhalingen van een binaire uitkomst (EEN OBSERVATIE KAN MAAR 2 WAARDEN AANNEMEN!) succes of geen succes. Voorbeeld: het opwerpen van een muntstuk kan enkel de waarden ‘kop’ of ‘munt’ geven. N keer een geldstuk opwerpen waarbij succes= kop N keer een baby laten kiezen warbij succes= helper wer gekozen p= de kans op succes (succes in ons voorbeeld= kop, bij een eerlijk geldstuk zou p=0.5) n= aantal k= de kans die je wil berekenen Belangrijke voorwaarde: de keuzes van de baby’s moeten onderling onafhankelijk zijn. we bedoelen hiermee dat, indien we de keuze weten van een baby ons dit geen extra informatie oplevert over de keuze die een andere baby kan maken. Binomiale verdeling= bij een experiment met twee uitkomsten, vaak ‘succes’ en ‘geen succes’ genoemd, geeft de binomiale verdeling de kans op k successen weer bij n onafhanklelijke herhalingen van het experiment. De formule om deze kansen te berekenen wordt gegeven door vergelijking. Wanneer p= 0.5 kun je denken aan het opwerpen van een geldstuk als ‘experiment’. Onafhankelijk= observaties zijn onderling onafhankelijk indien de kennis van een waarde van een observatie geen info geeft over de mogelijke waarden die een andere observatie kan aannemen. 39 Stap 4: de nulverdeling opstellen Nulverdeling= de steekproevenverdeling van de toetsingsgrootheid wanneer we veronderstellen dat de nulhypothese waar is. Onderzoek: kiezen baby’s vaker voor de helper of voor de lastpost. Probleem: we kennen p helemaal niet in dit onderzoek. Maar, door te veronderstellen dat h0 (h0=0.5) waar is, weten we p wel. P= 0.5 K= 7 Dus: als baby’s geen voorkeur vertonen, is er 17% kans dat 7 van de 16 baby’s kiezen voor de helper. We gebruiken de notatie om aan te duiden da de T een binomiale verdeling volgt met n= 16 en p= 0.5 als de nulhypothese waar is. Stap 5: de p-waarde berekenen en interpreteren Nulverdeling: hoe waarschijnlijk is het dat k baby’s kiezen voor de helper, indien ze geen voorkeur hebben? En dus indien de NULHYPOTHESE WAAR IS Als Ha waar is, verwachten we dat T vaak groter zal zijn dan wanneer H0 waar is. We kwantificeren het bewijs in de data tegen H0 in het voordeel van Ha à dat is de p-waarde Zie tabel rechts à die tabel geeft enkel de kans weer als de nulhypthese waar is. Als H0 waar is, dan verwacht je dat T in de buurt van 8 zal liggen. Als Ha waar is, dan verwacht je dat de T zal stijgen. 40 De notatie P(A/H0) lees je als de kans op A als H0 waar is. Toegepast op de notatie hierboven wordt dit: de kans dat de toetsingsgrootheid minstens 14 bedragt indine de nulhypothese waar is. We kunnen deze kans berekenen door de kansen af te lezen uit de tabel en vervolgens op te tellen. Of we kunnen de p-waarde visualiseren op de nulverdeling: ze is gelijk aan de som van de hoogtes van de staven horende bij waarden 14, 15 en 16. AL DEZE BEREKENINGEN DOEN WE IN DE VERONDERSTELLING DAT H0 WAAR IS! à zonder tussenafrondingen is de kans gelijk aan 0.21%. Indien H0 waar is, dus indien ze geen voorkeur vertonen, dan verwachten we dat bijna nooit 14 of meer baby’s zullen kiezen voor de helper. Omdat die kans zeer klein is, besluiten we dat 14 baby’s die kiezen voor de helper ongewoon veel is om zich voor te doen als de nulhypothese waar is. De p-waarde kwantificeert de bewijskacht in de steekproef tegen de nulhypothese : hoe kleiner de p-waarde, hoe minder waarschijnlijk het is dat de steekproef zich voordoet als de nulhypothese waar is. Hoe kleiner de p-waarde, hoe meer bewijskracht we dus hebben tegen de nulhypothese. Anders gezegd, hoe kleiner de p-waarde, hoe minder plausibel de nulhypothese is in het licht van de geobserveerde data en Ha. 41 P-waarde= de kans om een toetsingsgrootheid te observeren die minstens even extreem is als de geobserveerde toetsingsgrootheid in de richting van de alternatieve hypothese indien we veronderstellen dat de nulhypothese waar is. Toegepast op de context van het onderzoek wordt dit: de p-waarde is het relatief aantal studies waarvoor minstens 14 baby’s biezen voor de helper wanneer de nulhypothese waar zou zijn. Deze kans interpreteren we als een maat van bewijskracht tegen de nulhypothese en in het voordeel van de alternatieve hypothese. Hoe kleiner de p-waarde, hoe minder plausibel H0, en hoe sterker het bewijs tegen H0. Binomiaaltoets= een bijzonder geval van een hypothesetoets waarbij gebruik wordt gemaakt van de binomiale verdeling. Eenzijdige en tweezijdige hypothese 42 als je de verkeerde richting aangeeft om te toetsen, dan zul je geen bewijs tegen de nulhypothese vinden, zelfs als die aanwezig zou zijn in de data (weliswaar in de andere richting). In de praktijk gebruik we enkel een eenzijdige hypothesetoets wanneer we zeker zijn dat het de juiste richting is. Voor eenzijdig toetsen blijkt het echter wel dat het beter in staat is om bewijs tegen H0 te vinden in vergelijking met tweezijdig toetsen. Dit zal zich ook vertalen in de p-waarde. Die zal groter zijn voor tweezijdig toetsen dan eenzijdig toetsen. Hypothesetoets algemeen Eenzijdige en tweezijdige alternatieven= de nulhypothese wordt altijd geformuleerd als een gelijkheid. H0: p=0.5, terwijl de alternatieve hypothese wordt geformuleerd als een ongelijkheid. We hebben 3 keuzes voor de alternatieve hypothese: 1. De tweezijdige Ha: p¹ 0.5 2. De eenzijdige Ha: p< 0.5. Dit wordt ook de linkszijdige alternatieve hypothese genoemd (de waarden van p liggen links van 0.5 als we ze uitzetten op een as) 3. De eenzijdige Ha: p> 0.5. Dit wordt ook de rechtszijdige alternatieve hypothese genoemd (de waarden van p liggen rechts van 0.5 als we ze uitzetten op een as) In vorige paragrafen hebben we hypothesetoetsen geïntroduceerd die enkel opgaan voor het geval p= 0.5, maar de binomiaaltoets laat ook andere keuzes toe. Waarbij p0 de waarde is die je wenst te testen. Ook hierbij mag je p0 NIET laten afhangen van de data en moet ze voortkomen uit de onderzoeksvraag! 43 Impact op de p-waarde Als ze deze nulhypothese kunnen verwerpen, hebben ze een sterker resultaat dan wanneer ze H0: p=0.5 verwerpen. Aangezien ze dan kunnen aantonen dat drie kwart van de baby’s kiest voor de helper? P(T=15/H0)= 0.05 P(T=16/H0)= 0.01 Bijgevolg is de p-waarde dan gelijk aan: 0.13+0.05+0.01= 0.19 à we hebben geen bewijs gevonden in de data tegen de nulhypothese. Impact van de steekproefgrootte Wanneer de steekproefgrootte toeneemt, kunnen we in de data sneller bewijs tegen de nulhypothese vinden. Hoe groter de steekproef, hoe meer info we hebben over het toevalsproces. à veronderstel dat we 3 studies hebben. Voor elke studie kiest 62% baby’s voor de helper. Maar de steekproefgrootte verschilt: 16, 50, 200 Voor welke studie hebben we het sterkste bewijs tegen H0? 44 p-waarden: Voor n=16= 0.23 Voor n=50= 0.06 Voor n=200= p0 zal de power groter worden naarmate p en p0 meer van elkaar verschillen en p groter is dan p0 Bij de linkszijdige alternatieve Ha: p < p0 zal de power toenemen naarmate p en p0 meer van elkaar verschillen en p kleiner is dan p0 De power neemt toe als n toeneemt De power van de binomiaaltoets voor H0: p = p0 en Ha: p ¹ p0 neemt toe wanneer 1. P en p0 meer van elkaar verschillen 2. De steekproefgrootte n toeneemt Van geldstukken naar morele intuïtie We vinden sneller bewijs in de data tegen de ‘geen voorkeur’ hypothese indien Baby’s in werkelijkheid de helper in 80% van de gevallen kiezen in plaats van 55% Als we meer baby’s opnemen in de studie De steekproefgrootte bepalen via de power Hoe groot moet onze steekproef zijn? We willen graag een power hebben van 80% om de ‘geen voorkeur’ hypothese te verwerpen, als in werkelijkheid 70% van de baby’s een voorkeur heeft voor de helper. (dus een power van 0.8 wanneer p=0.7) à als 40 baby’s deelnemen, dan is er 80% kans dat de data ‘geen voorkeur’ hypothese verwerpen indien in werkelijkheid de kans om de helper te kiezen gelijk is aan 0.7. 49 Misvattingen rond de p-waarden De p-waarde geeft de kans dat de nulhypothese waar is. Niet correct: de nulhypothese is ofwel 100% juist, ofwel 100% fout. De p-waarde geeft de kans, in de veronderstelling dat de nulhypothese waar is, dat we een toetsingsgrootheid observeren die minstens evenveel in de richting van de alternatieve hypothese wijst als de geobserveerde toetsingsgrootheid Een p-waarde kleiner dan of gelijk aan a, impliceert dat H0 fout is. Het kan zijn dat H0 fout is, maar dit kunnen we niet met zekerheid zeggen. Het is mogelijk dat H0 juist is en dat we een type 1 fout maken. Of het is ook mogelijk dat de voorwaarde niet opgaat. Zoals je inmiddels weet, wordt de p-waarde berekend door gebruik te maken van de binomiale verdeling, en deze verdeling zal het toevalsproces maar goed beschrijven indien de observaties onafhankelijk zijn. Een kleine p-waarde kan ook wijzen op het geit dat de binomiale geen goede beschrijving is omdat de observaties afhankelijk zijn. Samengevat kan een kleine p-waarde wijzen op bewijs tegen de nulhypothese, maar ze kan ook het gevolg zijn van afhankelijkheid, of we kunnen een type 1-fout maken. Een kleine p-waarde impliceert dus niet altijd dat H0 fout is. Een p-waarde groter dan a impliceert dat H0 juist is. Nee, een grote p-waarde geeft enkel aan dat de data niet ongewoon zijn indien H0 en alle assumpties opgaan. Het is mogelijk dat de data ook niet ongewoon zijn voor andere nulhypotheses, of dat we een type 2-fout maken, of dat niet voldaan is aan de voorwaarde van onafhankelijkheid. Een p-waarde kleiner dan of gelijk aan a impliceert een belangrijke wetenschappelijke bevinding. Nee, ze geeft enkel bewijs tegen de nulhypothese (als de observaties onafhankelijk zijn), maar mogleijk is de nulhypothese niet relevant. 50 Hoofdstuk 5: betrouwbaarheidsintervallen Meerdere kansen kunnen compatibel zijn met de data p= de relatieve frequentie voor het aantal keer dat de helper gekozen wordt bij het toevalsproces p= de kans om de helper te kiezen als 14/16 baby’s de helper kiezen: al een start, maar niet ideaal: Zeer waarschijnlijk dat p= op basis van veel herhalingen, ^p = op basis van 1 herhaling Waarden voor p verschillend van 0.875 kunnen het toevalsproces ook goed beschrijven varieert bij herhaling van de studie Oplossing: een interval in plaats van een getal Het interval bevat alle waarden voor p die compatibel zijn met de data. Hoe groter de steekproef, hoe smaller het interval Een interval laat meerdere waarden toe om het onderliggend toevalsproces te beschrijven Een interval zal ons in staat stelle met een bepaalde zekerheid een uitspraak te formuleren over p waarbij de we steekproefvariabiliteit van het toevalsproces in rekening brengen Een waarde p0 voor de parameter p is compatibel met de data op het a-significantieniveau indien de tweezijdige p-waarde die hoort bij H0: p= p0 groter is dan a. In regels uitgedrukt wordt dit: P-waarde > a: p0 is compatibel met de data P-waarde a: p0 is compatibel met de data P-waarde pZV dan wanneer pWM