Samenvatting Statistiek PDF
Document Details
Uploaded by ReadyGyrolite2013
Katholieke Universiteit Leuven
Tags
Summary
Dit document geeft een samenvatting van de basisbegrippen statistiek voor criminologen, met aandacht voor populatie, steekproef, variabelen, meetniveaus (nominaal, ordinaal, metrisch), beschrijvende en inductieve statistiek. Het behandelt verschillende toepassingen en geeft oefeningen om het meetniveau van variabelen te bepalen. Het document illustreert de relatie tussen steekproef en populatie en de toepassing van de wet van de grote aantallen.
Full Transcript
Basisbegrippen statistiek voor criminologen Statistiek Basisbegrippen statistiek voor criminologen (Katholieke Universiteit Leuven) Statistiek Interpretatie - Soms wordt interpretatie gekleurd door een persoonlijke ervaring / observatie...
Basisbegrippen statistiek voor criminologen Statistiek Basisbegrippen statistiek voor criminologen (Katholieke Universiteit Leuven) Statistiek Interpretatie - Soms wordt interpretatie gekleurd door een persoonlijke ervaring / observatie Hoofdstuk 1: doel v/d statistiek Verzamelen van gegevens Wat wil je onderzoeken? ➔ Verzameling van personen / objecten waarover men een uitspraak wil doen = POPULATIE (In dit voorbeeld: Vlaamse jongeren tussen 14 en 18 jaar) Hoeveel personen (of objecten) uit de populatie onderzoek je? ➔ Deelverzameling van n onderzoeksheden die representatief is voor de populatie = STEEKPROEF (In dit voorbeeld: n ≈ 4000 Vlaamse jongeren werden ondervraagd) Een steekproef is representatief voor een kenmerk als het kenmerk in gelijke mate voorkomt in de steekproef als in de populatie (bv. verhouding jongens/meisjes in steekproef is vergelijkbaar met die in de populatie) - Steekproefgrootte: n → hoe groter n, hoe meer informatie - Beperkingen: tijd, geld, personeel,… - Kenmerk = geslacht Welke kenmerken onderzoek je? (Toevals)variabele = X → altijd met HOOFDLETTER - Variabele = kenmerk X kan verschillende (variabele) waarden aannemen - Toevals = waarde v/h kenmerk X ligt niet op voorhand vast en hangt af v/h toeval (persoon die uitgekozen werd, resultaat v/e dobbelsteenworp,...) - verzameling van alle mogelijke waarden (uitkomsten) die het kenmerk X kan aannemen, noemt men de uitkomstenverzameling S - ontbrekende waarde = missing value in dit voorbeeld: - S1, S2,… → alle mogelijke waarden die X aanneemt Notaties Resultaten die we bekomen uit steekproef met grootte n noteren we: - bij 1 toevalsvariabele X: - bij 2 toevalsvariabelen X en Y: - bij p toevalsvariabelen X1,..., Xp: - bijvoorbeeld: - Toevalsvariabele kan een waarde krijgen - Die waarde schrijf je als kleine letter x1 - xn = laatste persoon in steekproef Gegevensmatrix - rijen: Elke rij komt overeen met proefpersoon - kolommen: elke kolom komt overeen met toevalsvariabele - In de matrix staat waarde v/d toevalsvariabele Data-analyse 1) Beschrijvende statistiek = exploratie v/d gegevens → gegevens die we verzameld hebben gaan we ontdekken en kijken wat die gegevens zijn - beschrijven/samenvatten adhv kentallen - visualiseren adhv geschikte grafische voorstelling 2) Inductieve statistiek = uitspraken doen over de populatie obv steekproefgegevens → steekproefgegevens gebruiken obv kleine groep v/d populatie een uitspraak te doen over de gehele populatie ➔ Om inductieve statistiek te kunnen doen, heb je kansrekenen nodig Classificatie van gegevens - De te gebruiken technieken voor data-analyse hangen af v/h meetniveau v/d variabelen - Afhankelijk v/d aard v/d waarden die een variabele kan aannemen, onderscheiden we 3 meetniveaus: 1) Nominaal 2) Ordinaal 3) Metrisch ➔ Discreet ➔ Continu Nominale meetniveau (laagste) → kwalitatief gegeven = uitkomsten enkel gebruikt om onderzoekseenheden van elkaar te onderscheid (klasseren) ➔ Niet te interpreteren in termen van meer / minder of van groter / kleiner, er is GEEN ORDERING in uitkomsten ➔ Code voor elke uitkomst v/e kenmerk kan om het even welk woord of symbool zijn, ook cijfers, maar daarmee worden geen wiskundige berekeningen gemaakt Vb. gehoorbescherming dragen bij het uitgaan, in welke provincie je bent geboren, geslacht, nationaliteit Ordinale meetniveau (middelste) → kwalitatief gegeven = elementen v/d uitkomstenverzameling kunnen geordend worden volgens bepaald ordeningscriterium ➔ Veel – weinig, klein-groot, eerste-laatste… ➔ Indien codes worden gebruikt, moeten die uitdrukking zijn v/d rangorde, dus bij voorkeur cijfers ➔ Cijfers enkel vergelijken en niet mee rekenen Vb. graad van oorsuizen, opleidingsniveau, opinie omtrent een standpunt,… Variabelen met uitkomsten op het nominale of ordinale meetniveau, worden categorische of kwalitatieve variabelen genoemd Metrisch meetniveau (hoogste) → kwantitatief gegeven = termen uitgedrukt in hoeveelheden (graden, jaren, cm,..) ➔ Wiskundige bewerkingen zijn mogelijk ➔ Klasseren + ordenenen + wiskundige bewerkingen Discreet = mogelijke uitkomsten duidelijk afgescheiden van elkaar - NIET mogelijk om tussen om het even welke 2 opeenvolgende waarden v/d uitkomstenverzameling een derde te denken - voorbeeld: leeftijd van jongeren in (gehele) jaren, # veroordelingen dat iemand reeds opliep ➔ tussen 2 getallen bestaat niets dus ook GEEN komma Continu = mogelijke uitkomsten worden gegeven door een of meerdere intervallen - voor elke 2 willekeurige waarden uit de uitkomstenverzameling is het mogelijk een derde mogelijke uitkomst te vinden die tussen de eerste 2 ligt - altijd oneindig veel mogelijke uitkomsten - voorbeeld: tijd per week blootgesteld aan luide muziek, temperatuur, lengte,.. ➔ tussen 2 getallen kunnen wel andere uitkomsten liggen dus kan WEL na de komma Opmerkingen 1) Omdat nauwkeurigheid v/e meting beperkt is tot nauwkeurigheid v/h meetinstrument, zullen meetgegevens v/e metrische variabele altijd discreet voorgesteld worden, ook al is achterliggende variabele continu ➔ Bv. lichaamslengte is continu maar wordt gemeten tot op cm nauwkeurig 2) Wanneer discrete metrische variabele heel veel verschillende uitkomsten heeft, wordt deze in praktijk vaak beschouwd als continue variabele ➔ Bv. leeftijd in jaren is discreet maar er zijn meer dan 100 mogelijke uitkomsten - Meetwaarden zijn altijd discreet maar achterliggend is de variabele wel continu - Soms discrete variabele behandelen alsof het een continue variabele is 3) Soms werkt men met ordinale variabelen alsof ze metrisch zijn → quasi-metrische variabelen: ➔ Als er veel verschillende uitkomsten zijn ➔ Als men verwacht dat afstand tussen 2 opeenvolgende uitkomsten ong. even groot is ➔ Bv. graad van oorsuizen aangegeven op schaal van 0 tot 10 4) Soms worden uitkomsten v/e metrische variabele gegroepeerd tot categorische (ordinale of nominale) uitkomsten ➔ leidt tot verlies aan info ➔ Bv. tijd per week blootgesteld aan luid muziek opdelen in categorieën 5) Bij variabelen op een nominaal en ordinaal meetniveau spreekt men van kwalitatieve variabelen ➔ kwalitatief = beschrijvend (variabelen waar we NIET mee kunnen rekenen (eerder beschrijvend) Metrische variabelen noemt men ook kwantitatieve variabelen (variabelen waar we WEL mee kunnen rekenen) ➔ kwantiteit = hoeveelheid ➔ kwantitatief = meetbaar Correcte classificatie is cruciaal voor het bepalen v/d te gebruiken statistische methode! (data-analyse is afhankelijk v/h type data) OEFENINGEN 1) bepaal tekens het meetniveau v/d variabelen - moedertaal:nominaal (je kan het NIET ordenen) - aantal volgers insta: metrisch (discreet) - houding tov gevangenisstraffen voor jongeren: ordinaal (helemaal niet akkoord, eerder niet akkoord, neutraal, eerder akkoord, helemaal akkoord) - afstand tussen domicilieadres en verblijfadres: Metrisch (continu) Hiërarchie van meetniveau’s - laag: nominaal meetniveau (classificatie van gegevens op basis van gelijkheid/ongelijkheid) - hoger: ordinaal meetniveau ( = nominaal + ordening) - hoogst: metrisch meetniveau ( = ordinaal + meeteenheid) → meetniveau bepaalt welke wiskundige bewerkingen wel/niet zinvol zijn → meetniveau bepaalt welke kentallen en grafische voorstellingen wel/niet zinvol zijn → meetniveau bepaalt welke inferentie-technieken wel/niet zinvol zijn - Wat kan op een laag meetniveau, kan ook op een hoger meetniveau - Wat specifiek is voor een hoger meetniveau, kan niet op een lager meetniveau Van steekproef naar populatie Bedoeling statistiek: antwoorden op onderzoekvragen formuleren - Welk percentage v/d Vlaamse jongeren draagt gehoorbescherming bij het uitgaan? - Hoeveel procent v/d Vlaamse jongeren heeft permanent last van oorsuizen? - Hebben Vlaamse jongens vaker last van tijdelijk oorsuizen dan Vlaamse meisjes? ➔ Antwoorden gebaseerd op bevindingen in steekproef Beschrijvende statistiek (steekproef) Voorbeeld: welk percentage v/d Vlaamse jongeren draagt gehoorbescherming bij het uitgaan? - in deze steekproef misschien 4.88%, in andere steekproef hoogstwaarschijnlijk ander percentage - niet besluiten dat dit voor de hele populatie 4.88% ➔ steekproefpercentage is benadering voor populatiepercentage ➔ over hoe meer steekproefgegevens we beschikken, hoe beter en accurater de benadering v/d onbekende populatiewaarde wordt - Bij grote steekproef zal percentage v/d gehele populatie in de buurt liggen v/h percentage v/d steekproef - Hoe groter steekproef, hoe nauwkeuriger het percentage voor de gehele populatie Inductieve statistiek (populatie) Experiment: muntstuk van 1 euro opwerpen - Onderzoeksvraag: is dit een eerlijk muntstuk? ➔ De kans op kruis gooien met eerlijke munt is gelijk aan 50% = 0,5 (populatiepercentage) - Dit populatiepercentage kan benaderd worden dmv steekproefpercentage: ➔ We gooien een (groot) aantal keer met eerlijke munt, waarbij genoteerd wordt of er kruis ‘K’ of munt ‘M’ geworpen wordt Voorbeeld: - Wet van de grote aantallen = Hoe groter uw steekproef, hoe dichter uw steekproefwaarde zal liggen bij de populatiewaarde The law of large numbers ➔ Wet v/d grote aantallen = hoe groter steekproef, hoe dichter steekproefwaarde de populatiewaarde benadert - Na hoeveel worpen de kans op kruis is - In het begin schommelen de percentages maar naarmate je dit voldoende keren doet, dan wordt dat steekproefpercentage stabiel en komt in de buurt te liggen v/h effectieve percentage ➔ Deze wet laat toe om stap van steekproef naar populatie te zetten ➔ Vertrekken v/e benaderend antwoord obv steekproef ➔ Wiskundige modellen en technieken gebruiken, gebaseerd op wet v/d grote aantallen, om conclusies te trekken over populatie - Elk getal heeft op lange termijn evenveel kans om voor te komen - Maar als je maar naar enkele jaren kijkt dan is dat minder betrouwbaar Samenvatting Hoofdstuk: - Populatie = geheel van objecten / mensen waarover men beslissing wil nemen. 1 object of persoon is onderzoekseenheid - Verschillende kenmerken gemeten voor die objecten / mensen worden variabelen genoemd - Uitkomstenverzameling is verzameling van alle mogelijke uitkomsten voor een variabele → deze verzameling wordt afgekort als S - In praktijk worden slechts metingen gedaan voor steekproef of kleine groep van n objecten. Hierbij wordt n de steekproefgrootte of omvang genoemd. Voor elke variabele zijn er n metingen die als volgt genoteerd kunnen worden x1,….,xn - Metingen van verschillende variabelen worden samengevoegd in kolommen v/e gegevensmatrix - Afhankelijk van deze uitkomstenverzameling S zijn er verschillende types gegevens, opdeling obv meetniveau (kwalitatief of kwantitatief) → nominaal, ordinaal, metrisch (discreet / continu) - Om bij het nemen van beslissingen de stap van steekproef naar populatie te zetten is de wet v/d grote getallen essentieel Hoofdstuk 2: Beschrijvende statistiek Doel = gegevens uit steekproef op duidelijke / verantwoorde manier samenvatten en voorstellen 1 variabele: - frequentietabellen, die aanduiden hoe vaak de verschillende uitkomsten voorkomen - samenvattende numerieke getallen (bv. steekproefgemiddelde, mediaan, steekproefstandaarddeviatie,...) - grafische methoden (bv. staafdiagrammen en histogrammen,...) 2 variabelen: ➔ Onderzoeken ook het verband tussen beide variabelen - grafisch: puntenwolk - numeriek: kruistabel / correlatiecoëfficiënt ➔ het is afhankelijk v/h meetniveau v/d variabele!! OVERZICHT frequentieverdeling - Hoe zijn uitkomsten v/e variabele in een (steekproef)groep verdeeld? vertrekken van steekproefgegevens x1,... , xn voor bepaalde variabele X. We willen antwoord formuleren op vragen als: - Zijn gegevens ongeveer gelijk, of zijn er grote verschillen? - Indien sterk verschillend, hoe sterk? Op welke manier verschillen ze? Kunnen we patronen of trends terugvinden? - Zijn er meerdere subgroepen of clusters te onderscheiden? Verschillen enkele gegevens sterk van algemene tendens? Frequentieverdeling kwalitatieve variabelen (nominaal/ordinaal) Voorbeeld: Uitkomstenverzameling S = {1, 2, 3, 4} met: 1 = Helemaal niet akkoord 2 = Niet akkoord 3 = Akkoord 4 = Helemaal akkoord - Kwalitatief = niet mee kunnen rekenen - Meetniveau is hier ordinaal Andere variabelen die ook gemeten werden: Algemeen: - Uitkomstenverzameling is v/d vorm - absolute frequentie nj van uitkomst mj is het aantal metingen xj die gelijk zijn aan mj - relatieve frequentie = aantal keer dat mj voorkomt als uitkomst in de steekproef gedeeld door de grootte van de steekproef ➔ Ander woord: steekproefproportie - Aantal keer uitkomst mj is absolute frequentie nj - Relatieve frequentie (fj) van uitkomst mj = Welk percentage v/d personen heeft uitkomst mj gegeven → absolute frequentie delen door steekproefgrootte - Absolute frequentie delen door n - Als je alle antwoorden van nj optelt dan moet je tot n (totaal) komen - Relatieve frequenties optellen dan moet je altijd komen op 1 en bij percentage op 100% Merk op! - som van alle absolute frequenties nj gelijk is aan steekproefgrootte n - som van alle relatieve frequenties fj gelijk is aan 1: - som van alle percentages gelijk is aan 100% Oefening : vul ontbrekende gegevens aan - Absolute frequentie gedeeld door C = relatieve frequentie - Kijken naar absolute frequentie die het vaakst voorkomt want die afronding heeft minste impact - Totaal delen door relatieve frequentie Grafische voorstelling kwalitatieve variabelen 1) Staafdiagram → op horizontale as: mogelijke uitkomsten mj , op verticale as: waarde van nj of fj = nj /n - Relatieve frequenties: kunnen geen negatieve getallen zijn en ligt altijd tussen 0 en 1 (kan wel komma zijn) - Als je grotere getallen ziet staan dan weet je dat het over absolute frequenties gaat en moeten gehele getallen zijn - Het enige verschil is de schaal waarop ze getekend worden (absoluut is grotere getallen, relatief is kleinere getallen) 2) Taartdiagram → “taart” wordt verdeeld in sectoren, oppervlakte van elke sector komt overeen met relatieve frequentie v/d uitkomst - Deze voorstelling is minder geschikt voor gegevens op ordinaal meetniveau (verlies van info) - Vooral gebruikt voor nominaal meetniveau - Relatieve frequenties zijn samen 100% dus heel uw schijf is ingekleurd Frequentieverdeling kwantitatieve variabelen (metrisch) 1) Uitkomstenverzameling discreet met weinig verschillende uitkomsten: ➔ frequentietabel, staafdiagram, (taartdiagram),... 2) Uitkomstenverzameling continu of discreet met veel verschillende uitkomsten: ➔ Zinloos om voor elke waarde in uitkomstenverzameling S na te gaan hoe vaak deze voorkomt (want vaak 0 of 1 keer) ➔ Oplossing: discretisatie of groepering v/d gegevens, deel S op in aantal aangrenzende deelintervallen of klassen (Soms zijn de klassen van gelijke breedte ∆ = KLASSEBREEDTE) ➔ Men bekomt nieuwe discrete uitkomstenverzameling waarbij mj de klassemiddens zijn en k het aantal klassen Nadeel: groeperen van gegevens leidt tot verlies aan informatie - Opdelen in verschillende intervallen (klassen) en dan kijken hoeveel uitkomsten er zitten in die intervallen (klassen) - Delta (driehoek) = klassebreedte als je gegevens opdeelt in klassen - Ze nemen daar de klassenmiddens van omdat je dan wel duidelijk verschil kan zien Voorbeeld: - Klassenbreedte mag je kiezen en mag even breed zijn maar moet niet perse Grafische voorstelling kwantitatieve variabelen 1) Klassiek histogram - continue tegenhanger v/h staafdiagram - Boven klassemidden mj wordt een rechthoek geplaatst met als basis ∆ en hoogte de overeenkomstige nj (of fj ) - Basis komt overeen met basisbreedte - Hoogte komt overeen met absolute frequentie - Opmerking: er kunnen erg verschillende indrukken bekomen worden bij verschillende keuzes van de klassebreedte ∆ (Bv. ∆ = 25) - Als je van klassebreedte wijzigt dan krijg je een ander soort histogram 2) Dichtheidshistogram - Soms wil men klassen gebruiken die niet van gelijke breedte zijn, bv. omdat sommige delen v/d uitkomstenverzameling S minder vaak voorkomen - Een grotere klassebreedte is gewenst om een niet al te gepiekte figuur te bekomen → verticaal uitzetten van absolute of relatieve frequenties geeft dan geen correct beeld Rechts zijn nieuwe klassen met nieuw klassenbreedtes - Links: oorspronkelijke gegevens - Rechts: samengevoegde klassen - Figuur (b) geeft verkeerde indruk omtrent verdeling v/d bevolkingsaantallen → neiging om aantal steden met groot bevolkingsaantal te overschatten - Daarom verkiest men vaak dichtheidshistogram: hoogte hj v/d rechthoek boven klasse j is relatieve frequentie van die klasse gedeeld door overeenkomstige klassebreedte: ➔ hoogte hj is frequentiedichtheid van klasse j - Dichtheidshistogram (hj): hoogte komt niet meer overeen met relatieve frequentie maar met relatieve frequentie gedeeld door klassebreedte Gevolg: Nj delen door delta j Oppervlakte rechthoek komt overeen met relatieve frequentie ➔ Dit betekent dat totale oppervlakte van de ruimte tussen horizontale as en dichtheidshistogram gelijk is aan 1 - ∑: somatieteken (afkorting voor iets wat een lange som is) →som van alle frequenties fj (vertrekt bij 1 en eindigt bij k Oefening: Julitemperatuur van 60 steden in de VS (in graden Fahrenheit) - Frequentiedichtheid = relatief / klassenbreedte Teken hiervan het dichtheidshistogram Vormen van verdelingen - manier waarop observaties zich verdelen over uitkomsten, bepaalt vorm v/h staafdiagram/histogram ➔ Bij symmetrische verdeling kan histogram (ongeveer) gespiegeld worden rond het midden - Perfect symmetrische histogrammen - Histogram geeft info over vorm v/d verdeling - Symmetrische verdeling zien we het liefst → uitkomsten symmetrisch verdeeld zijn rond een bepaald midden - Perfect symmetrisch heb je niet in de praktijk - In praktijk: Meestal benaderende symmetrie, zoals bv. in histogram v/d Julitemperaturen: Normale / Gaussische verdelingsvorm = bekendste / meest voorkomende symmetrische verdeling → duidelijk maximum in het midden, ook wel klokcurve genoemd Als de steekproefgrootte n toeneemt, zal frequentiedichtheid meer klokvormig zijn ➔ Symmetrie wordt beter zichtbaar naarmate steekproef groter wordt Andere verdelingsvormen 1) Scheve verdelingen = niet-symmetrische verdeling ➔ verdeling valt aan 1 zijde trager neer (of zwakt aan 1 zijde trager af) dan aan andere zijde Oefening: dit histogram hoort bij een… - Want meer gegevens aan rechter kant v/d top dan links dus rechtsscheef 2) bimodale verdelingen = Er komen 2 toppen voor in een histogram. ➔ Dit kan wijzen op aanwezigheid van 2 deelgroepen in gegevens Bv. lengte van 14 jarige en 18 jarige Uitschieters - Soms hoort 1 getal of klein aantal getallen niet echt bij de rest v/d gegevensgroep: uitschieters (outliers) Het is belangrijk oorzaken te achterhalen v/h voorkomen van deze uitschieters! ➔ Meetfout? ➔ Andere meetmethode? ➔ Subgroep in steekproef? ➔ Uitschieter = klein groepje van observaties dat afwijkt van al de rest v/d observaties ➔ Duidelijk afgescheiden v/d groep - Probeer een verklaring te zoeken waarom gegevens afwijken v/d rest (kan om een meetfout gaan, typfout,..) ➔ Het is belangrijk om de uitschieters te identificeren en bewust te blijven van hun aanwezigheid in de verdere analyse Cumulatieve verdelingsfunctie - Uitdrukking voor relatieve positie v/e waarde x binnen steekproef - Wordt gebruikt voor metrische gegevens (soms ook ordinale) is gelijk aan aantal steekproefuitkomsten xi die niet groter zijn dan x, gedeeld door n: is cumulatieve relatieve frequentie v/d uitkomsten kleiner dan of gelijk aan x ➔ Kan ook voor elk reëel getal x bepaald worden, dus niet enkel voor steekproefuitkomsten - Kan je vooral doen voor metrische gegevens of ordinale die je als metrisch beschouwt - Cumulatieve verdelingsfunctie (F): voor elke waarde x kijken welk percentage v/d steekproefuitkomsten kleiner of gelijk aan x is → Alle uitkomsten kleiner of gelijk aan x bij elkaar optellen en delen door totale steekproefgrootte → Hoedje op letter = grootheden voor STEEKPROEF moeten dit altijd hebben Voorbeeld: - Kleinste functiewaarde: 0 - grootste functiewaarde: 1 - Cumulatieve verdelingsfunctie begint altijd in 0 en eindigt in 1 - De functie gaat sowieso stijgen en kan niet dalen - Trapfunctie Voorbeeld: - 4,2 komt 2x voor als uitkomst in steekproef want de hoogte is 2/6e ipv 1/6e zoals bij de rest Algemene eigenschappen cumulatieve verdelingsfunctie: - een cumulatieve verdelingsfunctie begint bij waarde 0 - stijgt stapsgewijs - en eindigt bij 1 - hoogte v/d sprong in uitkomst x(i) wordt bepaald door aantal keer dat x(i) als uitkomst voorkomt in steekproef Oefening: - 100% - 90,8% = 9,2% → deze methode is makkelijker - Als n toeneemt en er veel verschillende uitkomsten zijn, wordt lengte v/d “treden” kleiner en hoogte v/d sprongen kleiner - grafiek v/d cumulatieve verdelingsfunctie wordt vloeiender - steekproef: verdelingsfunctie is altijd een trapfunctie - Hoe groter steekproef, hoe kleiner de trapjes worden en hoe vloeiender de grafiek er zal uitzien verband tussen dichtheidshistogram en empirische verdelingsfunctie Empirische verdelingsfunctie: - Dit is een dichtheidshistogram → opp. Rechthoek - Cumulatieve verdelingsfunctie in 900 komt overeen met de opp. v/h dichtheidshistogram v/d blokjes links kwantielfunctie - Cumulatieve verdelingsfunctie levert voor elk reëel getal x een percentage p op - Omgekeerd: gezien een bepaald procent welk reëel getal x bevindt zich op overeenkomstige positie in steekproef ➔ We willen de inverse v/d cumulatieve verdelingsfunctie bepalen → dit is de kwantielfunctie - kwantielfunctie: Q → hoedje want functie obv steekproefgegevens - P is een percentage (getal tussen 0 en 1) - Kwantielfunctie: Voor elk percentage op zoek gaan naar een x waarde waarvoor verdelingsfunctie van x minstens gelijk is aan p Voorbeeld: - Kwantiel is 3 want verdelingsfunctie in 3 is minstens 0,95 en dit is de kleinste x waarde in de tabel (0,985) Grafiek v/h voorbeeld - Trapfunctie - Hoogte v/d sprong komt overeen met relatieve frequentie van die uitkomst Speciale kwantielen - Bij kwantiefuncties WEL hoedje op Q - Bij kwartiel GEEN hoedje op Q → maar gaan wel over steekproef (uitzondering) Voorbeeld: - 2 kwartielen kunnen dezelfde waarde hebben Centrumkenmerken - Steekproefgegevens samenvatten in 1 getal - Dit getal dient typisch te zijn voor totale gegevensgroep en zou zich best dicht bij het centrum of midden v/d verdeling bevinden ➔ Voor symmetrisch verdeelde steekproefgegevens: het centrum is het centrum van symmetrie ➔ Voor scheve verdelingen? methodes hanteren een verschillend concept van ‘centrum’ en resulteren in (soms sterk) verschillende getallen. Ook zullen de verschillende methoden anders reageren op aanwezigheid van uitschieters Belangrijk maar voorzichtig mee omgaan! Modus = steekproefuitkomst met hoogste frequentie. Kan voor elk meetniveau bepaald worden. - Voor gegroepeerde metrische gegevens: klassenmidden v/d klasse met hoogste frequentie Voorbeeld - Modus = steekproefuitkomst die het vaakst voorkomt → Kan je bepalen voor elk meetniveau Mediaan = middelste waarde v/d geordende steekproefgegevens Kan bepaald worden voor ordinale en metrische gegevens: - Op ordinaal of metrisch niveau - Oneven: Van klein naar groot en je neemt het gemiddelde - Even: 2 middelste nemen en daarvan het gemiddelde nemen - Op nominaal meetniveau kan je niet ordenen dus daarom kan de mediaan daar niet Voorbeeld: Steekproefgemiddelde - steekproefgemiddelde x¯ (of x¯n) is som van alle steekproefuitkomsten gedeeld door aantal elementen in steekproef - Voor metrische gegevens wordt steekproefgemiddelde het vaakst gebruikte centrumkenmerk v/d verdeling ➔ Meest gebruikt om centrum v/e verdeling aan te duiden - k is het aantal verschillende uitkomsten in de steekproef - nj is het aantal keer dat mj als uitkomst (of klassenmidden) voorkomt oefening: - Klassenmiddens = bovengrens – ondergrens / 2 - In tussenstappen GEEN tussenresultaten afronden Steekproefgemiddelde vs mediaan - steekproefgemiddelde is erg gevoelig aan uitschieters - mediaan is een ‘robuust’ alternatief: waarde ervan wordt veel minder beïnvloed door aanwezigheid van eventuele uitschieters Voorbeeld: Centrummaten: opmerkingen Vaak worden steekproefgemiddelde en mediaan allebei gerapporteerd. Ze geven ook informatie over vorm v/d verdeling: - Het steekproefgemiddelde wordt in principe alleen voor metrische gegevens berekend, maar soms ook voor quasi-metrische Voorbeeld: Spreidingskenmerken Een centrummaat alleen verschaft onvoldoende informatie omtrent verdeling v/d steekproefgegevens Voorbeeld: - In eerste steekproef liggen gegevens dicht bij elkaar, in tweede steekproef liggen ze ver uit elkaar ⇒ nood aan kenmerken die weergeven hoe ver of hoe dicht gegevens rond een centrummaat gespreid liggen - Mate waarin steekproefgegevens gespreid zijn rond steekproefgemiddelde geeft ook belangrijke info Bereik - bereik (“Range”) = afstand tussen grootste en kleinste waarde in steekproef: - Alleen voor ordinale en metrische variabelen. In geval van gegroepeerde gegevens: R = bovengrens v/d hoogste klasse − ondergrens v/d laagste klasse Voordeel: heel eenvoudig te berekenen Nadelen: ▸ Weinig informatief want brengt slechts 2 gegevens in rekening ▸ Sterk afhankelijk van de steekproefgrootte n ▸ Heel gevoelig voor uitschieters Voorbeeld: Standaardafwijking en variantie - steekproefstandaarddeviatie of standaardafwijking = maat voor spreiding v/d steekproefgegevens rond het steekproefgemiddelde - steekproefstandaarddeviatie is vierkantswortel v/d variantie - variantie = gemiddelde v/d gekwadrateerde deviatiescores - deviatiescore = afstand tussen meetwaarde en centrummaat, dus deviatiescores geven aan hoe steekproefgegevens xi gespreid zijn rond het steekproegemiddelde x¯ ▸ Kleine deviatiescore: gegeven ligt dicht bij het steekproefgemiddelde ▸ Grote deviatiescore: gegeven ligt ver v/h steekproefgemiddelde Waarom kwadraat van de deviatiescores? - som v/d deviatiescores is altijd 0 (positieve en negatieve afwijkingen heffen elkaar op): - Waarom de vierkanstwortel uit de variantie? - Dit levert een spreidingsmaat op in dezelfde meeteenheid als die v/d oorspronkelijke gegevens ➔ Som of gemiddelde van deviatiescores is altijd 0 - Variantie = Som van alle gekwadrateerde deviatiescores en delen door n min 1 - Steekproef = wortel ervan nemen - Waarom n-1 (nog niet weten waarom) Variantie berekenen: stappenplan 1) Bepaal het steekproefgemiddelde 2) Bereken de deviatiescores 3) Bereken het kwadraat v/d deviatiescores en tel alle kwadraten op 4) Deel door n-1 om variantie te bekomen 5) Neem de vierkantswortel om standaarddeviatie te vinden Oefening: Standaarddeviatie voor discrete en gegroepeerde continue gegevens: Met: - k het aantal mogelijke uitkomsten (discreet) of het aantal klassen (gegroepeerd continu) - mj de mogelijke uitkomsten of klassemiddens - nj de absolute frequenties en fj de relatieve frequenties voorbeeld: Standaardafwijking en variantie: interpretatie - Alleen zinvol voor (quasi-)metrische gegevens - - Hoe groter de waarde van s, hoe meer de gegevens gespreid zijn rond het steekproefgemiddelde - Voor steekproefgegevens die uit een normale verdeling komen geldt dat ➔ Het zijn ALTIJD positieve getallen z- scores Deze regels voor gegevens uit een normale verdeling kunnen ook geformuleerd worden met behulp van z-scores: - z-score is GEEN spreidingsmaat - z-score drukt uit hoeveel standaardafwijkingen een observatie xi afwijkt v/h steekproefgemiddelde - z-scores worden (onder andere) gebruikt om de relatieve positie van een observatie ten opzichte v/h steekproefgemiddelde te bepalen. - z-score heeft GEEN meeteenheid ➔ Z-scores = Gestandaardiseerde deviatiescores z-scores bij gegevens uit een normale verdeling voorbeeld: - Hoe groter Z-score, hoe meer het getal afwijkt v/h gemiddelde Voor steekproefgegevens die uit normale verdeling komen geldt dat - ongeveer alle de gegevens in het interval [x¯ − 3s, x¯ + 3s] liggen, - dus ongeveer alle z-scores in het interval [−3, 3] ➔ z-scores kunnen helpen om te zien of er uitschieters bij zitten z-scores bij gegevens uit een normale verdeling - Bij normaal verdeelde gegevens verwacht men dat bijna alle gegevens (exact: 99.7%) in het interval [x¯ − 3s, x¯ + 3s] liggen, of dus bijna alle z-scores in het interval [−3, 3] - Observaties met een z-score buiten dit interval, zijn ongewoon wanneer het om normaal verdeelde gegevens gaat. Dit zijn mogelijk uitschieters die uit de verdere analyses verwijderd moeten worden - Deze regel geldt NIET voor gegevens die uit een andere verdeling komen! - Baseer je niet alleen op z-scores, maar ook op grafische voorstellingen (histogram en boxplot) om na te gaan of observaties al dan niet als uitschieter beschouwd moeten worden Interkwartielafstand (IQR) = de lengte v/e gebied, rond mediaan gelegen, dat ongeveer helft v/d gegevens omvat: Voorbeeld: ➔ Afstand tussen 2 kwartielen ➔ Afstand tussen Q3 en Q1 Interkwartielafstand vs standaarddeviatie - IQR kan je berekenen voor ordinale en metrische gegevens. - IQR is doorgaans groter dan s. - Voor normaal verdeelde gegevens (zonder uitschieters) geldt dat: Omdat Q1 en Q3 weinig veranderen in aanwezigheid van uitschieters, is ook IQR veel minder gevoelig voor uitschieters (robuuster) dan s - Is altijd positief - IQR zal ongeveer 1,34 groter zijn dan standaardafwijking - Uitschieters kunnen ervoor zorgen dat waarde v/d standaardafwijking NIET meer betrouwbaar is - Interkwartielafstand is beter want impact van uitschieters is kleiner Boxplot = grafische voorstelling v/d belangrijke kenmerken v/e verdeling van steekproefgegevens - Horizontale/verticale lijn bij mediaan - Soms ook een symbool (bv. ruit) voor het steekproefgemiddelde - Doos (box) v/h eerste kwartiel Qˆn(0.25) tot het derde kwartiel Qˆn(0.75) - Hoogte/lengte v/d doos = IQR - snorharen (whiskers) v/d boxplot: vertrekken bij Qˆn (0.25) resp. Qˆn (0.75) en stoppen bij kleinste, resp. grootste observatie die geen uitschieter is - We gaan een rechthoek tekenen met daaraan 2 staarten (uiteinden) → whiskers - Je kiest of je die rechtop zet of platlegt → hier gaat het vaak rechtop zijn met staart langs boven en onder - Onderste lijn rechthoek is 1 e kwartiel Q1 (daar start de box) - Bij derde kwartiel Q3 eindigt de box → hoogte box is precies gelijk aan interkwartiel afstand - De box bevat 50% v/d steekproef - Mediaan wordt ook altijd aangegeven (horizontale lijn in doos waar de mediaan ligt) → het kan ook dat mediaan samenvalt met Q1 of Q3 en dan zie je die dus niet - Steekproefgemiddelde wordt soms ook aangegeven (rode ruit) - Onderste whisker vertrekt aan 1e kwartiel en gaat naar beneden, de bovenste vertrekt aan 3e kwartiel en gaat naar boven → onderste gaat naar beneden tot ze uitkomt bij kleinste steekproef uitkomst die geen uitschieter is, bovenste gaat naar boven en stopt bij grootste observatie die geen uitschieters is Boxplot: uitschieters Gebied waartussen we reguliere punten verwachten bij normaal verdeelde gegevens: - whiskers zijn nooit langer dan 1.5 IQR - Punten die buiten dit interval vallen (“uitschieters”), worden aangeduid met speciaal symbool (, ∗, +,...). - Soms maakt onderscheid tussen ‘gewone’ en ‘extreme’ uitschieters (bv. extreme uitschieters liggen buiten het interval) Voorbeeld boxplot - Hoogte box komt overeen met IQR boxplot levert informatie over de verdeling: - Centrum: mediaan, gemiddelde - Spreiding: Bereik, IQR = hoogte of lengte v/d box - Scheefheid: ➔ symmetrie: mediaan ongeveer in het midden, beide whiskers ongeveer even lang ➔ rechtsscheef: mediaan in de onderste helft, bovenste whisker langer ➔ linksscheef: mediaan in de bovenste helft, onderste whisker langer Uitschieters: - bij normaal verdeelde gegevens: ongeveer 1% v/d gegevens buiten whiskers - als veel meer dan 1% v/d gegevens voorbij de whiskers ligt: geen normale verdeling en/of uitschieters voorbeeld symmetrische verdeling : - symmetrische verdeling: mediaan midden in de box, ongeveer gelijk aan gemiddelde, whiskers ongeveer even lang - geen gegevens voorbij de whiskers - normale verdeling? Boxplot geeft alleen informatie over symmetrie, ook histogram bekijken! - Dikke zwarte horizontale lijn: mediaan - Rode ruit: gemiddelde voorbeeld rechtsscheve verdeling : - Gegevens die duidelijk afwijken v/d andere - Observaties dicht tegen de whisker maar net erbuiten zijn niet uitzonderlijk voorbeeld linksscheve verdeling : - Mediaan ligt in onderste helft v/d box terwijl het voor linksscheve verdeling normaal iets hoger is - Een boxplot alleen is niet altijd heel duidelijk, het is raadzaam om naar andere grafische voorstellingen te gaan kijken Voorbeeld: aantal avonden uitgaan per week - Mediaan die duidelijk onderaan in de box ligt - Rechtsscheve verdeling - 7 kan als uitschieter worden beschouwd - Je moet voorzichtig zijn met het maken v/e boxplot wanneer het over een steekproefverdeling gaat met WEINIG uitkomsten → er gaan snel gaten of sprongen zijn Verbanden tussen 2 variabelen Er is verband of samenhang tussen 2variabelen wanneer bepaalde waarde v/d ene variabele meer (of minder) dan toevallig samen optreedt met bepaalde waarde v/d andere variabele Voorbeelden: - Is inkomensniveau afhankelijk v/c opleiding die men heeft gevolgd? - Hoe evolueren armoedecijfers doorheen de jaren? - Is er verband tussen het aantal inbraken en bevolkingsdichtheid in een stad? - Zorgt aanwezigheid tijdens hoorcollege en oefensessies statistiek voor hogere scores op het examen? ⇒ verschillende technieken nodig, afhankelijk v/h meetniveau 2 kwalitatieve variabelen: kruistabel = geeft weer hoe vaak elke combinatie van uitkomsten van 2 variabelen voorkomt in steekproef - Ene variabele per rij uitkomst en andere per kolom uitkomst - In tabel schrijven we combinatie Opbouw: - Rijen: categorieën v/d ene variabele (regio) - Kolommen: categorieën v/d andere variabele (inkomen) - Cellen: aantal keer dat een combinatie v/e categorie v/d ene variabele met categorie v/d andere variabele voorkomt (‘Regio’ = MW en ‘Inkomen’ = 3 komt 3 keer voor) - Marginale verdeling: totaal aantal elementen per categorie voor beide variabelen (rijtotalen en kolomtotalen) - Steekproefgrootte n (n = 60) Oefening: vul ontbrekende waarden aan kruistabel per rij - Per regio: voor elk v/d 4 regio’s kijken welk percentage inkomensniveau 1,2,3,4 heeft → als je die optelt dan kom je uit tot 1 (100%) - Absolute frequentie delen door rijtotaal en dan kom je aan cijfers kruistabel per kolom Staafdiagram staafdiagrammen voorwaardelijke relatieve frequenties - Als er geen verband is tussen ‘Regio’ en ‘Inkomen’, dan verwacht je bij zeer grote steekproeven dat de rechthoeken in dezelfde kleur ongeveer even groot zijn. - Nu kan je wel staafdiagrammen maken waar je info uit kan halen - Per regio moet je aan 100% komen - Deze zijn wel nuttig om met elkaar te vergelijken Een kwantitatieve en kwalitatieve variabele - kwalitatieve variabele deelt gegevens op in verschillende groepen - Per groep een boxplot maken v/d kwantitatieve variabele, telkens op dezelfde schaal - Belangrijk om boxplot op zelfde schaal te zetten → zo kan je ze makkelijk met elkaar vergelijken - Spreiding van regen in het westen is groter dan in het noorden Heatmap - Kwalitatieve variabele is hier de gemeente - Kwantitatieve variabele is criminaliteitsgraad - Boxplots maken zou onoverzichtelijk zijn dus heatmap is een goede keuze - Criminaliteitsgraad is ordinaal 2 kwantitatieve variabelen: scatterplot = Grafische voorstelling van data: puntenwolk of scatterplot. - Variabelen met veel mogelijke verschillende uitkomsten - Is er verband tussen januaritemperatuur en julitemperatuur? - X-as januaritemperatuur - Y-as julitemperatuur - Voor elke stad zet je dan een bolletje Scatterplot leert ons....of variabelen positief (y stijgt met stijgende x) of negatief (y daalt met stijgende x) geassocieerd zijn Hoe sterk de associatie is - Sterke associatie: waarde v/d ene variabele hangt sterk af v/d waarde v/d andere variabele - Zwakke associatie: waarde v/d ´ene variabele vertelt weinig over waarde v/d andere variabele Vorm v/d associatie - Lineair: je kan rechte tekenen die (redelijk) goed aansluit bij punten op scatterplot - Logaritmisch: je kan logaritmische functie tekenen die (redelijk) goed aansluit bij punten op scatterplot - Positief geassocieerd: Als waarde voor ene variabele groter wordt, voor de andere ook groter wordt - Negatief geassocieerd: als waarde voor ene variabele groter wordt, voor de andere kleiner wordt - logaritmisch: boog - Het is niet omdat er een associatie is dat het altijd een rechte is → kan ook logaritmisch zijn positieve en lineaire associatie tussen ‘JanT’ en ‘JulT’ - positief: steden met hogere (lagere) temperatuur in januari, hebben vaak ook een hogere (lagere) temperatuur in juli - lineair: verband lijkt rechtlijnig, maar wel heel wat variatie rond rechte ➔ dus eerder zwak verband - Grote spreiding in puntenwolk → zwak verband Covariantie en correlatiecoëfficiënt - Hoe kunnen we info over associatie tussen twee variabelen X en Y meten, of weergeven in 1 getal ? - Lineaire associatie: covariantie en Peerson correlatiecoëfficiënt Deel de scatterplot op in 4 kwadranten rond (x¯, y¯) (a) positieve associatie: meer observaties in het eerste en derde kwadrant (b) negatieve associatie: meer observaties in het tweede en vierde kwadrant - Wanneer associatie lineair is → maat van associatie berekenen door naar covariantie en correlatiecoëfficiënt te kijken - Positief: grote waarden van x gaan gepaard met grote waarden y → veel groene punten, weinig rode punten - Negatief: grote waarden x gaan gepaard met kleine waarden y → veel rode punten, weinig groene punten - Pearson correlatiecoëfficiënt: hoe sterk het lineair verband is Gegeven een steekproef van grootte n voor 2 variabelen X en Y. We beschikken dus over observaties: - Deze waarde is positief voor punten in het eerste en derde kwadrant, en negatief voor het tweede en vierde kwadrant - In geval van positieve associatie: meer observaties in het eerste en derde kwadrant, zodat de som positief is (want meer positieve bijdragen tot de som dan negatieve) → In geval van negatieve associatie zal deze som negatief zijn - Kijken naar product v/d deviatiescore - Alle groene punten: product zal een positief getal zijn - Alle rode punten: 1 v/d 2 is positief en negatief dus product zal altijd negatief zijn Voorbeeld: - Som delen door n-1 → dan krijg je covariantie (Sxy) tussen x en y - Er is een positieve associatie tussen januari en julitemperaturen Eigenschappen steekproefcovariantie: grootte v/d covariantie hangt af v/d gebruikte meeteenheid dus je kan de sterkte v/h verband niet zien zo correlatiecoëfficiënt Hoe kunnen we dan wel de sterkte van het verband meten? - Standardiseer de steekproefcovariantie zodat die onafhankelijk wordt v/d meeteenheden ➔ als sx > 0 en sy > 0 - Correlatiecoëfficiënt - Covariantie delen door standaarddeviatie van x maal standaarddeviatie van y - Correlatiecoefficiënt is dimensie loos Eigenschappen steekproefcoëfficiënt: - als puntenwolk ‘fijner’ is, nadert steekproefcorrelatiecoëfficiënt naar de extremen -1 of 1 - Indien alle punten op een rechte liggen, dan is r = −1 indien het een dalende rechte betreft, of r = 1 bij een stijgende rechte A: sterke positieve correlatie B: zwakke positieve correlatie (meeste punten liggen verder af v/d rechte) C: geen correlatie (geen duidelijke rechte die je kan trekken) D: sterke negatieve correlatie E: zwakke negatieve correlatie F: geen correlatie Geen associatie - Indien er geen associatie tussen de variabelen X en Y is, dan ligt r dicht bij 0 - Merk op dat de omgekeerde redenering niet geldt: het is dus mogelijk dat r ≈ 0, terwijl er toch een niet-lineaire associatie is tussen X en Y Parabolische grafiek - Kijk dus steeds eerst naar scatterplot, en enkel ingeval van lineaire associatie (of afhankelijkheid) is het zinvol deze te meten met behulp van r - Correlatiecoëfficiënt is een maat voor lineaire associatie en zegt dus niets over andere vormen Eigenschappen steekproefcorrelatiecoëfficiënt: Voorbeeld: Als je vind dat er een verband is tussen 2 variabelen, betekent niet automatisch dat de ene variabele de ander veroorzaakt Oefening: - meetniveau: quasi-metrische variabelen Thuis opnieuw maken!!! X = 3,33 Xi = 20 Y = 2,83 Yi = 17 Sxy = (20-3,33) + (17-2,83) / 6-1 = 6,17 Berekening: Hoofdstuk 3: Kansen en toevalsvariabelen Kanstheorie - Beschrijvende statistiek: overzichtelijk weergeven (numeriek en grafisch) v/d beschikbare steekproefinformatie - Inductieve statistiek: uitspraken doen over populatie obv informatie in steekproef ➔ rekening houden met onzekerheidsfactor ➔ informatie in steekproef is niet 100% gelijk aan informatie in populatie ➔ P staat voor probability - Kanstheorie: ➔ kwantificeren van die onzekerheid ➔ gaat over populatie: gaat dus NIET over enkel de steekproef ➔ bij kanstheorieën spreken we over gebeurtenissen voorbeeld: ➔ Experiment waarvan uitkomst wordt bepaald door het toeval Gebeurtenis A = een deelverzameling v/d uitkomstenverzameling S - bv: twee keer munt: A = {MM}, minstens 1 keer munt: B = {KM, MK, MM},... - kans P op een gebeurtenis drukt de (on)zekerheid v/h optreden v/e gebeurtenis uit op een kwantitatieve manier - Gebeurtenis = een deelverzameling uit die uitkomstenverzameling - Altijd met HOOFDLETTER - Kans v/d gebeurtenis: hoe zeker of onzeker we zijn v/d kans v/e gebeurtenis - Kansen kwantificeren - kans kan theoretisch bepaald worden (zoals in het voorbeeld van het muntstuk) of experimenteel met wet v/d grote aantallen: ➔ relatieve frequentie v/e gebeurtenis A onder een groot aantal experimenten stabiliseert naar een getal, de kans op die gebeurtenis - Kans = P - Vaak zijn kansen het resultaat van hele grote steekproeven → hoe groter de steekproef, hoe dichter relatieve frequentie zal komen bij de echte kans op die gebeurtenis Voorbeeld: - A1: huishouden bestaat uit 1 persoon, etc. - Kans = relatieve frequentie - Kansen liggen altijd tussen 0 en 1 (net zoals relatieve frequenties) - De som v/d kansen moet altijd gelijk zijn aan 1 - Kans (populatieniveau) is tegenhanger van relatieve frequentie (steekproefniveau) Kansregels: - Kans op gebeurtenis A2 = 0.267 - Complementaire gebeurtenis: berekenen dat huishouden NIET uit een bepaald aantal inwoners bestaat → complementair = alles BEHALVE iets - G met c boven = complement en dus alles wat NIET G is 1) Kansregels voor complementaire gebeurtenis: P(S) = kans op totale uitkomstverzameling ∅ = kans op gebeurtenis waar geen enkele uitkomst is → die kans is ALTIJD 0 2) Kansregels voor Unie (U, “of”) en doorsnede (∩, “en”): - ∪: uitkomsten die ofwel tot A OF B horen - dit betekent dat ofwel A optreedt en B niet, ofwel B optreedt en A niet ofwel A en B beide optreden Unie vs doorsnede - Unie = ofwel haar op het hoofd ofwel baard - Doorsnede = je moet ze allebei hebben ➔ De gebeurtenis dat A en B BEIDE OPTREDEN 3) Kansregel voor unie in geval van lege doorsnede (2 disjuncte gebeurtenissen): - Het komt ook voor dat er GEEN doorsnede is - Dat is makkelijker want je berekend als kans op gebeurtenis A + kans op gebeurtenis B - Disjuncte gebeurtenis = wanneer de 2 gebeurtenissen niet tegelijkertijd kunnen optreden 4) Kansregel voor verschil: - Ene gebeurtenis is een deel v/d andere gebeurtenis (B is deel van A) → de kans dat A optreedt, maar B niet, waarbij B een deelgebeurtenis is van A - ∖: kans op gebeurtenis A Verschillend van kans B → A - B Oefening - Viool EN piano spelen is doorsnede van beide gebeurtenissen dus kans op A doorsnede B Oplossing: ➔ Kans dat hij op geen van beide instrumenten speelt is complement dat hij op minstens 1 v/d instrumenten speelt Voorwaardelijke kansen voorwaardelijke kans dat gebeurtenis A optreedt als je weet dat gebeurtenis B optreedt, bereken je zo: - Kans dat A optreed als je weet da B optreed - Kans op A gegeven B - Kans dat ik 6 gegooid heb EN even aantal ogen Oefening → Het gaat over een VOORWAARDELIJKE kans → dus met verticale streep ▸ P (A) = 0.70 ▸ P (B) = 0.50 - P (A ∩ B) = 0.40 → Dit stond al op slide 16 Onafhankelijkheid van gebeurtenissen Gebeurtenissen A en B worden onafhankelijk genoemd als de kans op het voorkomen van A niet beïnvloed wordt door het al dan niet optreden van B (en omgekeerd) Voorbeeld Voorbeeld - De kans dat je een 2 uit de doos trek, zal altijd 2/5e zijn → want je legt de bal terug en daardoor gebeurt de tweede trekking uit een dood met dezelfde inhoud als bij de eerste trekking - Uitkomst 2e trekking wordt niet bepaald door de 1e trekking - Nu is de tweede trekking WEL afhankelijk v/d eerste want de tweede trekking wordt gedaan met 1x het nummer 1, 2x nummer 2 en 1x nummer 3 Toevalsvariabelen - Een toevalsexperiment is experiment waar uitkomst niet op voorhand van gekend is (gooien met dobbelsteen - Een (toevals)variabele is een kenmerk/karakteristiek die varieert van persoon tot persoon (of onderzoekseenheid) en waarvan uitkomst het resultaat is v/e toevalsexperiment. (aantal ogen gegooid met dobbelsteen) - toevalsvariabele kan numerieke waarden als mogelijke uitkomsten hebben (ogen van dobbelsteen, aantal auto’s) maar ook niet-numerieke waarden (gender, haarkleur) → onderscheid tussen kwantitatieve en kwalitatieve variabelen - Niet-numerieke uitkomsten kan je omzetten in numerieke waarde (bv zwart = 1, blond = 2, bruin = 3 etc.), maar hier kan (mag) je niet meer rekenen! De toevalligheid wordt typisch veroorzaakt door: ▸ Het kiezen van een willekeurig object van een populatie ▸ Het uitvoeren van een toevalsexperiment ➔ gebruiken hoofdletters ver in het alfabet om toevalsvariabelen voor te stellen: X, Y, Z,.... ➔ gebruiken kleine letters x, y, z,... om de waarde v/e toevalsvariabele (een getal) voor te stellen ➔ gebruiken S om verzameling van alle mogelijke uitkomsten v/e toevalsexperiment te noteren Wat zijn de mogelijke uitkomsten bij elk toevalsexperiment in de voorbeelden? Wat zijn de toevalsvariabelen? ➔ grafisch voorgesteld ➔ een reële toevalsvariabele neemt numerieke waarden aan die overeenstemmen met de uitkomsten v/e experiment dat onderhevig is aan het toeval Kansen op gebeurtenissen met betrekking tot toevalsvariabelen - Wat is de kans om minstens 4 te werpen met een dobbelsteen? - Wat is de kans om maximaal 1 keer kruis te werpen als je tweemaal met een muntstuk werpt? Dichtheidsfunctie Discrete toevalsvariabele vs continue toevalsvariabele Oefening Discrete toevalsvariabele Voorbeelden: Dichtheid v/e discrete toevalsvariabele - Hoe groot is in de bovenstaande voorbeelden de kans op elke uitkomst? F(mj): kans dat toevalsvariabele x de waarde mj aanneemt → die kans is altijd positief en kleiner of gelijk aan 1 - Als je het optelt dan kom je altijd tot 1 Kansverdeling v/e discrete toevalsvariabele Voorbeeld: - Je schrijft best kanstabel - 4 mogelijke situaties en 1 ervan levert mij de waarde 0 op voor het aantal keer kruis - mj: zijn de uitkomsten voor x - J: het volgnummer van die uitkomsten: dus 1e uitkomst heeft waarde 0, tweede uitkomst waarde 1 en derde uitkomst heeft waarde 3 (gewoon van boven naar onder bekijken) - Je kan ook een staafdiagram maken → Wanneer je de kansen bij elkaar gaat optellen dan moet je altijd mooi uitkomen bij 1 Aan de hand v/d kansverdeling kunnen we alle kansen op gebeurtenissen v/e discrete variabele berekenen Continue toevalsvariabele Dichtheid van een continue toevalsvariabele Vb: tijd, lengte, gewicht, temperatuur, enz. - De kans dat een continue toevalsvariabele X een specifieke waarde aanneemt is steeds 0 (niemand is bv. exact 1.80m lang) → we kunnen de dichtheid X dus NIET definiëren zoals bij een discrete toevalsvariabele Merk op: in praktijk wordt een continue toevalsvariabele wel op discrete manier gemeten omdat men beperkt is door de nauwkeurigheid v/h meetinstrument → het kan lijken dat een variabele WEL discreet is maar dat is niet zo - Relatieve frequentie werd bepaald door de oppervlakte van die bijbehorende rechte in het dichtheidshistogram - De dichtheid v/e toevalsvariabele kan beschouwd worden als de limiet van een dichtheidshistogram v/e steekproef waarbij men de steekproef steeds groter maakt en de klassenbreedte steeds kleiner. - Rechts curve is de dichtheid v/d toevalsvariabele - Die dichtheid is die curve waarvan de oppervlakte geassocieerd is aan de kans op de uitkomst in een bepaald interval - Het kan verschillende vormen aannemen - Dichtheid wordt gebruikt om kansen uit te rekenen. Voor een continue toevalsvariabele X geldt dat - De kans op het interval dat alle mogelijke uitkomsten bevat is gelijk aan 1 (totale oppervlakte onder de curve) - Ieder interval heeft een kans die ligt tussen 0 en 1. - De kans op 1 getal is altijd gelijk aan 0: P (X = x) = 0 ➔ Histogram gebaseerd op frequentiedichtheden heeft al eigenschap dat de totale opp. Van alle balken gelijk is aan 1 - Kans op 1 bepaalde uitkomst is altijd 0 - De hoogte geeft NIET de kans weer op die uitkomst maar je moet de dichtheid gebruiken om naar de oppervlakte te kijken want die verteld ons iets over de kans op een waarde in een bepaald interval → Zo een dichtheid is altijd positief Verdelings- en kwantielfunctie - Het gaat nu niet meer over een steekproef maar over een populatie ➔ Voor een populatie is de verdelingsfunctie in een waarde x gedefinieerd als de kans dat de toevalsvariabele een waarde aanneemt die niet groter is dan x (kleiner dan of gelijk aan x) - Nu gaan we gewoon een F zetten zonder hoedje en n want het gaat NIET over een steekproef maar wel over de gehele populatie Verdelingsfunctie voor een discrete variabele - F (2): een dobbelsteen heeft 2 cijfers die kleiner of gelijk zijn aan 2 dus dat is 2/6 of 1/3 - Als we de kansdichtheid kennen dan kunnen we de verdelingsfunctie bepalen Voorbeeld: - J is het volgnummer - F v/d grootste waarde moet ALTIJD gelijk zijn aan 1 - Verdelingsfunctie kan NIET kleiner zijn dan 0 Kwantielfunctie voor een discrete variabele - Voor een populatie is de kwantielfunctie in een kans p met 0 < p ⩽ 1 gedefinieerd als de kleinste x waarvoor F (x) groter dan of gelijk is aan p - Ook hier GEEN hoedje op Q - Je gaat kijken naar de verdelingsfunctie v/d toevalsvariabele Oefening - VERDELINGSFUNCTIE BEGINT ALTIJD IN 0 - In 4 maakt hij een eerste sprong, in 5 een tweede sprong,… - De hoogte v/d sprong is telkens de hoogte v/h staafje Antwoord: - Als veehouder 7 plaatsen extra maakt, dan is hij voor 95% gerust gesteld dat hij voldoende plaats heeft voor alle nieuwe kalfjes Verdelingsfunctie voor een continue variabele Ook voor een continue variabele wordt de verdelingsfunctie gedefinieerd als de kans dat een toevalsvariabele X een waarde aanneemt kleiner dan of gelijk aan een gegeven getal x: - Verdelingsfunctie in een bepaald getal x gedefinieerd als de kans kleiner dan of gelijk aan x - Volledige opp onder dichtheidsfunctie links van x = F(x) → kans kleiner of gelijk aan x - Grafiek hier is een vloeiende lijn die start in 0 en eindigt in 1 en die altijd stijgt - Als we kans willen berekenen van x tussen 2 getallen dan schrijven we eerst het kleinste getal dan de kleiner dan of gelijk aan dan de x en dan opnieuw kleiner of gelijk aan) - Kans dat x ligt tussen 2 getallen a en b voor een continue toevalsvariabele x = verdelingsfunctie in b – verdelingsfunctie in a Kwantielfunctie voor een continue variabele - Continue toevalsvariabele en verdelingsfunctie is vloeiende lijn tussen 0 en 1 - Q v/e bepaalde kans P is die x waarde waarvoor de opp links van x precies gelijk is aan P Centrum- en spreidingskenmerken - We kunnen ook het centrum en de spreiding van een kansverdeling beschouwen. Dit noteren we met µ en σ. Deze waarden noemen we parameters Let op: dit is enkel nuttig indien de uitkomsten v/d toevalsvariabele zinvolle numerieke waarden zijn (metrisch of quasi-metrisch) - Toevalsvariabelen = worden parameters genoemd - µ = wordt gebruikt om het midden v/e kansverdeling aan te duiden - σ = Wordt gebruikt om een spreiding rond het midden v/e kansverdeling aan te duiden Gemiddelde v/e discrete toevalsvariabele X: = populatiegemiddelde / verwachtingswaarde / verwachte waarde van X - Wanneer steekproef groter en groter wordt, zal de relatieve frequentie fj zal naderen naar de kans op die uitkomst die we gerelateerd hebben met f(mj) - Wanneer steekproef groter en groter wordt, zal het steekproefgemiddelde naderen naar de som van alle uitkomsten maal de kans van die uitkomsten - E = expected value / verwachte waarde Het gemiddelde v/e toevalsvariabele X beschrijft het centrum v/h populatiekenmerk, en wordt daarom ook wel het populatiegemiddelde genoemd. - verwachte waarde van X zegt niets over de uitkomst van 1 enkele observatie, maar geeft aan wat men gemiddeld gezien verwacht over een lange reeks observaties - Merk op dat de verwachte waarde v/e discrete toevalsvariabele in het algemeen geen mogelijke uitkomst v/d variabele is ➔ f(mj) x mj Gemiddelde van een continue toevalsvariabele Ook voor continue kansverdelingen kan men het (populatie)gemiddelde µ = E(X) beschouwen - Dit geeft informatie over centrum (zwaartepunt) v/d kansverdeling - In het algemeen kan je µ berekenen via integralen (niet zelf kunnen uitrekenen). Bij een rechtsscheve verdeling ligt het gemiddelde meer in de rechterstaart, bij een linksscheve verdeling meer in de linkerstaart. Bij een symmetrische verdeling ligt het gemiddelde in het midden Mediaan en kwantielen - Kruis bij 1 worp: Med(X) = 0 - Aantal keer kruis bij 2 worpen: Med(X) = 1 - Assymetrische discrete verdeling: Med(X) < E (X) - Uniforme continue verdeling: Med(X) = E (X) continue toevalsvariabele - Men deelt de totale opp. op in 4 kwarten die allemaal dezelfde oppervlakte hebben Modus v/e toevalsvariabele Verband tussen centrummaten: Variantie en standaarddeviatie H2: voor een steekproef worden de variantie en standaarddeviatie berekend als Discrete toevalsvariabele Interkwartielafstand Transformaties Waarom kunnen transformaties nuttig zijn? - Omzetten van meeteenheden (van meter naar centimeter, van Celcius naar Fahrenheit,...) - Bereik v/e variabele wijzigen (omzetten naar schaal van 0 − 10) - Meer symmetrie creëren - Normaal verdeelde gegevens creëren: normale verdeling heeft veel wat “handige” eigenschappen Lineaire transformaties Centrummaten - Als je steekproefgegevens lineair transformeer dan zal het steekproefgemiddelde op dezelfde manier transformeren Mediaan: - Mediaan en steekproefgemiddelde zijn beide dubbel zo groot geworden → ze transformeren op dezelfde manier als de oorspronkelijke steekproefgegevens Spreidingsmaten - Spreiding rond het centrum wordt daar niet door beïnvloed Toevalsvariabelen z-scores v/e steekproefgegeven - Steekproefgemiddelde van z-scores is altijd 0 - Steekproefstandaarddeviatie van z-scores is altijd 1 z-score v/e toevalsvariabele Covariantie, correlatie en onafhankelijkheid van 2 variabelen Covariantie en correlatiecoëfficiënt zijn een maat voor de samenhang tussen twee kwantitatieve toevalsvariabelen X en Y - Steekproefgemiddelde van x wordt de verwachte waarde van x - Steekproefgemiddelde van y wordt de verwachte waarde van y - Als je covariantie v/d toevalsvariabele X met zichzelf ga berekenen, dan kom je precies de variantie van X uit - Covariantie X en Y delen door de standaarddeviatie van X maal standaarddeviatie Y → populatiecorrelatiecoëfficiënt - P = ro - Correlatiecoëfficiënt zal altijd liggen tussen -1 en 1 - Je gebruikt dat om te onderzoeken in welke mate er een lineair verband is tussen X en Y Onafhankelijkheid van toevalsvariabelen - Als X en Y onafhankelijk zijn dan zal de covariantie en correlatiecoëfficiënt van X en Y gelijk zijn aan 0 - Lineair onafhankelijk = GEEN lineair verband tussen X en Y maar er kan mogelijk wel een ander verband zijn tussen X enY Lineaire combinaties - Als we 2 variabelen X en Y bestuderen, zijn we soms geïnteresseerd in - Verschil tussen variabelen X-Y (bv. verschil tussen de januari- en junitemperaturen) ➔ Algemeen: we zijn geïnteresseerd in een lineaire combinatie van X en Y V = a + bX + cY - Dit zijn transformaties maar dan met 2 variabelen - V is nieuwe variabele Lineaire combinaties van steekproefgegevens - Variantie van v wordt niet alleen bepaald door variantie van X en Y maar ook door de mate waarin X en Y samenhangen, uitgedrukt in covariantie tussen X en Y - Als je met 2 toevalsvariabelen aan het werk bent en als je variantie v/d nieuwe toevalsvariabele gaat uitrekenen, houdt er dan rekening mee dat je ook de covariantie van X en Y in rekening moet brengen Lineaire combinaties van toevalsvariabelen - Als X en Y onafhankelijk zijn dan valt het stukje van covariantie weg Oefening: - Winst is alles wat je krijgt – alles wat je terug moet uitgeven - Verwachte winst: ongeacht wanneer je het spel speelt heb je kans om te winnen of verliezen maar als je het spel duizend keer speelt dan zal je gemiddeld gezien per spel een halve euro verloren hebben - Je mag de breuk als kommagetal zetten maar dan heb je kans op afrondingsfouten - X en Y zijn hier onafhankelijke variabelen, wat betekent dat de covariantie hier gelijk is aan 0 Hoofdstuk 4: univariate kansmodellen Kansmodellen - Uitspraak over kenmerk v/e populatie doen we mbv ‘kansen’ - Om kansen mbt toevalsvariabele X te kunnen bepalen, moeten we kansverdeling van X kennen ➔ Verdelingsfunctie F (x) ➔ (Kans)dichtheid f (x) - In dit hoofdstuk bestuderen we enkele veel voorkomende kansverdelingen (kansmodellen) voor 1 variabele (univariaat) Kansmodel is een kansverdeling waarbij we waarde v/d parameters abstract houden en niet concreet Normale verdeling = belangrijkste verdeling in de statistiek - Veel fenomenen worden gekenmerkt door (benaderend) normale verdeling - Zelfs indien verdeling discreet is en veel mogelijke uitkomsten heeft, levert normale verdeling vaak een goede benadering - Veel statistische technieken steunen op normale verdeling, zelfs indien gegevens niet afkomstig zijn uit een normale verdeling ➔ Zelfs de wereldpopulatie kan je beschrijven door een normale verdeling Voorbeelden: ➔ Deze kansen kunnen berekend worden mbv kansdichtheid v/d normale verdeling Klokvorm is typisch voor een normale verdeling - De (kans)dichtheid van een normale verdeling is symmetrisch, klokvormig, en kan volledig worden bepaald door 2 parameters: Lees: - N = Normale verdeling - µ = verwachtingswaarde → waar de top v/d dichtheid zich bevindt - Dit is kansdichtheid v/e normale verdeling - Het verloop is symmetrisch - Waarde waar de top zich bevindt is de verwachtingswaarde v/d normale verdeling dichtheid v/d normale verdeling is symmetrisch rond gemiddelde µ → Totale opp onder de dichtheid moet 1 zijn Het gemiddelde µ bepaalt waar top v/d dichtheidsfunctie ligt ➔ Waarde van µ bepaalt op welke plaats de top zich zal bevinden op de x-as De standaarddeviatie σ bepaalt de afstand tussen het midden (µ) en de “knik” in de dichtheidsfunctie → De knik in de curve doet zich voor in standaarddeviatie is een maat voor breedte v/d dichtheid, geeft aan in welke mate de dichtheid gespreid is rond het gemiddelde µ Hoe groter σ is, hoe verder weg µ van die knik zich zal voordoen standaarddeviatie kleine standaarddeviatie σ betekent dat kromme v/d verdelingsfunctie hoog en spits is, een grotere standaarddeviatie betekent dat deze kromme platter en breder is - Waarom wordt de top hoger als σ kleiner wordt?: omdat de opp onder de dichtheid altijd gelijk moet zijn aan 1 - Wat zijn alle mogelijke waarden voor µ en σ?: µ kan om het even welk reëel getal zijn, σ is een spreidingsmaat en die zijn altijd positief en dus kan het alle getallen aannemen die groter zijn dan 0 → Er bestaan oneindig veel normale verdelingen en voor elke combinatie hebben we een andere normale verdeling Standaardnormale verdeling - standaardnormale verdeling is Z met gemiddelde 0 en standaarddeviatie 1 - Z-scores hangt samen met standaardnormale verdeling Kansen en kwantielen onder de standaardnormale verdeling - Algemeen: uitrekenen via integralen, maar meestal geen exacte oplossing! - Kansen en kwantielen benaderen met behulp van een kanstabel. Of met statistisch softwarepakket (SPSS, SAS, R,... ) Standaardnormale tabel - Figuur die boven tabel staat, vertelt u welke kansen je kan terugvinden in de tabel - In de tabel staat voor verschillende z-waarden, de kans kleiner of gelijk aan z - In deze tabel vinden we z-waarden die liggen tussen 0 en 3,09 - Kansen kunnen NOOIT groter zijn dan 1 Wat vind je terug op deze tabel? - z-waarden tussen 0 en 3.09 (eerste kolom en eerste rij) - Voor elk van deze z-waarden de kans kleiner dan (of gelijk aan) deze z-waarde - Deze kansen liggen tussen 0.5 en 0.999 - Hoe moet deze tabel gebruikt worden? Standaardnormale verdeling: kansen Vervolg - In de tabel stonden enkel de oppervlaktes LINKS van Z - Je weet dat opp onder tabel 1 is dus doe je 1- opp links → 1-0,732 = 0,268 - Standdaardnormale verdeling is symmetrisch rond 0 - Opp links moet even groot zijn als de opp rechts Vervolg Voorbeeld 2 - Je mag zeggen dat voor z-waarden groter dan de grootste waarden in de tabel, dat de kans kleiner of gelijk aan dat getal ongeveer 1 is ≈ : ligt zo dichtbij 1 dat we gaan doen alsof ze 1 is - Wat met grote negatieve getallen? - Oppervlakte links van -5 zal zo goed als 0 zijn Voorbeeld 3 - Je doet 1-P zodat het bekje naar de andere kant gaat staan Algemene formule: Herinner: voor een continue toevalsvariabele geldt P (X = x) = 0 ➔ Dit geldt dus ook voor een (standaard)normale toevalsvariabele Gevolg: Dit geldt ENKEL voor continue kansverdelingen Standaardnormale verdeling: 68-95-99.7 regel Standaardnormale verdeling: kwantielen Voorbeeld: ➔ 0.5 is de kans die gegevens is dus die moet je zoeken IN de tabel Vervolg: ➔ Als het er niet exact instaat dan moet je kijken naar de kans die er het dichtste bij is - Kan je niet adhv de tabel doen want alles onder 0,5 staat daar niet in! ➔ Recht is het 0,67 maar het is symmetrisch dus links is het -0,67 Kansen en kwantielen onder een willekeurige normale verdeling Transformaties - Als je een toevalsvariabele hebt die uit een willekeurige normale verdeling komt, kan je die altijd transformeren naar een toevalsvariabele die uit een standaardnormale verdeling komt → Dit doe je zodat je dan uw standaardnormale tabel kan gebruiken en je uw kans daar zo kan uit aflezen ➔ Je vertrekt v/d rode normale verdeling Willekeurige normale verdeling: kansen - Bewerkingen die je doet aan de linkerkant van uw ongelijkheid, moet je ook aan de rechterkant doen van uw ongelijkheid Kansen berekenen onder een willekeurige normale verdeling: 1) Eerst standaardiseren 2) Dan tabel gebruiken ➔ Variantie 9 betekent standaarddeviatie gelijk aan 3 → die 3 is de vierkantswortel van die 9 Oefening: Het IQ v/e Belg is normaal verdeeld met gemiddelde 100 en standaarddeviatie 15. Wat is de kans dat een willekeurige Belg een IQ heeft dat groter is dan 120? Antwoord bestaat uit 3 delen: Uitgewerkt: Willekeurige normale verdeling: 68-95-99.7 regel - De kans dat een toevalsvariabele hoogstens 1 standaarddeviatie v/h gemiddelde afwijkt is 68,2% - De kans dat een toevalsvariabele hoogstens 1,96 standaarddeviatie v/h gemiddelde afwijkt is 95% - De kans dat een toevalsvariabele hoogstens 3 standaarddeviatie v/h gemiddelde afwijkt is 99,7% Willekeurige normale verdeling: kwantielen Voorbeeld (vervolg): - Voor een normale verdeling is de IQR gelijk aan 1,34 maal standaarddeviatie (σ) ➔ Deze eigenschap geldt voor elke normale verdeling! Oefening Vlaamse mannen zijn gemiddeld 179 cm groot, met een standaarddeviatie van 7.6 cm. Bepaal de nodige deurhoogte zodanig dat 99% van de mannen erdoor kan zonder te bukken. ➔ Lichaamslengtes komen uit een normale verdeling Lineaire transformaties en lineaire combinaties - Som van X en Y is normaal verdeeld met som van 2 gemiddeldes en varianties Bernoulli verdeling = indien 2 mogelijke uitkomsten worden gecodeerd met 0 en 1 Voorbeelden - Opgooien v/e muntstuk met X = 1 in geval van kruis en 0 in geval van munt - X = 1 als een persoon in een bepaalde populatie reeds een veroordeling opliep, 0 indien niet - X = 1 als iemand een vraag juist beantwoordt en 0 indien het antwoord fout is ➔ De toevalsvariabelen volgen allemaal hetzelfde kansmodel (discrete toevalsvariabelen) - Wat hebben deze voorbeelden gemeenschappelijk?: toevalsvariabele X kan telkens maar 2 verschillende waarden aannemen ➔ Succes komt overeen dat X de waarde 1 aanneemt - Hoogte van beide staafjes moet altijd samen 1 zijn - Kans op een gebeurtenis ALS het getal waarnaar relatieve frequentie v/d gebeurtenis stabiliseert onder een groot aantal proeven Voorbeelden: Variantie Bernoulli verdeling - Wanneer p klein wordt en dichter bij 0 dan wordt de variantie kleiner - Wanneer p groter wordt en dichter bij 1 dan wordt variantie OOK kleiner Binomiaalverdeling Voorbeelden: 1) X = aantal keer kruis gooien bij 20 worpen met een (eerlijk) muntstuk 2) X = aantal personen in een groep van 100 dat reeds een veroordeling opliep 3) X = aantal positief geteste chauffeurs, bij een steekproef van 50 willekeurige chauffeurs op een willekeurig gekozen moment ➔ Deze toevalsvariabelen volgen allemaal hetzelfde kansmodel. Wat hebben deze voorbeelden gemeenschappelijk? - Elk experiment wordt een aantal keer (n) herhaald. - We zijn geïnteresseerd in het aantal successen na n experimenten - Elk experiment heeft 2 mogelijke uitkomsten: “succes” (1) of “mislukking” (0) (Bernoulli-experiment) - kans op succes (p) is even groot in elk experiment - experimenten gebeuren onafhankelijk van elkaar - We kijken nu niet naar het resultaat van 1 experiment maar dat we dit gaan herhalen - wanneer een aantal identieke / onafhankelijke Bernoulli experimenten worden uitgevoerd, is het aantal keer dat de uitkomst 1 wordt geobserveerd, binomiaal verdeeld Zij X een toevalsvariabele die het aantal successen telt bij n experimenten. Indien: - elk experiment 2 mogelijke uitkomsten heeft - kans op succes (p) even groot is in elk experiment - experimenten onafhankelijk zijn van elkaar zeggen we dat: ∼ betekent: Is verdeeld volgens Voorbeelden: 1) X = het aantal keer kruis gooien bij 20 worpen met een (eerlijk) muntstuk 2) X = het aantal personen in een groep van 100 dat reeds een veroordeling opliep 3) X = het aantal positief geteste chauffeurs, bij een steekproef van 50 willekeurige chauffeurs op een willekeurig gekozen moment Kansen onder een binomiaalverdeling ➔ De kans op alle 5 chauffeurs die negatieve ademtest afleggen is 0,99 tot de 5e macht kans dat GEEN enkele chauffeur positief test kans dat JUIST 1 enkele chauffeur positief test kans dat JUIST 2 chauffeurs positief test - Er zijn 10 mogelijkheden Samengevat Algemeen ! : m faculteit: getal m vermenigvuldigen met 1 minder, 2 minder enz. tot je aan 1 komt - 0 faculteit = gelijk aan 1 - 1 faculteit = gelijk aan 1 - 2 faculteit = gelijk aan 2 (2x1) - Het aantal mogelijkhden om m successen te hebben bij n mislukkingen Binomiaalverdeling: kansverdeling Voor X ∼ B(n, p) geldt Uit 0! = 1 volgt dat Oefening: - n=6 - p = 0,15 - m (aantal successen waarnaar we opzoek zijn) = 2 Intermezzo: rekenen met faculteit Combinaties kan je met de hand (of je rekenmachine) gemakkelijk uitrekenen wanneer de getallen niet heel groot zijn, zoals in het voorbeeld hierboven: Voor iets grotere getallen gaat dit ook nog, maar wordt het rekenwerk lang en omslachtig: Wanneer de getallen nog groter worden, is dit veel moeilijker (of zelfs onmogelijk!) Daarom is het beter om “slim” te rekenen: Kenmerken v/e binomiaalverdeling Voorbeelden binomiaalverdeling Wat is de kans dat, in een willekeurige groep van 20 mensen uit een bepaalde bevolkingsgroep, er minder dan 2 werklozen zijn, als je weet dat de werkloosheidsgraad 7% bedraagt in die bevolkingsgroep? Vervolg: ➔ Voor binominale verdeling is het wel belangrijk of je gelijkheidsteken erbij zet of niet Voorbeeld: Toepassingen Sociaal-economische wetenschap Hoe groot is de kans dat een gezin meer dan 1000 euro per maand uitgeeft aan kinderen? Hoeveel gezinnen verwacht je die meer dan 1000 euro per maand uitgeven aan kinderen? Hoofdstuk 5: schatters en hun verdeling Steekproefgemiddelde als toevalsvariabele Om de onderzoeksvraag te beantwoorden, zullen we het steekproefgemiddelde x¯n vergelijken met de vooropgestelde waarde 179 cm - Het is niet het populatiegemiddelde want je hebt niet aan ALLE mannen van KUL gevraagd maar het is een deel dus het is steekproefgemiddelde - Omdat geobserveerde waarden in steekproef onderhevig zijn aan toeval, is ook de waarde v/h steekproefgemiddelde onderhevig aan het toeval - Een steekproefgemiddelde is een benadering voor het onbekende populatiegemiddelde E (X) → steekproefgemiddelde wordt als toevalsvariabele beschouwd en kan verschillende uitkomsten aannemen Voorbeeld: - We zien dat het steekproefgemiddelde een getal is dat kan variëren van steekproef tot steekproef → dit is definitie van toevalsvariabele - Dus ons steekproefgemiddelde kunnen we beschouwen als een toevalsvariabele - Met hoofdletter X wordt bedoelt: het gemiddelde van n toevalsvariabelen Voorbeeld: - Die toevalsvariabele gaan we gebruiken om de waarde v/eh populatiegemiddelde te schatten → schatter / schatting Parameter, schatter en schatting - (populatie-)parameter = numerieke samenvatting v/e kenmerk van een populatie → parameters v/e populatie zijn doorgaans niet gekend - parameter kan geschat worden door numerieke samenvatting v/e kenmerk v/e steekproef uit populatie → Deze numerieke samenvatting noemt men een schatting en hangt af v/d steekproef - Wanneer men deze schatting beschouwt als toevalsvariabele, spreekt met v/e schatter - Alle steekproefgemiddeldes lijken in de buurt van 10 te liggen - spreiding v/d steekproefgemiddeldes is veel kleiner dan spreiding binnen 1 steekproef - We herkennen de klokvorm die typisch is voor de normale verdeling - De gegevens bij het linkse histogram (1 steekproef) zijn meer uitgespreid dan de gegevens v/h rechtse histogram - Het midden v/h histogram lijkt heel dicht in de buurt van 10 te liggen bij beide grafieken Verdeling v/h steekproefgemiddelde Voorbeeld: - In woorden: verwachtingswaarde v/h steekproefgemiddelde is dezelfde als verwachtingswaarde v/d oorspronkelijke toevalsvariabele - Je kan aantonen dat de verwachtingswaarde v/h steekproefgemiddelde als toevalsvariabele, dezelfde is als de verwachtingswaarde v/d oorspronkelijke x - De spreiding bij grotere steekproeven is kleiner - De variantie lijkt omgekeerd evenredig te zijn met de steekproefgrootte n - Steekproefverdeling v/e schatter is de kansverdeling van deze schatter We kunnen de variantie van X¯n schatten door de steekproefvariantie van x¯(1), x¯(2), x¯(3),.... - Variantie v/h steekproefgemiddelde zal gelijk zijn aan de oorspronkelijke variantie, gedeeld door de steekproefgrootte - Standaarddeviatie v/h steekproefgemiddelde is gelijk aan de oorspronkelijke standaarddeviatie, gedeeld door de vierkantswortel uit de steekproefgrootte - Standaardfout v/h steekproefgemiddelde = standaarddeviatie sigma gedeeld door vierkantswortel v/d steekproefgrootte Verdeling v/h gemiddelde v/e normale variabele - Mijn steekproefgemiddelde komt uit een normale verdeling wanneer de steekproefgegevens zelf ook uit een normale verdeling komen - Die steekproefgegevens moeten allemaal onafhankelijk van elkaar zijn - Als je toevalsvariabelen hebt die uit een normale verdeling komen dan zal het steekproefgemiddelde ervan OOK uit een normale verdeling komen → met hetzelfde gemiddelde maar een veel kleinere variantie In woorden: het steekproefgemiddelde van een steekproef van grootte n uit een normaal verdeelde populatie met - (populatie)gemiddelde µ - en (populatie)standaarddeviatie σ heeft een verdeling die ook normaal verdeeld is en waarvoor: - het gemiddelde gelijk is aan µ - de standaardfout gelijk is aan In de praktijk hebben we maar 1 steekproef en maar 1 steekproefgemiddelde. Hoe groter de steekproef, hoe dichter we het steekproefgemiddelde kunnen verwachten bij het populatiegemiddelde van X - Voor 1 steekproefgegeven is er veel kans dat het zich redelijk ver van µ bevindt - Maar als steekproef groter en groter wordt dan wordt de kansverdeling van die dichtheid scherper (smaller) → hoe groter uw steekproef wordt, hoe dichter bij het populatiegemiddelde je uw steekproefgemiddelde zal verwachten Oefening: - Vierkantwortel 10 is de standaardfout Centrale limietstelling Wat als X1,..., Xn niet normaal verdeeld is? - Stel X komt uit een rechtsscheve verdeling zoals op de linkse grafiek. - E(X) = 1 = Var(X) - We vergelijken het histogram van 1 steekproef met dat van 50 steekproefgemiddeldes. - Het gemiddelde v/d oorspronkelijke gegevens was 1 en het steekproefgemiddelde ligt daar ook dichtbij - Ook het gemiddelde v/d 50 steekproefgemiddeldes ligt dichtbij 1 - Spreiding v/d steekproefgemiddeldes is veel kleiner dan die v/d oorspronkelijke gegevens - Bij de 50 steekproefgemiddeldes zien we veel meer symmetrie en zien we een vorm die al dichter in de buurt komt v/d klokvorm ≈ : het steekproefgemiddelde komt niet exact uit een normale verdeling maar dat de kansdichtheid v/h steekproefgemiddelde heel erg LIJKT op die v/e normale verdeling of benaderend uit een normale verdeling komt Wat als X1,..., Xn niet normaal verdeeld is? - Stel X uit een symmetrische verdeling zoals op de linkse grafiek. - E(X) = 0.5 en Var(X) = 0.125 - We vergelijken het histogram van 1 steekproef met dat van 50 steekproefgemiddeldes - Voor 1 steekproef is de vorm wel symmetrisch maar verre van klokvormig - Bij 50 steekproefgemiddeldes heb je wel een klokvorm → spreiding v/d steekproefgemiddeldes is veel kleiner geworden en de vorm v/h histogram lijkt al veel meer op een klokvorm - We vermoeden dat de steekproefgemiddeldes bij benadering uit een normale verdeling komen met hetzelfde gemiddelde als de oorspronkelijke gegevens (0,5) en met een variantie die n keer kleiner is geworden Voorbeelden: Deze voorbeelden illustreren de volgende krachtige stelling: - centrale limietstelling (CLS) zal ons toelaten om kansuitspraken te doen over het steekproefgemiddelde ongeacht wat de populatieverdeling is - In het Engels: Central Limit Theorem (CLT) - Notatie “≈” betekent “is benaderend verdeeld volgens” - Het maakt niet uit uit welke kansverdeling mijn oorspronkelijke toevalsvariabele komt → het steekproefgemiddelde zal (wanneer die voldoende groot is) bij benadering altijd uit zo een normale verdeling komen verschillende vormen: Let op: de CLS doet geen uitspraak over de verdeling v/e toevalsvariabele X wanneer n voldoende groot is! - Kunnen we ook vertalen naar de som van N toevalsvariabelen - Centrale limietstelling zegt niets over de kansverdeling van 1 toevalsvariabele maar wel over het gemiddelde van n willekeurige toevalsvariabelen komt benaderend uit een normale verdeling!! Opmerkingen: - Vanaf steekproefgrootte 30 gaan we de centrale limietstelling (CLS) gebruiken - De standaardfout v/e schatter geeft inzicht in hoeveel de waarde v/e schatter zal variëren, louter en alleen door het toeval - Als steekproefgrootte n stijgt, zal de standaardfout op het steekproefgemiddelde dalen → daardoor zal het steekproefgemiddelde in algemeen dichter bij het populatiegemiddelde liggen voor grotere steekproeven Er bestaan heel wat veralgemeningen v/d CLS, bv. wanneer Xi niet identiek verdeeld zijn vele kenmerken kunnen geïnterpreteerd worden als som v/e groot aantal kenmerken (bv lengte, IQ), (veralgemeende) CLS verklaart waarom normale verdeling hiervoor geschikte verdeling is - Hoe kleiner de standaardfout is, hoe dichter we het steekproefgemiddelde zullen verwachten bij het populatiegemiddelde - Hoe groter mijn steekproef is, hoe kleiner de standaardfout en hoe minder ik verwacht dat mijn steekproefgemiddelde zal variëren rond het echte gemiddelde - Hoe groter de steekproef wordt, hoe dichter het steekproefgemiddelde zal liggen bij het echte gemiddelde Oefening: Oefening 5.2) Een gevangenisdirecteur maakt een analyse van de duur van de detenties van de gevangenen de voorbije jaren. Gemiddeld duurt een detentie 7 maanden, met een standaarddeviatie van 3 maanden. Bereken - 100 verschillende toevalsvariabelen - Er staat NIET in de opgave dat de detentietijd uit een normale verdeling komt → dus je mag dat ook NIET zo opschrijven Normale benadering voor binomiaalkansen Percentage als toevalsvariabele - Er wordt een enquête gehouden bij 250 willekeurig uitgekozen volwassen Vlamingen, 75 van hen (30%) geeft aan zich nooit onveilig te voelen in de eigen buurt - Deze enquête levert 1 steekproef van het aantal Vlamingen dat zich nooit onveilig voelt. De geobserveerde waarde x = 75 is een uitkomst van de toevalsvariabele X = aantal mensen in een steekproef van grootte n die zich nooit onveilig voelen - X is binomiaal verdeeld met p = de kans dat iemand zich nooit onveilig voelt: X ∼ B(250, p) - P met hoedje op = we hebben te maken met steekproef → beschrijft het percentage successen in de steekproef - Om een idee te hebben v/d kansverdeling van Pˆ nemen we groot aantal steekproeven van grootte 250 en beschouwen we telkens het (steekproef)percentage van Vlamingen die zich nooit onveilig voelt. - Het histogram van deze percentages geeft een idee v/d kansverdeling van Pˆ en vertelt ons iets over hoe sterk steekproefpercentage kunnen variëren - Centrum v/h histogram bevind zich rond 0,35 Binomiaalverdeling - Merk op dat een toevalsvariabele X uit een binomiaalverdeling ook gezien kan worden als de som van n onafhankelijke Bernoulli variabelen X1, X2,..., Xn: ➔ elke Bernoulli variabele Xi heeft uitkomst 0 (“mislukking”) of 1 (“succes”). ➔ het aantal successen is dan gelijk aan het aantal Xi dat waarde 1 heeft. ➔ dit aantal is gelijk aan som van alle waarden van Xi. De steekproefproportie Pˆ kan je dus beschouwen als een steekproefgemiddelde, immers - Binomiaal verdeling kan je zien als de som van n toevalsvariabelen die allemaal bernoulli verdeeld zijn - Waarde 1 bij succes en waarde 0 bij mislukking Normale benadering voor binomiaalkansen - Steekproefproportie komt benaderend uit een normale verdeling met gemiddelde P en met variantie p(1-p) gedeeld door n Wanneer is dit een goede benadering? - Als p = 0.5, is de verdeling van X ∼ B(n, p) symmetrisch - Hoe dichter p bij 0 of 1 ligt, hoe schever de verdeling van X en dus ook van Een vuistregel die hierbij kan worden gebruikt, is dat de benadering voldoende goed is als np ⩾ 5 en n(1 − p) ⩾ 5 - Voor p = 0.5 moet n ⩾ 10 - Voor p = 0.2 of p = 0.8 moet n ⩾ 25 - voor p = 0.1 of p = 0.9 moet n ⩾ 50 - Voor p = 0.01 of p = 0.99 moet n ⩾ 500 - Hoe meer symmetrisch de onderliggende verdeling is, hoe minder groot de steekproef moet zijn - Hoe schever de verdeling is, hoe groter de steekproef moet zijn - Als n x p EN n (1-p) minstens 5 zijn dan mag ik de verdeling v/d steekproefproportie benaderen door een normale verdeling Illustratie: Histogrammen van 500 steekproefproporties - Je ziet dat wanneer n x p groter wordt, dat de normale verdeling ook een betere benadering vormt voor het histogram Voorbeeld: Volgens de brochure “Vlaanderen in cijfers” (juli 2022) voelt 35% van de (volwassen) Vlamingen zich nooit onveilig in de eigen buurt. Hoe groot is de kans dat in een enquˆete waarin 250 willekeurig uitgekozen Vlamingen bevraagd worden, minder dan 30% zich nooit onveilig voelt? - X kan ook benaderd worden door een normale verdeling - Dankzij de centrale limietstelling kunnen we stellen dat een toevalsvariabele die eigenlijk uit een discrete verdeling (binomiale verdeling) komt, dat wanneer n voldoende groot is, dat we dergelijk kansen kunnen benaderen door kansen uit een normale verdeling → geldt ENKEL wanneer de steekproef voldoende groot is (np > 5) en n(1-p) > 5 De voorwaarde np ⩾ 5 en n(1 − p) ⩾ 5 is belangrijk! - Opp v/h blokje bij bv. 0 stelt de kans voor dat X gelijk is aan 0, berekent met de binomiale verdeling - Binomiale verdeling kan je benaderen door de normaalverdeling maar dat zal enkel goed zijn wanneer np > 5 en n(1-p) > 5 zijn kansen berekenen: - Benadering is niet heel erg goed, kan verbeterd worden door een zogenaamde continuïteitscorrectie door te voeren Continuïteitscorrectie: - De banderende kans is kleiner dan de exacte kans doordat het stuk van 3 tot 3,5 er niet bij wordt gerekend - Wanneer Y uit een binomiale verdeling komt en je wil de kans dat y kleiner of gelijk aan is aan b benaderen door een normale verdeling, dan moet je bij b eerst een half optellen en dan pas standaardiseren Afspraak: Bij het benaderen v/e kans uit een binomiale verdeling door een kans uit een normale verdeling, passen we altijd een continuïteitscorrectie toe Voorbeeld: - De kans dat X strikt kleiner is dan 3 kan je voor een discrete verdeling altijd anders opschrijven nl. de kans dat X kleiner dan of gelijk is aan 2 Normale benadering voor binomiale kansen: voorbeeld organisatie achter de Britse loterij wist te achterhalen dat het nummer 39 in 2022 17 keer voorkwam bij de winnende getallen bij de lottotrekking (vrt.be, 27/12/2022). Een cijfer dat 17 keer voorkomt in een winnende reeks, is dat abnormaal veel of weinig? - Stel X = aantal keer dat 39 voorkomt op 1 jaar (100 trekkingen) in de Britse loterij. - Je kan narekenen dat de kans dat 39 voorkomt in een loterij met 59 getallen waarvan er 6 getrokken worden, 10.2% bedraagt, dus X ∼ B(100, 0.102) (waarom?) - Om te achterhalen of 17 abnormaal veel meer is dan het te verwachten aantal keer dat 39 voorkomt (namelijk 10), berekenen wen P (X ⩾ 17) - Moeilijk te bepalen met exacte formule, maar zullen we wel benaderend kunnen oplossen met de technieken uit H5 - X komt uit binomiale verdeling want we zijn aantal successen aan het bekijken Hoofdstuk 6: univariate inferentie - Univariate = het gaat over 1 toevalsvariabele Van steekproef naar populatie - Inferentie = we gaan naar de steekproef kijken en die steekproefgegevens gebruiken om uitspraken te doen die gelden voor de hele populatie → adhv steekproefgegevens ga je uitspraken doen over de populatie - Het is belangrijk om info te geven over hoe zeker of onzeker je bent over uw voorspelling - Deze uitspraken gelden voor de steekproef - Gelden ze ook voor de populatie? - In hoeverre gelden de uitspraken die gelden voor de steekproef ook voor de populatie? Indien we zeer vele steekproeven van omvang n uit populatie zouden trekken en bij elke steekproef het 95%- betrouwbaarheidsinterval voor µ zouden berekenen dan zouden gemiddeld 95% v/d resulterende betrouwbaarheidsintervallen het onbekende gemiddelde µ bevatten - Cijfers die gerapporteerd worden zijn voorspellingen - We willen weten of we die uitspraken kunnen doortrekken voor de hele populatie Puntschatters en puntschattingen - In motiverend voorbeeld 1 wordt de gemiddelde welzijnsscore van een Belg geschat door 1 gemiddelde uit de steekproef. - In motiverend voorbeeld 2 wordt de kans dat een Belg ooit slachtoffer was van seksueel geweld, geschat door 1 percentage uit de steekproef - In het algemeen kan men een parameter uit een populatie schatten obv 1 gemeten waarde uit de steekproef - Men gaat een kenmerk v/d populatie (gemiddelde, kans op succes, variantie,…) schatten obv 1 getal dat we uit de steekproef halen - Die gemeten waarde = puntschatting Voorbeelden: Een goede puntschatter voldoet aan twee eigenschappen: 1) goede puntschatter zal gemiddeld gezien juist schatten, m.a.w. verwachte waarde v/d puntschatter is de waarde v/d populatieparameter - We willen dat de schatter aan 2 eigenschappen voldoet - Onvertekend = Men wilt dat de verwachte waarde v/d schatter gelijk is aan de parameter die ik wil schatten - Men wil dat de schatting die men uitkomt, niet te ver weg ligt v/d echte parameter 2) Een goede puntschatter heeft een standaardfout die zo klein mogelijk is en ligt in het algemeen dus dichter bij de echte parameterwaarde dan andere schatters ➔ De meeste schatters die in deze cursus aan bod komen, zijn onvertekend en hebben relatief kleine standaardfouten - Sf = standaardfout - We willen schattingen die dicht liggen bij de parameter die ik wil schatten - Beste is onvertekende schatter met kleine standaardfout Puntschatting en intervalschatting Nadeel v/e puntschatting: - geeft enkel aan wat men denkt dat de waarde v/d populatieparameter is - zegt niets over nauwkeurigheid, over hoe dicht men vermoedt dat schatting bij de echte waarde v/d parameter ligt Daarom gebruikt men vaak een intervalschatting: - deze geeft niet alleen weer waar men denkt dat waarde v/d populatieparameter ligt - maar levert ook een foutenmarge, wat een idee geeft v/d nauwkeurigheid v/d schatter - Een interval geeft u veel meer informatie dan enkel 1 getal Betrouwbaarheidsinterval intervalschatting voor een populatieparameter wordt betrouwbaarheidsinterval genoemd: - betrouwbaarheidsinterval (BI) = interval dat meest geloofwaardige waarden (obv steekproef) v/d onbekende populatieparameter bevat - In statistische software wordt vaak afkorting CI (‘Confidence Interval’) gebruikt - Merk op dat puntschatting (meestal) in midden v/h interval ligt - Ondergrens v/h interval: puntschatting – foutenmarge - Bovengrens v/h interval: puntschatting + foutenmarge - Puntschatting ligt in het midden v/h betrouwbaarheidsinterval betrouwbaarheidsinterval wordt berekend voor gegeven betrouwbaarheidsniveau: - betrouwbaarheidsniveau (confidence level) = kans dat gebruikte methode een interval genereert dat populatieparameter bevat - betrouwbaarheidsniveau wordt tussen 0 en 1 gekozen, en in het algemeen dicht bij 1 - Veel gekozen waarden voor het betrouwbaarheidsniveau zijn 95% (0.95) en 99% (0.99) - Het betrouwbaarheidsniveau ligt altijd tussen 0 en 1 - We willen graag dat het betrouwbaarheidsniveau hoog is Betrouwbaarheidsinterval voor gemiddelde v/e normale variabele - We willen een interval opstellen dat 95% kans heeft om die echte echte gemiddelde welzijnsscore v/e zelfstandige te bevatten Het betrouwbaarheidsinterval is v/d vorm: [puntschatting - foutemarge, puntschatting + foutenmarge] Als punstschatter voor µ gebruiken we X¯n, met puntschatting x¯n, dus we zoeken het interval met e de foutenmarge zodat ➔ Hoe de foutenmarge e bepalen? - Steekproefgemiddelde is een goede kandidaat want het is onvertekend en heeft een kleine standaardfout - [x¯n − e, x¯n + e] → linkse X is ondergrens, rechtse X is bovengrens - e = de foutenmarge v/h interval - Om die kans te kunnen bepalen moeten we de kansverdeling van dat steekproefgemiddelde kennen Vertrek van de kansverdeling van het steekproefgemiddelde X¯n. - Als steekproefgemiddelde uit normale verdeling komt dan zal X ook uit een normale verdeling komen We zoeken nu voor welke z geldt dat: ➔ De totale opp. Onder de dichtheid is altijd gelijk aan 1 Intermezzo: kwantielen met kleine staartkans: Oefening: - 95% staat er niet tussen → kijk naar dichtstbijzijnde kans - Hier ligt het er net tussen dus neem gemiddelde van beide waarden - α = een kans kleiner dan 0,5 - De kans α delen door 2 en dan naar de z waarde kijken Betrouwbaarheidsinterval: foutenmarge We vonden dat dit geldt voor: Wanneer X uit een normale verdeling komt, geldt dus voor het verschil tussen het steekproefgemiddelde X¯n en het populatiegemiddelde µ: - In woorden: er is 95% kans dat het steekproefgemiddelde hoogstens 1.96 maal de standaardfout afwijkt v/h populatiegemiddelde - Deze afstand, 1.96 maal standaardfout, noemen we de foutenmarge v/e 95%-betrouwbaarheidsinterval voor het populatiegemiddelde µ - Vermenigvuldigen met standaardfout = foutenmarge - Hoe groter de foutenmarge, hoe onnauwkeuriger de puntschatter is Betrouwbaarheidsinterval voor het gemiddelde v/e normale variabele De foutenmarge voor een 95%-BI voor het populatiegemiddelde µ v/e normaal verdeelde toevalsvariabele, wordt gegeven door foutenmarge = 1.96 × standaardfout De foutenmarge hangt af van de standaardfout en deze hangt af van σ 2 mogelijke situaties: - Meestal kennen we waarde van σ ook niet Betrouwbaarheidsinterval voor het gemiddelde v/e normale variabele: variantie (σ) bekend Indien de willekeurige steekproef X1,..., Xn uit een normale verdeling komt met σ bekend, dan is het 95%-betrouwbaarheidsinterval voor het populatiegemiddelde µ gelijk aan puntschatting ± foutenmarge Of dus aan: - Met deze formule kan ik een 95% betrouwbaarheidsinterval berekenen voor populatiegemiddelde indien ik de populatiestandaarddeviatie ken - Indien de steekproef niet uit een normale verdeling komt maar n is voldoende groot (minstens 30), dan geldt een benaderend 95%-betrouwbaarheidsinterval is voor µ: - het betrouwbaarheidsniveau (de kans dat de gebruikte methode µ bevat) is bij benadering 95% voorbeeld: Steekproefgemiddelde welzijnscore zelfstandige: x¯n = 6.634 voor n = 500. Geef een (benaderend) 95%- betrouwbaarheidsinterval voor de gemiddelde welzijnsscore van een zelfstandige - Stel dat men op basis van jarenlange metingen weet dat de populatiestandaarddeviatie σ gelijk is aan 1.4. (realistisch?) - Het interval is gegeven - X komt zeker niet uit een normale verdeling bij deze oefening maar de steekproef is wel voldoende groot en dan weten we dat het interval een benaderend betrouwbaarheidsniveau heeft van 95% - Er is 95% kans dat DIT interval [6.511, 6.757] het echte gemiddelde bevat Interpretatie: EXAMENVRAAG - Er is dus 5% kans dat met deze methode een BI gegenereerd werd waar µ niet toe behoort = Type I fout - Dit is niet hetzelfde als zeggen dat het werkelijke gemiddelde µ met 95% kans tot het 95%- betrouwbaarheidsinterval behoort! - Het werkelijke gemiddelde µ is geen toevalsvariabele en dus kunnen we geen kansuitspraken doen over µ - Dat interval betekent: dat het interval toch nog 5% kans heeft om het echte gemiddelde µ niet te bevatten - DEFINITIE VAN BETROUWBAARHEIDSINTERVAL VANBUITEN KENNEN WANT KAN EXAMENVRAAG ZIJN - µ Is vast getal en verandert nooit → je kan geen kan