Document Details

MarvelousConnemara5394

Uploaded by MarvelousConnemara5394

Aarhus University

Tags

statistik sandsynlighed stokastiske variable dataanalyse

Summary

Disse noter omhandler statistik og sandsynlighed. Noterne dækker emner som populationer, beskrivende statistikker, sandsynlighedsmodeller, stokastiske variable og normalfordelinger. De indeholder også oplysninger om estimater.

Full Transcript

Indholdsfortegnelse {#indholdsfortegnelse.Overskrift} =================== [Populationer og beskrivende statistikker - Intro 3](#populationer-og-beskrivende-statistikker---intro) [Forskellige former for data + statistik 3](#forskellige-former-for-data-statistik) [Måleskalarer 4](#m%C3%A5leskalarer...

Indholdsfortegnelse {#indholdsfortegnelse.Overskrift} =================== [Populationer og beskrivende statistikker - Intro 3](#populationer-og-beskrivende-statistikker---intro) [Forskellige former for data + statistik 3](#forskellige-former-for-data-statistik) [Måleskalarer 4](#m%C3%A5leskalarer) [Formler 5](#formler) [Eksempel på udregning på: Gennemsnit, Median, Varians, Standardsafvigelse og spredningen: 10](#eksempel-p%C3%A5-udregning-p%C3%A5-gennemsnit-median-varians-standardsafvigelse-og-spredningen) [Brug af R (eks. Titanic) 11](#brug-af-r-eks.-titanic) [Usikkerhed og sandsynligheder 18](#usikkerhed-og-sandsynligheder) [Sandsynlighedsmodellen (udregning af usikkerheder) 19](#sandsynlighedsmodellen-udregning-af-usikkerheder) [Specielle hændelser 20](#specielle-h%C3%A6ndelser) [Eksempel 21](#eksempel) [Regler for sandsynlighedsberegninger 22](#regler-for-sandsynlighedsberegninger) [Eksempel på sandsynlighedsregning 22](#eksempel-p%C3%A5-sandsynlighedsregning) [Lektion 2, del 2: (Ellens Noter!) 23](#lektion-2-del-2-ellens-noter) [Betinget sandsynlighed, hvis noget er "givet": 23](#betinget-sandsynlighed-hvis-noget-er-givet) [Uafhængighed mellem hændelser. 25](#uafh%C3%A6ngighed-mellem-h%C3%A6ndelser.) [L3: Stokastiske variable del ½ (Ellens Noter!) 28](#l3-stokastiske-variable-del-%C2%BD-ellens-noter) [Begrebet stokastisk variabel. 28](#begrebet-stokastisk-variabel.) [Diskrete stokastiske variable - Sandsynlighedsfunktion og kumulativ sandsynlighedsfunktion (fordelingsfunktionen). 29](#diskrete-stokastiske-variable---sandsynlighedsfunktion-og-kumulativ-sandsynlighedsfunktion-fordelingsfunktionen.) [Diskrete stokastiske variable - Simultan sandsynlighed for to diskrete stokastiske variabl 33](#diskrete-stokastiske-variable---simultan-sandsynlighed-for-to-diskrete-stokastiske-variabl) [Diskret stokastisk variabel - Uafhængighed af to diskrete stokastiske variable. 34](#_Toc186298592) [Lektion 3: Stokastiske variable Del 2 af 2 - uge 41 35](#lektion-3-stokastiske-variable-del-2-af-2---uge-41) [Kontinuerte stokastiske variable 35](#kontinuerte-stokastiske-variable) [Fordelingen af en kontinuert stokastisk variabel 37](#fordelingen-af-en-kontinuert-stokastisk-variabel) [Kumulativ sandsynlighedsfunktion (CDF) 37](#kumulativ-sandsynlighedsfunktion-cdf) [En bemærkning om PDF'er og CDF'er 38](#en-bem%C3%A6rkning-om-pdfer-og-cdfer) [Opsummering: Stokastiske variable 39](#opsummering-stokastiske-variable) [Lektion 4: Stokastiske variable (2) Del 1 af 2 39](#lektion-4-stokastiske-variable-2-del-1-af-2) [Middelværdi - diskret stokastisk variabel 40](#middelv%C3%A6rdi---diskret-stokastisk-variabel) [Middelværdi - kontinuert stokastisk variabel 40](#middelv%C3%A6rdi---kontinuert-stokastisk-variabel) [Middelværdi af en funktion af en diskret stokastisk variabel 43](#middelv%C3%A6rdi-af-en-funktion-af-en-diskret-stokastisk-variabel) [Regler for beregning af middelværdier 43](#regler-for-beregning-af-middelv%C3%A6rdier) [Lektion 4: Stokastiske variable Del 2 af 2 - uge 42 (MMW kap.5) 45](#lektion-4-stokastiske-variable-del-2-af-2---uge-42-mmw-kap.5) [Varians og standardafvigelse for stokastisk variable 46](#varians-og-standardafvigelse-for-stokastisk-variable) [Varians - udregning 46](#varians---udregning) [Regler for beregning af varians 48](#regler-for-beregning-af-varians) [Kovarians mellem to stokastiske variabler 50](#kovarians-mellem-to-stokastiske-variabler) [Kovarians og Korrelation 51](#kovarians-og-korrelation) [Kovarians: Fortolkning 51](#kovarians-fortolkning) [En note om korrelation - Vigtig (smutvej) 52](#en-note-om-korrelation---vigtig-smutvej) [Beregning af kovarians for diskret stokastisk variabel og kontinueret stokastisk variabel 52](#beregning-af-kovarians-for-diskret-stokastisk-variabel-og-kontinueret-stokastisk-variabel) [Alternativ kovariansformel 54](#alternativ-kovariansformel) [Regler for beregning af kovarianser 54](#regler-for-beregning-af-kovarianser) [Vigtigste regneregler for E(X), V(X) og Cov(X) 56](#vigtigste-regneregler-for-ex-vx-og-covx) (#section-7) [Fraktiler 57](#fraktiler) [Fraktiler for kontinuerte stokastiske variable 57](#fraktiler-for-kontinuerte-stokastiske-variable) [Fraktiler med specielle navne 58](#fraktiler-med-specielle-navne) [Normalfordeling - Lektion 5 Uge 43 58](#normalfordeling---lektion-5-uge-43) [Definitionen af normalfordelingen 58](#definitionen-af-normalfordelingen) [Egenskaber ved normalfordelingen 59](#egenskaber-ved-normalfordelingen) [Standard normalfordelingen 60](#standard-normalfordelingen) [Vigtig egenskab og vigtig konsekvens 61](#vigtig-egenskab-og-vigtig-konsekvens) [Beregning af sandsynligheder med normalfordelingen. 61](#beregning-af-sandsynligheder-med-normalfordelingen.) [Nyttig egenskab ved normalfordelingen 63](#nyttig-egenskab-ved-normalfordelingen) [Summer af **uafhængige** normalfordelte stokastiske variable 64](#summer-af-uafh%C3%A6ngige-normalfordelte-stokastiske-variable) [**Gennemsnit af uafhængige normalfordelte stokastiske variable** 64](#gennemsnit-af-uafh%C3%A6ngige-normalfordelte-stokastiske-variable) [**Fraktiler i standard normalfordelingen** 66](#fraktiler-i-standard-normalfordelingen) [**Bernoulli-fordelingen** 67](#bernoulli-fordelingen) [Lektion 6: Estimater 68](#lektion-6-estimater) [**Simpel tilfældig stikprøve** 69](#simpel-tilf%C3%A6ldig-stikpr%C3%B8ve) [**Estimatorer** 70](#estimatorer) [**Estimator af middelværdi, stikprøvegennemsnit** 71](#estimator-af-middelv%C3%A6rdi-stikpr%C3%B8vegennemsnit) [**Egenskaber ved estimatorer** 72](#egenskaber-ved-estimatorer) [Central (unbiased) estimator 73](#central-unbiased-estimator) [Efficiens 73](#efficiens) [Konsistens 2 krav 74](#konsistens-2-krav) [Andre estimatorer 75](#andre-estimatorer) [**De Store Tals Lov** 76](#de-store-tals-lov) [LLN og CLT 76](#lln-og-clt) [**Den Centrale Grænseværdisætning (CLT)** 78](#den-centrale-gr%C3%A6nsev%C3%A6rdis%C3%A6tning-clt) [Opsamling på estimatorer 84](#opsamling-p%C3%A5-estimatorer) [Standardfejl af middelværdi (SEM) 86](#standardfejl-af-middelv%C3%A6rdi-sem) [Konfidensintervaller 87](#konfidensintervaller) [Motivation 88](#motivation) [Udledning 90](#udledning) [Bemærkning 91](#bem%C3%A6rkning) [Konfidensinterval for andel 95](#konfidensinterval-for-andel) [Lektion 8: Hypotesetest 1/3 98](#lektion-8-hypotesetest-13) [**Motivation og eksempler (fokus på middelværdi og andel)** 98](#motivation-og-eksempler-fokus-p%C3%A5-middelv%C3%A6rdi-og-andel) [Formulering af hypoteser 98](#formulering-af-hypoteser) [Lektion 8: Hypotesetest Uge 48 - Del 2 af 3 99](#lektion-8-hypotesetest-uge-48---del-2-af-3) [**Type I og Type II fejl, signifikansniveau og styrke** 99](#type-i-og-type-ii-fejl-signifikansniveau-og-styrke) [Mulige fejlkilder I 99](#mulige-fejlkilder-i) [Mulige fejlkilder II 100](#mulige-fejlkilder-ii) [Type I-fejl og signifikansniveauet for en test 100](#type-i-fejl-og-signifikansniveauet-for-en-test) [Type II-fejl og en tests styrke 101](#type-ii-fejl-og-en-tests-styrke) [Hypotesetest for middelværdi (μ) 101](#hypotesetest-for-middelv%C3%A6rdi-%CE%BC) [Opbygning af hypotesetest (Generisk oversigt) 101](#opbygning-af-hypotesetest-generisk-oversigt) [Nul- og alternativhypoteserne 102](#nul--og-alternativhypoteserne) [Teststatistik for test for gennemsnit 102](#teststatistik-for-test-for-gennemsnit) [Bemærkninger (kritiske værdi - CV) 104](#bem%C3%A6rkninger-kritiske-v%C3%A6rdi---cv) [Sammensatte nulhypoteser 107](#sammensatte-nulhypoteser) [Beslutningsregler: Sammenfatning 108](#beslutningsregler-sammenfatning) [Konfidensintervaller og hypotesetests 108](#konfidensintervaller-og-hypotesetests) [p-værdier 108](#p-v%C3%A6rdier) [Bemærkninger 110](#bem%C3%A6rkninger) [Hypotesetest for andel 110](#hypotesetest-for-andel) [Afsluttende bemærkninger 112](#afsluttende-bem%C3%A6rkninger) Populationer og beskrivende statistikker - Intro ================================================ [Forskel på 2 forskellige procenter = procentpoint] Population = samling af elementer Stikprøve = et uddrag af populationen Karakteristika = alder, køn, indkomst etc. Hvis begge elementer eksisterer = kaldes virkelig population ### Forskellige former for data + statistik Cross-section data = hvordan data'en ser ud på et bestemt tidspunkt, kan fx sammenligne forskellige aktier på et givet tidspunkt Tidsrækkedata = følger noget over en tidsperiode, fx aktier, hvordan udvikler de sig over tid Paneldata (cross-section og tidsrække) = en sammenkobling af de to dataformer **[Beskrivende statistik:]** At se på træk ved dataene, f.eks. ved at plotte eller ved at beregne middelværdier og lignende. **[Teoretisk statistik/sandsynlighedsteori]** At bruge regler fra sandsynlighedsteori til at beregne sandsynligheder for visse udfald. **[Statistisk inferens]** At bruge teoretisk analyse til at udtrække information om den virkelige verden fra data. Måleskalarer ------------ Et billede, der indeholder tekst, Publikation/tidsskrift/artikel, papir, bog Automatisk genereret beskrivelse **Diskrete** **(eller kategoriske) data**: Data, der kan antage en diskret mængde værdier ([hele tal]) - Hver værdi kan repræsentere en \"kategori\". Eksempler: Ja/nej, køn, antal ægteskaber, osv. **Kontinuerte data**: Data, der kan antage alle ([decimal]) værdier. ([kommatal]) - Eksempler: Temperatur, indkomst, profit, højde, osv. [Taget fra bogen side 27-28:] Naturligt nulpunkt = noget kan ikke gå i minus, fx du kan ikke veje et minus antal kg **Norminal skala** = "der er ingen strukturer eller sammengæng mellem værdierne på skalaen" **Ordinal skala** = "værdierne på skalaen er rangordnede, giver ikke mening vurderer forskellen mellem to værdier" **Interval skala** = her taler man om forskellen på 2 værdier **Ratioskala** = intervalskala med naturligt nulpunkt, forholdet mellem to værdier **Valg af skala** = kan ofte måle det samme karakteristika på forskellige skalaer Npop = antallet af elementer i populationen ### Formler ![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, linje/række Automatisk genereret beskrivelse](media/image2.png) Når man skal udarbejde et histogram, kaldes de grupper/intervaller man opdeler karakteristikkerne i midten af intervallet, så hvis det er fra 0-10 kaldes det 5, osv. Når man undersøger andel som enden har mindre eller lig med en given værdi kaldes det = kumulative andel/kumulativ andelsfunktion Et billede, der indeholder tekst, bog Automatisk genereret beskrivelse Udregning for median: **p-fraktilen**: Værdien q, hvor andelen af p f elementerne er mindre end q. Fx p-fraktilen 10 = Talværdien man får ud = 10% er fx det og mindre. **Nogle fraktiler har specielle navne:** - p = 0.50 ⇒ median. - p = 0.25, 0.50, 0.75 ⇒ kvartiler. - p = 0.10,0.20,\...,0.90 ⇒ deciler. - p = 0.01, 0.02,... , 0.99 ⇒ percentiler. ![Et billede, der indeholder tekst Automatisk genereret beskrivelse](media/image4.jpeg) **Middelværdi (**Middelværdi = gennemsnit) **Varians** = giver overblik over spredningen i data'en Spredning = forskel mellem den største og mindste værdi Et billede, der indeholder tekst, Font/skrifttype, skærmbillede, linje/række Automatisk genereret beskrivelse **Standardafvigelse** = "mål for den gennemsnitlige afvigelse fra middelværdien" ![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype Automatisk genereret beskrivelse](media/image6.png) Et billede, der indeholder tekst, skærmbillede, Font/skrifttype Automatisk genereret beskrivelse [Eksempel på udregning af gennemsnit:] ![Et billede, der indeholder tekst, Font/skrifttype, skærmbillede, linje/række Automatisk genereret beskrivelse](media/image8.png) Et billede, der indeholder tekst, Font/skrifttype, skærmbillede, hvid Automatisk genereret beskrivelse ![Et billede, der indeholder tekst, Font/skrifttype, skærmbillede Automatisk genereret beskrivelse](media/image10.png) **[Spredning = forskel på største og mindste værdi]** Et billede, der indeholder tekst, Font/skrifttype, skærmbillede, hvid Automatisk genereret beskrivelse ![Et billede, der indeholder tekst, Font/skrifttype, skærmbillede, hvid Automatisk genereret beskrivelse](media/image12.png) **Kovarians** = positiv, tendens til at element = høj værdi af et karakteristikum = høj værdi af det andet Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, linje/række Automatisk genereret beskrivelse **Korrelationskoefficient** ![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, linje/række Automatisk genereret beskrivelse](media/image14.png) **Kovarians** definerer variationen mellem to variable, mens **korrelationen** definerer sammenhængen mellem to uafhængige variable Et billede, der indeholder tekst, Font/skrifttype, skærmbillede, hvid Automatisk genereret beskrivelse ![Et billede, der indeholder Rektangel, linje/række, design, mønster Automatisk genereret beskrivelse](media/image16.png) [Kovariansen og korrelationen = har altid samme fortegn] **[Skævhed og kurtosisk]** Positiv retning = positiv skævhed = højre skæv Negativ retning = negativ skævhed = venstre skæv Kurtosisk positiv Et billede, der indeholder diagram, linje/række, Kurve, origami Automatisk genereret beskrivelse Skævhedskoefficienten: ![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, linje/række Automatisk genereret beskrivelse](media/image18.png) Topstejlhed (kurtosis): Et billede, der indeholder tekst, Font/skrifttype, skærmbillede, linje/række Automatisk genereret beskrivelse ### Eksempel på udregning på: Gennemsnit, Median, Varians, Standardsafvigelse og spredningen: ![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype Automatisk genereret beskrivelse](media/image20.png) **[Verden B]** Et billede, der indeholder tekst, Font/skrifttype, skærmbillede, hvid Automatisk genereret beskrivelse Brug af R (eks. Titanic) ======================== Datasættet i dette eksempel = dat dat = navn der kan ændres fra datasæt til datasæt Kommandoer til R: +-----------------------------------+-----------------------------------+ | For at kalde ens data et bestemt | dat \ - De er ofte afhængige af en eller flere parametre, som definerer en hel familie af fordelinger. - De kaldes derfor parametriske fordelinger. - Velkendte eksempler: Bernoulli-fordeling, Binomialfordeling, normalfordeling, [*X*^2^]{.math.inline}-fordeling, \.... Normal fordeling = (Gaussiske fordeling) - Normalfordelingen er en kontinuert fordeling. [Normalfordelingen er vigtig: ] - Mange naturlige fænomener er (ca.) normalfordelt: Højde, vægt, blodtryk, IQ-score, målefejl, forskellige ting i naturen\... - Vi møder den ofte i statistik (på grund af den såkaldte Centrale Grænseværdisætning - mere om det i Lektion 6). **Afhænger af 2 parametre, ofte skrevet som** [μ og **σ**^**2**^]{.math.inline}**.** - μ er middelværdien for normalfordelingen - [*σ*^2^]{.math.inline} er variansen For hvert sæt værdier μ og [*σ*^2^]{.math.inline} er der en normalfordeling, som betegnes som [*N*(*μ*, *σ*^2^).]{.math.inline} -  I denne lektion antager vi, at parametrene μ og [*σ*^2^]{.math.inline} er kendte. - I Lektion 6 vil vi se, hvordan man bruger data til at estimere parametrene μ og [*σ*^2^]{.math.inline} ud fra data. Lad *Y* være en kontinuert stokastisk variabel med udfaldsrum (−∞, ∞). Lad μ og σ2 \ 0 være tal. Antag, at tæthedsfunktionen (PDF) for *Y* er: \ [\$\$f\\left( y \\right) = \\frac{1}{\\sqrt{}2\\pi\\sigma\^{2}}e\^{- \\frac{1}{2}{(\\frac{y - \\mu}{\\sigma})}\^{2}}\$\$]{.math.display}\ \ [*for* *y*  ∈ (−∞,∞).]{.math.display}\ I dette tilfælde siger vi, at *Y* er normalt fordelt med middelværdi μ og varians [*σ*^2^]{.math.inline}. - Vi skriver det kort som: *Y* ∼*N*(μ, [*σ*^2^]{.math.inline}) Egenskaber ved normalfordelingen -------------------------------- ![](media/image151.png) - Normalfordelingen er symmetrisk (omkring μ) og \"klokkeformet\". (skævhed=0) - μ bestemmer placeringen. - [*σ*^2^]{.math.inline} bestemmer bredden/skalaen. (viser hvor sammenpresset tæthedsfunktionen bliver) PDF af *N*(0,1)-fordelingen ![Et billede, der indeholder linje/række, Kurve, diagram, skærmbillede Automatisk genereret beskrivelse](media/image153.png) ![Et billede, der indeholder tekst, linje/række, diagram, Kurve Automatisk genereret beskrivelse](media/image155.png) ### Standard normalfordelingen Standardnormalfordelingen er normalfordelingen med middelværdi μ = 0 og spredning σ = 1 - En særlig tilfælde opstår, når μ = 0 og [*σ*^2^]{.math.inline} = 1. - Dvs. *Z* ∼ *N*(0,1). - Denne fordeling kaldes standardnormalfordelingen. Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, nummer/tal Automatisk genereret beskrivelse ### Vigtig egenskab og vigtig konsekvens ![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, linje/række Automatisk genereret beskrivelse](media/image157.png) **En vigtig konsekvens** Hele familien af normalfordelinger *N*(μ, [*σ*^2^]{.math.inline}) kan "konstrueres" ud fra standard normalfordelingen: Lad [Z  ∼ *N*(0, 1),]{.math.inline}og lad μ og [*σ*^2^]{.math.inline} \ 0 være konstanter. - Definér: [*X*  = *μ* + *σZ*]{.math.inline}. - Der gælder, at [*X*  ∼ *N*(*μ*, *σ*^2^)]{.math.inline}. Ud fra en [*N*(*μ*, *σ*^2^)]{.math.inline}- fordeling kan vi altid konstruere en standard normalfordeling *N*(0, 1) via [standardisering]: - Lad [*Y* ∼ *N*(*μ*, *σ*^2^]{.math.inline}). - Definér: [\$Z\\ = \\ \\frac{Y\\ - \\mu}{\\sigma\\ }\$]{.math.inline} - Der gælder, at [*Z*  ∼ *N*(0, 1).]{.math.inline} Beregning af sandsynligheder med normalfordelingen. --------------------------------------------------- - Husk fra Lektion 3: *f* (*y* ) er ikke en sandsynlighed; det er en tæthed (*Y* er en kontinuert stokastisk variabel). - Da *Y* er kontinuert, ser vi på [intervalsandsynligheder]. - Sandsynligheden for, at *Y* har et udfald i et interval \[*a*, *b*\] er arealet under *f* (*y* ) over \[*a*, *b*\]: \ [*P*(*a* ≤ *Y*  ≤ *b*)= ∫~*a*~^*b*^*f*(*y*)dy]{.math.display}\ Lektion 3 (fordi *Y* er kontinuert): og *P*(*Y* ≤ *a*) = *F*(*a*),\ \ og \ [*P*(*Y*  ≥ *a*) = 1 − *P*(*Y*  ≤ *a*) = 1 − *F*(*a*), ]{.math.display}\ hvor *F*(*y*) er CDF'en for *Y*. - Mange computerprogrammer kan generere CDF'en *F*(*x*) for en *N*(μ, σ2)-fordeling. Kan bruges til: \ [*P*(*Y* ≤ *a*) = *F*(*a*).]{.math.display}\ \ [*F*(*a*) = pnorm(*a*, mean = *μ*, sd = *σ*) ]{.math.display}\ - Den standardiserede normalfordeling har sit eget symbol for CDF. - [*Lad* *Z* ∼ *N*(0, 1).]{.math.inline} Så skrives CDF'en for *Z* som \ [*P*(Z ≤ *a*) = *Φ*(*a*). ]{.math.display}\ I R: \ [*Φ*(*a*) = *pnorm*(*a*) ]{.math.display}\ Bemærk: Φ udtales 'fi' (Phi) [Φ er symbolet for standard normalfordeling] Eksempel: Sandsynligheder i normalfordeling + løsning ![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype Automatisk genereret beskrivelse](media/image159.png) [Skitse af PDF for *N*(0.075,0.0225)-fordelingen ] Et billede, der indeholder tekst, Kurve, linje/række, diagram Automatisk genereret beskrivelse ### Nyttig egenskab ved normalfordelingen Uanset værdierne for μ og σ gælder følgende for normalfordelingens PDF: - Arealet mellem [*μ* − *σ* *og* *μ* + *σ*]{.math.inline} er cirka 68%. - Arealet mellem [*μ* − 2*σ* *og* *μ* + 2*σ*]{.math.inline} er cirka 95%. - Arealet mellem [*μ* − 3*σ* *og* *μ* + 3*σ* ]{.math.inline}er cirka 99.7%. ![Et billede, der indeholder diagram, Kurve, linje/række, Font/skrifttype Automatisk genereret beskrivelse](media/image161.png) [Anvendelse: Design af IQ-test ] - MENSA vil tilbyde medlemskab til de 2% klogeste mennesker (målt ved IQ). - MENSA ved, at IQ er (omtrentligt) normalt fordelt i befolkningen. - MENSA kan bruge dette til at designe en IQ-test for at opfylde sit mål om at tilbyde medlemskab til de (ca.) 2% klogeste mennesker (bruger CDF og info om fordelingen af IQ). Et billede, der indeholder diagram, Kurve, linje/række, tekst Automatisk genereret beskrivelse ### Summer af **[uafhængige]** normalfordelte stokastiske variable ![Et billede, der indeholder tekst, Font/skrifttype, skærmbillede, linje/række Automatisk genereret beskrivelse](media/image163.png) = Summen af middelværdierne + varianserne ### **Gennemsnit af [uafhængige] normalfordelte stokastiske variable** Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, nummer/tal Automatisk genereret beskrivelse - Den nye varians = [\$\\frac{\\sigma\^{2}}{n}\$]{.math.inline} ![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype Automatisk genereret beskrivelse](media/image165.png) ![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, nummer/tal Automatisk genereret beskrivelse](media/image167.png) **Fraktiler i standard normalfordelingen** ------------------------------------------ Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, algebra Automatisk genereret beskrivelse ![Et billede, der indeholder tekst, Kurve, diagram, linje/række Automatisk genereret beskrivelse](media/image169.png) ![](media/image171.png) **Bernoulli-fordelingen** ------------------------- - Vi nævner kort en anden vigtig fordeling, Bernoulli-fordelingen. - Lad *X* være en stokastisk variabel med sandsynlighedsfunktion (PMF): \ [\$\$f\\left( x \\right)\\left\\{ \\begin{matrix} \\ p\\ for\\ x\\ = \\ 1. \\\\ \\ 1 - p\\ for\\ x\\ = \\ 0. \\\\ \\end{matrix} \\right.\\ \$\$]{.math.display}\ - Vi siger, at *X* er Bernoulli-fordelt med parameteren *p* ∈ \[0, 1\]. - Vi kan skrive [*X* ∼ *Ber*(*p*).]{.math.inline} - Parameteren *p* kaldes andelen. - (Bemærk: I Øvelsessæt 5 vil du vise, hvordan man estimerer *p* ved brug af data.) Bernoulli-fordelingen kan bruges til at modellere ja/nej-situationer. - Eks: - Møntkast (MMW s. 138). - For/imod afstemning (MMW s. 138). Rask/syg. - *IQ* \ 130 vs. *IQ* ≤ 130 - Osv\... **Lektion 6: Estimater** ======================== +-----------------------------------------------------------------------+ | **Simpel tilfældig stikprøve - Motivation vha. eksempel: | | Spilleautomat** | +=======================================================================+ | Jeg har en spilleautomat (enarmet tyveknægt), der udbetaler et | | tilfældigt beløb hver gang den spilles. | | | | - Lad det tilfældige beløb betegnes af den stokastiske variabel | | *X*. Algoritmen for automaten ændrer sig ikke fra spin til spin. | | | | Resultatet af et spin afhænger ikke af tidligere spins. | | | | - ⇒ Den stokastiske variabel *X* har samme fordeling i hvert spin. | | Den er uafhængig af tidligere resultater. | | | | Jeg tilbyder dig muligheden for at spille på automaten for 10 kr. pr. | | spin. | | | | Hvordan finder du ud af, om det er profitabelt at spille på | | automaten? | +-----------------------------------------------------------------------+ | - Du vil måske spille på automaten, hvis den er profitabel i | | gennemsnit. | | | | - Det vil sige, hvis du forventer at tjene penge (på langt sigt) i | | et givet spin. | | | | - Matematisk set er dette tilfældet, hvis | | [*E*\[*X* \] \ 10 *kr*.]{.math.inline} | | | | - Du kender ikke automatens specifikation (dvs. fordelingen af *X* | | ). Hvordan vurderer du E\[*X*\]? | +-----------------------------------------------------------------------+ Et billede, der indeholder tekst, skærmbillede, linje/række, diagram Automatisk genereret beskrivelse![Et billede, der indeholder tekst, linje/række, skærmbillede, diagram Automatisk genereret beskrivelse](media/image174.png) Et billede, der indeholder tekst, skærmbillede, diagram, Kurve Automatisk genereret beskrivelse **Simpel tilfældig stikprøve** ------------------------------ 2 krav for at det er en simpel tilfældig stikprøve: iid = uafhængige og identisk fordelt - Uafhængige - Samme marginale fordeling = betyder de ser ud på samme måde, kan beskrives med samme fordeling = opfører sig på samme måde De to krav: - Alle elementer er statisk uafhængige - Alle elementer har samme sandsynlighed for at blive udvalgt ![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, linje/række Automatisk genereret beskrivelse](media/image176.png) Et billede, der indeholder tekst, Font/skrifttype, skærmbillede, algebra Automatisk genereret beskrivelse **Eksempel på simpel tilfældig stikprøve** ------------------------------------------------------------------------------------------------------------------------- ![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype Automatisk genereret beskrivelse](media/image178.png) **Estimatorer** --------------- - **Bedste måde at beskrive hvordan verdenen ser ud - bedste bud på hvordan fx middelværdien ser ud.** En estimator er et gæt, baseret på data, af et karakteristikum i den underliggende population. Dette karakteristikum formuleres ofte som et beskrivende mål af stokastiske variable. - Eksempler: Middelværdien E\[*X*\], variansen *V*(*X*), kovariansen [*Cov*(*X*, *Y*), *P*(*X*  \ 10). ]{.math.inline} Det beskrivende mål af interesse kaldes en parameter. Vi vil fokusere på det primære eksempel med at estimere middelværdien E\[*X*\] af en stokastisk variabel *X*. - Eksempel: Ovenfor estimerede vi E\[*X* \], når *X* var udbetalingen fra spilleautomaten. - Men: De koncepter, vi lærer, gælder også for estimatorer af andre parametre, f.eks. variansen. **Korte bemærkninger** - Estimat er en talværdi, når man beskriver hvordan man kommer frem til estimatet, bruger man estimatoren (stokastisk variable". Et billede, der indeholder tekst, skærmbillede, Font/skrifttype Automatisk genereret beskrivelse +-----------------------------------------------------------------------+ | **Eksempel:** | | | | ![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype | | Automatisk genereret beskrivelse](media/image180.png) | +-----------------------------------------------------------------------+ ### **Estimator af middelværdi, stikprøvegennemsnit** Et billede, der indeholder tekst, skærmbillede, Font/skrifttype Automatisk genereret beskrivelse **Egenskaber ved estimatorer** ------------------------------ ![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype Automatisk genereret beskrivelse](media/image182.png) For at evaluere estimatorer overvejer vi tre egenskaber: +-----------------------+-----------------------+-----------------------+ | **Central | **Efficiens** | **Konsistens** | | (unbiased)** | | | | | - Alt andet lige | - En estimator er | | - En estimator er | foretrækker vi | konsistent hvis | | central hvis dens | estimatorer med | estimatoren komme | | middelværdi er | lav varians. | tættere og | | lig parameteren | | tættere på den | | af interesse. | - Mindst varians | sande værdi af | | | som muligt | parameteren af | | | | interesse, når | | | | stikprøvestørrels | | | | en | | | | (*n*) øges. | | | | | | | | - Mere og mere | | | | præcis | | | | | | | | - [Har to | | | | krav] | | | | = kig længere | | | | nede | +-----------------------+-----------------------+-----------------------+ Vi vil studere disse begreber for estimatoren af en middelværdi μ. Bemærk dog, at begreberne også gælder for estimatorer af andre parametre. ### Central (unbiased) estimator Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, nummer/tal Automatisk genereret beskrivelse ### Efficiens Ønsker den mindste varians = mest effecient ![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, linje/række Automatisk genereret beskrivelse](media/image184.png) ### Konsistens 2 krav Et billede, der indeholder tekst, skærmbillede, Font/skrifttype Automatisk genereret beskrivelse ![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype Automatisk genereret beskrivelse](media/image186.png) **Eksempel: Estimator af andel** Et billede, der indeholder tekst, skærmbillede, Font/skrifttype Automatisk genereret beskrivelse ![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, algebra Automatisk genereret beskrivelse](media/image188.png) Et billede, der indeholder tekst, skærmbillede, Font/skrifttype Automatisk genereret beskrivelse![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, linje/række Automatisk genereret beskrivelse](media/image190.png) Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, nummer/tal Automatisk genereret beskrivelse Andre estimatorer ----------------- Man kan forestille sig at estimere mange andre parametre. Eksempler: - Variansen af en stokastisk variabel. - Skævheden af en stokastisk variabel. - Kurtosis af en stokastisk variabel. - Fraktiler af en stokastisk variabel. - Sandsynligheder af en stokastisk variabel, f.eks. *P*(*X* \< 0). - Kovariansen mellem to stokastiske variable. - Korrelationen mellem to stokastiske variable. Lignende begreber (f.eks. central, efficiens, konsistens, LLN, CLT) eksisterer for sådanne estimatorer. Vi diskuterer kun kort estimation af variansen. ![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, nummer/tal Automatisk genereret beskrivelse](media/image192.png) [Kig på tre ting ved estimator af varians:] Et billede, der indeholder tekst, skærmbillede, Font/skrifttype Automatisk genereret beskrivelse **De Store Tals Lov** --------------------- ### LLN og CLT Vi diskuterer nu to vigtige resultater inden for statistik, begge relateret til stikprøvegennemsnittet *X* af en simpel tilfældig stikprøve: - De Store Tals Lov (LLN). - Den Centrale Grænseværdisætning (CLT). Bemærk: LLN og CLT bygger ikke på antagelser om, at vores stokastiske variabel, *X*, skal følge en given fordeling! I den store tals lov skal det være en tilfældig stikprøve. ![](media/image194.png)Et billede, der indeholder tekst, skærmbillede, Font/skrifttype Automatisk genereret beskrivelse **[Eksempel:]** ![](media/image196.png) Et billede, der indeholder tekst, skærmbillede, Font/skrifttype Automatisk genereret beskrivelse ![](media/image198.png) Viser jo flere kast = mere præcist Et billede, der indeholder tekst, skærmbillede, Font/skrifttype Automatisk genereret beskrivelse ![](media/image200.png) Et billede, der indeholder tekst, skærmbillede, linje/række, Rektangel Automatisk genereret beskrivelse **Den Centrale Grænseværdisætning (CLT)** ----------------------------------------- ![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype Automatisk genereret beskrivelse](media/image202.png) Et billede, der indeholder tekst, skærmbillede, Font/skrifttype Automatisk genereret beskrivelse Eks: Bruger formlen: ![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype Automatisk genereret beskrivelse](media/image204.png) Udregning: \ [\$\$\\overline{X}\\sim N\\left( 140,\\frac{64}{200} \\right)\\ = N\\left( 140;0,32 \\right)\$\$]{.math.display}\ Middelværdi på 140 Varians på 0,32 Når x ikke er normalt fordelt: Følger standard normalfordeling = hvis stor nok stikprøve Et billede, der indeholder tekst, skærmbillede, Font/skrifttype Automatisk genereret beskrivelse Den Centrale Grænseværdisætning (CLT) fortæller os, at fordelingen af det standardiserede stikprøvegennemsnit vil nærme sig *N*(0,1)-fordelingen, når stikprøvestørrelsen *n* stiger. - Dette gælder uanset fordelingen for *X*! KAN ALTID BRUGE DEN = skal være simpel tilfældig stikprøve CLT siger noget om adfærden af stikprøvegennemsnittet (standardiseret) for uendelig stikprøvestørrelse. ![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype Automatisk genereret beskrivelse](media/image206.png) Et billede, der indeholder tekst, Font/skrifttype, skærmbillede, håndskrift Automatisk genereret beskrivelse Simpel tilfældig stikprøve + stikprøvegennemsnit: Kan bruge dette Z = følger standard normalfordelt N(0,1) [\$\\overline{X}\\sim,\\ betyder\\ næsten\$]{.math.inline} Jo større n bliver jo mere præcis Fordeling af stikprøvegennemsnittet VII ![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, nummer/tal Automatisk genereret beskrivelse](media/image208.png) +-----------------------------------------------------------------------+ | **Genbesøg af et eksempel fra Lektion 5** | | | | I Lektion 5 betragtede vi følgende eksempel: | | | | Antag, at jeg kan investere i 100 forskellige aktier, og de årlige | | afkast er fordelt som | | | | \ | | [*N* (0.075, 0.0225).]{.math.display}\ | | | | *n* = 100 aktier. | | | | - Vi søger fordelingen af afkastet på vores portefølje. (F.eks. til | | risikostyringsformål, se Lektion 5.) | | | | - I virkeligheden er afkastene på aktier ikke normalfordelte!! | | | | **[Antag i stedet, at de årlige afkast er fordelt efter en ukendt | | fordeling med middelværdi 0.075 og varians 0.0225. ]** | | | | - Meget mere sandsynligt. (I praksis bør middelværdi og varians | | ofte estimeres, men vi ignorerer det for nu\...) | | | | - Bemærk: I virkeligheden er afkast på aktier ikke uafhængige, men | | det ignorerer vi også for nu\... | | | | Kan vi stadig sige noget om fordelingen af afkastet på porteføljen? | | | | - Ja! Da afkastet på porteføljen er et gennemsnit af afkastene på | | aktierne, vil afkastet på porteføljen være (cirka) normalfordelt | | på grund af CLT'en! | | | | **[Spørgsmål fra Lektion 5: ]** | | | | Spørgsmål: Forudsat at afkastene er uafhængige, hvad er fordelingen | | af afkastet på porteføljen? | | | | Lad afkastet på porteføljen være beskrevet ved den stokastiske | | variabel, R. | | | | - [\$Svar:\\ R\\ \_{\\sim}\^{A}{N\\left( 0.075,\\frac{0.0225}{n} | | \\right)}\\text{\\.}\$]{.math.inline} | | | | Spørgsmål: Hvad er sandsynligheden for at tabe 10% eller mere, hvis | | jeg investerer i en enkelt aktie? I porteføljen? | | | | - Svar: Det samme som i Lektion 5 (bemærk: cirka). | | | | Spørgsmål: Hvad er sandsynligheden for at tjene 10% eller mere, hvis | | jeg investerer i en enkelt aktie? I porteføljen? | | | | - Svar: Det samme som i Lektion 5 (bemærk: cirka). | | | | **[Brug i R]** | | | | \ | | [*pnorm*( − 0.10, *mean* = 0.075, *sd* = 0.00025]{.math.display}\ | | | | \ | | [1 − *pnorm*( − 0.10, *mean* = 0.075, *sd* = 0.00025]{.math | |.display}\ | +=======================================================================+ | - Eksemplet illustrerer, hvordan CLT kan anvendes i praksis: Vi er | | i stand til at lave sandsynlighedsudsagn om stokastiske variable, | | der er formuleret som stikprøvegennemsnit. | | | | - Mange estimatorer er konstrueret ud fra stikprøvegennemsnit på en | | eller anden måde. | | | | | | | | - Vi har studeret to eksempler: Estimatoren af middelværdien μ = | | E\[*X*\] og estimatoren af en andel *p*. | | | | - Men andre estimatorer bygger ofte også på stikprøvegennemsnit. | | Derfor kan de også have et CLT-lignende resultat knyttet til dem. | | | | | | | | - Dette er hovedårsagen til, at normalfordelingen er så vigtig. | | | | - Som vi vil se i Lektion 7 og Lektion 8, vil CLT'et også tillade | | os at konstruere konfidensintervaller og hypotesetests. | +-----------------------------------------------------------------------+ Hvornår er stikprøvestørrelsen \"stor nok\"? Et naturligt spørgsmål opstår: Hvornår er stikprøvestørrelser *n* store nok, så CLT'en kan anvendes? - Desværre eksisterer der intet enkelt svar på dette spørgsmål. Generelt afhænger det af situationen. - Der findes forskellige tommelfingerregler. Nogle gange kan man bruge simuleringer for at forsøge at besvare spørgsmålet. - I mange tilfælde er [*n* ≥ 20]{.math.inline}, siger man, \"stor nok\". - [I dette kursus kan du anvende CLT og ignorere stikprøvestørrelsen. ] **Skriv om stikprøven er stor nok = hvis man har over 20 observationer** Eksempel af CLT: ![](media/image209.png)![Et billede, der indeholder Kurve, tekst, diagram, linje/række Automatisk genereret beskrivelse](media/image211.png) Jo større n-værdi jo mindre varians. Bliver også mere kompakt ved middelværdien. Opsamling på estimatorer ------------------------ Stikprøvegennemsnit ![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype Automatisk genereret beskrivelse](media/image213.png) Stikprøvevarians Et billede, der indeholder tekst, skærmbillede, Font/skrifttype Automatisk genereret beskrivelse ![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, algebra Automatisk genereret beskrivelse](media/image215.png) Hvis det både er centralt og konsistent = bedst, hvis ikke gå efter konsistent hvis der skal vælges mellem de to +-----------------------------------------------------------------------+ | **Eks. Spilleautomat** | | | | Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, | | algebra Automatisk genereret beskrivelse![Et billede, der indeholder | | tekst, Font/skrifttype, skærmbillede, hvid Automatisk genereret | | beskrivelse](media/image217.png) | | | | **Det bedste bud på variansen er 11,51.** | +-----------------------------------------------------------------------+ Standardfejl af middelværdi (SEM) --------------------------------- Standardfejlen = Siger noget om hvor præcist vi estimere = hvor præcist har man estimeret Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, linje/række Automatisk genereret beskrivelse ![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype Automatisk genereret beskrivelse](media/image219.png) **Man skal rapportere hvor præcist sit estimat er!** +-----------------------------------------------------------------------+ | **Eksempel: Spilleautomat** | | | | Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, | | nummer/tal Automatisk genereret beskrivelse | | | | ![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype | | Automatisk genereret beskrivelse](media/image221.png) | +-----------------------------------------------------------------------+ Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, nummer/tal Automatisk genereret beskrivelse Vi ser, at en større stikprøvestørrelse medfører en mindre standardfejl. Derfor kan vi stole mere på estimatet, som fremkommer ved brug af den store stikprøvestørrelse. Konfidensintervaller ==================== Hvor sikre er vi: stor sikkerhed = mindre interval, lille sikkerhed = stort interval I Lektion 6 studerede vi estimatorer for parametre. - Mest vigtigt, estimatoren for middelværdien μ, variansen [*σ*^2^]{.math.inline}, og andelen p. Disse er såkaldte punktestimatorer. - De giver et "bedste gæt" på den underliggende (ukendte) parameter. - Men de siger intet om usikkerheden i estimatet. Til dette formål så vi, at man også kunne rapportere standardfejlen af estimatet. I denne lektion vil vi studere konfidensintervaller - I stedet for at rapportere et punktestimat og en standardfejl, kan vi rapportere et interval omkring vores estimat. Et konfidensinterval er en alternativ måde at udtrykkeusikkerheden i estimatet på. - Jo bredere konfidensintervallet er, desto mere usikkerhed er der i estimatet. Den grundlæggende idé bag et konfidensinterval er at konstruere et interval på en sådan måde, at den sande (ukendte) parameter vil være i intervallet med en specificeret sandsynlighed. - F.eks. 95% for et "95%-konfidensinterval". - Teknisk bemærkning: Konfidensintervallet er et stokastisk interval. (Ligesom en estimator er en stokastisk variabel.) I denne lektion vil vi fokusere på konfidensintervallet for to parametre: 1. Konfidensinterval for middelværdien (μ). 2. Konfidensinterval for andelen (p). De koncepter, vi studerer i lektionen, kan dog anvendes mere generelt på andre estimatorer. Sammenligning af konfidensinterval for middelværdien (μ\\my) og andelen (p): ---------------------------------------------------------------------------- ![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, nummer/tal Automatisk genereret beskrivelse](media/image223.png) Motivation ---------- Et billede, der indeholder tekst, skærmbillede, Font/skrifttype Automatisk genereret beskrivelse Alfa er bare et tal, hvis det som i dette eks er \[0,05\], betyder konfidensinterval på 95% ![](media/image225.png) k = et tal Et billede, der indeholder tekst, skærmbillede, Font/skrifttype Automatisk genereret beskrivelse Udledning --------- ![](media/image227.png)Et billede, der indeholder tekst, håndskrift, Font/skrifttype, kalligrafi Automatisk genereret beskrivelse Eks: ![Et billede, der indeholder tekst, tavle, whiteboard, håndskrift Automatisk genereret beskrivelse](media/image230.jpeg) Et billede, der indeholder tekst, håndskrift, Font/skrifttype, kalligrafi Automatisk genereret beskrivelse ![Et billede, der indeholder tekst, Font/skrifttype, håndskrift, skærmbillede Automatisk genereret beskrivelse](media/image232.png) Et cirka konfidensinterval for my. ### Bemærkning Bemærkning (Normalfordelt data, kendt varians) - Behøver ikke approksimere Bemærkning (Normalfordelt data, ukendt varians) Hvis n er 10 = ligesom normalfordeling t-fordeling: ![](media/image234.png) Bemærkning (Ukendt fordeling af data, ukendt varians) Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, algebra Automatisk genereret beskrivelse Bemærkning (Opsummering) - Bogen skelner mellem disse tre tilfælde og giver (en smule) forskellige definitioner af konfidensintervaller i hvert tilfælde. - I praksis er det tredje tilfælde (ukendt fordeling, ukendt varians) dog næsten altid det relevante tilfælde. - Derfor kan du i dette kursus blot bruge det konfidensinterval, der er relevant for dette tilfælde (se næste slide). - Et forbehold: Konfidensintervallet bygger på Den Centrale Grænseværdisætning. Derfor er det kun approksimativt. Approksimationen er bedre, jo større stikprøvestørrelsen n er. ![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, nummer/tal Automatisk genereret beskrivelse](media/image236.png) **Konfidensinterval for gennemsnittet/middelværdien = skal give en talværdi** Fraktiler i standard normalfordelingen - konfidensinterval Et billede, der indeholder tekst, skærmbillede, Font/skrifttype Automatisk genereret beskrivelse +-----------------------------------------------------------------------+ | **Eks. På beregning af konfidensintervallet for** [**μ**]{.math | |.inline}**: Spillemaskine** | | | | ![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype | | Automatisk genereret beskrivelse](media/image238.png) | | | | ![](media/image240.png) | | | | Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, | | linje/række Automatisk genereret beskrivelse | +-----------------------------------------------------------------------+ Konfidensinterval for andel --------------------------- - Ja/nej, rigtigt/forkert mm. - To variable - sætte op på 0 og 1 formel ![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, algebra Automatisk genereret beskrivelse](media/image242.png) Vi kan derfor bruge den samme ræsonnement som ovenfor for at konstruere konfidensintervaller for *p*: - Simpel tilfældig stikprøve Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, linje/række Automatisk genereret beskrivelse +-----------------------------------------------------------------------+ | **Eksempel: Konfidensinterval for andel** | | | | Eksempel 13.3 (MMW s. 288): | | | | En supermarkedskæde ønsker at vurdere, hvor stor en del af | | befolkningen der handler i deres butikker. | | | | - Opstil et stokastisk forsøg, der kan undersøge dette. Kæden | | udtager en (simpel tilfældigt) stikprøve på *n* = 400 personer, | | hvoraf 116 svarer, at de handler i kædens butikker. | | | | - Estimér andelen af befolkningen, der handler i kædens butikker. | | Beregn standardfejlen for estimatet. Giv et 95% konfidensinterval | | for denne andel. | +=======================================================================+ | Løsning: | | | | ![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, | | algebra Automatisk genereret beskrivelse](media/image244.png) | | | | Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, | | nummer/tal Automatisk genereret beskrivelse | +-----------------------------------------------------------------------+ Eksempel: Statistisk usikkerhed (*n* = 1017) (jo mindre tal jo mindre statistik usikkerhed) ![Et billede, der indeholder tekst, skærmbillede, nummer/tal, Font/skrifttype Automatisk genereret beskrivelse](media/image246.png) Et billede, der indeholder tekst, skærmbillede, Kurve, linje/række Automatisk genereret beskrivelse +-----------------------------------------------------------------------+ | Eksempel: Meningsmåling | | | | ![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype | | Automatisk genereret beskrivelse](media/image248.png) Et billede, der | | indeholder tekst, skærmbillede, display/skærm/fremvisning, Rektangel | | Automatisk genereret beskrivelse | +-----------------------------------------------------------------------+ Konfidensintervaller for andre parametre ![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype Automatisk genereret beskrivelse](media/image250.png) Lektion 8: Hypotesetest 1/3 =========================== **Motivation og eksempler (fokus på middelværdi og andel)** ----------------------------------------------------------- Forkaster en nulhypotese eller ej = meget sikre på at afvise nulhypotse Hvad er alternativet, hvilket alternativ bliver der sat op? ![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, nummer/tal Automatisk genereret beskrivelse](media/image252.png) ![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype Automatisk genereret beskrivelse](media/image254.png) Hvornår kan vi forkaste vores nulhypotese? ### Formulering af hypoteser - For at formalisere en hypotesetest, vælger vi to hypoteser. En nulhypotese (betegnet [*H*~0~]{.math.inline}) (udgangspunktet) og en alternativ hypotese (betegnet [*H*~1~]{.math.inline} eller nogle gange [*H*~*A*~]{.math.inline}). - Målet med en hypotesetest er at se, om dataene støtter forkastelse af nulhypotesen til fordel for den alternative hypotese. - Hvordan man formulerer de to hypoteser afhænger af det spørgsmål, der studeres. - Generelt vil vi kræve stærk evidens for at forkaste en nulhypotese. - Nulhypotesen kan betegne *status quo*, som kan være kostbart at forkaste. = hvordan ser verdenen ud lige nu - Eks: Er i retten, person der er blevet snuppet for noget, tror skyldig eller uskyldig, uskyldig indtil modsat er bevis, nulhypotesen er uskyldig til modsat, er bevist. - [*H*~0~ = *uskyldig*, *H*~1~ = *skyldig*]{.math.inline} **[Eksempler på nulhypotesen:]** Et billede, der indeholder tekst, skærmbillede, Font/skrifttype Automatisk genereret beskrivelse![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype Automatisk genereret beskrivelse](media/image256.png) Et billede, der indeholder tekst, skærmbillede, Font/skrifttype Automatisk genereret beskrivelse![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype Automatisk genereret beskrivelse](media/image258.png) Lektion 8: Hypotesetest Uge 48 - Del 2 af 3 =========================================== **Type I og Type II fejl, signifikansniveau og styrke** ------------------------------------------------------- ### Mulige fejlkilder I Type 1 fejl = signifikansniveau Vores hypotesetests vil blive baseret på data og indeholder derfor stikprøveusikkerhed. Dette betyder, at vi nogle gange vil lave fejl ved test af hypoteser. En nulhypotese er enten sand eller falsk. Vi enten afviser eller afviser ikke nulhypotesen. - *Vores mål er at afvise falske nulhypoteser og ikke-afvise ("acceptere") sande nulhypoteser*. Derfor er der to mulige fejl at lave: - Type I-fejl: **Afvis en sand nulhypotese.** (afviser noget der er sandt) - Alfa = sandsynligheden for at begå en type 1 fejl - Type II-fejl: **Afvis ikke** ("accepter") **en falsk nulhypotese.** (afviser ikke noget der er forkert) Eks 1: Type I-fejl = uskyldig kommer i fængsel Type I1-fejl = skyldig [ikke] i fængsel ### Mulige fejlkilder II Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, nummer/tal Automatisk genereret beskrivelse Eks 2: +-----------------------+-----------------------+-----------------------+ | \ | Sandt | Falsk | | [*H*~0~ *er*:]{.math | | | |.display}\ | | | +=======================+=======================+=======================+ | Afvis | Type 1-fejl | \ | | | | [1 − *β*]{.math | | | Sandsynlighed af |.display}\ | | | [*α*]{.math.inline} | | | | = alfa | | +-----------------------+-----------------------+-----------------------+ | Ikke afvis | \ | Type II-fejl | | | [1 − *α*]{.math | | | |.display}\ | Sandsynlighed af | | | | [*β*= ]{.math | | | |.inline}beta | +-----------------------+-----------------------+-----------------------+ ### Type I-fejl og signifikansniveauet for en test Sandsynligheden for at begå en Type I-fejl, dvs. afvise når nulhypotesen er sand, kaldes signifikansniveauet for testen. Det betegnes med α: \ [*α* = *P*(*Type* *I* − *fejl*) = *P*(*Afvis* *H*0\|*H*0 *er* *sand*).]{.math.display}\ - Typiske værdier er α = 1% og α = 10%, men mest almindeligt er α = 5%. - Ideelt set bør α fastsættes med hensyn til, hvor kostbart det er at lave en Type I-fejl. ### ### Type II-fejl og en tests styrke Sandsynligheden for at begå en Type II-fejl betegnes med β: \ [*β* = *P*(*Type* *II* − *fejl*) = *P*(*Afvis* *ikke* *H*~0~\|*H*~0~ *er* *falsk*). ]{.math.display}\ Styrken af en hypotesetest er sandsynligheden for at afvise [*H*~0~]{.math.inline}, når den er falsk: \ [*styrke* = *P*(*Afvis* *H*~0~\|*H*~0~ *er* *falsk*) = 1 − *β*]{.math.display}\ Større styrke er bedre! (Vi vil gerne afvise nulhypotesen, når den er falsk.) - Desværre er der en afvejning mellem sandsynlighederne for at begå Type I-fejl (α) og Type II-fejl (β). - Du kan sænke α, men dette vil øge β. - I praksis fastsætter vi først α. Derefter kan vi beregne β og styrken. [Alfa, beta og styrken kan ikke skilles af:] - Større alfa mindre beta - Større beta mindre alfa - Alfa og beta hænger sammen Hypotesetest for middelværdi (μ) ================================ Sammenligning af hypotesetest for middelværdien (μ\\my) og for andelen (p): --------------------------------------------------------------------------- ![Et billede, der indeholder tekst, skærmbillede, Font/skrifttype, nummer/tal Automatisk genereret beskrivelse](media/image260.png) Et billede, der indeholder tekst, Font/skrifttype, skærmbillede, hvid Automatisk genereret beskrivelse Kritiske værdier. Beslutningsregler. p-værdier. ### Opbygning af hypotesetest (Generisk oversigt) Følgende giver en (overordnet) procedure for at konstruere en hypotesetest for en parameter, f.eks. middelværdien μ. Følg disse steps: 1. Formuler nulhypotesen [*H*~0~]{.math.inline} og den alternative hypotese [*H*~1~]{.math.inline}. 2. Vælg signifikansniveauet α. 3. Foreslå en teststatistik *Z* og udled fordelingen af *Z*, under antagelse af at [*H*~0~]{.math.inline} er sand. 4. Udled en beslutningsregel, som vil afhænge af [*H*~0~ , *H*~1~ , *α*, *Z*]{.math.inline}. Hvornår kan vi afvise [*H*~0~?]{.math.inline} 5. Indsaml data. Afvis eller afvis-ikke ("accepter") [*H*~0~]{.math.inline}. ### Nul- og alternativhypoteserne Lad nulhypotesen være [fast]: \ [*H*~0~ : *μ* = *μ*~0~]{.math.display}\ hvor [*μ*~0~]{.math.inline} er et tal valgt af statistikeren (dig). Den alternative hypotese [*H*~1~]{.math.inline} udtrykker det relevante alternativ til [*H*~0~]{.math.inline}, og kan formuleres som en af følgende: 1. [*H*~1~ : *μ* = *μ*~0~]{.math.inline} (brug ikke denne, da [sjældent relevant]; vil ikke blive fokuseret på). 2. [*H*~1~ : *μ* \ *μ*~0~]{.math.inline} (ensidet alternativ). 3. [*H*~1~ : *μ* \

Use Quizgecko on...
Browser
Browser