Biostatistik år 1 – crash course PDF
Document Details
Uploaded by SelfSatisfactionLightYear7986
Karolinska Institutet
2024
Pernilla Lång
Tags
Summary
This Karolinska Institutet presentation covers biostatistics for first-year students. Topics include variables, distributions, and statistical inference. The material is presented through slides using visual aids and examples for clear comprehension of statistical concepts.
Full Transcript
Biostatistik år 1 – crash course Pernilla Lång, BMA, Fil Dr Patologi KANDIDAT G1 Bild gjord med Firefly Vad ska du kunna? Variabel och skalnivåer Outliers, extrema värden Population vs stickprov...
Biostatistik år 1 – crash course Pernilla Lång, BMA, Fil Dr Patologi KANDIDAT G1 Bild gjord med Firefly Vad ska du kunna? Variabel och skalnivåer Outliers, extrema värden Population vs stickprov Konfidensintervall Parameter Precision Fördelningar Riktighet Centralmått/trendvärde Grafer Spridningsmått Excel (se videos specifikt om detta) Karolinska Institutet - ett medicinskt universitet 7 juni 2024 2 Variabel Kvantitativa Numeriska värden. Exempel längd och vikt. Kvalitativa Ej numeriska värden. Exempelvis kön och diagnos. Kontinuerliga Alla tänkbara värden inom ett intervall. Exempelvis längd och vikt. Diskontinuerliga Distinkta värden inom ett intervall. Exempelvis kön och antal barn. Karolinska Institutet - ett medicinskt universitet 7 juni 2024 3 Skalnivåer Nominalskala Observationer som har en kategori. Exempelvis kön. Ordialskala Observationer som kan rangordnas. Exempelvis cancerstadie. Intervallskala Observationer med jämförbara avstånd. Exempelvis temperatur. Kvotskala Observationer som har en absolut nollpunkt. Exempelvis vikt och ålder. Karolinska Institutet - ett medicinskt universitet 7 juni 2024 4 Population och stickprov Population Stickprov Hela uppsättningen av individer eller En delmängd av en population, vald händelser. för att representera populationen i en undersökning. Den fullständiga gruppen som forskningen avser att beskriva och Används eftersom opraktiskt/omöjligt analysera. att studera hela populationen direkt. Exempel på en population kan vara alla Representativt stickprov. invånare i Sverige. Större stickprov mer = populationen. Karolinska Institutet - ett medicinskt universitet 7 juni 2024 5 Parameter Numerisk egenskap som beskriver och sammanfattar en aspekt av en hel population. Fasta och konstanta värden som karakteriserar en underliggande sannolikhetsfördelning eller statistisk modell Oftast okända och behöver uppskattas från insamlade data. Några vanliga exempel på statistiska parametrar inkluderar centralvärden/trendvärden och spridningsmått. Exempelvis: Det genomsnittliga blodtrycket i Sverige (beskrivning av populationen). Sannolikheten att det blir en pojke eller flicka vid befruktningen av ägg (beskrivning av sannolikhetsfördelning). Regressionskoefficienten för längd som en funktion av ålder under barndomen (beskrivning av samband mellan två variabler). Karolinska Institutet - ett medicinskt universitet 7 juni 2024 6 Fördelningar Normalfördelning (Gaussisk). Graf från: "Wechsler" by Thehampshirehog is Klockformad kurva som är symmetrisk runt medelvärdeT licensed under CC BY-SA 4.0. Medelvärdet, medianen och modet/typvärde är lika. Denna symmetri betyder att halva datamängden ligger till vänster om medelvärdet och den andra halvan till höger. Normalfördelningen används för att beskriva många naturliga fenomen och mätvärden, såsom mänskliga egenskaper eller fel i mätningar. Egenskaper: o Kurvan är symmetrisk. o Den är helt beskriven av två parametrar: medelvärdet (µ) och standardavvikelsen (σ). o Ca 68% av datan ligger inom en standardavvikelse från medelvärdet, 95% inom två standardavvikelser, och 99,7% inom tre standardavvikelser. Karolinska Institutet - ett medicinskt universitet 7 juni 2024 7 Fördelningar Snedfördelning Datamängd där kurvan inte är symmetrisk runt medelvärdet. Positiv snedfördelning (högersned): Datamängden har en lång "svans" på höger sida. Medelvärdet är större än medianen eftersom de höga värdena drar upp medelvärdet. Ett exempel kan vara inkomstfördelningen där en mindre grupp har väldigt höga inkomster jämfört med majoriteten. Negativ snedfördelning (vänstersned): Datamängden har en lång "svans" på vänster sida. Medelvärdet är mindre än medianen eftersom de låga värdena drar ned medelvärdet. Ett exempel kan vara ålder vid pension där de flesta pensionerar sig vid en viss ålder, men några få pensionerar sig mycket tidigt. Snedfördelningar är viktiga att identifiera eftersom de kan påverka analyser och slutsatser baserade på datan. Statistiska metoder som bygger på antagandet om normalfördelning kanske inte är lämpliga för snedfördelade datamängder. Karolinska Institutet - ett medicinskt universitet 7 juni 2024 8 Fördelningar Hur tar man reda på fördelning? Frekvensdiagram. Medelvärde = median = normalfördelning. Medelvärde ≠ median = sned/skev fördelning. Snedhet (skewness) = mer än -1 till +1 hög snedhet. Mellan -1 till -0,5 eller 0.5 till 1 lite sned. Mellan -0,5 till +0,5 normalfördelad. ÅR 2/3 statistiska test som Shapiro-Wilks. Karolinska Institutet - ett medicinskt universitet 7 juni 2024 9 Centralmått/trendvärde Den punkt på talaxeln kring vilken observationerna är centrerade. Medelvärde Mått på den genomsnittliga nivån av en kvantitativ variabel i en population. Används vid normaldistribution (Gaussian) är då = median. Median Mått på central tendens som beskriver mittvärdet (den mittersta datapunkten) i en uppsorterad datamängd. Kan användas vid alla distributioner men används fram för allt vid senda distributioner. Typvärde/modet Det värde som förekommer oftast i dataserien. Karolinska Institutet - ett medicinskt universitet 7 juni 2024 10 Spridningsmått Variationsvidd (range, min-max) Avståndet mellan lägsta och högsta värdet. Tillsammans med median och snedfördelning. Standardavvikelsen (SD) Den genomsnittliga avvikelsen från medelvärdet. Tillsammans med medelvärde och Bild gjord med 4o normaldistribution. Karolinska Institutet - ett medicinskt universitet 7 juni 2024 11 Spridningsmått Kvartiler (q1, q2, q3) Ordna observationerna i storleksordning. q1 = 25% är mindre än q1. q2 = 50% är mindre än q2. q3 = 75% är mindre än q3. Percentiler. Bild gjord med 4o Karolinska Institutet - ett medicinskt universitet 7 juni 2024 12 Outliers, extrema värden Outliers? Grundregel Ta inte bort obsverationer! Extrema värden/outliers Svårt att avgöra. Observationen ligger mer än 1,5 kvartilavstånd högre än Q3 eller 1,5 kvartilavstånd lägre än Q1. Bild gjord med 4o Karolinska Institutet - ett medicinskt universitet 7 juni 2024 13 Statistisk interferens Från ett stickprov dra slutsatser (interferens) om populationen. Sampling interferens Två steg: Populationen Stickprov Karolinska Institutet - ett medicinskt universitet 7 juni 2024 14 Statistisk inteferens (slutsats) Population med en viss variabel Alla mellan 40 och 60 med metabolisk syndrom. Variabel = vikt i kg. Det finns för populationen ett medelvärde för vikt µ och en SD σ. µ och σ är parametrar s om bes kriver vikten inom populationen. Karolinska Institutet - ett medicinskt universitet 7 juni 2024 15 Statistisk inteferens (slutsats) Stickprovet Vi kan inte observera hela populationen. Stickprov Observationer 𝑥𝑥1 , 𝑥𝑥2 … 𝑥𝑥𝑛𝑛. 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑥𝑥̅ och SD. Olika stickprov Lite olika 𝑥𝑥̅ och SD. Fler observationer (n) = mer tillförlitligt. Större variation = mindre tillförlitligt. Karolinska Institutet - ett medicinskt universitet 7 juni 2024 16 Statistik interferens (slutsats) Fördelning av 𝑥𝑥̅ från ett större antal stickprov med samma n. 𝑥𝑥̅ fördelar sig jämt runt medelvärdet µ. Sampelfördelning kan göras på SD också. Bild gjord med 4o Karolinska Institutet - ett medicinskt universitet 7 juni 2024 17 Statistisk interferens (slutsats) Detta ger: 𝑥𝑥̅ är centrerat kring µ. Spridningen för stickprovets medelvärde (𝜎𝜎𝑥𝑥̅ ) fördelningen är = 𝜎𝜎 ÷ √𝑛𝑛. Ger bland annat att större n = mindre 𝜎𝜎𝑥𝑥̅ = mer tillförlitligt. Även för icke-normalfördelade observationer så blir sampligfördelningen av 𝑥𝑥̅ normalfördelat. Karolinska Institutet - ett medicinskt universitet 7 juni 2024 18 Konfidensintervall för medelvärden Ett intervall som används för att uppskatta en okänd parameter, exempelvis ett populationsmedelvärde, med en viss grad av säkerhet, utifrån ett stickprov. Anger med en viss sannolikhet, den så kallade konfidensnivån, att intervallet innehåller det sanna värdet av parametern. Karolinska Institutet - ett medicinskt universitet 7 juni 2024 19 Konfidensintervall för medelvärden Normalfördelning (Z-värden) 90% inom +/- 1,645 SD 95% inom +/- 1,960 SD 99% inom +/- 2,576 SD 99,9% inom +/- 3,291 SD Formel för konfidensintervall 𝑥𝑥̅ ± 𝑋𝑋 × 𝜎𝜎 ÷ √𝑛𝑛 X = 1,645, 1,960, 2,576 eller 3,291 Vi känner inte till σ! Bild gjord med 4o Karolinska Institutet - ett medicinskt universitet 7 juni 2024 20 Konfidensintervall för medelvärde Normalfördelningskurva 2st svansar som är lika stora. Exempelvis: 95% konfidensintervall täcker 95% av värdena. 5% är kvar = 2,5% i varje svans. Bild gjord med 4o Karolinska Institutet - ett medicinskt universitet 7 juni 2024 21 Konfidensintervall för medelvärden T-fördelning! Baseras på SD för stickprovet. Frihetsgrader (df): Mått på hur många värden i vårt stickprov som är fria att variera. Frihetsgrader beräknas som: 𝑛𝑛 − 1 Ju fler frihetsgrader (observationer) ju närmare populationens normalfördelning. Bild gjord med 4o Karolinska Institutet - ett medicinskt universitet 7 juni 2024 22 Konfidensintervall för medelvärden Exempel Beräkning Vikten hos patienter mellan 40- Formel 60 år som har metaboliskt 𝑥𝑥̅ ± 𝑡𝑡(1 − 𝛼𝛼 ÷ 2)(𝑛𝑛 − 1) × (𝑆𝑆𝑆𝑆 ÷ syndrom. 𝑛𝑛) n = 100. 𝑥𝑥̅ = stickprovets medelvärde t = t-fördelning 𝑥𝑥̅ = 95kg 𝛼𝛼 = percentil för aktuell konfidens SD = 10kg (90 = 0,1, 95 = 0,05, 97,5 = 0,025 eller Konfidensintervall vi vill beräkna 99 = 0,01). 95%. n = antal observationer Standard error of the mean (SEM) = (𝑆𝑆𝑆𝑆 ÷ 𝑛𝑛) Karolinska Institutet - ett medicinskt universitet 7 juni 2024 23 Konfidensintervall för medelvärden Data n = 100. 2. Sätt samman t och SEM = 1,984 × 1. 𝑥𝑥̅ = 95kg SD = 10kg 3. 95% konfidensintervall Konfidensintervall vi vill beräkna 95%. 95kg ± 1,984kg (93,016kg – 96,984kg) Beräkning Tänk på mätnoggranheten. 1. 𝑡𝑡 = 1 − 0,05 ÷ 2 100 − 1 t = 0,975 (99) Avläs t = 0,975 (99) i tabell över t-fördelning eller beräkna på https://datatab.net/tutorial/t- distribution. NOTERA! Här är p – value = med 𝛼𝛼. t = 1,984 2. SEM =10 ÷ √100 1 Karolinska Institutet - ett medicinskt universitet Bild gjord med 4o 7 juni 2024 24 Konfidensintervall för medelvärden Data n = 100. 𝑥𝑥̅ = 95kg SD = 10kg Konfidensintervall vi vill beräkna 95%. Beräkning 1. 95% konfidensintervall innebär att det är 2,5% kvar i varje svans. Bild gjord med 4o Karolinska Institutet - ett medicinskt universitet 7 juni 2024 25 Precision Variationskoefficienten (Coefficient of Variation, CV) är ett mått på relativ precision. Uttrycks som en procentandel och beräknas enligt följande: 𝑆𝑆𝑆𝑆 ÷ 𝑥𝑥̅ × 100 Vad ska den vara? CV% = 5%: hög precision. CV% = 10%: måttlig precision. CV% = 20%: låg precision. Bild gjord med 4o Karolinska Institutet - ett medicinskt universitet 7 juni 2024 26 Riktighet Mycket bra riktighet: Avvikelse mindre än ±1%. Ett mätinstrument som ska mäta något Bra riktighet: Avvikelse mellan ±1% och ±2%. exempelvis en volym. Nominerad = det värde som det teoretisk ska Acceptabel riktighet: Avvikelse mellan ±2% och vara. ±5%. Dålig riktighet: Avvikelse större än ±5. Samla ett antal observationer. Riktighet (𝑥𝑥̅ −𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣) ÷ 𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 × 100 Uttrycks i %. Bild gjord med 4o Karolinska Institutet - ett medicinskt universitet 7 juni 2024 27 Grafer Ska visa data på ett tolkbart sätt. Vilka grafer i Excel: Histogram, frekvensdiagram. Att tänka på: X-axel med titel, vad man har Stolpdiagram. mätt samt enhet. Diagram med individuella Y-axel med vad man har mätt värden. samt enhet. Låddiagram. Karolinska Institutet - ett medicinskt universitet 7 juni 2024 28 Excel Ska kunna: Lägga in data. Använda former från Excel. Skriva egna formler. Skapa grafer. Separata videos. Karolinska Institutet - ett medicinskt universitet 7 juni 2024 29