Přednáška III. Data, jejich popis a vizualizace (PDF)

Summary

This document is lecture notes on data analysis for medical and biological research. It covers topics such as data types, data visualization, and descriptive statistics. It also includes examples.

Full Transcript

Přednáška III. Data, jejich popis a vizualizace Náhodný výběr, cílová a výběrová populace Typy dat Vizualizace různých typů dat Popisné statistiky 1 Biostatistika pro matematickou biologii a biomedicínu Typy dat 2 Biostatistika pro matematickou biologii a biomedicínu Jak...

Přednáška III. Data, jejich popis a vizualizace Náhodný výběr, cílová a výběrová populace Typy dat Vizualizace různých typů dat Popisné statistiky 1 Biostatistika pro matematickou biologii a biomedicínu Typy dat 2 Biostatistika pro matematickou biologii a biomedicínu Jak vznikají data? ̶ Záznamem skutečnosti… … kterou chceme dále studovat → smysluplnost? … více či méně dokonalým → kvalita? 3 Biostatistika pro matematickou biologii a biomedicínu Jak vznikají data? ̶ Záznamem skutečnosti… … kterou chceme dále studovat → smysluplnost? (krevní tlak, glykémie × počet srdcí, počet domů) … více či méně dokonalým → kvalita? (variabilita = informace + chyba) 4 Biostatistika pro matematickou biologii a biomedicínu Klíčové principy – reprezentativnost ̶Cílová populace – skupina subjektů, o které Prostor všech chceme zjistit nějakou informaci. možností ̶Experimentální vzorek – podskupina cílové Cílová populace, kterou „máme k dispozici“. populace ̶Vzorek musí odpovídat svými charakteristikami cílové populaci. Vzorek ̶Chceme totiž zobecnit výsledky na celou cílovou populaci. 5 Biostatistika pro matematickou biologii a biomedicínu Typy dat ̶ Kvalitativní proměnná (kategoriální) – lze ji řadit do kategorií, ale nelze ji kvantifikovat, resp. nemá smysl přiřadit jednotlivým kategoriím číselné vyjádření. ̶ Příklady: pohlaví, HIV status, užívání drog, barva vlasů ̶ Kvantitativní proměnná (numerická) – můžeme jí přiřadit číselnou hodnotu. Rozlišujeme dva typy kvantitativních proměnných: ̶ Spojité: může nabývat jakýchkoliv hodnot v určitém rozmezí. ̶ Příklady: výška, váha, vzdálenost, čas, teplota. ̶ Diskrétní: může nabývat pouze spočetně mnoha hodnot. ̶ Příklady: počet krevních buněk, počet hospitalizací, počet krvácivých epizod za rok, počet dětí v rodině. 6 Biostatistika pro matematickou biologii a biomedicínu Typy dat – příklady Kvalitativní proměnná Kvantitativní proměnná 7 Biostatistika pro matematickou biologii a biomedicínu Kvalitativní data lze dělit dále ̶Binární data – pouze dvě kategorie typu ano / ne. ̶Nominální data – více kategorií, které nelze vzájemně seřadit. ̶Nemá smysl ptát se na relaci větší/menší. ̶Ordinální data – více kategorií, které lze vzájemně seřadit. ̶Má smysl ptát se na relaci větší/menší. 8 Biostatistika pro matematickou biologii a biomedicínu Kvalitativní data – příklady ̶Binární data – pouze dvě kategorie typu ano / ne. ̶diabetes (ano/ne), pohlaví (muž/žena), stav (ženatý/svobodný) ̶Nominální data – více kategorií, které nelze vzájemně seřadit. ̶Nemá smysl ptát se na relaci větší/menší. ̶krevní skupiny (A/B/AB/0), stát EU, stav (ženatý/svobodný/rozvedený/vdovec) ̶Ordinální data – více kategorií, které lze vzájemně seřadit. ̶Má smysl ptát se na relaci větší/menší. ̶stupeň bolesti (mírná/střední/velká/nesnesitelná), spotřeba cigaret, stadium Kvantitativní data ̶ Kvantitativní data poskytují větší informaci než data kvalitativní. ̶ Spojitá data poskytují větší informaci než data diskrétní. ̶ Větší informace znamená, že nám stačí méně pozorování na detekci určitého rozdílu (pokud ten rozdíl samozřejmě existuje). ̶ Kvůli interpretaci je někdy výhodné kvantitativní data agregovat do kategorií (např. věk) – tímto krokem však ztrácíme část informace. Zpětně nejsme schopni data rekonstruovat. Spojitá data Kategoriální data Diskrétní data Kategoriální data Typy dat dle škály hodnot Data Otázky Příklady Informační hodnota dat Poměrová Kolikrát ? Glykémie, váha Intervalová O kolik ? Teplota ve °C Ordinální Větší, menší ? PS, kouření Nominální Rovná se ? Pohlaví, KS 11 Biostatistika pro matematickou biologii a biomedicínu Další typy dat – odvozená data ̶ Pořadí (rank) – místo absolutních hodnot známe někdy pouze jejich pořadí. Jedná se sice o ztrátu určitého množství informace, nicméně i pořadí lze v biostatistice využít. ̶ Procento (percentage) – sledujeme-li např. zlepšení v určitém parametru, je výhodné sledovat procentuální zlepšení. Př.: ejekční frakce levé srdeční komory. ̶ Podíl (ratio) – mnoho indexů je odvozeno jako podíl dvou měřených veličin. Př.: BMI. ̶ Míra pravděpodobnosti (rate) – týká se výskytu různých onemocnění, kdy počet nových pacientů v daném čase (studii) je vztažen na celkový počet zaznamenaných osobo-roků. Př.: výskyt nádorového onemocnění u pacientů ve studii. ̶ Skóre (score) – jedná se o uměle vytvořené hodnoty charakterizující určitý stav, který nelze jednoduše měřit jako číselné hodnoty. Př.: indexy kvality života. ̶ Vizuální škála (visual scale) – pacienti často hodnotí svoje obtíže na škále, která má formu úsečky o délce např. 10 cm. Př.: hodnocení kvality života. 12 Biostatistika pro matematickou biologii a biomedicínu Další typy dat – odvozená data 13 Biostatistika pro matematickou biologii a biomedicínu Absolutní vs. relativní četnost ̶ Vyjádření výsledků v relativní formě (procento) má často příjemnou interpretaci, ale může být zavádějící. ̶ Relativní vyjádření účinnosti by mělo být vždy doprovázeno absolutním vyjádřením účinnosti. ̶ Příklad: Srovnání účinnosti léčiva ve smyslu prevence CMP u kardiaků. ̶ Studie 1: Výskyt CMP ve skupině A je 12 %, ve skupině B je 20 %. Relativní změna v účinnosti = 40 %; absolutní změna = 8 %. ̶ Studie 2: Výskyt CMP ve skupině A je 0,9 %, ve skupině B je 1,5 %. Relativní změna v účinnosti = 40 %; absolutní změna = 0,6 %. ̶ Výsledkem je rozdílný přínos léčby při stejné relativní účinnosti. 14 Biostatistika pro matematickou biologii a biomedicínu Další typy dat – cenzorovaná data ̶ Cenzorovaná data charakterizují experimenty, kde sledujeme čas do výskytu předem definované události. ̶ V průběhu sledování událost nemusí nastat u všech subjektů. Subjekty však nelze „vinit“ z toho, že jsme u nich nebyli schopni danou událost pozorovat a už vůbec je nelze z hodnocení vyloučit. ̶ O čase sledování takového subjektu pak mluvíme jako o cenzorovaném. ̶ Toto označení indikuje, že sledování bylo ukončeno dříve, než u subjektu došlo k definované události. Nevíme tedy, kdy a jestli vůbec daná událost u subjektu nastala, víme pouze, že nenastala před ukončením sledování. 15 Biostatistika pro matematickou biologii a biomedicínu Další typy dat – cenzorovaná data Ztracen ze sledování Nepozorované c4 t4 časy úmrtí c3 t3 Úmrtí Ukončení studie t2 Úmrtí t1 0 t 16 Biostatistika pro matematickou biologii a biomedicínu Vizualizace a popis různých typů dat 17 Biostatistika pro matematickou biologii a biomedicínu Reálná data Proč je popis a vizualizace dat třeba? ̶ Chceme zpřehlednit pozorovaná data – ve vhodných grafech. ̶ Chceme zachytit případné odlehlé a extrémní body nebo nečekané, nelogické hodnoty. ̶ Chceme popsat naměřené hodnoty. ̶ Chceme vypočítat vhodné sumární statistiky, které budou pozorovaná data dále zastupovat při prezentaci, srovnáních apod. Chceme pozorovanou informaci „uložit“ v zástupných statistikách, použití všech pozorovaných dat je nepraktické až nemožné. 19 Biostatistika pro matematickou biologii a biomedicínu Jaké jsou výstupy popisné analýzy? ̶ Obecně neformální, jde o shrnutí pozorovaného a ne o formální testování. ̶ Vztahují se pouze na pozorovaná data (respektive na experimentální vzorek). ̶ Mohou sloužit jako podklad pro stanovení hypotéz. 20 Biostatistika pro matematickou biologii a biomedicínu Co chceme u dat popsat? ̶ Kvalitativní data – četnosti (absolutní i relativní) jednotlivých kategorií. ̶ Kvantitativní data – těžiště a rozsah pozorovaných hodnot. 21 Biostatistika pro matematickou biologii a biomedicínu Popis „těžiště“ – míry polohy ̶ Mějme pozorované hodnoty: x1 , x2 ,..., xn ̶ Seřaďme je podle velikosti: x(1)  x( 2) ... x( n ) ̶ Minimum a maximum – nejmenší a největší pozorovaná xmin  x(1) xmax  x( n ) hodnota nám dávají obraz o tom, kde se na ose x pohybujeme. ̶ Průměr – charakterizuje hodnotu, kolem které kolísají ostatní 1 n x   xi pozorované hodnoty. Je to fyzikální obraz těžiště stejně n i 1 hmotných bodů ose x. ̶ Medián – je to prostřední pozorovaná hodnota. Dělí ~x  x pro n liché ( n 1) / 2  ~x  1 ( x x ) pro n sudé pozorované hodnoty na dvě půlky, půlka hodnot je menší a 2 ( n / 2) ( n / 2 1) půlka hodnot je větší než medián. 22 Biostatistika pro matematickou biologii a biomedicínu Výpočet mediánu ̶ Příklad 1: N = 8 ̶ (n + 1) / 2 pozice je „mezi“ 4. a 5. prvkem po seřazení – uděláme průměr ̶ Data = 6 1 7 4 3 2 7 8 ̶ Seřazená data = 1 2 3 4 6 7 7 8 ̶ Medián = (4 + 6) / 2 = 5 ̶ Příklad 2: N = 9 ̶ (n + 1) / 2 pozice znamená 5. pozice po seřazení ̶ Data = 3,0 4,2 1,1 2,5 2,2 3,8 5,6 2,7 1,7 ̶ Seřazená data = 1,1 1,7 2,2 2,5 2,7 3,0 3,8 4,2 5,6 ̶ Medián = 2,7 23 Biostatistika pro matematickou biologii a biomedicínu Průměr vs. medián ̶Máme-li symetrická data, je výsledek výpočtu průměru i mediánu podobný. ̶Vše je OK. Systolický tlak u mužů Průměr = 149,9 mmHg Počet mužů Medián = 150,0 mmHg Tlak (mmHg) Průměr vs. medián ̶ Nemáme-li symetrická data, je výsledek výpočtu průměru i mediánu rozdílný. ̶ Není to OK. Výpočet průměru je v tuto chvíli nevhodný! ̶ Příklad 1: známkování ve škole ̶ Student A: 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 5 => průměr = 1,35 vs. medián = 1,00 ̶ Student B: 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 2 => průměr = 1,13 vs. medián = 1,00 Medián: 12 400 ̶ Příklad 2: plat v ČR v roce 2003 Průměr: 18 697 Kč 25 Biostatistika pro matematickou biologii a biomedicínu Medián Průměr x Pojem kvantil ̶ Ve statistice je kvantil definován pomocí kvantilové funkce, což je inverzní funkce k distribuční funkci – budeme se jí věnovat příště. ̶ Laicky lze kvantil definovat jako číslo na reálné ose, které rozděluje pozorovaná data na dvě části: p% kvantil rozděluje data na p % hodnot a (100-p) % hodnot. x p / 100  xk  pro np/100 neceločíselné, pak k =  np / 100 x p / 100  12 ( x ( k )  x ( k 1) ) pro np/100 celočíselné, pak k = np/100; 26 Biostatistika pro matematickou biologii a biomedicínu Kvantil - příklad ̶Máme soubor 20 osob, u nichž měříme výšku. Chceme zjistit 80% kvantil souboru pozorovaných dat. n = 20 Průměr těchto dvou = 80% kvantil 16 / 20 = 80 % hodnot 4 / 20 = 20 % hodnot R 110 cm 140 cm 170 cm 200 cm 230 cm Výška v cm 27 Biostatistika pro matematickou biologii a biomedicínu Významné kvantily ̶ Minimum = 0% kvantil ̶ Dolní kvartil = 25% kvantil ̶ Medián = 50% kvantil ̶ Horní kvartil = 75% kvantil ̶ Maximum = 100% kvantil ̶ Medián je významná charakteristika vypovídající o „těžišti“ pozorovaných hodnot. Není to ale jenom popisná charakteristika, na mediánu (a kvantilech obecně) je založeno mnoho neparametrických statistických metod. 28 Biostatistika pro matematickou biologii a biomedicínu Popis „rozsahu“ – míry variability ̶ Nejjednodušší charakteristikou variability pozorovaných dat je rozsah hodnot (rozpětí) = maximum – minimum. Je snadno ovlivnitelný netypickými (odlehlými) hodnotami. ̶ Kvantilové rozpětí je definováno p% kvantilem a (100-p)% kvantilem a je méně ovlivněno odlehlými hodnotami. Speciálním případem je kvartilové rozpětí, které pokrývá 50 % pozorovaných hodnot. ̶ Výběrový rozptyl – průměrný čtverec odchylky od průměru. Velmi ovlivnitelný odlehlými hodnotami. 1 n 1  n 2 2 2 s  x  n  1 i 1 ( xi  x ) 2    n  1  i 1 xi  n x   ̶ Výběrová směrodatná odchylka – odmocnina z rozptylu. Výhodou směrodatné odchylky je, že má stejné jednotky jako pozorovaná data. Popis „rozsahu“ – míry variability ̶ Příklad čtverců odchylek od průměru pro n = 3. ̶ Rozptyl je možno značně ovlivnit odlehlými pozorováními. 1 n s x2   n  1 i 1 ( xi  x ) 2 0,269 0,547 0,638 0,733 x1 x x2 x3 30 Biostatistika pro matematickou biologii a biomedicínu Vizualizace a popis kvalitativních dat 31 Biostatistika pro matematickou biologii a biomedicínu Vizualizace a popis nominálních dat ̶ Vizualizace sloupcovým / koláčovým grafem – absolutní i relativní četnost. ̶ Sumarizace procentuálním výskytem kategorií v tzv. frekvenční tabulce. ̶ Smysluplná agregace kategorií zjednodušuje interpretaci i validitu výsledků. ̶ K popisu může sloužit i tzv. modus – nejčetnější pozorovaná hodnota. Frekvenční tabulka Sloupcový graf Koláčový graf Proměnná n % N 150 130 10.0% 5.0% Kategorie 1 10 5.0 120 20.0% Kategorie 2 40 20.0 90 Kategorie 3 130 65.0 60 40 Kategorie 4 20 10.0 20 30 10 Celkem 200 100.0 0 65.0% 1 2 3 4 32 Biostatistika pro matematickou biologii a biomedicínu Vizualizace a popis ordinálních dat ̶ Vizualizace sloupcovým / koláčovým grafem – absolutní i relativní četnost. ̶ Sumarizace procentuálním výskytem kategorií v tzv. frekvenční tabulce. ̶ Smysluplná agregace kategorií zjednodušuje interpretaci i validitu výsledků. ̶ K popisu může sloužit i tzv. modus, případně medián (pouze dává-li to smysl). Frekvenční tabulka Sloupcový graf Koláčový graf Proměnná n % N 150 130 10.0% 5.0% Kategorie 1 10 5.0 120 20.0% Kategorie 2 40 20.0 90 Kategorie 3 130 65.0 60 40 Kategorie 4 20 10.0 20 30 10 Celkem 200 100.0 0 65.0% 1 2 3 4 33 Biostatistika pro matematickou biologii a biomedicínu Příklad zavádějící vizualizace dat ̶ Ve chvíli, kdy obě skupiny mají různý počet pacientů, je srovnání absolutních čísel nekorektní. 34 Biostatistika pro matematickou biologii a biomedicínu Vizualizace a popis kvantitativních dat 35 Biostatistika pro matematickou biologii a biomedicínu Frekvenční tabulka pro kvantitativní data Primární Frekvenční data 1,21 tabulka d – šířka intervalu i 1,48 1,56 ni – absolutní četnost v daném intervalu 0,31 ni / n – relativní četnost v daném intervalu 1,21 1,33 i-tý interval di ni ni / n % 0,33

Use Quizgecko on...
Browser
Browser