Přednáška IV. Náhodná veličina, rozdělení...

Summary

This document presents lecture notes on random variables, probability distributions, and real data. It covers topics on random variables, probability distributions, along with normal and related distributions, transformations of random variables, and applications in biostatistics.The document also includes problem-solving examples for a better understanding of the concepts.

Full Transcript

Přednáška IV. Náhodná veličina, rozdělení pravděpodobnosti a reálná data Náhodná veličina Rozdělení pravděpodobnosti náhodných veličin Normální rozdělení a rozdělení příbuzná Transformace náhodných veličin 1 Biostatistika pro matematickou biologii a biomedicínu Opakování – po...

Přednáška IV. Náhodná veličina, rozdělení pravděpodobnosti a reálná data Náhodná veličina Rozdělení pravděpodobnosti náhodných veličin Normální rozdělení a rozdělení příbuzná Transformace náhodných veličin 1 Biostatistika pro matematickou biologii a biomedicínu Opakování – popis dat ̶ Co chceme u dat popsat? Jak to můžeme udělat? 2 Biostatistika pro matematickou biologii a biomedicínu Náhodná veličina 3 Biostatistika pro matematickou biologii a biomedicínu Pojem náhodná veličina ̶ Číselné vyjádření výsledku náhodného pokusu. Matematicky je to funkce, která každému elementárnímu jevu ω z Ω přiřadí hodnotu X(ω) z nějaké množiny možných hodnot. X : R ̶ Náhodná veličina se netýká pouze kvantitativních proměnných. Číselné vyjádření výsledku náhodného pokusu může popisovat i pohlaví. ̶ Chování náhodné veličiny lze popsat pomocí rozdělení pravděpodobnosti: ̶ Funkce zadaná analyticky ̶ Výčet možností a příslušných pravděpodobností 4 Biostatistika pro matematickou biologii a biomedicínu Význam náhodných veličin ̶ Množina Ω často není známa (může být i nekonečná) a nejsme tak schopni ji popsat. Náhodná veličina převádí Ω na čísla, se kterými se pracuje lépe. ̶ Neznáme-li Ω, nejsme schopni popsat ani X, ale jsme schopni ho pozorovat. Základ ní prostor Ω Pravděpodobnost P Je Náhodná veličina X v ω1 A 0 P(A) 1 R 0 x R 5 Biostatistika pro matematickou biologii a biomedicínu Pravděpodobnostní chování náhodné veličiny ̶ Pravděpodobnostní chování náhodné veličiny je jednoznačně popsáno tzv. rozdělením pravděpodobnosti náhodné veličiny. Ověření hypotézy na Hypotéza ̶ Funkční popis: základě dat ̶ Distribuční funkce ̶ Hustota – spojité náhodné veličiny ̶ Pravděpodobnostní funkce – diskrétní náhodné veličiny Experimentální Model cílové vzorek populace ̶ Rozdělení pravděpodobnosti představuje model cílové populace. ̶ Pomocí vzorku (naměřených pozorování) se ptáme, jestli byl model správný – snažíme se z dat usuzovat na vlastnosti tohoto rozdělení pravděpodobnosti. 6 Biostatistika pro matematickou biologii a biomedicínu Popis rozdělení pravděpodobnosti ̶ Distribuční funkce popisuje rozdělení pravděpodobnosti kumulativním způsobem. ̶ Hustota a pravděpodobnostní funkce popisují rozdělení pravděpodobnosti pro jednotlivé „body“ (respektive intervaly) na reálné ose. ̶ Distribuční funkce a hustota, respektive pravděpodobnostní funkce, jsou navzájem ekvivalentní, tedy známe-li jednu nepotřebujeme druhou. 7 Biostatistika pro matematickou biologii a biomedicínu Distribuční funkce ̶ Vyjadřuje pravděpodobnost, že náhodná veličina X nepřekročí dané x na reálné ose. F ( x) P( X  x) P(i   : X (i )  x) ̶ Vlastnosti distribuční funkce? 8 Biostatistika pro matematickou biologii a biomedicínu Distribuční funkce y y F (x) ̶ Vyjadřuje pravděpodobnost, že náhodná F ( x2 ) veličina X nepřekročí dané x na reálné ose. F ( x) P( X  x) P(i   : X (i )  x) ̶ Vlastnosti distribuční funkce? P( x1  X  x2 ) 1. Neklesající 2. Zprava spojitá 3. 0 F ( x) 1 F ( x1 ) 4. F ( x) 0 pro x  5. F ( x) 1 pro x  x1 x2 x ( x1  X  x2 ) 9 Biostatistika pro matematickou biologii a biomedicínu Výběrová distribuční funkce ̶ Distribuční funkce je teoretická záležitost, která definuje pravděpodobnostní model pro náhodnou veličinu X. Často neznáme její přesné vyjádření. ̶ Výběrová distribuční funkce je charakteristika pozorovaných dat. Je odhadem teoretické distribuční funkce (je-li vzorek reprezentativní). ̶ Vyjádření: # ( xi  x) 1 n Fn ( x)    I ( xi  x) n n i 1 10 Biostatistika pro matematickou biologii a biomedicínu Výběrová distribuční funkce – příklad ̶ Výška studentů 2. ročníku Matematické biologie 11 Biostatistika pro matematickou biologii a biomedicínu Spojité a diskrétní náhodné veličiny ̶ Náhodné veličiny dělíme dle podstaty na: ̶ Spojité – mohou nabývat všech hodnot v daném intervalu. ̶ Diskrétní – mohou nabývat nejvýše spočetně mnoha hodnot. ̶ Spojitou náhodnou veličinu X s distribuční funkcí F(x) charakterizuje tzv. hustota x pravděpodobnosti, což je funkce taková, že platí: FX ( x)  f X ( x)dt  ̶ Diskrétní náhodnou veličinu X s distribuční funkcí F(x) charakterizuje tzv. pravděpodobnostní funkce, což je funkce taková, že platí: FX ( x)  p X (t )  P( X t ) t x t x 12 Biostatistika pro matematickou biologii a biomedicínu F(x), f(x) a p(x) P(0  X 2) Spojitá P(0  X 2) náhodná Příklady? veličina P( X 3) Diskrétní náhodná Příklady? veličina 13 Biostatistika pro matematickou biologii a biomedicínu F(x), f(x) a p(x) Výška, váha, krevní tlak, P(0  X 2) Spojitá glykémie, čas do sledované náhodná P(0  X 2) události, biomasa na m2, veličina listová plocha, pH, koncentrace látek ve vodě, ovzduší, … Počet krvácivých epizod, počet P( X 3) Diskrétní hospitalizací, počet dní po náhodná operaci do odeznění bolesti, veličina počet zvířat na jednotku (plochu, objem), počet kolonií na misku, … 14 Biostatistika pro matematickou biologii a biomedicínu Kvantilová funkce ̶ Inverzní funkce k distribuční funkci, výsledkem není pravděpodobnost, ale číslo na reálné ose, které odpovídá určité pravděpodobnosti. ̶ Distribuční funkce F ( x ) P ( X  x ) Spojitá náhodná veličina ̶ Kvantilová funkce x p F  1 ( P( X  x)) F  1 ( p ) P x 15 Biostatistika pro matematickou biologii a biomedicínu Charakteristiky náhodných veličin 16 Biostatistika pro matematickou biologii a biomedicínu Co chceme u dat popsat? ̶Kvalitativní data – četnosti (absolutní i relativní) jednotlivých kategorií. ̶Kvantitativní data – těžiště a rozsah pozorovaných hodnot. Střední hodnota náhodné veličiny ̶ Distribuční funkce, hustota a pravděpodobnostní funkce popisují chování náhodné veličiny sice kompletně, ale trochu neprakticky – složitě. ̶ Jsou definovány dvě charakteristiky, které odráží vlastnosti rozdělení jedním číslem: střední hodnota a rozptyl. ̶ Střední hodnota je definována ̶ pro spojitou náhodnou veličinu X s hustotou f(x) jako integrál (pokud existuje):  E ( X )   x f ( x)dx  ̶ pro diskrétní náhodnou veličinu X s pravděpodobnostní funkcí p(x) jako součet: E ( X )   xp( x) xR 18 Biostatistika pro matematickou biologii a biomedicínu Rozptyl náhodné veličiny ̶ Rozptyl je definován pro spojitou i diskrétní náhodnou veličinu X jako střední hodnota: D ( X )  2 E ( X  E ( X )) 2 ̶ Pro výpočet je používán vzorec: D( X ) E ( X  E ( X )) 2 E ( X 2  2 X E ( X )  E ( X ) 2 ) E ( X 2 )  2 E ( X ) E ( X )  E ( X ) 2 E ( X 2 )  E ( X ) 2 ̶ Nevýhoda rozptylu je, že není ve stejných jednotkách jako střední hodnota, proto se používá tzv. směrodatná odchylka – odmocnina z rozptylu. 19 Biostatistika pro matematickou biologii a biomedicínu Charakteristiky náhodných veličin ̶ To, co nás zajímalo u pozorovaných dat má teoretický ekvivalent (ve smyslu pravděpodobnosti) ve formě charakteristik náhodných veličin: Těžiště ≈ Střední hodnota Rozsah ≈ Rozptyl ̶ Těmto charakteristikám pak odpovídají parametry rozdělení pravděpodobnosti. ̶ Charakteristiky však mohou být i lehce zavádějící: náhodná veličina nemusí nabývat své střední hodnoty. Příklad: Náhodná veličina X nabývá hodnot −1 a 1, obou s pravděpodobností 0,5. Její střední hodnota je 0! 20 Biostatistika pro matematickou biologii a biomedicínu Význam střední hodnoty ̶ Jedná se o formu váženého průměru možných hodnot na základě jejich pravděpodobností. ̶ Uvažujme diskrétní náhodnou veličinu Váhu pro jednotlivé hodnoty ̶ X = {x1, …, xk} hraje jejich pravděpodobnost ̶ P(X=x1) = p1,…, P(X=xk) = pk k E ( X )   xi p( xi ) i 1 ̶ Pak střední hodnota má tvar: Jednotlivé možné hodnoty 21 Biostatistika pro matematickou biologii a biomedicínu K čemu všechny ty funkce a čísla vlastně jsou? ̶ Popis vlastností cílové populace – na základě pozorovaných dat (histogram, box plot, popisné statistiky) jsme schopni usuzovat na charakter rozdělení pravděpodobnosti sledované veličiny. Dokonce jsme schopni otestovat míru shody s teoretickým rozdělením. ̶ Srovnání vlastností cílové populace/populací – na základě pozorovaných dat a našich předpokladů o teoretickém modelu (hypotéz) jsme schopni pomocí statistických testů srovnávat vlastnosti jedné nebo více cílových populací. ̶ Predikce vlastností cílové populace – nevyvrátíme-li na základě pozorovaných dat platnost teoretického modelu, jsme schopni se ptát, jak a s jakou pravděpodobností se bude cílová populace v budoucnu chovat. 22 Biostatistika pro matematickou biologii a biomedicínu Normální rozdělení pravděpodobnosti a rozdělení z něj odvozená 23 Biostatistika pro matematickou biologii a biomedicínu Normální rozdělení pravděpodobnosti ̶ Klíčové rozdělení pravděpodobnosti. Jak pro teoretickou statistiku, tak pro biostatistiku. ̶ Označení „normální“ neznamená, že by bylo normálnější než ostatní rozdělení. ̶ Popisuje proměnné, jejichž hodnoty se symetricky shlukují kolem střední hodnoty. Rozptyl kolem střední hodnoty je dán aditivním vlivem mnoha „slabě působících“ faktorů. ̶ Příklad: výška člověka, krevní tlak 24 Biostatistika pro matematickou biologii a biomedicínu Normální rozdělení pravděpodobnosti ̶ Označení: N(μ,σ2), Je kompletně popsáno dvěma parametry: ̶ μ – střední hodnota, tedy E(X) ̶ σ2 – rozptyl, tedy D(X) ̶ Hustota pravděpodobnosti: 1 2 / 2 2 f ( x;  ,  2 )  e ( x  ) 2 2 ̶ Čím bychom mohli jednotlivé parametry normálního rozdělení odhadnout? 25 Biostatistika pro matematickou biologii a biomedicínu Normální rozdělení pravděpodobnosti ̶ Normalita je klíčovým předpokladem řady statistických metod – zejména testů a modelů. ̶ Není-li splněna podmínka normality hodnot, je špatně celý model se kterým daná metoda pracuje, což vede k neinterpretovatelným závěrům. ̶ Její ověření je tak stejně důležité jako výběr správného testu. ̶ Pro ověření normality existuje řada testů a grafických metod. 26 Biostatistika pro matematickou biologii a biomedicínu Standardizované normální rozdělení ̶ Jakékoliv normální rozdělení může být převedeno (zatím schválně neříkám transformováno) na tzv. standardizované normální rozdělení: X  X ~ N ( , 2 ) Y  2 Y ~ N (0,1)  ̶ Hustota pravděpodobnosti: 1  x2 / 2 f ( x;0,1)  e 2 ̶ Klíčové rozdělení řady testů. ̶ Výhoda je, že všechny hodnoty distribuční i kvantilové funkce jsou tabelovány a obsaženy ve všech dostupných softwarech. 27 Biostatistika pro matematickou biologii a biomedicínu Pravidlo ±3 sigma ̶ U normálního rozdělení lze vyčíslit procento hodnot, které by se měly vyskytovat v rozmezí ± x-násobku směrodatné odchylky od střední hodnoty. ̶ Lze říci, že v rozmezí μ ± 3σ by se mělo vyskytovat přes 99,5 % všech hodnot. 68,3 % všech hodnot 95,6 % všech hodnot 99,7 % všech hodnot 28 Biostatistika pro matematickou biologii a biomedicínu Pravidlo ±3 sigma – k čemu to je? ̶ Pravidlo 3 sigma můžeme použít pro identifikaci odlehlých hodnot. ̶ Pravidlo 3 sigma můžeme použít pro orientační ověření normality dat. 68,3 % všech hodnot 95,6 % všech hodnot 99,7 % všech hodnot 29 Biostatistika pro matematickou biologii a biomedicínu Pravidlo ±3 sigma – příklad 1 ̶ Hladina sérového albuminu u 216 pacientů s cirhózou jater. ̶ Sumarizace pozorovaných hodnot: x 34,46 g/l s 5,84 g/l x 1s 28,62  40,30 g/l 73,15 % hodnot 68,3 % všech hodnot x 2 s 22,78  46,14 g/l 95,6 % všech hodnot 95,83 % hodnot 99,7 % všech hodnot x 3s 16,94  51,98 g/l 99,07 % hodnot 30 Biostatistika pro matematickou biologii a biomedicínu Pravidlo ±3 sigma – příklad 2 ̶ Simulovaná data, 50 hodnot z N(0,1) + 1 odlehlá hodnota (200). ̶ Sumarizace pozorovaných hodnot: x 3,87 s 28,02 x 1s  24,15  31,90 98,04 % hodnot 68,3 % hodnot 68,3 % všech hodnot x 2 s  52,18  59,92 95,6 % všech hodnot 98,04 % hodnot 95,6 % hodnot 99,7 % všech hodnot x 3s  80,21  87,95 98,04 % hodnot 99,7 % hodnot 31 Biostatistika pro matematickou biologii a biomedicínu Chí-kvadrát rozdělení ̶ Vzniká jako součet druhých mocnin k nezávislých náhodných veličin se standardizovaným normálním rozdělením, N(0,1). Konstanta k je nazývána počet stupňů volnosti. k X i ~ N (0,1) Q  X i2 Q ~  2 (k ) i 1 ̶ Velký význam v teoretické statistice: ̶ Výpočet intervalu spolehlivosti pro rozptyl ̶ Testování hypotéz o nezávislosti kvalitativních dat ̶ Testy dobré shody 32 Biostatistika pro matematickou biologii a biomedicínu Studentovo t rozdělení ̶ Charakterizuje rozdělení průměru jako odhadu střední hodnoty veličiny s normálním rozdělením, v případě, že neznáme rozptyl (což je téměř vždy). ̶ Vzniká jako podíl dvou nezávislých veličin, jedné s rozdělením N(0,1) a druhé s rozdělením χ2(k). Parametrem t rozdělení je opět počet stupňů volnosti k. X X ~ N (0,1), Q ~  2 (k ) T  T ~ t (k ) Q/k ̶ Je to aproximace normálního rozdělení pro malé vzorky, pro velké velikosti souborů konverguje k normálnímu rozdělení. 33 Biostatistika pro matematickou biologii a biomedicínu Logaritmicko-normální rozdělení ̶ Náhodná veličina Y má log-normální rozdělení, když X = ln(Y) má normální rozdělení. A naopak, když X má normální rozdělení, pak Y = exp(X) je log-normální. 1 2 / 2 2 ̶ Hustota: f ( x;  ,  2 )  2 e  (ln x   ) ,x 0 x 2 ̶ Normální rozdělení – aditivní efekt faktorů ̶ Log-normální rozdělení – multiplikativní efekt faktorů ̶ Řada jevů v přírodě se řídí log-normálním rozdělením: délka inkubační doby infekčního onemocnění, abundance druhů, řada krevních parametrů (např. sérový bilirubin u pacientů s cirhózou), počet bakteriálních buněk v daném objemu,… 34 Biostatistika pro matematickou biologii a biomedicínu Binomické rozdělení ̶ Diskrétní rozdělení, které popisuje počet výskytů sledované události (ve formě nastala/nenastala) v sérii n nezávislých experimentů, kdy v každém experimentu je stejná pravděpodobnost výskytu události a je p = θ. ̶ Pravděpodobnostní funkce:  n P ( X k )   k (1   ) n  k k ̶ Základ binomických testů pro srovnávání výskytu sledovaných událostí v populaci nebo mezi populacemi. 35 Biostatistika pro matematickou biologii a biomedicínu Poissonovo rozdělení ̶ Diskrétní rozdělení, které popisuje počet výskytů sledované události na danou jednotku (času, plochy, objemu), když se tyto události vyskytují vzájemně nezávisle s konstantní intenzitou (parametr λ). ̶ Jedná se o zobecnění binomického rozdělení pro n  p a 0. x e   ̶ Pravděpodobnostní funkce: P( X  x)  p X ( x;  )  , x 0 x! ̶ Střední hodnota, rozptyl: EX  , DX  ̶ Příklady: průměrný výskyt mutací bakterií na 1 Petriho misku, počet krvinek v poli mikroskopu, počet žížal vyskytujících se na 1 m2, počet pooperačních komplikací během určitého časového intervalu po výkonu. 36 Biostatistika pro matematickou biologii a biomedicínu Poissonovo rozdělení – vliv parametru λ 37 Biostatistika pro matematickou biologii a biomedicínu Exponenciální rozdělení ̶ Spojité rozdělení, které popisuje délky časových intervalů mezi jednotlivými událostmi Poissonova procesu. Popisuje tedy časový interval mezi událostmi, když se tyto události vyskytují vzájemně nezávisle s konstantní intenzitou (parametr λ). ̶ Hustota: f X ( x;  ) e  x , x 0 ̶ Střední hodnota, rozptyl: EX 1  , DX 1 2 ̶ Význam v analýze přežití, je to „nejjednodušší“ modelové rozdělení pro délku doby do výskytu sledované události – předpokládá totiž konstantní intenzitu (systém nemá paměť). ̶ Zobecněním jsou další rozdělení: Weibullovo, Gamma. 38 Biostatistika pro matematickou biologii a biomedicínu Bimodální rozdělení ̶ Představuje většinou problém, neboť se zřejmě jedná o směs dvou souborů s unimodálním rozdělením. ženy muži ̶ Bimodální rozdělení má např. tento tvar: 39 Biostatistika pro matematickou biologii a biomedicínu Existuje ±3 sigma i u asymetrických rozdělení? ̶ Pro nenormální rozdělení existuje pomůcka v podobě obecného pravidla – tzv. Čebyševovy nerovnosti: Máme-li náhodnou veličinu X se střední hodnotou μ a konečným rozptylem σ2, pak pro libovolné reálné číslo k > 0 platí: 1 P (| X   |k )  k2 40 Biostatistika pro matematickou biologii a biomedicínu Transformace náhodných veličin 41 Biostatistika pro matematickou biologii a biomedicínu Transformace náhodné veličiny ̶ Transformací náhodné veličiny X rozumíme aplikaci matematické funkce g tak, že vzniká nová náhodná veličina (tzv. transformovaná) Y = g(X). ̶ Nová veličina nabývá nových hodnot → má také jiné rozdělení pravděpodobnosti → je třeba ho najít (hustotu, pravděpodobnostní funkci). ̶ S transformací se mění škála – mění se i interpretace „vzdáleností“ mezi jednotlivými hodnotami. 42 Biostatistika pro matematickou biologii a biomedicínu Transformace náhodné veličiny – příklad ̶ Máme rozdělení náhodné veličiny X dáno tabulkou a chceme najít rozdělení pravděpodobnosti transformované náhodné veličiny Y = X2 – 1. x -2 -1 0 1 2 p(x) 0,1 0,25 0,15 0,3 0,2 x -2 -1 0 1 2 p(x) 0,1 0,25 0,15 0,3 0,2 y 3 0 -1 0 3 p(y) 0,3 0,55 0,15 - - 43 Biostatistika pro matematickou biologii a biomedicínu Význam transformací pro zpracování dat ̶ Teoretické vlastnosti transformovaných náhodných veličin nám dávají nástroj pro práci s pozorovanými daty. ̶ Transformace můžeme použít pro následující cíle: 1. Normalizaci pozorovaných hodnot 2. Standardizaci normálních hodnot 3. Stabilizaci rozptylu pozorovaných hodnot 4. Lepší interpretaci pozorovaných hodnot 44 Biostatistika pro matematickou biologii a biomedicínu Děkuji za pozornost 45 Biostatistika pro matematickou biologii a biomedicínu

Use Quizgecko on...
Browser
Browser