Souhrn Biostatistika pro matematickou biologii a biomedicínu PDF
Document Details
Uploaded by Deleted User
Tags
Related
- Biostatistik år 1 – crash course PDF
- Biostatistik år 1 – crash course tillägg 1 korrelationskoefficient PDF
- Přednáška II. Vztah pravděpodobnosti, statistiky a biostatistiky PDF
- Přednáška III. Data, jejich popis a vizualizace (PDF)
- Přednáška IV. Náhodná veličina, rozdělení...
- Přednáška V. Úvod do teorie odhadu PDF
Summary
Tento dokument shrnuje biostatistické metody, modelování, observační studie a zkreslení v kontextu biomedicíny a matematické biologie. Obsahuje příklady použití, problémy hodnocení a klíčové aspekty statistických odhadů, zkreslení a srovnávání skupin.
Full Transcript
**E5046 Biostatistika pro matematickou biologii a biomedicínu** **Přednáška I.\ Úvod do biostatistiky** **1.Příklady použití biostatistiky** **Modelování odpovědi pacientů s CML na léčbu TKI** - výběr proměnných modelu, regresní diagnostika, výsledný model **Hodnocení distribuce a dostupnosti zd...
**E5046 Biostatistika pro matematickou biologii a biomedicínu** **Přednáška I.\ Úvod do biostatistiky** **1.Příklady použití biostatistiky** **Modelování odpovědi pacientů s CML na léčbu TKI** - výběr proměnných modelu, regresní diagnostika, výsledný model **Hodnocení distribuce a dostupnosti zdravotní péče -** *Resekce prsu pro ZN včetně odstranění mízních uzlin [bez rekonstrukce prsu, Resekce prsu pro ZN včetně odstranění mízních uzlin s rekonstrukcí prsu, Počet HP na 100 tis. obyvatel dle kategorií novorozenců]* **Vícestavový model pro CML -** Current cumulative incidence (*CCI*) a current leukaemia‐free survival (*CLFS*) (The common cumulative incidence curve **overestimates** the probability of being alive and in remission after the initiation of the imatinib therapy. The common leukaemia-free survival **underestimates** the probability of being alive and in remission after the achievement of first remission on the imatinib therapy.) **Hodnocení bezpečnosti inzulinového analoga u diabetiků (**Hemkens a kol. (2009) publikovali vyšší riziko vzniku zhoubného nádoru při užívání inzulinu glargin při srovnání s adekvátní dávkou humánního inzulinu.) **Observační studie** - Randomizovanou studii někdy nelze v klinické praxi provést: - etické hledisko - randomizaci nelze použít - raritní výskyt sledovaného onemocnění - V těchto případech má observační studie své opodstatnění - Observační studie [nemůže zaručit stejné zastoupení rizikových faktorů v jednotlivých sledovaných skupinách]! - I při použití adjustačních metod mohou být výsledky ovlivněny nenáhodným rozdělením pacientů do jednotlivých skupin. - Použití výsledků observačních studií pro vytváření klinických doporučení tak může být nekorektní,... -... což je i případ studie Hemkense a kol. **Problémy hodnocení** - **Adjustace na dávkování inzulinu** - V německé studii neodpovídá statistickým standardům. - Je nepřijatelné adjustovat statistický model na informaci, která je získána až v průběhu sledování. - **Krátká délka sledování pacientů** - Může být vůbec u pacientů sledovaných necelý rok označeno použití inzulinu jako příčina vývoje nádorového onemocnění? Vždy je třeba důkladně rozlišit příčinu a důsledek! - **Vyloučení pacientů s kombinovanou terapií** - Může vést ke zkreslení výsledků = nelze úplně vyloučit pacienty ze studie na základě informace, kterou opět získáme až v průběhu sledování. Doba sledování pacientů s kombinovanou léčbou měla být zahrnuta do analýzy. - Autoři se dopustili umělé a nekorektní selekce pacientů! - **Závěr: studie Hemkens a kol. (2009) je ze statistického hlediska nekorektní a její výsledky jsou neinterpretovatelné.** **Další příklady použití biostatistiky** - Modelování demografické struktury obyvatelstva - Hodnocení úspěšnosti screeningových programů v onkologii - Identifikace vlivu genetických a vnějších rizikových faktorů na vznik různých onemocnění -- astma, diabetes, hypertenze - Identifikace podskupin pacientů s leukémií na základě genetických dat - Prostorové modelování koncentrací PAH, PCB, DDX a HCB v půdě - Prediktivní modelování potencionálního rozšíření biologických společenstev - Definice indikačních taxonů a jejich vztah k parametrům prostředí - Analýza vztahu dávka - odpověď mezi koncentrací toxické látky, např. pesticidu a reakcí biologických receptorů **2. O čem ta biostatistika vlastně je?** **Biostatistika** - Biostatistika je **aplikace statistických metod** v řešení biologických a klinických problémů. - Snahou je **získat z pozorovaných dat užitečnou informaci**. V popředí zájmu je pozorovaná variabilita mezi studovanými subjekty, kterou chceme vysvětlit. - Je **orientována na konkrétní problém**, ne na teoretické aspekty. To však neznamená, že lze statistické metody používat bezhlavě. **Význam biostatistiky** - 11 nejvýznamnějších událostí medicíny v minulém tisíciletí (NEJM, 2001): 1. Elucidation of human anatomy and physiology 2. Discovery of cells and their substructures 3. Elucidation of the chemistry of life 4. **Application of statistics to medicine** 5. Development of anesthesia 6. Discovery of the relation of microbes to disease 7. Elucidation of inheritance and genetics 8. Knowledge of the immune system 9. Development of body imaging 10. Discovery of antimicrobial agents 11. Development of molecular pharmacotherapy **Biostatistika souvisí s dalšími vědami** **Jaké úlohy můžeme v biostatistice řešit?** - **Popis cílové populace** -- odhady charakteristik cílové populace - **Srovnání skupin** -- testování hypotéz - **Regresní analýza** -- stochastické modelování pro vysvětlení variability - **Predikce a klasifikace** -- stochastické modelování a klasifikační algoritmy pro předpovídání neznámých hodnot **Popis cílové populace -- popis pozorované variability** **Srovnání skupin -- srovnání pozorované variability** **Predikce neznámých hodnot + stochastické modelování** **Klasifikace nových pozorování -- klasifikační algoritmy** **Biostatistiku lze najít v rámci celého procesu analýzy dat** ![](media/image6.png) **3. Klíčové aspekty biostatistiky** **Klíčové aspekty statistických odhadů** **Klíčové aspekty -- zkreslení** - V jakémkoliv hodnocení se **snažíme vyhnout zkreslení výsledků** („*biased results*"), tedy zkreslení výsledků jinými faktory než těmi, které jsou cíli studie. ***„Bias is any process at any stage of inference tending to produce results that differ systematically from the true values."*** - Statistické srovnání není nikdy 100% spolehlivé, existuje náhoda a tedy i pravděpodobnost chybného úsudku. Chceme použít adekvátní metody pro odstranění vlivů, které by zkreslily výsledky a nebyly přitom náhodné (např. zastoupení pohlaví, věk, apod.). - Pojem **zavádějící faktor** - Pro zavádějící faktor současně platí, že 1. přímo nebo nepřímo ovlivňuje sledovaný následek, 2. je ve vztahu se studovanou expozicí , 3. není mezikrokem mezi expozicí a následkem. - Příklad? - Čím by mohl být způsoben pozorovaný rozdíl v 10letém přežití pacientů s nádorem trávicího traktu? (**Léčba?** **Nějaký prognostický faktor?** **Stadium nemoci?** **Věk?)** - Medicína založená na důkazech -- zajímají nás pouze „kvalitní" důkazy. Hlavním aspektem kvality je **validita získaných výsledků**. - **Interní validita studie**: odráží, jak moc lze rozdíly v účinnosti a bezpečnosti pozorované u srovnávaných skupin přisuzovat sledované intervenci. Chceme minimalizovat nenáhodnou chybu (zkreslení). - **Externí validita studie**: odráží zobecnitelnost (z hlediska korektnosti) výsledků na jiné populace a experimentální podmínky. **Klíčové aspekty -- reprezentativnost** - **Cílová populace** -- skupina subjektů, o které chceme zjistit nějakou informaci. - **Experimentální vzorek** -- podskupina cílové populace, kterou „máme k dispozici". - Vzorek musí odpovídat svými charakteristikami cílové populaci. - Chceme totiž zobecnit výsledky na celou cílovou populaci. ![](media/image10.png) **Klíčové aspekty -- srovnatelnost** - Korektní výsledky při srovnávacích analýzách lze získat **pouze při srovnávání srovnatelného**. - V kontrolovaných klinických studiích je srovnatelnost zajištěna **randomizací** (do určité míry). - U studií bez randomizace **je nutné se tématu srovnatelnosti skupin věnovat**. - Metody adjustace, matching, propensity scores. **Klíčové aspekty -- spolehlivost** - Ve většině studií nás zajímá **kvantifikace sledovaného efektu nebo charakteristiky**, obecně náhodné veličiny, ve formě jednoho čísla, tzv. bodového odhadu. - Bodový odhad je však sám o sobě nedostatečný. - Je nutné ho doplnit **intervalovým odhadem**, který odpovídá pozorované variabilitě sledované veličiny a odráží spolehlivost výsledku. - Měříme sledovanou veličinu a následně spočítáme odhad. Jak moc lze bodový odhad zobecnit na cílovou populaci? **Klíčové aspekty -- významnost** - Analytické výsledky studie nemusí odpovídat realitě a skutečnosti. **Statistická významnost jednoduše nemusí znamenat příčinný vztah**! - Statistická výorkuznamnost pouze indikuje, že pozorovaný rozdíl není náhodný (ve smyslu stanovené hypotézy). Stejně důležitá je i **praktická významnost, tedy významnost z hlediska lékaře nebo biologa**. Statistickou významnost lze ovlivnit velikostí vzzorku - Při rozhodnutí o výsledku se můžeme splést, rozeznáváme dva druhy chyby v úsudku ![](media/image12.png) ![](media/image14.png)Statisticky nevýznamný výsledek neznamená, že pozorovaný rozdíl ve skutečnosti neexistuje! Může to být způsobeno nedostatečnou informací v pozorovaných datech! **Přednáška II.\ Vztah pravděpodobnosti, statistiky a biostatistiky** **Statistika, biostatistika a analýza dat** **Biostatistika vychází ze statistiky** - Biostatistika je **aplikace statistických metod** v řešení biologických a klinických problémů. - Snahou je **získat z pozorovaných dat užitečnou informaci**. - V popředí zájmu je pozorovaná variabilita mezi studovanými subjekty, kterou chceme vysvětlit. **Statistický pohled na problém** - **Cílová populace** -- chceme postihnout konkrétní problém. - Získáme **experimentální vzorek** cílové populace (pozorování), která převedeme na **číselné vyjádření** (data). Vzorek by měl být reprezentativní a náhodný. - Předpokládáme **pravděpodobnostní chování** (model) tohoto vzorku (tedy i cílové populace). - Konkrétní problém vyjádříme ve vybraném modelu jako **hypotézu**. - **Zhodnotíme hypotézu** na základě vybraného modelu a pozorovaných dat. **Statistika vychází z pravděpodobnosti** - Teorie pravděpodobnosti se zabývá **modelováním náhody**. - Lze nějak ale vyjádřit, co je to náhoda? **Statistika vs. pravděpodobnost** ![](media/image16.png) **Podmíněná pravděpodobnost** - Máme-li jev *B* s pravděpodobností *P*(*B*) \> 0, pak podmíněnou pravděpodobnost jevu *A* za podmínky nastoupení jevu *B* definujeme jako - Pro nezávislé jevy *A* a *B* platí **Příklad**: Osoba X má všechny typické příznaky chřipky. Pravděpodobnost, že se jedná o klasickou chřipku je 0,7 (jev *A*), prasečí chřipku 0,2 (jev *B*), ptačí chřipku 0,05 (jev *C*) a dosud neznámou formu 0,05 (jev *D*). Diagnostický test prokázal, že klasická chřipka to není. Jaká je nyní pravděpodobnost, že se jedná o novou formu chřipky? **Celková pravděpodobnost a Bayesův vzorec** - Můžeme-li rozdělit základní prostor na *k* po dvou disjunktních podmnožin (*H~i~*, *i* = 1,..., *k*), pro které zároveň platí, že jejich sjednocení je celý základní prostor (tzv. systém hypotéz), pak pravděpodobnost jevu *A* lze získat jako - Dále platí ![](media/image23.png)**Počasí a podmíněná pravděpodobnost** - Co má počasí společného s pravděpodobností? - U každého jevu (*A*) se můžeme ptát na jeho pravděpodobnost za slunečného počasí, za deště, za bouřky, atd. Celkovou pravděpodobnost jevu *A* potom můžeme získat jako součet přes tyto možnosti. - Tyto stavy lze chápat jako **výchozí hypotézy** ovlivňující výsledek, přičemž vždy nastává (platí) pouze jeden z těchto stavů (hypotéz). **Pokud pozorujeme jev *A*, můžeme se zpětně ptát na platnost těchto hypotéz (s použitím Bayesova vzorce)**. **Celková pravděpodobnost -- jiný příklad** - Populaci můžeme rozdělit dle věku na tři skupiny: děti (*H*~0~), dospělé v produktivním věku (*H*~1~) a dospělé v postproduktivním věku (*H*~2~), přičemž známe rozdělení populace, tedy známe *P*(*H*~0~), *P*(*H*~1~) a *P*(*H*~2~). - Označme jev *A*: stane se úraz. - Známe-li pravděpodobnost úrazu u dítěte, *P*(*A*\|*H*~0~), u dospělého v produktivním věku, *P*(*A*\|*H*~1~), a u dospělého v postproduktivním věku, *P*(*A*\|*H*~2~), jsme schopni pomocí vzorce pro celkovou pravděpodobnost spočítat *P*(*A*). **Bayesův vzorec** - **Příklad**: Uvažujme populaci mužů nekuřáků ve věku 50 -- 60 let, u kterých sledujeme výskyt chronického kašle (jev *A*). Dle stavu plic můžeme muže zjednodušeně rozdělit na zdravé (jev *H*~1~), nemocné plicním karcinomem (jev *H*~2~) a nemocné sarkoidózou (jev *H*~3~). Pravděpodobnosti výskytu jednotlivých plicních onemocnění jsou známé, navíc známe i pravděpodobnosti výskytu chronického kašle dle stavu plic: - Zajímá nás, s jakou pravděpodobností bude u pacienta s chronickým kašlem při podrobnějším vyšetření diagnostikován karcinom plic. - **Řešení:** **Význam podmíněné pravděpodobnosti v biostatistice** - Princip podmíněné pravděpodobnosti je v biostatistice velmi častý -- máme **systém hypotéz** (nejčastěji dvou) o vlastnostech cílové populace a pozorovaná data. Na jejich základě pak rozhodujeme o platnosti stanovených hypotéz. - Přímé použití podmíněné pravděpodobnosti lze demonstrovat na příkladu binárních **diagnostických testů**: - Osoba ve skutečnosti má (jev *H*) nebo nemá (jev *H*^c^) sledované onemocnění. - Diagnostický test u dané osoby indikuje přítomnost (jev *A*^+^) nebo nepřítomnost (jev *A*^-^) sledovaného onemocnění. - Nás zajímají diagnostické schopnosti testu. **Senzitivita, specificita** - **Senzitivita testu**: schopnost testu rozpoznat skutečně nemocné osoby, tedy pravděpodobnost, že test bude pozitivní, když je osoba skutečně nemocná. - Senzitivita testu = *P*(*A*^+^\|*H*) = T / (T + V). - **Specificita testu**: schopnost testu rozpoznat osoby bez nemoci, tedy pravděpodobnost, že test bude negativní, když osoba není nemocná. - Specificita testu = *P*(*A*^-^\|*H*^c^) = W / (U + W). **Pozitivní a negativní prediktivní hodnota** ![](media/image26.png) - **Prediktivní hodnota pozitivního testu**: pravděpodobnost, že osoba je skutečně nemocná, když je test pozitivní. - Prediktivní hodnota pozitivního testu = *P*(*H*\|*A*^+^) = T / (T + U). - **Prediktivní hodnota negativního testu**: pravděpodobnost, že osoba není nemocná, když je test negativní. - Prediktivní hodnota negativního testu = *P*(*H*^c^\|*A*^-^) = W / (V + W). - **Příklad**: Zajímá nás přesnost vyšetření jater ultrazvukem, tedy schopnost vyšetření UTZ identifikovat maligní ložisko v pacientových játrech. Přesnost je vztažena k histologickému ověření odebrané tkáně. Výsledky jsou dány tabulkou: - **Senzitivita testu** = *P*(*A*^+^\|*H*) = **32 / 35** = **91,4 %** (IS = 75,8 -- 97,8) - **Specificita testu** = *P*(*A*^-^\|*H*^c^) = **24 / 26** = **92,3 %** (IS = 73,4 -- 98,7) **Bayesův vzorec pro výpočet prediktivních hodnot** - Obě prediktivní hodnoty testu lze vypočítat s pomocí charakteristik testu, senzitivity a specificity, a celkové prevalence onemocnění v cílové populaci. ![](media/image29.png) **Pozitivní a negativní prediktivní hodnota** - **Příklad**: Zajímají nás pozitivní a negativní prediktivní hodnoty diagnostického testu na HIV pozitivitu, u kterého výrobce garantuje 98% senzitivitu a 99% specificitu. - Uvažujme jihoafrickou zemi s prevalencí HIV pozitivních cca 20 %: - **Příklad**: Zajímají nás pozitivní a negativní prediktivní hodnoty diagnostického testu na HIV pozitivitu, u kterého výrobce garantuje 98% senzitivitu a 99% specificitu. - Uvažujme evropskou zemi s prevalencí HIV pozitivních cca 0,2 %: ![](media/image31.png) **Přednáška III.\ Data, jejich popis a vizualizace** **Typy dat** **Jak vznikají data?** - Záznamem skutečnosti... **Klíčové principy -- reprezentativnost** - **Cílová populace** -- skupina subjektů, o které chceme zjistit nějakou informaci. - **Experimentální vzorek** -- podskupina cílové populace, kterou „máme k dispozici". - Vzorek musí odpovídat svými charakteristikami cílové populaci. - Chceme totiž zobecnit výsledky na celou cílovou populaci. **Typy dat** - **Kvalitativní** proměnná (kategoriální) -- lze ji řadit do kategorií, ale nelze ji kvantifikovat, resp. nemá smysl přiřadit jednotlivým kategoriím číselné vyjádření. - Příklady: pohlaví, HIV status, užívání drog, barva vlasů - **Kvantitativní** proměnná (numerická) -- můžeme jí přiřadit číselnou hodnotu. Rozlišujeme dva typy kvantitativních proměnných: - **Spojité**: může nabývat jakýchkoliv hodnot v určitém rozmezí. - Příklady: výška, váha, vzdálenost, čas, teplota. - **Diskrétní**: může nabývat pouze spočetně mnoha hodnot. - Příklady: počet krevních buněk, počet hospitalizací, počet krvácivých epizod za rok, počet dětí v rodině. **Kvalitativní data lze dělit dále** - **Binární data** -- pouze dvě kategorie typu ano / ne. - diabetes (ano/ne), pohlaví (muž/žena), stav (ženatý/svobodný) - **Nominální data** -- více kategorií, které nelze vzájemně seřadit. - Nemá smysl ptát se na relaci větší/menší. - krevní skupiny (A/B/AB/0), stát EU, stav (ženatý/svobodný/rozvedený/vdovec) - **Ordinální data** -- více kategorií, které lze vzájemně seřadit. - Má smysl ptát se na relaci větší/menší. - stupeň bolesti (mírná/střední/velká/nesnesitelná), spotřeba cigaret, stadium maligního onemocnění (I/II/III/IV) **Kvantitativní data** - Kvantitativní data poskytují větší **informaci** než data kvalitativní. - Spojitá data poskytují větší informaci než data diskrétní. - Větší informace znamená, že nám stačí méně pozorování na detekci určitého rozdílu (pokud ten rozdíl samozřejmě existuje). - ![](media/image33.png)Kvůli interpretaci je někdy výhodné kvantitativní data **agregovat** do kategorií (např. věk) -- **tímto krokem však ztrácíme část informace**. Zpětně nejsme schopni data rekonstruovat. **Typy dat dle škály hodnot** **Další typy dat -- odvozená data** - **Pořadí** (rank) -- místo absolutních hodnot známe někdy pouze jejich pořadí. Jedná se sice o ztrátu určitého množství informace, nicméně i pořadí lze v biostatistice využít. - **Procento** (percentage) -- sledujeme-li např. zlepšení v určitém parametru, je výhodné sledovat procentuální zlepšení. Př.: ejekční frakce levé srdeční komory. - **Podíl** (ratio) -- mnoho indexů je odvozeno jako podíl dvou měřených veličin. Př.: BMI. - **Míra pravděpodobnosti** (rate) -- týká se výskytu různých onemocnění, kdy počet nových pacientů v daném čase (studii) je vztažen na celkový počet zaznamenaných osobo-roků. Př.: výskyt nádorového onemocnění u pacientů ve studii. - **Skóre** (score) -- jedná se o uměle vytvořené hodnoty charakterizující určitý stav, který nelze jednoduše měřit jako číselné hodnoty. Př.: indexy kvality života. - **Vizuální škála** (visual scale) -- pacienti často hodnotí svoje obtíže na škále, která má formu úsečky o délce např. 10 cm. Př.: hodnocení kvality života. **Absolutní vs. relativní četnost** - **Vyjádření výsledků v relativní formě (procento) má často příjemnou interpretaci, ale může být zavádějící**. - Relativní vyjádření účinnosti by mělo být vždy doprovázeno absolutním vyjádřením účinnosti. - **Příklad**: Srovnání účinnosti léčiva ve smyslu prevence CMP u kardiaků. - Studie 1: Výskyt CMP ve skupině A je 12 %, ve skupině B je 20 %. Relativní změna v účinnosti = **40 %**; absolutní změna = **8 %**. - Studie 2: Výskyt CMP ve skupině A je 0,9 %, ve skupině B je 1,5 %. Relativní změna v účinnosti = **40 %**; absolutní změna = **0,6 %**. - Výsledkem je rozdílný přínos léčby při stejné relativní účinnosti. **Další typy dat -- cenzorovaná data** - **Cenzorovaná data** charakterizují experimenty, kde sledujeme čas do výskytu předem definované události. - V průběhu sledování **událost nemusí nastat u všech subjektů**. Subjekty však nelze „vinit" z toho, že jsme u nich nebyli schopni danou událost pozorovat a už vůbec je nelze z hodnocení vyloučit. - O čase sledování takového subjektu pak mluvíme jako o **cenzorovaném**. - Toto označení indikuje, že sledování bylo ukončeno dříve, než u subjektu došlo k definované události. Nevíme tedy, kdy a jestli vůbec daná událost u subjektu nastala, víme pouze, že nenastala před ukončením sledování. ![](media/image35.png) **Vizualizace a popis různých typů dat** **Reálná data** **Proč je popis a vizualizace dat třeba?** - Chceme **zpřehlednit** pozorovaná data -- ve vhodných grafech. - Chceme **zachytit** případné odlehlé a **extrémní** body nebo nečekané, **nelogické** hodnoty. - Chceme **popsat** naměřené hodnoty. - Chceme vypočítat vhodné sumární statistiky, které budou pozorovaná data dále **zastupovat** při prezentaci, srovnáních apod. Chceme pozorovanou informaci „uložit" v zástupných statistikách, použití všech pozorovaných dat je nepraktické až nemožné. **Jaké jsou výstupy popisné analýzy?** - Obecně neformální, jde o **shrnutí pozorovaného** a ne o formální testování. - **Vztahují se pouze na pozorovaná data** (respektive na experimentální vzorek). - Mohou sloužit jako **podklad pro stanovení hypotéz.** **Co chceme u dat popsat?** - **Kvalitativní data** -- četnosti (absolutní i relativní) jednotlivých kategorií. - **Kvantitativní data** -- těžiště a rozsah pozorovaných hodnot. **Popis „těžiště" -- míry polohy** - Mějme pozorované hodnoty: - Seřaďme je podle velikosti: - **Minimum** a **maximum** -- nejmenší a největší pozorovaná hodnota nám dávají obraz o tom, kde se na ose x pohybujeme. - **Průměr** -- charakterizuje hodnotu, kolem které kolísají ostatní pozorované hodnoty. Je to fyzikální obraz těžiště stejně hmotných bodů ose x. - **Medián** -- je to prostřední pozorovaná hodnota. Dělí pozorované hodnoty na dvě půlky, půlka hodnot je menší a půlka hodnot je větší než medián. **Výpočet mediánu** - **Příklad 1**: N = 8 - (n + 1) / 2 pozice je „mezi" 4. a 5. prvkem po seřazení -- uděláme průměr - Data = 6 1 7 4 3 2 7 8 - Seřazená data = 1 2 3 4 6 7 7 8 - Medián = (4 + 6) / 2 = 5 - **Příklad 2**: N = 9 - (n + 1) / 2 pozice znamená 5. pozice po seřazení - Data = 3,0 4,2 1,1 2,5 2,2 3,8 5,6 2,7 1,7 - Seřazená data = 1,1 1,7 2,2 2,5 2,7 3,0 3,8 4,2 5,6 - Medián = 2,7 **Průměr vs. medián** Máme-li symetrická data, je výsledek výpočtu průměru i mediánu podobný. Vše je OK. - Nemáme-li symetrická data, je výsledek výpočtu průměru i mediánu rozdílný. - Není to OK. Výpočet průměru je v tuto chvíli nevhodný! - **Příklad 1**: známkování ve škole - Student A: 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 5 =\> průměr = 1,35 vs. medián = 1,00 - Student B: 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 2 =\> průměr = 1,13 vs. medián = 1,00 - **Příklad 2**: plat v ČR v roce 2003 ![](media/image42.png) **Pojem kvantil** - Ve statistice je **kvantil** definován pomocí kvantilové funkce, což je inverzní funkce k distribuční funkci -- budeme se jí věnovat příště. Laicky lze kvantil definovat jako číslo na reálné ose, které rozděluje pozorovaná data na dvě části: *p*% kvantil rozděluje data na *p* % hodnot a (100-*p*) % hodnot **Kvantil -- příklad** - Máme soubor 20 osob, u nichž měříme výšku. Chceme zjistit 80% kvantil souboru pozorovaných dat. **Významné kvantily** - Minimum = 0% kvantil - Dolní kvartil = 25% kvantil - **Medián = 50% kvantil** - Horní kvartil = 75% kvantil - Maximum = 100% kvantil - **Medián** je významná charakteristika vypovídající o „těžišti" pozorovaných hodnot. Není to ale jenom popisná charakteristika, na mediánu (a kvantilech obecně) je založeno mnoho **neparametrických statistických metod**. **Popis „rozsahu" -- míry variability** - Nejjednodušší charakteristikou variability pozorovaných dat je **rozsah hodnot** (rozpětí) = maximum -- minimum. Je snadno ovlivnitelný netypickými (odlehlými) hodnotami. - **Kvantilové rozpětí** je definováno *p*% kvantilem a (100-*p*)% kvantilem a je méně ovlivněno odlehlými hodnotami. Speciálním případem je **kvartilové rozpětí**, které pokrývá 50 % pozorovaných hodnot. - **Výběrový rozptyl** -- průměrný čtverec odchylky od průměru. Velmi ovlivnitelný odlehlými hodnotami. - **Výběrová směrodatná odchylka** -- odmocnina z rozptylu. Výhodou směrodatné odchylky je, že má stejné jednotky jako pozorovaná data. - Příklad čtverců odchylek od průměru pro *n* = 3. - Rozptyl je možno značně ovlivnit odlehlými pozorováními **Vizualizace a popis kvalitativních dat** **Vizualizace a popis nominálních dat** - Vizualizace sloupcovým / koláčovým grafem -- **absolutní i relativní četnost**. - Sumarizace procentuálním výskytem kategorií v tzv. **frekvenční tabulce**. - Smysluplná agregace kategorií zjednodušuje interpretaci i validitu výsledků. - K popisu může sloužit i tzv. **modus** -- nejčetnější pozorovaná hodnota. ![](media/image52.png) **Vizualizace a popis ordinálních dat** - Vizualizace sloupcovým / koláčovým grafem -- **absolutní i relativní četnost**. - Sumarizace procentuálním výskytem kategorií v tzv. **frekvenční tabulce**. - Smysluplná agregace kategorií zjednodušuje interpretaci i validitu výsledků. - K popisu může sloužit i tzv. **modus**, případně **medián** (pouze dává-li to smysl). **Příklad zavádějící vizualizace dat** - Ve chvíli, kdy obě skupiny mají různý počet pacientů, je srovnání absolutních čísel nekorektní. **Vizualizace a popis kvantitativních dat** **Frekvenční tabulka pro kvantitativní data** ![](media/image54.png) **Histogram** - Histogram je grafický nástroj **pro vizualizaci kvantitativních dat** (poměrových, intervalových, spojitých i diskrétních). - Každá oblast histogramu **odráží absolutní nebo relativní četnost na jednotku** sledované proměnné na ose x. - Histogram není sloupcový graf! - Histogram pro relativní četnost: - Histogram pro absolutní četnost: **Sumarizace kvantitativních dat histogramem** - Pozorovaná data: - 1,21; 1,48; 1,56; 0,31; 1,21; 1,33; 0,33; 0,21; 1,32...... *n* - Setřídění dat podle velikosti - Vytvoření intervalů na ose *x* - Výpočet relativních nebo absolutních četností *f*(*i*) - Vykreslení histogramu - Jaký obsah má plocha histogramu pro relativní četnost? - A proč? - Histogram lze použít pro odhad hustoty pravděpodobnosti. Je to tedy grafická vizualizace rozložení pravděpodobnosti kvantitativních (zejména spojitých) dat. **Který histogram je korektní a proč?** - Chceme pomocí histogramu vykreslit počty zraněných při automobilových haváriích na předměstí Londýna v roce 1985. Data máme zadána jako počty v daných věkových kategoriích. histogram.jpg ![histogram.jpg](media/image59.jpeg) **Histogram** - Histogram je ve skutečnosti zřídka vyjadřován pomocí výrazů: - Daleko častěji se jedná o prosté absolutní nebo relativní počty pozorování v daném intervalu (výhodné kvůli snadné čitelnosti a interpretaci): - **Důležité však je, aby intervaly měly stejnou šířku, aby výsledky byly srovnatelné!** **Počet intervalů určuje kvalitu výstupu** - Počtem zvolených intervalů v histogramu rozhodujeme o tom, jak bude vypadat. Při malém počtu můžeme přehlédnout důležité prvky v datech, při velkém zase může být informace roztříštěná. **Krabicový graf -- box plot** ![](media/image65.png) **Co je extrémní (odlehlá) hodnota?** - Jednoduše řečeno se jedná o **netypické pozorování, které nezapadá do pravděpodobnostního chování souboru dat**. - Definujeme ji jako hodnotu, která leží několikanásobek (3, 5, 7) směrodatné odchylky , respektive kvartilového rozpětí, od průměru, respektive mediánu. - Definice je ale vágní, závisí na naší znalosti dané problematiky, které hodnoty jsou či nejsou možné! **Vliv odlehlé hodnoty na popisné statistiky** - Cílem je určit průměrnou hladinu cholesterolu vybrané populace mužů (hodnoty v mmol/l) - Která charakteristika se zvýší výrazněji? - Průměr nebo směrodatná odchylka? **Identifikace odlehlých hodnot** - Na menších souborech stačí vizualizace. - Na větších datových souborech nelze bez vizualizace a popisných statistik. - Grafická identifikace: **pomocí histogramu a box plotu**. - Identifikace pomocí popisných statistik: **srovnání mediánu a průměru**. **Přednáška IV.\ Náhodná veličina, rozdělení pravděpodobnosti a reálná data** **Náhodná veličina** **Pojem náhodná veličina** - **Číselné vyjádření výsledku náhodného pokusu**. Matematicky je to funkce, která každému elementárnímu jevu ω z Ω přiřadí hodnotu *X*(ω) z nějaké množiny možných hodnot. - Náhodná veličina se netýká pouze kvantitativních proměnných. Číselné vyjádření výsledku náhodného pokusu může popisovat i pohlaví. - Chování náhodné veličiny lze popsat pomocí rozdělení pravděpodobnosti: - **Funkce zadaná analyticky** - **Výčet možností a příslušných pravděpodobností** **Význam náhodných veličin** - Množina Ω často není známa (může být i nekonečná) a nejsme tak schopni ji popsat. Náhodná veličina převádí Ω na čísla, se kterými se pracuje lépe - Neznáme-li Ω, nejsme schopni popsat ani *X*, ale jsme schopni ho pozorovat ![](media/image69.png) **Pravděpodobnostní chování náhodné veličiny** - Pravděpodobnostní chování náhodné veličiny je jednoznačně popsáno tzv. **rozdělením pravděpodobnosti náhodné veličiny**. - Funkční popis: - **Distribuční funkce** - **Hustota -- spojité náhodné veličiny** - **Pravděpodobnostní funkce -- diskrétní náhodné veličiny** - **Rozdělení pravděpodobnosti představuje model cílové populace**. - Pomocí vzorku (naměřených pozorování) se ptáme, jestli byl model správný -- snažíme se z dat usuzovat na vlastnosti tohoto rozdělení pravděpodobnosti. **Popis rozdělení pravděpodobnosti** - **Distribuční funkce** popisuje rozdělení pravděpodobnosti kumulativním způsobem. - **Hustota** a **pravděpodobnostní funkce** popisují rozdělení pravděpodobnosti pro jednotlivé „body" (respektive intervaly) na reálné ose. - Distribuční funkce a hustota, respektive pravděpodobnostní funkce, jsou navzájem ekvivalentní, tedy známe-li jednu nepotřebujeme druhou. **Distribuční funkce** - Vyjadřuje pravděpodobnost, že náhodná veličina *X* nepřekročí dané *x* na reálné ose. - Vlastnosti distribuční funkce? - Neklesající - Zprava spojitá **Výběrová distribuční funkce** - **Distribuční funkce je teoretická záležitost**, která definuje pravděpodobnostní model pro náhodnou veličinu *X*. Často neznáme její přesné vyjádření. - **Výběrová distribuční funkce je charakteristika pozorovaných dat**. Je odhadem teoretické distribuční funkce (je-li vzorek reprezentativní). - Vyjádření: **Výběrová distribuční funkce -- příklad¨** - Výška studentů 2. ročníku Matematické biologie **Spojité a diskrétní náhodné veličiny** - Náhodné veličiny dělíme dle podstaty na: - **Spojité** -- mohou nabývat všech hodnot v daném intervalu. - **Diskrétní** -- mohou nabývat nejvýše spočetně mnoha hodnot. - Spojitou náhodnou veličinu X s distribuční funkcí F(x) charakterizuje tzv. **hustota pravděpodobnosti**, což je funkce taková, že platí: - Diskrétní náhodnou veličinu X s distribuční funkcí F(x) charakterizuje tzv. **pravděpodobnostní funkce**, což je funkce taková, že platí: ***F*(*x*), *f*(*x*) a *p*(*x*)** ![](media/image77.png) ![](media/image79.png)**Kvantilová funkce** - Inverzní funkce k distribuční funkci, výsledkem není pravděpodobnost, ale číslo na reálné ose, které odpovídá určité pravděpodobnosti. - **Distribuční funkce** - **Kvantilová funkce** **Charakteristiky náhodných veličin** **Co chceme u dat popsat?** - **Kvalitativní data** -- četnosti (absolutní i relativní) jednotlivých kategorií. - **Kvantitativní data** -- těžiště a rozsah pozorovaných hodnot. **Střední hodnota náhodné veličiny** - Distribuční funkce, hustota a pravděpodobnostní funkce popisují chování náhodné veličiny sice kompletně, ale trochu neprakticky -- složitě. - Jsou definovány dvě charakteristiky, které odráží vlastnosti rozdělení jedním číslem: **střední hodnota a rozptyl**. - Střední hodnota je definována - pro spojitou náhodnou veličinu *X* s hustotou *f*(*x*) jako integrál (pokud existuje): - pro diskrétní náhodnou veličinu *X* s pravděpodobnostní funkcí *p*(*x*) jako součet **Rozptyl náhodné veličiny** - Rozptyl je definován pro spojitou i diskrétní náhodnou veličinu *X* jako střední hodnota: - Pro výpočet je používán vzorec: - Nevýhoda rozptylu je, že není ve stejných jednotkách jako střední hodnota, proto se používá tzv. **směrodatná odchylka -- odmocnina z rozptylu** **Charakteristiky náhodných veličin** - To, co nás zajímalo u pozorovaných dat má teoretický ekvivalent (ve smyslu pravděpodobnosti) ve formě charakteristik náhodných veličin: Těžiště ≈ Střední hodnota Rozsah ≈ Rozptyl - Těmto charakteristikám pak odpovídají parametry rozdělení pravděpodobnosti. - Charakteristiky však mohou být i lehce zavádějící: **náhodná veličina nemusí nabývat své střední hodnoty**. Příklad: Náhodná veličina X nabývá hodnot −1 a 1, obou s pravděpodobností 0,5. Její střední hodnota je 0! **Význam střední hodnoty** - ![](media/image85.png)Jedná se o formu **váženého průměru možných hodnot na základě jejich pravděpodobností**. - Uvažujme diskrétní náhodnou veličinu - *X* = {*x*~1~,..., *x*~k~} - *P*(*X*=*x*~1~) = *p*~1~,..., *P*(*X*=*x*~k~) = *p*~k~ - Pak střední hodnota má tvar: **K čemu všechny ty funkce a čísla vlastně jsou?** - **Popis vlastností cílové populace** -- na základě pozorovaných dat (histogram, box plot, popisné statistiky) jsme schopni usuzovat na charakter rozdělení pravděpodobnosti sledované veličiny. Dokonce jsme schopni otestovat míru shody s teoretickým rozdělením. - **Srovnání vlastností cílové populace/populací** -- na základě pozorovaných dat a našich předpokladů o teoretickém modelu (hypotéz) jsme schopni pomocí statistických testů srovnávat vlastnosti jedné nebo více cílových populací. - **Predikce vlastností cílové populace** -- nevyvrátíme-li na základě pozorovaných dat platnost teoretického modelu, jsme schopni se ptát, jak a s jakou pravděpodobností se bude cílová populace v budoucnu chovat. **Normální rozdělení pravděpodobnosti a rozdělení z něj odvozená** **Normální rozdělení pravděpodobnosti** - Klíčové rozdělení pravděpodobnosti. Jak pro teoretickou statistiku, tak pro biostatistiku. - Označení „normální" neznamená, že by bylo normálnější než ostatní rozdělení. - Popisuje proměnné, jejichž hodnoty se symetricky shlukují kolem střední hodnoty. Rozptyl kolem střední hodnoty je dán aditivním vlivem mnoha „slabě působících" faktorů. - Příklad: výška člověka, krevní tlak - Označení: *N*(*μ*,*σ*^2^), Je kompletně popsáno dvěma parametry: - *μ* -- střední hodnota, tedy *E*(*X*) - *σ*^2^ -- rozptyl, tedy *D*(*X*) - Hustota pravděpodobnosti: - Čím bychom mohli jednotlivé parametry normálního rozdělení odhadnout? - Normalita je klíčovým předpokladem řady statistických metod -- zejména testů a modelů. - Není-li splněna podmínka normality hodnot, je špatně celý model se kterým daná metoda pracuje, což vede k neinterpretovatelným závěrům. - Její ověření je tak stejně důležité jako výběr správného testu. - Pro ověření normality existuje řada testů a grafických metod. **Standardizované normální rozdělení** - Jakékoliv normální rozdělení může být převedeno (zatím schválně neříkám transformováno) na tzv. standardizované normální rozdělení: - Hustota pravděpodobnosti: **Klíčové rozdělení řady testů**. - Výhoda je, že všechny hodnoty distribuční i kvantilové funkce jsou tabelovány a obsaženy ve všech dostupných softwarech. **Pravidlo ±3 sigma** - U normálního rozdělení lze vyčíslit procento hodnot, které by se měly vyskytovat v rozmezí ± *x*-násobku směrodatné odchylky od střední hodnoty. - Lze říci, že v rozmezí *μ* ± 3*σ* by se mělo vyskytovat přes 99,5 % všech hodnot **Pravidlo ±3 sigma -- k čemu to je?** - Pravidlo 3 sigma můžeme použít pro identifikaci odlehlých hodnot. - Pravidlo 3 sigma můžeme použít pro orientační ověření normality dat. **Pravidlo ±3 sigma -- příklad 1** - Hladina sérového albuminu u 216 pacientů s cirhózou jater. - Sumarizace pozorovaných hodnot: - Simulovaná data, 50 hodnot z *N*(0,1) + 1 odlehlá hodnota (200). - Sumarizace pozorovaných hodnot: **Chí-kvadrát rozdělení** - Vzniká jako součet druhých mocnin k nezávislých náhodných veličin se standardizovaným normálním rozdělením, *N*(0,1). Konstanta k je nazývána počet stupňů volnosti. - **Velký význam v teoretické statistice**: - Výpočet intervalu spolehlivosti pro rozptyl - Testování hypotéz o nezávislosti kvalitativních dat - Testy dobré shody **Studentovo *t* rozdělení** - **Charakterizuje rozdělení průměru jako odhadu střední hodnoty** veličiny s normálním rozdělením, v případě, že neznáme rozptyl (což je téměř vždy). - Vzniká jako podíl dvou nezávislých veličin, jedné s rozdělením *N*(0,1) a druhé s rozdělením χ^2^(*k*). Parametrem *t* rozdělení je opět počet stupňů volnosti *k*. - Je to aproximace normálního rozdělení pro malé vzorky, pro velké velikosti souborů konverguje k normálnímu rozdělení. **Logaritmicko-normální rozdělení** - **Náhodná veličina *Y* má log-normální rozdělení, když *X* = ln(*Y*) má normální rozdělení**. A naopak, když *X* má normální rozdělení, pak *Y* = exp(*X*) je log-normální. - ![](media/image101.png)Hustota: - Normální rozdělení -- aditivní efekt faktorů - Log-normální rozdělení -- multiplikativní efekt faktorů - Řada jevů v přírodě se řídí log-normálním rozdělením: délka inkubační doby infekčního onemocnění, abundance druhů, řada krevních parametrů (např. sérový bilirubin u pacientů s cirhózou), počet bakteriálních buněk v daném objemu,... **Binomické rozdělení** - Diskrétní rozdělení, které popisuje **počet výskytů sledované události** (ve formě nastala/nenastala) **v sérii *n* nezávislých experimentů**, kdy v každém experimentu **je stejná pravděpodobnost výskytu události** a je *p* = *θ*. - Pravděpodobnostní funkce: - Základ binomických testů pro srovnávání výskytu sledovaných událostí v populaci nebo mezi populacemi. **Poissonovo rozdělení** - Diskrétní rozdělení, které popisuje počet výskytů sledované události na danou jednotku (času, plochy, objemu), když se tyto události vyskytují vzájemně nezávisle s konstantní intenzitou (parametr *λ*). - Jedná se o zobecnění binomického rozdělení pro a. - Pravděpodobnostní funkce: - Střední hodnota, rozptyl: - Příklady: průměrný výskyt mutací bakterií na 1 Petriho misku, počet krvinek v poli mikroskopu, počet žížal vyskytujících se na 1 m^2^, počet pooperačních komplikací během určitého časového intervalu po výkonu. **Poissonovo rozdělení -- vliv parametru *λ*** Obsah obrázku text, diagram, řada/pruh, číslo Popis byl vytvořen automaticky **Exponenciální rozdělení** - ![](media/image107.png)Spojité rozdělení, které popisuje **délky časových intervalů mezi jednotlivými událostmi Poissonova procesu**. Popisuje tedy **časový interval mezi událostmi, když se tyto události vyskytují vzájemně nezávisle s konstantní intenzitou** (parametr *λ*). - Hustota: - Střední hodnota, rozptyl: - Význam v analýze přežití, je to „nejjednodušší" modelové rozdělení pro délku doby do výskytu sledované události -- předpokládá totiž konstantní intenzitu (systém nemá paměť). - Zobecněním jsou další rozdělení: Weibullovo, Gamma **Bimodální rozdělení** - Představuje většinou problém, neboť se zřejmě jedná o směs dvou souborů s unimodálním rozdělením. - Bimodální rozdělení má např. tento tvar: **Existuje ±3 sigma i u asymetrických rozdělení?** - Pro nenormální rozdělení existuje pomůcka v podobě obecného pravidla -- tzv. **Čebyševovy nerovnosti**: Máme-li náhodnou veličinu *X* se střední hodnotou *μ* a konečným rozptylem *σ*^2^, pak pro libovolné reálné číslo *k* \> 0 platí: **Transformace náhodných veličin** - Transformací náhodné veličiny *X* rozumíme aplikaci matematické funkce *g* tak, že vzniká nová náhodná veličina (tzv. transformovaná) *Y* = *g*(*X*). - Nová veličina nabývá nových hodnot → má také jiné rozdělení pravděpodobnosti → je třeba ho najít (hustotu, pravděpodobnostní funkci). - S transformací se mění škála -- mění se i interpretace „vzdáleností" mezi jednotlivými hodnotami. **Transformace náhodné veličiny -- příklad** - Máme rozdělení náhodné veličiny *X* dáno tabulkou a chceme najít rozdělení pravděpodobnosti transformované náhodné veličiny *Y* = *X*^2^ -- 1. ![Obsah obrázku text, snímek obrazovky, číslo, Písmo Popis byl vytvořen automaticky](media/image110.png) **Význam transformací pro zpracování dat** - Teoretické vlastnosti transformovaných náhodných veličin nám dávají nástroj pro práci s pozorovanými daty. - Transformace můžeme použít pro následující cíle: 1. **Normalizaci pozorovaných hodnot** 2. **Standardizaci normálních hodnot** 3. **Stabilizaci rozptylu pozorovaných hodnot** 4. **Lepší interpretaci pozorovaných hodnot** **((((( Přednáška V. Úvod do teorie odhadu )))))** 1. **Pojmy a principy teorie odhadu** **Jak se vlastně přišlo na použití průměru?** - Použití průměru jako sumarizace *n* pozorovaných hodnot se učí už na základní škole, nicméně zmínka o jeho používání je až z konce 17. století. - Byl navržen bez ohledu na jakoukoliv souvislost s teorií pravděpodobnosti jako hodnota, označme ji *a*, která má následující vlastnosti: 1. Hodnota *a* minimalizuje reziduální součet čtverců, tedy součet čtverců rozdílů pozorovaných hodnot a hodnoty *a*: 2. Součet reziduí vzhledem k hodnotě *a* je nula, tedy kladná i záporná rezidua jsou v rovnováze: - Tyto dvě kritéria zohledňují pouze pozorovaná data, vůbec se nezabývají jakýmkoliv rozdělením pravděpodobnosti a jeho parametry. Příklad -- průměr pozorovaných hodnot - V případě, že osa *x* nepředstavuje žádnou informaci, je použití průměru v pořádku (kladná i záporná rezidua jsou v rovnováze). - Co když osa *x* ponese nějakou informaci? **Cíl snažení v teorii odhadu** - Na základě reálných pozorování náhodné veličiny *X* chceme získat informaci o parametrech rozdělení pravděpodobnosti této veličiny. - Teorie odhadu se snaží sestrojit statistiku, která by na základě pozorovaných dat poskytla nejlepší možný odhad neznámého parametru / parametrů. - Teorie odhadu předpokládá, že pozorované hodnoty nesou informaci o neznámém parametru. - Někdy je třeba pozorované hodnoty před použitím statistiky „značně" upravit → normalizace dat z DNA mikročipů. Základní pojmy - **Náhodná veličina** *X* -- číselné ohodnocení výsledku experimentu, zajímá nás její pravděpodobnostní chování -- popisuje ho **rozdělení pravděpodobnosti** náhodné veličiny *X*. - **Parametr** rozdělení pravděpodobnosti -- neznámá hodnota, θ, na které závisí předpis rozdělení pravděpodobnosti - **Parametrická funkce** -- reálná funkce parametru θ. - **Realizace náhodné veličiny** (*n* realizací) -- představují je pozorované hodnoty: ***x*** = *x*~1~, *x*~2~,..., *x*~n~. Předpokládám jejich vzájemnou nezávislost. - **Odhad parametru** θ -- reálná funkce ***x*** = *d*(***x***) =. Odhad parametrické funkce *g*(θ) -- reálná funkce ***x*** = *d*(***x***) =. Klasifikace odhadů - **Parametrické odhady** -- vycházejí z předpokladu znalosti rozdělení pravděpodobnosti, kterým se náhodná veličina řídí. Případně předpokládají i znalost rozdělení pravděpodobnosti sledovaného parametru (tedy náhodné veličiny) -- Bayesovské odhady. - **Neparametrické odhady** -- v tomto případě nejsou uvažovány žádné předpoklady o pravděpodobnostním chování dat. Výsledkem jsou robustní odhady se širokým použitím, u kterých ale nelze hodnotit optimálnost vzhledem k pravděpodobnostnímu modelu. Klíčové otázky v teorii odhadu - Jak najít bodový odhad? - Jak hodnotit kvalitu odhadu? Jak najít bodový odhad? - Existuje řada postupů k nalezení bodového odhadu neznámého parametru -- liší se jak filozofií (např. Bayesovské odhady) tak definicí kritéria optimálních vlastností odhadu. Zaměříme se pouze na vybrané pojmy a postupy. - **Metoda založená na Rao-Blackwellově větě** -- slouží k nalezení nestranného odhadu s nejmenší variabilitou (ne vždy to však lze spočítat). - **Metoda maximální věrohodnosti** -- slouží k nalezení odhadu (hodnoty), který je ve smyslu pozorovaných dat nejvíce pravděpodobný. Respektive lze říci, že při „platnosti" této hodnoty jsou data nejvíce věrohodná. - **Bayesovské metody** -- nehledají jednu hodnotu parametru, ale celé rozdělení pravděpodobnosti (parametr je zde vlastně náhodná veličina). 2.Nestranné odhady Střední kvadratická chyba odhadu - Významnou rizikovou funkcí ve statistice je tzv. **střední kvadratická chyba odhadu** („mean squared error") definovaná jako - Výraz pro *MSE*, respektive *MSE* odhadu*,* se dá rozdělit na dvě komponenty -- **vychýlení** (jeho druhou mocninu) a **variabilitu**: ![Obsah obrázku text, Písmo, snímek obrazovky, řada/pruh Popis byl vytvořen automaticky](media/image114.png) Vztah vychýlení a variability odhadu - Odhady můžeme kombinací vychýlení a variability rozdělit (hypoteticky) do čtyř skupin. - Význam není až tak v jednoduchých sumarizacích dat, ale spíš ve stochastickém modelování Příklad - Máme dva odhady neznámého parametru θ. - Jeden je vychýlený s malou variabilitou. - Druhý je nevychýlený s větší variabilitou. - Ne vždy musí být lepším odhadem ten, který je nevychýlený! Nestrannost - Celkem **logickým omezením odhadů**, které nás zajímají, **je jejich nestrannost**. - Odhad *d*(***x***) parametru θ je nestranný když - Platí tedy: - V množině nestranných odhadů se poté **snažíme najít odhad s nejmenší variabilitou** -- abychom měli i minimální *MSE*. - V úvodní přednášce jsme mluvili o zkreslení výsledků („biased results") -- nestrannost je ve své podstatě to samé. Průměr -- nestranný odhad? - Normální rozdělení pravděpodobnosti: - Poissonovo rozdělení pravděpodobnosti: - Použití průměru pro tato rozdělení má smysl, ale je třeba si ověřit dané rozdělení pravděpodobnosti. Nestranný odhad -- příklad - Měříme čas, který trvá lékaři určitá činnost (např. ambulantní ošetření). Chceme najít odhad maxima tohoto času, tedy jak maximálně dlouho mu daná činnost může trvat. - Uvažujme rovnoměrně spojité rozdělení pravděpodobnosti na intervalu \[0,θ\]: - Jak můžeme hodnotu θ odhadnout? - Máme tedy náhodný výběr *X*~1~, *X*~2~,...,*X*~n~ i.i.d. z rozdělení *Rs*\[0,θ\], které ještě seřadíme podle velikosti: *X*~(1)~, *X*~(2)~,...,*X*~(n)~. - Máme dvě zajímavé hodnoty: - Uvažujeme dva odhady: ![Obsah obrázku text, snímek obrazovky, Písmo, číslo Popis byl vytvořen automaticky](media/image126.png) 3. Metoda maximální věrohodnosti Metoda maximální věrohodnosti - Autorem je R. A. Fisher (1922). Anglicky „maximum likelihood estimation". - Máme *n* nezávislých stejně rozdělených pozorování (i.i.d.) z rozdělení s hustotou. - **Sdružená hustota** odpovídající *n* pozorovaným hodnotám *x*~1~, *x*~2~,..., *x*~n~ je: Jaká? A proč? - Autorem je R. A. Fisher (1922). Anglicky „maximum likelihood estimation". - Máme *n* nezávislých stejně rozdělených pozorování (i.i.d.) z rozdělení s hustotou. - **Sdružená hustota** odpovídající *n* pozorovaným hodnotám *x*~1~, *x*~2~,..., *x*~n~ je: - Sdružená hustota vyjadřuje(za předpokladu, že známe θ), jak moc je pravděpodobné, že pozorované hodnoty pochází z rozdělení s hustotou - **Pointa metody maximální věrohodnosti**: Dívat se na sdruženou hustotu jako na funkci θ a vybrat θ takové, aby výraz byl co největší (maximum). Věrohodnostní funkce - Zavádíme tzv. **věrohodnostní funkci** („likelihood function"): - Maximálně věrohodný odhad, značíme ho , je číslo, které maximalizuje věrohodnostní funkci, tedy - Výpočetně se jedná o řešení rovnice (rovnic): - Musíme si ještě ověřit, že se jedná o maximum -- např. pomocí druhých derivací. Logaritmus věrohodnostní funkce - Často je výhodnější (hlavně výpočetně jednodušší) maximalizovat logaritmus věrohodnostní funkce: - Bude maximum pro věrohodnostní funkci i logaritmus věrohodnostní funkce stejné? Pokud ano, tak proč? ML odhad parametru λ Poissonova rozdělení - Máme *n* i.i.d. pozorování z Poissonova rozdělení: *x*~1~, *x*~2~,..., *x*~n~. - Sdružená hustota má tvar: - Věrohodnostní funkce má tvar: - Logaritmus věrohodnostní funkce má tvar: - Jak vypadá ? - Derivace logaritmu věrohodnostní funkce má tvar: - Výsledkem je průměr: - Je to maximum? - Máme *n* i.i.d. pozorování z normálního rozdělení: *x*~1~, *x*~2~,..., *x*~n~. - Sdružená hustota má tvar: - Logaritmus věrohodnostní funkce má tvar: - Parciální derivace logaritmu věrohodnostní funkce mají tvar: - Výsledkem jsou následující odhady: **!!!!! 4. Srovnání průměru a mediánu !!!!!** Nesmyslné použití průměru u asymetrických dat - Chceme-li charakterizovat log-normální rozdělení z hlediska střední hodnoty, je použití průměru nesmyslné. Není totiž splněn model, pro který byl jako optimální odhad odvozen! - Vhodnějším odhadem je **medián** a **geometrický průměr** (jsou teoreticky ekvivalentní pro log-normální data) - Geometrický průměr je průměr spočítaný na normálních datech, tedy po transformaci *y* = ln(*x*). - **Příklad**: počty bílých krvinek. Obsah obrázku řada/pruh, diagram, Vykreslený graf, text Popis byl vytvořen automaticky Smysluplné použití průměru u asymetrických dat - Chceme-li charakterizovat log-normální rozdělení z hlediska celkového součtu pozorovaných hodnot, je použití průměru smysluplné. Jedná-li se totiž např. o spotřebu nějakého materiálu, alkoholu nebo peněz, průměr popisuje z hlediska celkového součtu spotřebu lépe. - **Příklad**: plánování celkové spotřeby nějakého materiálu, alkoholu nebo peněz do budoucna. Smysluplné použití průměru u symetrických dat - Pokud je splněn pravděpodobnostní model, tedy zejména normalita dat, je použití průměru na místě. - ![](media/image146.png)**Průměr je konzistentní odhad** -- pro *n* → ∞ konverguje k θ podle pravděpodobnosti. Pro rostoucí *n* máme zaručeno, že se průměr přibližuje k θ. Shrnutí -- průměr vs. medián Obsah obrázku text, snímek obrazovky, Písmo, číslo Popis byl vytvořen automaticky Shrnutí - Používejte průměr! - Ale vždy si ověřte předpoklad normality (nebo alespoň symetrie), případně Poissonova rozdělení dat! A taky se nezapomeňte podívat na odlehlé hodnoty! - Pokud si něčím nejste jistí, použijte i medián. - **Useknutý průměr** -- odhad, který je svými vlastnostmi mezi průměrem a mediánem, spočítáme ho tak, že „odsekneme" *m* nebo *m* % minimálních a maximálních hodnot a ze zbytku spočítáme průměr. 6. **PŘEDNÁŠKA** **Intervalové odhady** **1. Motivace** ![Obsah obrázku text, snímek obrazovky, diagram, kruh Popis byl vytvořen automaticky](media/image148.png) - Bodový odhad je prvním krokem ve statistickém popisu dat. - Co nám říká jedno číslo? Studie 1 může publikovat číslo *x*~1~, studie 2 číslo *x*~2~. Které je správnější, lepší, přesnější? - Bodový odhad je sám o sobě nedostatečný pro popis parametru rozdělení pravděpodobnosti náhodné veličiny. - Zajímá nás přesnost (spolehlivost) bodového odhadu. - **Cílová populace** -- skupina subjektů, o které chceme zjistit nějakou informaci. - Realizujeme-li náhodně výběr z cílové populace, dostaneme **výběrovou populaci** (experimentální vzorek). - **Znak *X* = náhodná veličina *X*** -- vlastnost, která nás zajímá. - **Realizace náhodné veličiny** -- reálné číslo, pozorovaná hodnota na vybraném subjektu. - **Náhodný výběr** -- množina *n* nezávislých náhodných veličin se stejným rozdělením: *X*~1~, *X*~2~,..., *X*~n~. - **Realizace náhodného výběru** -- reálná čísla, hodnoty pozorované na výběrové populaci. - *F*(*x*), *f*(*x*) a *p*(*x*) -- popisují chování náhodné veličiny úplně, ale složitě. - Dvě charakteristiky odráží vlastnosti rozdělení jedním číslem: **střední hodnota** a **rozptyl**. Odmocnina z rozptylu je **směrodatná odchylka**. - Platí následující: - Jednotlivé realizace náhodné veličiny vykazují variabilitu (dle *SD*(*X*)). - Jakákoliv statistika (např. průměr) je jako transformace náhodných veličin také náhodnou veličinou. Má tedy i rozdělení pravděpodobnosti. - Jednotlivé realizace statistiky nad různými náhodnými výběry také vykazují variabilitu (opět úměrnou *SD*(*X*)). - Rozdělení pravděpodobnosti výběrového průměru tím méně variabilní čím více pozorování je v průměru zahrnuto. - Rozdělení pravděpodobnosti výběrového průměru se s rostoucím *n* přestává podobat rozdělení původních dat a začíná se podobat rozdělení normálnímu. - Proč? - Rozdělení pravděpodobnosti výběrového průměru tím méně variabilní čím více pozorování je v průměru zahrnuto → plyne z vlastností rozptylu transformované náhodné veličiny. - Rozdělení pravděpodobnosti výběrového průměru se s rostoucím *n* přestává podobat rozdělení původních dat a začíná se podobat rozdělení normálnímu → plyne z centrální limitní věty. - Máme posloupnost *X~1~,..., X~n~* nezávislých, stejně rozdělených náhodných veličin, které mají konečnou střední hodnotu *μ* a rozptyl *σ^2^*. - Směrodatná odchylka (*SD*) není směrodatná chyba popisné statistiky (SE)! - Směrodatná odchylka (*SD*) je odrazem variability náhodné veličiny ve sledované populaci. - Směrodatná chyba (*SE*) je odrazem přesnosti popisné statistiky jako odhadu střední hodnoty náhodné veličiny. - Pozor na rozdíl mezi *SD* a *SE* v článcích a knihách -- tabulkách a grafech! - Náhodná veličina bude výška člověka: , tedy uvažujme střední hodnotu 175 cm a směrodatnou odchylku 15 cm. Jak se chovají průměry pro náhodné výběry o velikosti *n* = 10, *n* = 100 a *n* = 1000? - Kód v R: - ![](media/image157.jpeg)Původní pozorování mají rozsah hodnot zhruba od 120 cm do 220 cm. Kde se pohybují jednotlivé průměry? **3. Centrální limitní věta** Připomenutí: standardizace normálního rozdělení - Standardizace je transformace náhodné veličiny s N(μ,σ^2^) na N(0,1). - Důvod: řada statistických metod byla odvozena pro standardizované normální rozdělení, N(0,1). Děláme to tedy opět kvůli lepší možnosti hodnocení dat. - Teoretická standardizace náhodné veličiny: - - Praktická standardizace naměřených hodnot: Centrální limitní věta - Klíčová věta umožňující sestrojení intervalových odhadů. - Máme posloupnost *X~1~,..., X~n~* nezávislých, stejně rozdělených náhodných veličin, které mají konečnou střední hodnotu *μ* a rozptyl *σ*^2^. - Pak platí, že pro má suma *X*~i~ přibližně normální rozdělení pravděpodobnosti. - Máme posloupnost *X~1~,..., X~n~* nezávislých, stejně rozdělených náhodných veličin, které mají konečnou střední hodnotu *μ* a rozptyl *σ^2^*. Pak platí, že pro má výběrový průměr přibližně normální rozdělení se střední hodnotou *μ* a rozptylem *σ^2^*/n. - ![](media/image168.png)Tedy má přibližně standardizované normální rozdělení pravděpodobnosti: CLV -- zjednodušená interpretace - Pokud je rozdělení pravděpodobnosti náhodné veličiny normální, pak je i rozdělení průměru pozorovaných hodnot normální (a to i pro *n* = 1). - Pokud rozdělení pravděpodobnosti náhodné veličiny není normální, pak je rozdělení průměru pozorovaných hodnot přibližně normální, když *n* je dostatečně velké. - „Dostatečně velké" znamená \> 30 pro rozdělení podobná normálnímu a \> 100 pro rozdělení nepodobná normálnímu. Co je super... - Centrální limitní věta funguje i když rozdělení původní náhodné veličiny není normální rozdělení pravděpodobnosti. A dokonce i když není spojité! Příklad -- binomické rozdělení - Chceme sledovat s jakou přesností lze odhadnout podíl hypertoniků v dospělé populaci ČR. - Předpokládejme, že skutečný podíl dospělých s hypertenzí je 0,2. - Náhodná veličina *X*: osoba trpí / netrpí hypertenzí. - Pravděpodobnostní funkce *X* (alternativní rozdělení) Příklad -- binomické rozdělení - Náhodná veličina *S* bude součet *X*~i~, *i* = 1,..., *n*. - Náhodná veličina *Y* bude definována jako *S**m*, kde *m* je počet provedených testů. Ekvivalentně lze vynásobit *p*-hodnotu počtem provedených testů. Nevýhodou je, že je konzervativní pro velké *m*, tedy počet provedených testů. - Pro analýzu rozptylu: **Tukeyho a Scheffého post hoc testy**. - Pro neparametrický K-W test: **metoda dle Steela a Dwasse**. **Příklad -- korekce u CHOPN dat** **Přednáška X.\ Testování hypotéz o kvalitativních proměnných** - Testování hypotéz o podílech - Kontingenční tabulka, čtyřpolní tabulka - Testy nezávislosti, Fisherův exaktní test, McNemarův test - Testy dobré shody pro ověření rozdělení pravděpodobnosti **Opakování -- analýza rozptylu** - Proč je výhodnější provést srovnání průměrů spojité veličiny u více než dvou skupin pomocí analýzy rozptylu než pomocí testů pro všechny dostupné dvojice sledovaných skupin? - Jak lze řešit situaci, kdy chceme provést více testů zároveň? **Opakování -- princip analýzy rozptylu** - Jaký je princip analýzy rozptylu? - Jaké jsou předpoklady analýzy rozptylu? 1. **Motivace** **Matematická biologie × modré oči** **Studenti matematické biologie s modrýma očima** ![Obsah obrázku text, snímek obrazovky, Písmo Popis byl vytvořen automaticky](media/image297.png) Obsah obrázku text, snímek obrazovky, Písmo, číslo Popis byl vytvořen automaticky ![Obsah obrázku text, snímek obrazovky, Písmo, číslo Popis byl vytvořen automaticky](media/image299.png) **Studenti matematické biologie s modrýma očima\ - aktualizace 2021** ![Obsah obrázku text, snímek obrazovky, Písmo, číslo Popis byl vytvořen automaticky](media/image301.png) 2. **Testování hypotéz o podílech** **Co nás bude zajímat?** - Binární data jsou v medicíně i biologii častá -- výskyt ano/výskyt ne, úspěch/neúspěch,... - Kromě bodového odhadu nás může zajímat - Interval spolehlivosti pro parametr π - Test o parametru π proti konstantě π~0~ - Test o parametru π ve dvou souborech **Aproximace na normální rozdělení** Obsah obrázku text, snímek obrazovky, Písmo Popis byl vytvořen automaticky **Proč *np*(1-*p*) větší než 5?** - Souvisí s množstvím informace nutné pro dosažení „tvaru normálního rozdělení" → nutné pro vhodnost, respektive přesnost aproximace. - Pro π = 0,5 je jednodušší dosáhnout „tvar normálního rozdělení" než pro π = 0,1 nebo π = 0,9. Pro π hodně blízká 0 nebo 1 není aproximace vhodná. ![Obsah obrázku Vykreslený graf, diagram, řada/pruh, snímek obrazovky Popis byl vytvořen automaticky](media/image303.png) **Interval spolehlivosti pro podíl** Obsah obrázku text, snímek obrazovky, Písmo, číslo Popis byl vytvořen automaticky **Příklad s modrýma očima** ![Obsah obrázku text, snímek obrazovky, Písmo, číslo Popis byl vytvořen automaticky](media/image305.png) **Příklad s modrýma očima\ - aktualizace 2021** Obsah obrázku text, snímek obrazovky, Písmo, číslo Popis byl vytvořen automaticky **Test pro podíl u jednoho výběru** ![Obsah obrázku text, snímek obrazovky, Písmo Popis byl vytvořen automaticky](media/image307.png) **¨** **Příklad s modrýma očima** Obsah obrázku text, snímek obrazovky, Písmo, řada/pruh Popis byl vytvořen automaticky**¨** **Příklad s modrýma očima\ - aktualizace 2021** ![Obsah obrázku text, snímek obrazovky, Písmo, číslo Popis byl vytvořen automaticky](media/image309.png) **Je rozdíl mezi IS a testem?** - **Pokud ano, v čem?** - Ano je... - Konstrukce IS: - Test H~0~: Obsah obrázku Písmo, text, bílé, číslo Popis byl vytvořen automaticky - Binomické rozdělení má různou variabilitu pro různé hodnoty π -- největší je pro π = 0,5, směrem k 0 a 1 variabilita klesá. - **Neplatí ekvivalence mezi intervalem spolehlivosti a testem proti π~0~ jako tomu bylo v případě průměru jako odhadu střední hodnoty.** **IS pro podíl ve dvou souborech** - Máme *n* studentů Matematické biologie a mezi nimi *x* s modrýma očima, *x*~1~ je současných a *x*~2~ je již vystudovaných. Zajímá nás interval spolehlivosti pro rozdíl podílů studentů s modrýma očima ve skupině současných a již vystudovaných studentů: π~1~ -- π~2~. - Podmínka pro aproximaci normálním rozdělením musí být splněna v obou výběrech. ![Obsah obrázku text, Písmo, snímek obrazovky, řada/pruh Popis byl vytvořen automaticky](media/image311.png) **Příklad s modrýma očima** Obsah obrázku text, snímek obrazovky, Písmo, číslo Popis byl vytvořen automaticky **\ ** **Test pro podíl ve dvou výběrech** ![Obsah obrázku text, snímek obrazovky, Písmo, číslo Popis byl vytvořen automaticky](media/image313.png) **Příklad s modrýma očima** Obsah obrázku text, snímek obrazovky, Písmo, číslo Popis byl vytvořen automaticky **3. Analýza kontingenčních tabulek** **Kontingenční tabulka** - Frekvenční sumarizace dvou nominálních nebo ordinálních veličin pomocí tabulky. - Proměnné reprezentujeme diskrétními náhodnými veličinami *X* a *Y*. - Speciální případ: **2 × 2 tabulka** = čtyřpolní tabulka. - **Př.**: Sumarizace pacientů diagnostikovaných s melanomem dle lokalizace onemocnění a roku diagnózy. ![Obsah obrázku text, snímek obrazovky, Písmo, číslo Popis byl vytvořen automaticky](media/image315.png) **Kontingenční tabulka -- hypotézy** - Kontingenční tabulky umožňují testování různých hypotéz: Nezávislost (Pearsonův chí-kvadrát test) - Jeden výběr, dvě charakteristiky -- obdoba nepárového uspořádání - Př.: studenti matematické biologie -- modré oči × období studia Shoda struktury (Pearsonův chí-kvadrát test) - Více výběrů, jedna charakteristika -- obdoba nepárového uspořádání - Př.: pacienti s IM v několika nemocnicích × věková struktura Symetrie (McNemarův test) - Jeden výběr, opakovaně jedna charakteristika -- obdoba párového uspořádání - Př.: stromy -- posouzení jejich stavu ve dvou sezónách **Značení** Obsah obrázku text, snímek obrazovky, Písmo Popis byl vytvořen automaticky **Pointa testu pro kontingenční tabulku** ![Obsah obrázku text, snímek obrazovky, Písmo, číslo Popis byl vytvořen automaticky](media/image317.png) **Příklad -- melanomy** Obsah obrázku text, snímek obrazovky, Písmo, číslo Popis byl vytvořen automaticky **Pearsonův chí-kvadrát test nezávislosti** ![Obsah obrázku text, snímek obrazovky, Písmo Popis byl vytvořen automaticky](media/image319.png) **Předpoklady Pearsonova chí-kvadrát testu** - Nezávislost jednotlivých pozorování - Alespoň 80 % buněk musí mít očekávanou četnost (*e*~ij~) větší než 5 - 100 % buněk musí mít očekávanou četnost (*e*~ij~) větší než 2 **Příklad -- melanomy** Obsah obrázku text, snímek obrazovky, Písmo, číslo Popis byl vytvořen automaticky ![Obsah obrázku text, snímek obrazovky, Písmo, číslo Popis byl vytvořen automaticky](media/image321.png) **Příklad s modrýma očima** Obsah obrázku text, snímek obrazovky, Písmo, číslo Popis byl vytvořen automaticky **4.Čtyřpolní tabulky** **Co je čtyřpolní tabulka** - Nejjednodušší možná kontingenčí tabulka, kdy obě sledované veličiny mají pouze dvě kategorie. - **Příklad z 2. přednášky**: Zajímá nás přesnost vyšetření jater ultrazvukem, tedy schopnost vyšetření UTZ identifikovat maligní ložisko v pacientových játrech. Přesnost je vztažena k histologickému ověření odebrané tkáně. ![Obsah obrázku text, snímek obrazovky, číslo, Písmo Popis byl vytvořen automaticky](media/image323.png) **Asociace ve čtyřpolní tabulce** Obsah obrázku text, snímek obrazovky, Písmo, číslo Popis byl vytvořen automaticky **Fisherův exaktní test** - Určen zejména pro čtyřpolní tabulky, **je vhodný i pro tabulku s malými četnostmi -- pro ty, které nesplňují předpoklad Pearsonova testu**. - Založen na výpočtu „přesné" *p*-hodnoty, která zde hraje roli testové statistiky. - **Pointa je ve výpočtu pravděpodobnosti, se kterou bychom získali čtyřpolní tabulky stejně nebo více „odchýlené" od nulové hypotézy při zachování marginálních četností.** - Pravděpodobnost konkrétní tabulky (s pevně zvolenou hodnotou *a* při zachování marginálních četností) lze získat: ![Obsah obrázku text, Písmo, snímek obrazovky, řada/pruh Popis byl vytvořen automaticky](media/image325.png) **Příklad s modrýma očima** Obsah obrázku text, snímek obrazovky, Písmo, číslo Popis byl vytvořen automaticky ![Obsah obrázku text, Písmo, řada/pruh, bílé Popis byl vytvořen automaticky](media/image327.png) Obsah obrázku text, snímek obrazovky, číslo, Písmo Popis byl vytvořen automaticky **Fisherův × Pearsonův test** - Pearsonův chí-kvadrát test lze použít na jakoukoliv kontingenční tabulku, ALE je nutné hlídat předpoklady: 80 % *e*~ij~ větších než 5 -- u čtyřpolní tabulky to znamená 100 %. - Nedodržení předpokladů pro Pearsonův chí-kvadrát test může stejně jako u *t*-testu a analýzy rozptylu vést k nesmyslným závěrům! - Situace s malými *n*~ij~ a tedy i *e*~ij~ jsou ale v medicíně i biologii velmi časté -- Fisherův exaktní test je klíčový pro hodnocení čtyřpolních tabulek. **Test hypotézy o symetrii -- McNemarův test** ![Obsah obrázku text, snímek obrazovky, Písmo, číslo Popis byl vytvořen automaticky](media/image329.png) **McNemarův test** Obsah obrázku text, snímek obrazovky, Písmo, číslo Popis byl vytvořen automaticky **Příklad -- McNemarův test¨** ![Obsah obrázku text, snímek obrazovky, Písmo, číslo Popis byl vytvořen automaticky](media/image331.png) 5. **Testy o rozdělení náhodné veličiny** **Testy o rozdělení náhodné veličiny** - **Kolmogorovův-Smirnovovův test** -- založen na srovnání výběrové distribuční funkce s teoretickou distribuční funkcí odpovídající rozdělení, které chceme testovat. K-S test hodnotí maximální vzdálenost mezi těmito dvěma distribučními funkcemi. - **Pearsonův chí-kvadrát test = chí-kvadrát test dobré shody** -- i pro testování shody s teoretickým rozdělením je založen na myšlence srovnání pozorovaných a očekávaných četností jednotlivých hodnot, kterých nabývá náhodná veličina *X*. - **Q-Q plot** -- zobrazuje proti sobě kvantily pozorovaných hodnot a kvantily teoretického rozdělení pravděpodobnosti. **Chí-kvadrát test dobré shody** ![Obsah obrázku text, snímek obrazovky, Písmo Popis byl vytvořen automaticky](media/image333.png) **Chí-kvadrát test pro spojité veličiny** Obsah obrázku text, diagram, snímek obrazovky, řada/pruh Popis byl vytvořen automaticky **Příklad -- melanom a normální rozdělení** ![Obsah obrázku text, snímek obrazovky, diagram Popis byl vytvořen automaticky](media/image335.png) Obsah obrázku text, snímek obrazovky, diagram, řada/pruh Popis byl vytvořen automaticky **Příklad -- Poissonovo rozdělení** - **Chceme ověřit, že počet pacientů, kteří přijdou ve všední den na zubní pohotovost se řídí Poissonovým rozdělením. Jednotkou času bude 30 minut. Celkem byly** zaznamenány údaje za 1200 půlhodinových úseků. - H~0~: Počet příchodů pacientů během 30 minut má Poissonovo rozdělení. - H~1~: Počet příchodů pacientů během 30 minut nemá Poissonovo rozdělení. - Neznáme parametr λ, je třeba ho odhadnout z dat: