Přednáška II. Vztah pravděpodobnosti, statistiky a biostatistiky PDF
Document Details
Uploaded by WealthyNewton2575
MUNI MED
Tags
Related
Summary
This presentation discusses the relationship between probability, statistics, and biostatistics. It covers topics such as conditional probability, Bayes' theorem, sensitivity, specificity, and predictive values. The presentation also touches on different statistical approaches like frequentist and Bayesian. It outlines the principles and applications in specific scenarios.
Full Transcript
Přednáška II. Vztah pravděpodobnosti, statistiky a biostatistiky Statistika vychází z pravděpodobnosti Podmíněná pravděpodobnost, Bayesův vzorec Senzitivita, specificita, prediktivní hodnoty Frekventistická a Bayesovská statistika 1 Biostatistika pro matematickou biologii a biomed...
Přednáška II. Vztah pravděpodobnosti, statistiky a biostatistiky Statistika vychází z pravděpodobnosti Podmíněná pravděpodobnost, Bayesův vzorec Senzitivita, specificita, prediktivní hodnoty Frekventistická a Bayesovská statistika 1 Biostatistika pro matematickou biologii a biomedicínu Opakování – klíčové aspekty statistických odhadů Zkreslení Významnost Reprezentativnost Spolehlivost Srovnatelnost 2 Biostatistika pro matematickou biologii a biomedicínu Statistika, biostatistika a analýza dat Statistika Biostatistika Analýza dat Primárně je zaměřena na Propojení znalosti Velmi obecná oblast bez vývoj metod a algoritmů pro statistických metod a dané jasné definice. řešení teoretických problematiky v řešení Prostupuje různými problémů. biologických a klinických úloh. odvětvími. Nicméně i statistika je vždy Na prvním místě není Zahrnuje komplexní postupy primárně motivována teoretický vývoj, ale aplikace. hodnocení dat (čištění, reálnými problémy. kódování). Vychází z teorie Nemusí být založena na pravděpodobnosti. statistice. 3 Biostatistika pro matematickou biologii a biomedicínu Biostatistika vychází ze statistiky ̶ Biostatistika je aplikace statistických metod v řešení biologických a klinických problémů. ̶ Snahou je získat z pozorovaných dat užitečnou informaci. ̶ V popředí zájmu je pozorovaná variabilita mezi studovanými subjekty, kterou chceme vysvětlit. 4 Biostatistika pro matematickou biologii a biomedicínu Statistický pohled na problém ̶ Cílová populace – chceme postihnout konkrétní problém. ̶ Získáme experimentální vzorek cílové populace (pozorování), která převedeme na číselné vyjádření (data). Vzorek by měl být reprezentativní a náhodný. ̶ Předpokládáme pravděpodobnostní chování (model) tohoto vzorku (tedy i cílové populace). ̶ Konkrétní problém vyjádříme ve vybraném modelu jako hypotézu. ̶ Zhodnotíme hypotézu na základě vybraného modelu a pozorovaných dat. 5 Biostatistika pro matematickou biologii a biomedicínu Statistika vychází z pravděpodobnosti ̶ Teorie pravděpodobnosti se zabývá modelováním náhody. ̶ Lze nějak ale vyjádřit, co je to náhoda? 6 Biostatistika pro matematickou biologii a biomedicínu Statistika vs. pravděpodobnost Statistika Pravděpodobnost Cílová Cílová populace populace Vzorek Vzorek 7 Biostatistika pro matematickou biologii a biomedicínu Statistika vs. pravděpodobnost Statistika Pravděpodobnost Cílem statistiky je Cílová Cílová V teorii populace populace pravděpodobnosti se získání informace o cílové populaci na ptáme na základě pravděpodobnost pozorovaného získání konkrétního experimentálního výsledku, máme-li vzorku. danou strukturu cílové populace. Vzorek Vzorek 8 Biostatistika pro matematickou biologii a biomedicínu Podmíněná pravděpodobnost ̶ Máme-li jev B s pravděpodobností P(B) > 0, pak podmíněnou pravděpodobnost jevu A za podmínky nastoupení jevu B definujeme jako P( A B) P( A | B) P( B) ̶ Pro nezávislé jevy A a B platí P ( A) P( B) P( A | B) P( A) P( B) 9 Biostatistika pro matematickou biologii a biomedicínu Podmíněná pravděpodobnost P( A B) P( A | B) A AB B P( B) 10 Biostatistika pro matematickou biologii a biomedicínu Podmíněná pravděpodobnost ̶ Příklad: Osoba X má všechny typické příznaky chřipky. Pravděpodobnost, že se jedná o klasickou chřipku je 0,7 (jev A), prasečí chřipku 0,2 (jev B), ptačí chřipku 0,05 (jev C) a dosud neznámou formu 0,05 (jev D). Diagnostický test prokázal, že klasická chřipka to není. Jaká je nyní pravděpodobnost, že se jedná o novou formu chřipky? 11 Biostatistika pro matematickou biologii a biomedicínu Podmíněná pravděpodobnost ̶ Příklad: Osoba X má všechny typické příznaky chřipky. Pravděpodobnost, že se jedná o klasickou chřipku je 0,7 (jev A), prasečí chřipku 0,2 (jev B), ptačí chřipku 0,05 (jev C) a dosud neznámou formu 0,05 (jev D). Diagnostický test prokázal, že klasická chřipka to není. Jaká je nyní pravděpodobnost, že se jedná o novou formu chřipky? ̶ Řešení: P ( D A c ) P( D) 0,05 P( D | A ) c 0,167 P( A ) c P( A ) 0,3 c 12 Biostatistika pro matematickou biologii a biomedicínu Celková pravděpodobnost a Bayesův vzorec ̶ Můžeme-li rozdělit základní prostor na k po dvou disjunktních podmnožin (Hi, i = 1, …, k), pro které zároveň platí, že jejich sjednocení je celý základní prostor (tzv. systém hypotéz), pak pravděpodobnost jevu A lze získat jako k P( A) P( A | H i ) P( H i ) Vzorec pro celkovou i 1 pravděpodobnost ̶ Dále platí P( A H j ) P( A | H j ) P( H j ) P( H j | A) P( A) k Bayesův vzorec P( A | H ) P( H ) i 1 i i Počasí a podmíněná pravděpodobnost ̶Co má počasí společného s pravděpodobností? 14 Biostatistika pro matematickou biologii a biomedicínu Počasí a podmíněná pravděpodobnost ̶ Co má počasí společného s pravděpodobností? ̶ U každého jevu (A) se můžeme ptát na jeho Ω pravděpodobnost za slunečného počasí, za deště, za H0 H1 H2 bouřky, atd. Celkovou pravděpodobnost jevu A potom můžeme získat jako součet přes tyto možnosti. ̶ Tyto stavy lze chápat jako výchozí hypotézy H3 H4 H5 ovlivňující výsledek, přičemž vždy nastává (platí) pouze jeden z těchto stavů (hypotéz). Pokud pozorujeme jev A, můžeme se zpětně ptát na platnost těchto hypotéz (s použitím Bayesova vzorce). 15 Biostatistika pro matematickou biologii a biomedicínu Celková pravděpodobnost – jiný příklad ̶ Populaci můžeme rozdělit dle věku na tři skupiny: děti (H0), dospělé v produktivním věku (H1) a dospělé v postproduktivním věku (H2), přičemž známe rozdělení populace, tedy známe P(H0), P(H1) a P(H2). H0 H1 H2 Ω ̶ Označme jev A: stane se úraz. ̶ Známe-li pravděpodobnost úrazu u dítěte, P(A|H0), u dospělého v produktivním věku, P(A| H1), a u dospělého v postproduktivním věku, P(A|H2), jsme schopni pomocí vzorce pro celkovou pravděpodobnost spočítat P(A). Bayesův vzorec ̶ Příklad: Uvažujme populaci mužů nekuřáků ve věku 50 – 60 let, u kterých sledujeme výskyt chronického kašle (jev A). Dle stavu plic můžeme muže zjednodušeně rozdělit na zdravé (jev H1), nemocné plicním karcinomem (jev H2) a nemocné sarkoidózou (jev H3). Pravděpodobnosti výskytu jednotlivých plicních onemocnění jsou známé, navíc známe i pravděpodobnosti výskytu chronického kašle dle stavu plic: P(H1) = 0,991, P(H2) = 0,001, P(H3) = 0,008 P(A|H1)=0,002, P(A|H2)=0,900, P(A|H3)=0,950 ̶ Zajímá nás, s jakou pravděpodobností bude u pacienta s chronickým kašlem při podrobnějším vyšetření diagnostikován karcinom plic. 17 Biostatistika pro matematickou biologii a biomedicínu Bayesův vzorec ̶ Příklad: Uvažujme populaci mužů nekuřáků ve věku 50 – 60 let, u kterých sledujeme výskyt chronického kašle (jev A). Dle stavu plic můžeme muže zjednodušeně rozdělit na zdravé (jev H1), nemocné plicním karcinomem (jev H2) a nemocné sarkoidózou (jev H3). Pravděpodobnosti výskytu jednotlivých plicních onemocnění jsou známé, navíc známe i pravděpodobnosti výskytu chronického kašle dle stavu plic: P(H1) = 0,991, P(H2) = 0,001, P(H3) = 0,008 P(A|H1)=0,002, P(A|H2)=0,900, P(A|H3)=0,950 ̶ Zajímá nás, s jakou pravděpodobností bude u pacienta s chronickým kašlem při podrobnějším vyšetření diagnostikován karcinom plic. P( A H 2 ) P( A | H 2 ) P( H 2 ) P( H 2 | A) 3 P( A) ̶Řešení: P( A | H i ) P( H i ) i 1 0,900 0,001 P( H 2 | A) 0,086 0,002 0,991 0,900 0,001 0,950 0,008 Význam podmíněné pravděpodobnosti v biostatistice ̶ Princip podmíněné pravděpodobnosti je v biostatistice velmi častý – máme systém hypotéz (nejčastěji dvou) o vlastnostech cílové populace a pozorovaná data. Na jejich základě pak rozhodujeme o platnosti stanovených hypotéz. ̶ Přímé použití podmíněné pravděpodobnosti lze demonstrovat na příkladu binárních diagnostických testů: ̶ Osoba ve skutečnosti má (jev H) nebo nemá (jev Hc) sledované onemocnění. ̶ Diagnostický test u dané osoby indikuje přítomnost (jev A+) nebo nepřítomnost (jev A-) sledovaného onemocnění. ̶ Nás zajímají diagnostické schopnosti testu. Senzitivita, specificita Skutečnost – přítomnost nemoci Ano (H) Ne (Hc) Výsledek Pozitivní (A+) T U diagnostického testu Negativní (A-) V W ̶ Senzitivita testu: schopnost testu rozpoznat skutečně nemocné osoby, tedy pravděpodobnost, že test bude pozitivní, když je osoba skutečně nemocná. ̶ Senzitivita testu = P(A+|H) = T / (T + V). ̶ Specificita testu: schopnost testu rozpoznat osoby bez nemoci, tedy pravděpodobnost, že test bude negativní, když osoba není nemocná. ̶ Specificita testu = P(A-|Hc) = W / (U + W). 20 Biostatistika pro matematickou biologii a biomedicínu Pozitivní a negativní prediktivní hodnota Skutečnost – přítomnost nemoci Ano (H) Ne (Hc) Výsledek Pozitivní (A+) T U diagnostického testu Negativní (A-) V W ̶ Prediktivní hodnota pozitivního testu: pravděpodobnost, že osoba je skutečně nemocná, když je test pozitivní. ̶ Prediktivní hodnota pozitivního testu = P(H|A+) = T / (T + U). ̶ Prediktivní hodnota negativního testu: pravděpodobnost, že osoba není nemocná, když je test negativní. ̶ Prediktivní hodnota negativního testu = P(Hc|A-) = W / (V + W). 21 Biostatistika pro matematickou biologii a biomedicínu Shrnutí Skutečnost – přítomnost nemoci Ano (H) Ne (Hc) Pozitivní (A+) T U T+U Prediktivní hodnota Výsledek pozitivního testu diagnostického testu Prediktivní hodnota Negativní (A-) V W V+W negativního testu T+V U+W Senzitivita Specificita testu testu 22 Biostatistika pro matematickou biologii a biomedicínu Senzitivita, specificita ̶ Příklad: Zajímá nás přesnost vyšetření jater ultrazvukem, tedy schopnost vyšetření UTZ identifikovat maligní ložisko v pacientových játrech. Přesnost je vztažena k histologickému ověření odebrané tkáně. Výsledky jsou dány tabulkou: Histologické ověření Vyšetření UTZ Maligní Benigní Celkem Maligní 32 2 34 Benigní 3 24 27 Celkem 35 26 61 ̶ Senzitivita testu = P(A+|H) = ? ̶ Specificita testu = P(A-|Hc) = ? 23 Biostatistika pro matematickou biologii a biomedicínu Senzitivita, specificita ̶ Příklad: Zajímá nás přesnost vyšetření jater ultrazvukem, tedy schopnost vyšetření UTZ identifikovat maligní ložisko v pacientových játrech. Přesnost je vztažena k histologickému ověření odebrané tkáně. Výsledky jsou dány tabulkou: Histologické ověření Vyšetření UTZ Maligní Benigní Celkem Maligní 32 2 34 Benigní 3 24 27 Celkem 35 26 61 ̶ Senzitivita testu = P(A+|H) = 32 / 35 = 91,4 % (IS = 75,8 – 97,8) ̶ Specificita testu = P(A-|Hc) = 24 / 26 = 92,3 % (IS = 73,4 – 98,7) 24 Biostatistika pro matematickou biologii a biomedicínu Bayesův vzorec pro výpočet prediktivních hodnot ̶Obě prediktivní hodnoty testu lze vypočítat s pomocí charakteristik testu, senzitivity a specificity, a celkové prevalence onemocnění v cílové populaci. Senzitivita testu P ( A | H ) Specificita testu P ( A | H c ) Prevalence P(H ) Prediktivní hodnota P ( A | H ) P( H ) P ( H | A ) pozitivního testu P ( A | H ) P ( H ) P ( A | H c ) P ( H c ) Prediktivní hodnota P ( A | H c ) P ( H c ) P( H | A ) c negativního testu P ( A | H c ) P ( H c ) P ( A | H ) P ( H ) 25 Biostatistika pro matematickou biologii a biomedicínu Pozitivní a negativní prediktivní hodnota ̶ Příklad: Zajímají nás pozitivní a negativní prediktivní hodnoty diagnostického testu na HIV pozitivitu, u kterého výrobce garantuje 98% senzitivitu a 99% specificitu. ̶ Uvažujme jihoafrickou zemi s prevalencí HIV pozitivních cca 20 %: P(A+|H) = 0,98; P(A-|Hc) = 0,99; P(H) = 0,2. 26 Biostatistika pro matematickou biologii a biomedicínu Pozitivní a negativní prediktivní hodnota ̶ Příklad: Zajímají nás pozitivní a negativní prediktivní hodnoty diagnostického testu na HIV pozitivitu, u kterého výrobce garantuje 98% senzitivitu a 99% specificitu. ̶ Uvažujme jihoafrickou zemi s prevalencí HIV pozitivních cca 20 %: P(A+|H) = 0,98; P(A-|Hc) = 0,99; P(H) = 0,2. Prediktivní hodnota pozitivního testu P ( A | H ) P ( H ) 0,98 0,20 P( H | A ) 96,1% P( A | H ) P( H ) P( A | H ) P( H ) 0,98 0,20 (1 0,99) (1 0,20) c c Prediktivní hodnota negativního testu P ( A | H c ) P ( H c ) 0,99 (1 0,20) P( H | A ) c 99,5% P( A | H ) P( H ) P( A | H ) P( H ) 0,99 (1 0,20) (1 0,98) 0,20 c c Pozitivní a negativní prediktivní hodnota ̶ Příklad: Zajímají nás pozitivní a negativní prediktivní hodnoty diagnostického testu na HIV pozitivitu, u kterého výrobce garantuje 98% senzitivitu a 99% specificitu. ̶ Uvažujme evropskou zemi s prevalencí HIV pozitivních cca 0,2 %: P(A+|H) = 0,98; P(A-|Hc) = 0,99; P(H) = 0,002. 28 Biostatistika pro matematickou biologii a biomedicínu Pozitivní a negativní prediktivní hodnota ̶ Příklad: Zajímají nás pozitivní a negativní prediktivní hodnoty diagnostického testu na HIV pozitivitu, u kterého výrobce garantuje 98% senzitivitu a 99% specificitu. ̶ Uvažujme evropskou zemi s prevalencí HIV pozitivních cca 0,2 %: P(A+|H) = 0,98; P(A-|Hc) = 0,99; P(H) = 0,002. Prediktivní hodnota pozitivního testu P ( A | H ) P ( H ) 0,98 0,002 P( H | A ) 16,4% P( A | H ) P( H ) P( A | H ) P( H ) 0,98 0,002 (1 0,99) (1 0,002) c c Prediktivní hodnota negativního testu P ( A | H c ) P ( H c ) 0,99 (1 0,002) P ( H c | A ) 99,9% P( A | H ) P( H ) P( A | H ) P( H ) 0,99 (1 0,002) (1 0,98) 0,002 c c Děkuji za pozornost 30 Biostatistika pro matematickou biologii a biomedicínu