Přednáška V. Úvod do teorie odhadu PDF
Document Details
Uploaded by WealthyNewton2575
Tomáš Pavlík
Tags
Summary
This document is a lecture on estimation theory. It covers topics such as unbiased estimation, maximum likelihood estimation, and comparing the mean and median. The lecture also touches upon concepts like the mean squared error and the relationships between bias and variability.
Full Transcript
Přednáška V. Úvod do teorie odhadu Pojmy a principy teorie odhadu Nestranné odhady Metoda maximální věrohodnosti Průměr vs. medián 1. Pojmy a principy teorie odhadu Jak se vlastně přišlo na použití průměru? Použití průměru jako sumarizace n pozorovaných hod...
Přednáška V. Úvod do teorie odhadu Pojmy a principy teorie odhadu Nestranné odhady Metoda maximální věrohodnosti Průměr vs. medián 1. Pojmy a principy teorie odhadu Jak se vlastně přišlo na použití průměru? Použití průměru jako sumarizace n pozorovaných hodnot se učí už na základní škole, nicméně zmínka o jeho používání je až z konce 17. století. Byl navržen bez ohledu na jakoukoliv souvislost s teorií pravděpodobnosti jako hodnota, označme ji a, která má následující vlastnosti: n n 1. Hodnota a minimalizuje ( xi a ) 2reziduální ( xi x )součet n( x čtverců, tedy součet 2 a) 2 čtverců rozdílů pozorovaných i 1 i 1 hodnot a hodnoty a: n 2. ( x a) 0 i Součet reziduí vzhledem k hodnotě a je nula, tedy kladná i i 1 záporná rezidua jsou v rovnováze: Tyto dvě kritéria Tomáš zohledňují Pavlík pouze pozorovaná Biostatistika data, vůbec se Příklad – průměr pozorovaných hodnot V případě, že osa x nepředstavuje žádnou informaci, je použití průměru v pořádku (kladná i záporná rezidua jsou v rovnováze). Co když osa x ponese nějakou informaci? Tomáš Pavlík Biostatistika Cíl snažení v teorii odhadu Na základě reálných pozorování náhodné veličiny X chceme získat informaci o parametrech rozdělení pravděpodobnosti této veličiny. Teorie odhadu se snaží sestrojit statistiku, která by na základě pozorovaných dat poskytla nejlepší možný odhad neznámého parametru / parametrů. Teorie odhadu předpokládá, že pozorované hodnoty nesou informaci o neznámém parametru. Někdy je třeba pozorované hodnoty před použitím statistiky „značně“ upravit → normalizace dat z DNA mikročipů. Tomáš Pavlík Biostatistika Základní pojmy Náhodná veličina X – číselné ohodnocení výsledku experimentu, zajímá nás její pravděpodobnostní chování – popisuje ho rozdělení pravděpodobnosti náhodné veličiny X. Parametr rozdělení pravděpodobnosti – neznámá hodnota, θ, na které závisí předpis rozdělení pravděpodobnosti Parametrická funkce – reálná funkce parametru θ. Realizace náhodné veličiny (n realizací) – představují je pozorované hodnoty: x = x1, x2, …, xn. Předpokládám jejichˆvzájemnou nezávislost. Odhad parametru θ – reálná funkce x = d(x) = g (ˆ). Odhad parametrické funkce g(θ) – reálná funkce x = d(x) =. Tomáš Pavlík Biostatistika Klasifikace odhadů Parametrické odhady – vycházejí z předpokladu znalosti rozdělení pravděpodobnosti, kterým se náhodná veličina řídí. Případně předpokládají i znalost rozdělení pravděpodobnosti sledovaného parametru (tedy náhodné veličiny) – Bayesovské odhady. Neparametrické odhady – v tomto případě nejsou uvažovány žádné předpoklady o pravděpodobnostním chování dat. Výsledkem jsou robustní odhady se širokým použitím, u kterých ale nelze hodnotit optimálnost vzhledem k pravděpodobnostnímu modelu. Tomáš Pavlík Biostatistika Klíčové otázky v teorii odhadu Jak najít bodový odhad? Jak hodnotit kvalitu odhadu? Tomáš Pavlík Biostatistika Jak najít bodový odhad? Existuje řada postupů k nalezení bodového odhadu neznámého parametru – liší se jak filozofií (např. Bayesovské odhady) tak definicí kritéria optimálních vlastností odhadu. Zaměříme se pouze na vybrané pojmy a postupy. Metoda založená na Rao-Blackwellově větě – slouží k nalezení nestranného odhadu s nejmenší variabilitou (ne vždy to však lze spočítat). Metoda maximální věrohodnosti – slouží k nalezení odhadu (hodnoty), který je ve smyslu pozorovaných dat nejvíce pravděpodobný. Respektive lze říci, že při „platnosti“ této hodnoty jsou data nejvíce věrohodná. Bayesovské metody – nehledají jednu hodnotu parametru, ale Tomáš Pavlík Biostatistika celé rozdělení pravděpodobnosti (parametr je zde vlastně 2. Nestranné odhady Střední kvadratická chyba odhadu Významnou rizikovou funkcí ve statistice je tzv. střední kvadratická chyba odhadu („mean squared error“) definovaná jako MSE ( , ˆ) E ((ˆ ) 2 ) Výraz pro MSE, respektive MSE odhadu, se dá rozdělit na dvě MSE ( , ˆ) E komponenty ˆ – vychýlení ˆ(jeho ˆdruhou 2 ˆ 2 a variabilitu: mocninu) ˆ ˆ 2 (( E ( ) E ( )) ) ( E ( )) E (( E ( )) ) MSE ( , ˆ) bias 2 (ˆ) var(ˆ) vychýlení2 + variabilita „bias2“ + „precision“ Tomáš Pavlík Biostatistika Vztah vychýlení a variability odhadu Odhady můžeme kombinací vychýlení a variability rozdělit (hypoteticky) do čtyř skupin. Význam není až tak v jednoduchých sumarizacích dat, ale spíš ve stochastickém modelování. Skutečná hodnota neznámého parametr Odhad neznámého parametru Tomáš Pavlík Biostatistika Příklad Máme dva odhady neznámého parametru θ. Výběrové rozdělení odhadu ˆ. * Jeden je vychýlený s malou variabilitou. Druhý je nevychýlený s větší variabilitou. Výběrové rozdělení odhadu ˆ. Ne vždy musí být lepším Statistika odhadem ten, který je E (ˆ) E (ˆ* ) nevychýlený! Skutečnost Tomáš Pavlík Biostatistika Nestrannost Celkem logickým omezením odhadů, které nás zajímají, je jejich nestrannost. Odhad d(x) parametru θ je nestranný když E (d ( X )) pro každé Platí tedy: E (d ( X ) ) 0 pro každé V množině nestranných odhadů se poté snažíme najít odhad s nejmenší variabilitou – abychom měli i minimální MSE. V úvodní přednášce jsme mluvili o zkreslení výsledků („biased results“) – nestrannost je ve své podstatě to samé. Tomáš Pavlík Biostatistika Průměr – nestranný odhad? Normální rozdělení pravděpodobnosti: X i ~ N ( , 2 ) E ( X ) E ( 1n X i ) 1n EX i pro každé R Poissonovo rozdělení pravděpodobnosti: X i ~ Po ( ) E ( X ) E ( 1n X i ) 1n EX i pro každé R Použití průměru pro tato rozdělení má smysl, ale je třeba si ověřit dané rozdělení pravděpodobnosti. Tomáš Pavlík Biostatistika Nestranný odhad – příklad Měříme čas, který trvá lékaři určitá činnost (např. ambulantní ošetření). Chceme najít odhad maxima tohoto času, tedy jak maximálně dlouho mu daná činnost může trvat. Uvažujme rovnoměrně spojité rozdělení pravděpodobnosti na intervalu [0,θ]: X ~ Rs(0, ) f ( x) 1 / pro každé x (0, ) f ( x) 0 pro každé x (0, ) Jak můžeme hodnotu θ odhadnout? Tomáš Pavlík Biostatistika Nestranný odhad – příklad Máme tedy náhodný výběr X1, X2,…,Xn i.i.d. z rozdělení Rs[0,θ], které ještě seřadíme podle velikosti: X(1), X(2),…,X(n). E ( X i ) D( X i ) 121 2 Máme dvě zajímavé hodnoty: n X 1n i 1 X i X ( n ) max X i Uvažujeme dva odhady: n T1 2 X n2 i 1 X i Který je lepší? T2 n 1 n X (n) n 1 n max X i Tomáš Pavlík Biostatistika Nestranný odhad – příklad Máme tedy X1, X2,…,Xn, které seřadíme podle velikosti: X(1), X(2), …,X(n). Mámen dvě zajímavé hodnoty: X 1n i 1 X i 1 n EX n i 1 EX i / 2 D( X ) 121n 2 D( X ( n ) ) ( n 1n) 2( n 2 ) 2 X ( n ) max X i EX ( n ) E (max X i ) n n 1 Uvažujemen dva odhady: T1 2 X n2 i 1 X i ET1 E (2 X ) 2( 2 ) D(T1 ) 31n 2 T2 n 1 n X (n) n 1 n max X i ET2 E ( nn1 X ( n ) ) nn1 nn1 D(T2 ) n (n 2) 2 Který je lepší? Tomáš Pavlík Biostatistika Nestranný odhad – příklad Máme tedy X1, X2,…,Xn, které seřadíme podle velikosti: X(1), X(2), …,X(n). Mámen dvě zajímavé hodnoty: X 1n i 1 X i 1 n EX n i 1 EX i / 2 D( X ) 121n 2 D( X ( n ) ) ( n 1n) 2( n 2 ) 2 X ( n ) max X i EX ( n ) E (max X i ) n n 1 Uvažujemen dva odhady: T1 2 X n2 i 1 X i ET1 E (2 X ) 2( 2 ) D(T1 ) 31n 2 T2 n 1 n X (n) n 1 n max X i ET2 E ( nn1 X ( n ) ) nn1 nn1 D(T2 ) n (n 2) 2 Vítězem se stal odhad T2, jeho variabilita s rostoucím n rychleji klesá k 0 Tomáš Pavlík Biostatistika 3. Metoda maximální věrohodnosti Metoda maximální věrohodnosti Autorem je R. A. Fisher (1922). Anglicky „maximum likelihood estimation“. ( x; ) Máme n fnezávislých stejně rozdělených pozorování (i.i.d.) z rozdělení s hustotou. Sdružená hustota odpovídající n pozorovaným hodnotám x1, x2,…, xn je: Jaká? A proč? Tomáš Pavlík Biostatistika Metoda maximální věrohodnosti Autorem je R. A. Fisher (1922). Anglicky „maximum likelihood estimation“. ( x; ) Máme n fnezávislých stejně rozdělených pozorování (i.i.d.) z rozdělení s hustotou. Sdružená hustota odpovídající n npozorovaným hodnotám x1, f ( x1 , , xn | ) f ( xi ; ) x2,…, xn je: i 1 f ( x; ) Sdružená hustota vyjadřuje(za předpokladu, že n známe θ), jak f ( x1 , , xn | ) f ( xi ; ) moc je pravděpodobné, že pozorované hodnotyi 1 pochází z rozdělení s hustotou Pointa metody maximální věrohodnosti: Dívat se na sdruženou hustotu jako Tomáš na funkci θ a vybrat Pavlík θ takové, aby výraz Biostatistika Věrohodnostní funkce Zavádíme tzv. věrohodnostní funkci („likelihood function“): L( | x1 , , xn ) f ( x1 , , xn | ) ˆMLE ho Maximálně věrohodný odhad, značíme , je číslo, které maximalizuje věrohodnostní funkci, tedy ˆMLE arg max L( | x1 , , xn ) Výpočetně se jedná o řešení rovnice (rovnic): dL( | x1 , , xn ) / d 0 Musíme si ještě ověřit, že se jedná o maximum – např. pomocí druhých derivací. Tomáš Pavlík Biostatistika Logaritmus věrohodnostní funkce Často je výhodnější (hlavně výpočetně jednodušší) maximalizovat logaritmus věrohodnostní funkce: n n l ( | x1 , , xn ) ln L( | x1 , , xn ) ln f ( xi ; ) ln f ( xi ; ) i 1 i 1 Bude maximum pro věrohodnostní funkci i logaritmus věrohodnostní funkce stejné? Pokud ano, tak proč? Tomáš Pavlík Biostatistika ML odhad parametru λ Poissonova rozdělení Máme n i.i.d. pozorování z Poissonova rozdělení: x1, x2,…, xn. Sdružená hustota má tvar: n e xi f ( x1 , , xn | ) i 1 xi ! Věrohodnostní funkce má tvar: L( | x1 , , xn ) f ( x1 , , xn | ) e n i xi / xi ! i Logaritmus věrohodnostní funkce má tvar: ln L( | x1 , , xn ) xi ln n ln( xi !) i i ˆMLE Jak vypadá ? Tomáš Pavlík Biostatistika ML odhad parametru λ Poissonova rozdělení Derivace logaritmu věrohodnostní funkce má tvar: d ln L xi / n 0 d i Výsledkem je průměr: ̂ i x i n Je to maximum? d 2 ln L d 2 i xi / 2 0 Tomáš Pavlík Biostatistika ML odhad parametru μ normálního rozdělení Máme n i.i.d. pozorování z normálního rozdělení: x1, x2,…, xn. Sdružená hustota má tvar: n 1 2 / 2 2 f ( x1 , , xn | , ) 2 e ( xi ) i 1 2 2 Logaritmus věrohodnostní funkce má tvar: n n 1 n ln L( | x1 , , xn ) ln 2 ln 2 2 2 2 2 i ( x i 1 ) 2 Parciální derivace logaritmu věrohodnostní funkce mají tvar: 1 n ln L / 2 ( x ) 0 i 1 i n 1 n 2 ln L / 2 2 2 4 i ( x i 1 ) 2 0 Tomáš Pavlík Biostatistika ML odhad parametru μ normálního rozdělení Výsledkem jsou následující odhady: 1 n ̂ MLE xi x n i 1 1 n ˆ 2 MLE ( xi x ) 2 n i 1 Tomáš Pavlík Biostatistika 4. Srovnání průměru a mediánu Nesmyslné použití průměru u asymetrických dat Chceme-li charakterizovat log-normální rozdělení z hlediska střední hodnoty, je použití průměru nesmyslné. Není totiž splněn model, pro který byl jako optimální odhad odvozen! Vhodnějším odhadem je medián a geometrický průměr (jsou teoreticky geometrický průměr = ekvivalentní pro log-normální medián data) průměr Geometrický průměr je průměr spočítaný na normálních datech, tedy po transformaci y = ln(x). Tomáš Pavlík Biostatistika Smysluplné použití průměru u asymetrických dat Chceme-li charakterizovat log-normální rozdělení z hlediska celkového součtu pozorovaných hodnot, je použití průměru smysluplné. Jedná-li se totiž např. o spotřebu nějakého materiálu, alkoholu nebo peněz, průměr popisuje z hlediska celkového součtu spotřebu lépe. Příklad: plánování celkové spotřeby nějakého materiálu, geometrický průměr = alkoholu nebo peněz do medián budoucna. průměr Tomáš Pavlík Biostatistika Smysluplné použití průměru u symetrických dat Pokud je splněn pravděpodobnostní model, tedy zejména normalita dat, je použití průměru na místě. Průměr je konzistentní odhad – pro n → ∞ konverguje k θ podle pravděpodobnosti. Pro rostoucí n máme zaručeno, že se průměr přibližuje k θ. n = 10 n = 50 n = 500 skutečná průměr mediá hodnota n Tomáš Pavlík Biostatistika Shrnutí – průměr vs. medián Výhody Nevýhody Využívá informace Citlivý na odlehlá celého souboru dat pozorování Průměr Jednoduché rozdělení Omezené použití u pravděpodobnosti asymetrických dat Využívá informaci Není citlivý na odlehlá pouze jednoho pozorování pozorování Medián Použití pro všechny Komplikované typy rozdělení dat pravděpodobnosti Tomáš Pavlík Biostatistika Shrnutí Používejte průměr! Ale vždy si ověřte předpoklad normality (nebo alespoň symetrie), případně Poissonova rozdělení dat! A taky se nezapomeňte podívat na odlehlé hodnoty! Pokud si něčím nejste jistí, použijte i medián. Useknutý průměr – odhad, který je svými vlastnostmi mezi průměrem a mediánem, spočítáme ho tak, že „odsekneme“ m nebo m % minimálních a maximálních hodnot a ze zbytku spočítáme průměr. Tomáš Pavlík Biostatistika