Statistica 2 PDF
Document Details
Uploaded by ModernTourmaline120
Università degli Studi di Padova
Antonio Canale
Tags
Summary
This document is a set of lecture notes on statistics, specifically covering topics like statistical inference, estimation of parameters, and properties of estimators. It appears to be from a university course, possibly in an undergraduate program, taught by Antonio Canale at the Universitá degli Studi di Padova.
Full Transcript
Statistica 2 Antonio Canale Questo materiale è una parziale rielaborazione dei testi indicati nonché di appunti e dispense a cura di G. Adimari, A. Salvan, G. Menardi e G. Masarotto, che ringrazio Cicchitelli, (2002), Cap. 5-6 Pace e Salvan (2001), § 2.2 Esemp...
Statistica 2 Antonio Canale Questo materiale è una parziale rielaborazione dei testi indicati nonché di appunti e dispense a cura di G. Adimari, A. Salvan, G. Menardi e G. Masarotto, che ringrazio Cicchitelli, (2002), Cap. 5-6 Pace e Salvan (2001), § 2.2 Esempio Una industria metallurgica produce lastre di metallo. Lo spessore previsto (nominale) è di 14mm. Naturalmente non ci si può attendere che tutte le lastre prodotte abbiano lo stesso spessore, esattamente pari a 14mm: il processo produttivo è soggetto ad una normale variabilità lo strumento di misurazione utilizzato per valutare lo spessore ha un limitato grado di precisione. (se lo strumento di misurazione ammettesse un grado di precisione dell’ordine dei micromillimetri, non sarebbe in grado di distinguere una lastra di spessore 14.00005 da una lastra di spessore pari a 14.00000) Ha senso assumere che la misura di una lastra sia Y = µ + l’errore di misura sia non sistematico e normale ∼ N (0, σ 2 ) ⇒ Y ∼ N (µ, σ 2 ). per semplicità, assumiamo in questo primo esempio caso che σ 2 sia nota e pari a 0.1 Sulla base della misurazione di un campione di n = 5 lastre (in mm) L’intuizione L’idea naturale delle procedure di stima è quella di combinare opportunamente i dati campionari in modo da assegnare un valore al parametro di interesse per µ ha senso considerare, ad es., le seguenti alternative: la media aritmetica di tutti i dati campionari 14.302 la semisomma del minimo e del massimo dei dati campionari 14.3 la mediana di tutti i dati campionari 14.33 I valori che otterremmo utilizzando le tre proposte potranno, nel migliore dei casi, assomigliare al vero valore della media della popolazione, e diremo infatti che essi forniscono una stima di tale valore. Ma come facciamo a capire quale tra le tre procedure è migliore? Principio del campionamento ripetuto (Idea) replicando, per campioni diversi, l’uso di una procedura (ad es., la media dei dati), otterremmo risultati sempre un po’ diversi; avrà senso allora scegliere quel modo di procedere che, a lungo andare, produce i risultati più “vicini” a quelli veri. In pratica, si osserva un solo campione, ma ragioneremo come se ne osservassimo tanti. Confronto tra procedure media semisomma min − max mediana 8 8 8 6 6 6 Density Density Density 4 4 4 2 2 2 0 0 0 13.8 14.0 14.2 13.8 14.0 14.2 13.8 14.0 14.2 Formalizzazione del problema statistiche campionarie Siamo interessati ad una caratteristica di una certa popolazione descritta dalla v.c. Y ∼ pY (y; θ) nota a meno del parametro θ Y ∼ N (µ, σ 2 = σ02 = 0.1) Dato un campione Y1 ,... , Yn tratto da Y , si tratta di stabilire qual è il modo migliore di combinare tale informazione per assegnare un valore al parametro θ Statistica campionaria Dato un campione casuale Y1 ,... , Yn , si chiama statistica campionaria ogni funzione Tn = g(Y1 ,... , Yn ) del campione Sono, ad es. statistiche campionarie: Pn Yi i=1 n Y(n) +Y(1) 2 dove Y(i) è l’i−esima osservazione in ordine crescente Y(n+1)/2 Pn i=1 Yi Formalizzazione del problema stimatori e stime Stimatore Si chiama stimatore θ̂ ogni statistica campionaria che non dipende dal parametro θ di interesse e viene usata per assegnare un valore a quest’ultimo Possibili stimatori di µ sono: Yi µ̂ = n P i=1 n Y(n) +Y(1) µ̂ = 2 dove Yi è l’i−esima osservazione in ordine crescente µ̂ = Y(n+1)/2 Pn i=1 Yi è invece una statistica campionaria ma non uno stimatore per µ Ogni stimatore è una statistica campionaria ma non sempre vale il contrario Statistiche e stimatori potranno avere vari valori al variare del campione Stima Il valore θ̂ di uno stimatore realizzato sul campione effettivamente osservato si chiama stima di θ Formalizzazione del problema distribuzioni campionarie Prima di osservare il campione, i valori assunti dalla variabile Y di interesse sulle unità campionate Y1 ,... , Yn sono non noti, ovvero sono v.c. ciascuna con distribuzione di probabilità pY (·; θ) Dopo aver estratto il campione ne diventano sue realizzazioni y1 ,... , yn Statistiche campionarie e stimatori, in quanto funzioni di v.c., sono essi stessi v.c. Ogni stima è una realizzazione della corrispondente v.c. stimatore Distribuzione campionaria Si chiama distribuzione campionaria la distribuzione di probabilità di una statistica campionaria Formalizzazione del problema principio del campionamento ripetuto La distribuzione campionaria non è altro che la distribuzione dei valori di una statistica Tn = g(Y1 ,... , Yn ) al variare di tutti i possibili campioni Y1 ,... , Yn che possono essere generati da Y In realtà noi osserviamo un solo campione, tuttavia per decidere riguardo alla qualità della stima che forniremo ci basiamo sul comportamento della procedura quando è applicata un gran numero di volte. In molti casi, non c’è bisogno di riprodurre cosa accade quando si ripete il campionamento. Il calcolo delle probabilità ci consente di descrivere il comportamento statistico di alcuni stimatori La distribuzione campionaria di una statistica è fondamentale per per fare inferenza permette di stabilire criteri di preferenza tra stimatori alternativi permette di costruire stime intervallari permette di verificare ipotesi statistiche Principio del campionamento ripetuto l’adeguatezza di uno stimatore θ̂ si valuta considerandolo come una v.c. e studiando le proprietà di tale v.c. mediante la sua distribuzione campionaria Proprietà degli stimatori Sia allora Y ∼ pY (y, θ) la variabile di interesse, osservata su un campione Y1 ,... , Yn e sia θ̂ = Tn = g(Y1 ,... , Yn ) uno stimatore per θ Se da una parte, la distribuzione campionaria fornisce uno strumento per valutare la bontà di uno stimatore, dall’altra è necessario stabilire cosa si intenda per bontà di uno stimatore La questione non è banale poichè se θ è un numero, il suo stimatore θ̂ è una v.c. Nei problemi di stima puntuale la bontà degli stimatori verrà misurata valutando alcuni specifici aspetti della distribuzione Sono tuttavia molti ed eterogenei gli aspetti da considerare nel confrontare θ con θ̂ e non sempre tali aspetti sono compatibili tra loro sufficienza correttezza o non distorsione efficienza consistenza Proprietà degli stimatori Esempi Se il nostro obiettivo è fare inferenza sulla media µ di una v.c. Y e disponiamo di tre stimatori aventi le distribuzioni campionarie riportate nella Figura, quale tra i tre stimatori sceglieremo? 0.4 0.3 0.2 0.1 0.0 µ Proprietà degli stimatori sufficienza Quando a partire dal campione si vuole fare inferenza su un parametro θ, si opera sempre una sintesi dell’informazione; è ragionevole attendersi che tale sintesi debba essere ricercata in modo da non disperdere quelle caratteristiche riguardanti θ che sono contenute nel campione. Intuitivamente, siamo portati a pensare che volendo stimare la media µ di una popolazione, sia più ragionevole calcolare la media delle osservazioni campionarie rispetto alla semisomma tra il massimo e il minimo, in quanto il primo modo di procedere permette di sfruttare tutta l’informazione disponibile Questa idea può essere formalizzata nella proprietà generale di sufficienza di una statistica o di uno stimatore Sufficienza Sia Y1 ,... , Yn un campione tratto da una v.c. Y ∼ pY (y; θ). Diremo che Tn = g(Y1 ,... , Yn ) è sufficiente per θ se la distribuzione condizionata pY1 ,...,Yn (y1 ,... , yn |Tn ) non dipende da θ Proprietà degli stimatori sufficienza In altre parole, una statistica sufficiente racchiude ed esaurisce tutte le informazioni riguardanti il parametro θ di interesse e contenute nel campione Si osservi che la sufficienza si definisce in rapporto ad un parametro θ che caratterizza uno specifico modello statistico pY ; senza la specificazione del modello statistico non è possibile parlare di sufficienza Siano Y1 , Y2 , Y3 iid da Y ∼ Be(π) e siano T1 = Y1 + Y2 + Y3 e T2 = Y1 + 2Y2 + Y3 con T 1 ∈ {0, 1, 2, 3} e T2 = {0, 1, 2, 3, 4}. Mostrare che T1 è sufficiente per π mentre T2 non lo è Se Tn è statistica sufficiente per θ, allora lo è anche qualsiasi funzione biettiva g(Tn ) In molti casi è difficile stabilire se la condizione di sufficienza sia verificata sulla base della definizione stessa. =⇒ Esistono delle condizioni più semplici da verificare per garantire la sufficienza di una statistica (le vedremo nelle prossime lezioni) Proprietà degli stimatori non distorsione Potendo scegliere si vorrebbe che l’errore di stima θ̂ − θ fosse nullo. Ma questa è una richiesta insensata perché potrebbe essere soddisfatta solo conoscendo ciò che si vuole stimare Un requisito ragionevole è la correttezza o non distorsione Non distorsione Uno stimatore θ̂ del parametro θ si dice corretto o non distorto se E θ̂ = θ Si chiama distorsione l’errore sistematico di stima, rappresentato dalla quantità B(θ̂) = E θ̂ − θ ^ θ ^ θ 1 2 B(θ ^ ) 2 θ Proprietà degli stimatori non distorsione asintotica Un requisito un po’ meno stringente rispetto alla correttezza, è la correttezza asintotica L’idea è che lo stimatore sia in grado di sfruttare ogni nuovo dato, qualora disponibile Si richiede in pratica che l’eventuale distorsione dello stimatore tenda a ridursi fino a sparire all’aumentare della dimensione campionaria Non distorsione asintotica Uno stimatore θ̂ del parametro θ si dice asintoticamente corretto o asintoticamente non distorto se limn→∞ E θ̂n = θ dove la notazione θ̂n è qui usata per sottolineare la dipendenza da n Proprietà degli stimatori efficienza La non distorsione ci dice se gli errori in media si compensano, ma nulla dice di quanto (in media) questi errori possano essere grandi. D’altra parte, il valor medio di una v.c. è tanto più rappresentativo della sua distribuzione quanto più è piccola la sua varianza n o 2 var θ̂ = E θ̂ − E θ̂ ^ θ 2 ^ θ 1 θ Proprietà degli stimatori efficienza Poiché la varianza misura la sua dispersione intorno alla media, rappresenta una misura di bontà solo per stimatori non distorti Una misura di bontà globale è invece Errore quadratico medio L’ errore quadratico medio di θ̂ (EQM o MSE) è la media dei quadrati degli errori di stima θ̂ − θ 2 E θ̂ − θ Proprietà degli stimatori efficienza Efficienza relativa Uno stimatore θ̂1 del parametro θ è più efficiente di uno stimatore θ̂2 del medesimo parametro se EQM (θ̂1 ) < EQM (θ̂2 ) EQM (θ̂2 ) Una misura di efficienza relativa di θ̂1 è data dal rapporto eff(θ̂1 , θ̂2 ) = EQM (θ̂1 ) Proprietà degli stimatori efficienza Attenzione: l’EQM può dipendere da quantità non note il confronto in termini di EQM non è sempre possibile Vale la seguente scomposizione: 2 n o EQM (θ̂) = E θ̂ − θ = var θ̂ + B(θ̂)2 (1) =⇒ tra due stimatori corretti sarà più efficiente quello a varianza minore Proprietà degli stimatori efficienza Diseguaglianza di Cramèr-Rao Sia Y1 ,... , Yn un campione tratto da una v.c. Y ∼ pY (y; θ) e sia θ̂ = g(Y1 ,... , Yn ) uno stimatore non distorto per θ. Sotto opportune condizioni di regolarità vale la seguente: n o 1 1 var θ̂ ≥ = 2 I(θ) nE dθd log pY (y; θ) Proprietà degli stimatori efficienza n o 1 Uno stimatore non distorto θ̂ per il parametro θ tale che var θ̂ = I(θ) - se esiste - si dice efficiente Efficienza Si definisce efficienza di uno stimatore non distorto la quantità 1 eff(θ̂) = n o var θ̂ I(θ) Si noti che l’efficienza dipende dal modello statistico sottostante Proprietà degli stimatori efficienza asintotica La proprietà di efficienza può essere rilassata in modo da essere valida solo per campioni grandi Efficienza relativa Uno stimatore θ̂1n del parametro θ è asintoticamente più efficiente di uno stimatore θ̂2n del medesimo parametro se EQM (θ̂2n ) eff(θ̂1n , θ̂2n ) = limn→∞ >1 EQM (θ̂1n ) In virtù della (1) =⇒ tra due stimatori asintoticamente corretti sarà più efficiente quello a varianza minore Proprietà degli stimatori consistenza Quando n aumenta, è desiderabile che θ̂ si avvicini al parametro θ Consistenza (in senso debole) Uno stimatore θ̂n si dice consistente (in senso debole) se P θ̂n → θ, n→∞ dove la notazione θ̂n è qui usata per sottolineare la dipendenza da n Proprietà degli stimatori consistenza Una condizione sufficiente per la consistenza è la seguente: 2 limn→∞ EQM (θ̂n ) = limn→∞ E θ̂n − θ = 0 Segue quindi dalla (1) che condizione sufficiente per la consistenza è che limn→∞ E θ̂n = θ (non distorsione asintotica) n o limn→∞ var θ̂n = 0 Stima della media la media campionaria Volendo stimare la media µ di una v.c., alla luce delle considerazioni fatte, sembra che la strada più ragionevole da percorrere sia anche la più intuitiva, che consiste nel calcolare la media delle osservazioni campionarie Media campionaria Dato un campione Y1 ,... , Yn da una v.c. Y , la media campionaria è una v.c. che si ottiene come media aritmetica delle osservazioni campionarie: Pn Yi Y = i=1 n Stima della media la media campionaria Se Y1 ,... , Yn sono i.i.d. tratte da una v.c. Y tale che E (Yi ) = µ e var{Yi } = σ 2 , è facile dimostrare che: La media campionaria è uno stimatore corretto per la media µ E Y =µ La media campionaria è uno stimatore consistente per la media µ σ2 var Y = n EQM (Y ) = var Y + B(Y )2 σ 2 n→∞ = −→ 0 n Se, inoltre, Y ∼ N (µ, σ 2 ), allora Y ∼ N (µ, σ 2 /n) e Y è inoltre stimatore efficiente per µ Stima della media la media campionaria N(0,1) Exp(1) 0.4 1.0 0.8 0.3 0.6 dexp(x) 0.2 0.4 0.1 0.2 0.0 0.0 −3 −2 −1 0 1 2 3 0 1 2 3 4 5 media campionaria, media campionaria, x n=5 x n=5 70 60 60 50 50 40 40 Frequency 30 30 20 20 10 10 0 0 −1.0 −0.5 0.0 0.5 1.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0 media campionaria, media campionaria, m10 n=100 m10 n=100 120 120 100 100 80 80 Frequency 60 60 40 40 20 20 0 0 Esempio Stima della media Nell’esempio delle barre di acciaio, se vogliamo usare la media campionaria come stimatore per µ, allora la nostra stima di µ è µ̂ = Y = 14.302 la distribuzione del nostro stimatore è: σ2 0.1 Y ∼ N (µ, = = 0.02) n 5 14 14.302 | x possiamo inoltre ricavare agevolmente la distribuzione del nostro errore di stima Y − µ ∼ N (0, 0.02) Stima della varianza la varianza campionaria Volendo stimare la varianza σ 2 di una v.c., alla luce delle considerazioni fatte, proviamo a ragionare Pn in modo2 analogo al caso precedente, e consideriamo il seguente stimatore: 2 (Y −µ) σ̂µ = i=1 n i E’ facile mostrare che lo stimatore è: corretto consistente σ2 2 se Yi ∼ N (µ, σ 2 ) allora σ̂µ2 ∼ n χn La situazione prospettata è tuttavia poco realistica, perché di norma µ non è nota ed è necessario sostituirla con una sua stima Varianza campionaria Dato un campione Y1 ,... , Yn da una v.c. Y , la varianza campionaria è una v.c. che si ottiene come varianza delle osservazioni campionarie: Pn 2 (Yi − Y )2 σ̂ = i=1 n Stima della varianza la varianza campionaria Se Y1 ,... , Yn sono i.i.d. tratte da una v.c. Y tale che E (Yi ) = µ e var{Yi } = σ 2 , si può dimostrare che: la varianza campionaria è uno stimatore distorto per la varianza σ 2 (n − 1) 2 E σ̂ 2 = σ. n Varianza campionaria corretta Dato un campione Y1 ,... , Yn da una v.c. Y , la varianza campionaria corretta è definita come Pn (Yi − Y )2 S 2 = i=1 n−1 S 2 è uno stimatore corretto e consistente per la varianza σ 2 2 Se, inoltre, Y ∼ N (µ, σ 2 ), allora S 2 ∼ σ χ2n−1 Stima del parametro di una popolazione Bernoulliana Sia Y1 ,... , Yn un campione tratto da Y ∼ Be(π) e si voglia fare inferenza su π Poiché E (Y ) = π questo rappresenta un ulteriore esempio di stima della media di una popolazione, e #1 1X π̂ = = Yi = Y n n è quindi, rispetto al parametro π uno stimatore: corretto 1X E (π̂) = E Y = E (Yi ) = π n i consistente 1 var{π̂} = var Y = π(1 − π) n efficiente 1 var{π̂} = I(π) Inoltre nπ̂ ∼ Bi(n, π) oppure, se il campione ha numerosità elevata π̂ ∼ N (π, π(1−π) n ) Metodi per la costruzione di stimatori Abbiamo imparato che uno stimatore è una funzione θ̂ = Tn = g(Y1 ,... , Yn ) del campione che si utilizza per stimare un parametro θ Una volta definito uno stimatore, abbiamo inoltre imparato a caratterizzare la qualità di uno stimatore in base alle sue proprietà Ma come scegliere la funzione T ? Vari metodi: metodo dell’analogia tra stimatore e parametro metodo dei momenti metodo dei minimi quadrati metodo della massima verosimiglianza Analogia stimatore/parametro Il metodo dell’analogia è una classe di procedure euristiche che emula lo schema utilizzato finora: definisce uno stimatore in base all’analogia tra lo stimatore stesso e il parametro di interesse Per stimare la media della popolazione si usa la media campionaria Per stimare la proporzione della popolazione si usa la proporzione campionaria In generale, se consideriamo una funzione del parametro, w = g(θ), e abbiamo una stima θ̂ di θ allora una stima di w è data da ŵ = g(θ̂) Pn Se Y ∼ Esp(λ), essendo E (Y ) = 1/λ una naturale stima di λ è data da 1/Y = n/ i=1 Yi Attenzione: talvolta l’analogo campionario non è la scelta migliore Per stimare la varianza della popolazione si può usare la varianza campionaria ma tale stimatore è distorto Se Y ∼ λ, lo stimatore λ̂ = n/ n P i=1 Yi è distorto Attenzione: talvolta esistono più analoghi campionari Metodo dei momenti Anche il metodo dei momenti conduce alla definizione di stimatori “naturali” dei parametri. Il metodo dei momenti richiede due condizioni l’esistenza dei momenti della v.c. di interesse in numero pari al numero di parametri da stimare Se Y ∼ Ga(α, λ) abbiamo garanzia che E (Y ) e E (Y )2 esistano finiti e quindi possiamo stimare sia αeλ la conoscenza delle relazioni che legano i momenti ai parametri che si vogliono stimare α e var{Y } = E Y 2 − E (Y )2 = α Se Y ∼ Ga(α, λ) sappiamo che E (Y ) = λ λ2 Metodo dei momenti Poiché i momenti di una v.c. Y ∼ pY (y; θ)θ ∈ Rm sono una funzione dei parametri E (Y )r = g(θ), r = 1,... , m il metodo dei momenti consiste nello stimare i momenti della distribuzione con i corrispondenti momenti campionari e i parametri di interesse risolvendo l’equazione n 1X r Yi = g(θ), r = 1,... , m (2) n i=1 1 P Y 1 P α i i n i Yi = λ ⇒ λ̂ = 1 n 2 1 P Y 2 ( ) P i Yi − n i i Se Y ∼ Ga(α, λ) risolvendo: n 1 P Y 2 1 P 2 1 P 2 α ( i i) i Yi − ⇒ α̂ = n i Yi = n n λ2 1 2 ( 1 P Y 2 ) P n i Yi − n i i Metodo dei momenti Gli stimatori ottenuti con il metodo dei momenti sono quindi funzione dei momenti campionari e in quanto tali esprimibili come somme, pesate inversamente rispetto a n di quantità aleatorie. Essi sono pertanto: consistenti asintoticamente non distorti asintoticamente Normali (in virtù del teorema del limte centrale) Non è tuttavia garantita la loro correttezza finita la loro efficienza la loro coerenza di in termini di determinazione di una stima espressa nella stessa unità di misura di Y Metodo dei minimi quadrati In molte situazioni è ragionevole assumere che il fenomeno di interesse Y ∼ pY sia esprimibile come Yi = gi (θ) + i dove gi (θ) è una funzione nota e deterministica, che dipende dal parametro di interesse θ e è una quantità stocastica, che tipicamente esprime l’effetto di errori accidentali. Si assume che E ()i = 0, var{}i = σ 2 e Cov(i , j ) = 0 i = 1, 2,... , n, i 6= j Il metodo dei minimi quadrati stima θ minimizzando la distanza: Xn θ̂ = argminθ (yi − gi (θ))2 i=1 ovvero, se g è una funzione regolare: n n d X d2 X θ̂ è tale che (yi − gi (θi ))2 = 0 e (yi − gi (θi ))2 > 0 dθ dθ i=1 i=1 tale procedura è tipicamente utilizzata quando g(θ) può pensarsi funzione di altre variabili, dette esplicative, ad es. gi (θ) = θxi Metodo della massima verosimiglianza Il metodo della massima verosimiglianza si basa su un principio molto elementare: tra tutti i possibili valori di θ viene selezionato quello che corrisponde alla massima probabilità di generare i dati osservati Se il campione Y1 ,... , Yn deriva da un modello statistico pY (y : θ), si può calcolare la probabilità della specifica n−upla osservata, fissato θ = θ0 : n Y pY1 ,...,Yn (y1 ,... , yn ; θ = θ0 ) = pY (yi ; θ0 ) i=1 Se ora si calcola θ = θ1 6= θ0 , n Y pY1 ,...,Yn (y1 ,... , yn ; θ = θ1 ) = pY (yi ; θ1 ) 6= pY1 ,...,Yn (y1 ,... , yn ; θ = θ0 ) i=1 Metodo della massima verosimiglianza Si chiama verosimiglianza la funzione che si ottiene, fissato il campione osservato, al variare di tutti i possibili θ ∈ Θ: L(θ; y1 ,... , yn ) = pY1 ,...,Yn (y1 ,... , yn ; θ) ⇒ la stima di massima verosimiglianza corrisponde al valore massimo di tale funzione, ovvero al parametro più plausibile alla luce dei dati Metodo della massima verosimiglianza Rispetto agli altri metodi di stima la massima verosimiglianza richiede necessariamente ed esplicitamente la specificazione del modello statistico Gli stimatori di massima verosimiglianza godono di ottime proprietà formali non distorsione asintotica consistenza efficienza asintotica asintoticamente Normali... Data l’importanza di questa procedura in tutta l’inferenza statistica, essa sarà oggetto di tutta la seconda parte del corso