Evidenziato Econometria A.A. 23/24 PDF
Document Details
Uploaded by Deleted User
Università degli Studi di Foggia
2024
Giuseppe Pio Bisceglia
Tags
Related
- Chapter 1: Introduction to Econometrics PDF
- Économétrie des variables qualitatives PDF
- Mestrado em Matemática Financeira - Econometria dos Mercados Financeiros (FCUL e ISCTE) PDF
- STA 773 Advanced Econometric Methods Lecture 3 PDF
- Econometrics I Past Paper PDF
- LECGE1316 Econométrie - Synthèse complète 2023 - PDF
Summary
These are lecture notes on econometrics for the 2023-2024 academic year at the University of Foggia, covering topics like data classification, random variables, regression analysis, and hypothesis testing. The lecture notes are part of the "Banca, Finanza e Mercati" course.
Full Transcript
ECONOMETRIA A.A. 23/24 UNIVERSITÀ DEGLI STUDI DI FOGGIA Facoltà di Economia. Corso di laurea in Banca, Finanza e Mercati Giuseppe Pio Bisceglia SOMMARIO CAPITOLO...
ECONOMETRIA A.A. 23/24 UNIVERSITÀ DEGLI STUDI DI FOGGIA Facoltà di Economia. Corso di laurea in Banca, Finanza e Mercati Giuseppe Pio Bisceglia SOMMARIO CAPITOLO 1. REVISIONE ARGOMENTI DI STATISTICA.............................................................................................. 6 INTRODUZIONE ALL’ECONOMETRIA............................................................................................................................. 6 Classificazione dei dati.............................................................................................................................................. 6 VARIABILI ALEATORIE DISCRETE E ASPETTATIVE........................................................................................................... 6 Variabili aleatorie discrete......................................................................................................................................... 6 Valore atteso di una variabile aleatoria.................................................................................................................... 7 Valore atteso di una funzione di una variabile aleatoria........................................................................................... 8 Variabile aleatoria. Distribuzione di probabilità. Funzione di ripartizione................................................................ 8 Regole valore atteso.................................................................................................................................................. 9 Varianza di una variabile aleatoria discreta.............................................................................................................. 9 Componente fissa e casuale di una variabile aleatoria........................................................................................... 10 Esempio................................................................................................................................................................... 11 VARIABILI ALEATORIE DISCRETE PARTICOLARI............................................................................................................ 12 Uniforme discreta.................................................................................................................................................... 12 Bernoulliana............................................................................................................................................................ 12 Distribuzione........................................................................................................................................................... 12 Distribuzione Ipergeometrica.................................................................................................................................. 13 Distribuzione di Poisson.......................................................................................................................................... 13 Distribuzione geometrica........................................................................................................................................ 13 VARIABILI ALEATORIE CONTINUE................................................................................................................................ 14 Densità di probabilità.............................................................................................................................................. 14 Indipendenza di due variabili aleatorie................................................................................................................... 16 COVARIANZA, REGOLE DI COVARIANZA E VARIANZA E CORRELAZIONE..................................................................... 16 Covarianza............................................................................................................................................................... 16 Regole della covarianza........................................................................................................................................... 16 Regole della varianza o dello scostamento............................................................................................................. 17 Coefficiente di correlazione.................................................................................................................................... 17 CAMPIONI, LA DOPPIA STRUTTURA DI UNA VARIABILE E GLI STIMATORI.................................................................. 18 Campionamento...................................................................................................................................................... 18 Stimatore................................................................................................................................................................. 19 Proprietà di uno stimatore...................................................................................................................................... 20 Stimatori di varianza, covarianza e correlazione..................................................................................................... 22 LA DISTRIBUZIONE NORMALE..................................................................................................................................... 23 CONTROLLO DI UN'IPOTESI......................................................................................................................................... 23 Formulazione di un'ipotesi nulla e sviluppo delle sue implicazioni........................................................................ 24 Compatibilità, stranezza e livello di significatività................................................................................................... 24 1 Errore di tipo II e power test................................................................................................................................... 27 t tests....................................................................................................................................................................... 30 Intervallo di confidenza........................................................................................................................................... 32 PROPRIETÀ ASINTOTICHE DEGLI STIMATORI............................................................................................................... 32 Limiti di probabilità................................................................................................................................................. 32 Consistenza............................................................................................................................................................. 33 Regole per la decomposizione dei 𝑝𝑙𝑖𝑚................................................................................................................. 34 Teorema del limite centrale.................................................................................................................................... 35 CAPITOLO 2. ANALISI REGRESSIONE SEMPLICE.................................................................................................... 36 MODELLO DI REGRESSIONE SEMPLICE....................................................................................................................... 36 DERIVAZIONE DEI COEFFICIENTI DI REGRESSIONE...................................................................................................... 37 Modello di regressione senza intercetta................................................................................................................. 38 DUE RISULTATI IMPORTANTI RELATIVI ALLE REGRESSIONI OLS................................................................................... 39 Il valore medio dei residui è zero............................................................................................................................ 39 La correlazione campionaria tra le osservazioni su 𝑋 e i residui è zero.................................................................. 39 BONTÀ DELL’ADATTAMENTO: 𝑅 2................................................................................................................................. 40 Criterio di bontà...................................................................................................................................................... 40 Un’interpretazione alternativa di 𝑅 2...................................................................................................................... 40 CAPITOLO 3. PROPRIETÀ DEI COEFFICIENTI DI REGRESSIONE E TEST DI IPOTESI.................................................... 42 TIPI DI DATI.................................................................................................................................................................. 42 MODELLI DI REGRESSIONE.......................................................................................................................................... 42 IPOTESI PER MODELLI DI REGRESSIONE CON REGRESSORI NON STOCASTICI............................................................ 42 LE COMPONENTI CASUALI E L'IMPARZIALITÀ DEI COEFFICIENTI DI REGRESSIONE OLS.............................................. 44 Le componenti casuali dei coefficienti di regressione OLS..................................................................................... 44 L'imparzialità dei coefficienti di regressione OLS.................................................................................................... 45 SIMULAZIONE MONTE CARLO..................................................................................................................................... 45 PRECISIONE DEI COEFFICIENTI DI REGRESSIONE........................................................................................................ 47 Varianze dei coefficienti di regressione................................................................................................................... 47 Errori standard dei coefficienti di regressione........................................................................................................ 49 Il teorema di Gauss-Markov.................................................................................................................................... 50 TEST DI IPOTESI RELATIVI AI COEFFICIENTI DI REGRESSIONE...................................................................................... 50 p values................................................................................................................................................................... 52 Test unilaterali......................................................................................................................................................... 53 Intervalli di confidenza............................................................................................................................................ 55 Significatività dei coefficienti.................................................................................................................................. 56 F TEST DELLA BONTÀ DI ADATTAMENTO..................................................................................................................... 56 CAPITOLO 4. ANALISI DI REGRESSIONE MULTIPLA............................................................................................... 58 ILLUSTRAZIONE: UN MODELLO DI REGRESSIONE MULTIPLA CON DUE VARIABILI ESPLICATIVE................................. 58 2 DERIVAZIONE E INTERPRETAZIONE DEI COEFFICIENTI DI REGRESSIONE MULTIPLA................................................... 59 PROPRIETÀ DEI COEFFICIENTI DI REGRESSIONE MULTIPLA........................................................................................ 60 Imparzialità (o correttezza)..................................................................................................................................... 60 Efficienza................................................................................................................................................................. 61 Precisione dei coefficienti di regressione multipla................................................................................................. 61 MULTICOLLINEARITÀ................................................................................................................................................... 62 Metodi diretti per attenuare la multicollinearità.................................................................................................... 63 Metodi indiretti per attenuare la multicollinearità................................................................................................. 64 F TEST DELLA BONTÀ DI ADATTAMENTO PER L'INTERA EQUAZIONE.......................................................................... 65 Esempio................................................................................................................................................................... 65 F TEST RELATIVI A GRUPPI DI VARIABILI ESPLICATIVE................................................................................................. 66 Esempio................................................................................................................................................................... 67 Relazione tra F statistic e t statistic......................................................................................................................... 67 PREDIZIONE................................................................................................................................................................. 69 CAPITOLO 5. MODELLI NON-LINEARI E TRANSFORMAZIONE DELLE VARIABILI...................................................... 71 LINEARITÀ E NON LINEARITÀ....................................................................................................................................... 71 TRASFORMAZIONI LOGARITMICHE............................................................................................................................. 71 Modelli logaritmici.................................................................................................................................................. 71 Modelli semilogaritmici........................................................................................................................................... 73 Il termine di disturbo nei modelli logaritmici.......................................................................................................... 74 Confronto tra modelli lineari e logaritmici.............................................................................................................. 75 MODELLI CON VARIABILI QUADRATICHE E INTERATTIVE............................................................................................ 75 Variabili quadratiche............................................................................................................................................... 76 Variabili esplicative interattive................................................................................................................................ 76 Il test RESET (REgression Specification Error Test) di Ramsey per errata specificazione della forma funzionale... 76 REGRESSIONE NON LINEARE....................................................................................................................................... 77 CAPITOLO 6. VARIABILI DUMMY......................................................................................................................... 78 ILLUSTRAZIONE DELL'USO DI UNA VARIABILE DUMMY.............................................................................................. 78 Errori standard e verifica delle ipotesi.................................................................................................................... 80 ESTENSIONE A PIÙ DI DUE CATEGORIE E A PIÙ INSIEMI DI VARIABILI DUMMY......................................................... 80 Cambio categoria di riferimento............................................................................................................................. 83 La trappola della variabile dummy.......................................................................................................................... 83 VARIABILI DUMMY DI PENDENZA............................................................................................................................... 84 IL CHOW TEST.............................................................................................................................................................. 87 CAPITOLO 7. SPECIFICAZIONE DELLE VARIABILI DI REGRESSIONE.......................................................................... 90 SPECIFICAZIONE DEL MODELLO.................................................................................................................................. 90 L'EFFETTO DELL'OMISSIONE DI UNA VARIABILE (RILEVANTE) CHE DOVREBBE ESSERE INCLUSA............................... 90 L'EFFETTO DI INCLUDERE UNA VARIABILE (IRRILEVANTE) CHE NON DOVREBBE ESSERE INCLUSA............................ 91 3 VARIABILI PROXY......................................................................................................................................................... 92 TESTARE UNA RESTRIZIONE LINEARE.......................................................................................................................... 93 F Test di una restrizione lineare.............................................................................................................................. 93 La riparametrizzazione di un modello di regressione............................................................................................. 94 t test di una restrizione lineare............................................................................................................................... 95 Molteplici restrizioni............................................................................................................................................... 96 Zero restrizioni........................................................................................................................................................ 96 CAPITOLO 8. ETEROSCHEASTICITÀ....................................................................................................................... 97 ETEROSCHEDASTICITÀ E SUE IMPLICAZIONI............................................................................................................... 97 RILEVAZIONE DELL'ETEROSCHEDASTICITÀ.................................................................................................................. 98 Il Goldfeld-Quandt test............................................................................................................................................ 98 Il White test............................................................................................................................................................. 98 RIMEDI PER L'ETEROSCHEDASTICITÀ.......................................................................................................................... 99 Errori standard coerenti con l'eteroschedasticità di White................................................................................... 100 Quanto gravi sono le conseguenze dell'eteroschedasticità?................................................................................ 100 CAPITOLO 9. REGRESSORI STOCASTICI ED ERRORI DI MISURA............................................................................ 102 IPOTESI PER MODELLI CON REGRESSORI STOCASTICI............................................................................................... 102 PROPRIETÀ REGRESSORI STOCASTICI........................................................................................................................ 102 Correttezza............................................................................................................................................................ 102 Precisione ed efficienza......................................................................................................................................... 103 Consistenza........................................................................................................................................................... 103 Normalità asintotica dei coefficienti di regressione.............................................................................................. 104 LE CAUSE DELL’ENDOGENEITÀ.................................................................................................................................. 104 Errori di misura nelle variabili esplicative............................................................................................................. 104 Errori di misura nella variabile dipendente........................................................................................................... 106 VARIABILI STRUMENTALI........................................................................................................................................... 106 Distribuzione asintotica dello stimatore IV........................................................................................................... 107 CAPITOLO 10. STIMA DI EQUAZIONI SIMULTANEE.............................................................................................. 109 MODELLI AD EQUAZIONI SIMULTANEE: EQUAZIONI STRUTTURALI E IN FORMA RIDOTTA...................................... 109 DISTORSIONE DA EQUAZIONI SIMULTANEE.............................................................................................................. 109 STIMA DELLE VARIABILI STRUMENTALI..................................................................................................................... 111 Sottoidentificazione.............................................................................................................................................. 112 Sovraidentificazione.............................................................................................................................................. 113 Minimi quadrati a due stadi.................................................................................................................................. 113 La condizione dell'ordine per l'identificazione...................................................................................................... 114 CAPITOLO 11. MODELLI A SCELTA BINARIA E VARIABILI DIPENDENTI LIMITATE E STIMA DELLA MASSIMA VEROSIMIGLIANZA........................................................................................................................................... 115 IL MODELLO DI PROBABILITÀ LINEARE...................................................................................................................... 115 4 ANALISI LOGIT........................................................................................................................................................... 117 ANALISI PROBIT......................................................................................................................................................... 119 REGRESSIONI CENSURATE: ANALISI DI TOBIT........................................................................................................... 120 BIAS DI SELEZIONE..................................................................................................................................................... 122 La procedura in due fasi di Heckman.................................................................................................................... 123 INTRODUZIONE ALLA STIMA DI MASSIMA VEROSIMIGLIANZA................................................................................ 123 Generalizzazione ad un campione di 𝑛 osservazioni............................................................................................ 125 Generalizzazione al caso in cui 𝜎 non è noto........................................................................................................ 125 Applicazione al modello di regressione semplice................................................................................................. 126 5 CAPITOLO 1. REVISIONE ARGOMENTI DI STATISTICA INTRODUZIONE ALL’ECONOMETRIA Econometria è il termine usato per descrivere l'applicazione di metodi statistici alla quantificazione e alla valutazione critica di ipotetiche relazioni, il tutto utilizzando dei dati. In statistica vi sono due principali fonti di dati: ✓ dati sperimentali, che servono per valutare un’azione o un effetto causale tra due variabili mantenendo un “ambiente” piuttosto asettico; ✓ dati osservazionali, che sono tutte quelle informazioni che è possibile derivare da database (raccolta organizzata di dati archiviati come più set di dati) o precedenti dataset (raccolta strutturata di dati generalmente associati a un unico corpo di lavoro). L’econometria fa ampio uso di banche dati (come World Bank Data, Nomenclature of Territorial Units for Statistics– NUTS), per cui i dati sono spesso derivati da una fonte primaria che ne ha provveduto alla raccolta. I ricercatori econometrici si dedicano spesso alla raccolta di dati non sperimentali, noti come dati osservazionali. In termini molto semplici, si raccolgono dati che permettono di comprendere il mondo reale senza alcun intervento da parte del ricercatore nella formazione del dato. Classificazione dei dati Quando si esegue uno studio econometrico, il primo fondamentale passo è quello di definire che tipo di studio si sta conducendo. la statistica fa una netta distinzione tra tre tipologie di studi: 1. studi per dati sezionali (o cross-sectional data1), ossia dati derivati da unità statistiche diverse, osservate per un solo periodo di tempo (ad esempio, la rilevazione delle principali variabili macroeconomiche in uno specifico anno); 2. studi per dati temporali (di cui le serie temporali2), ossia dati riferiti ad una sola unità statistica e per un arco temporale comprensivo di differenti periodi (ad esempio più anni o più frazioni di anno). Esempi tipici sono quelli che riguardano l’andamento nel tempo dei tassi di inflazione o di disoccupazione in uno Stato o l’andamento di un titolo azionario. 3. e studi per dati longitudinali (o panel data3), ossia dati che riguardano l’osservazione di più unità statistiche per due o più periodi. VARIABILI ALEATORIE DISCRETE E ASPETTATIVE Variabili aleatorie discrete La differenza tra statistica parametrica e non parametrica si basa sulla conoscenza o ignoranza della distribuzione di probabilità della variabile da studiare. La statistica parametrica utilizza calcoli e procedure presumendo che si sappia come è distribuita la variabile aleatoria da studiare. Al contrario, la statistica non parametrica utilizza metodi per scoprire come si distribuisce un fenomeno e, successivamente, utilizza tecniche di statistica parametrica. Una variabile aleatoria discreta è quella che ha un insieme specifico di valori possibili. Un esempio è il punteggio totale quando vengono lanciati due dadi. Supponiamo che uno di essi sia verde e l'altro rosso. Quando vengono lanciati, ci sono 36 possibili risultati sperimentali, poiché quello verde può essere uno qualsiasi dei numeri da 1 a 6 e quello rosso altrettanto. La variabile aleatoria definita come la loro somma, che chiameremo 𝑿, può assumere solo uno degli 11 valori: i numeri da 2 a 12. La relazione tra i risultati sperimentali e i valori di questa variabile aleatoria è illustrata nella tabella1. 1 Struttura di tipo 𝑁 ∗ 1 2 Struttura di tipo 1 ∗ 𝑇 3 Struttura di tipo 𝑁 ∗ 𝑇 6 Tabella 1. Frequenze e distribuzione di probabilità, esempio con due dadi Supponendo che i dadi siano equilibrati, possiamo usare la tabella per calcolare la probabilità che si verifichi ogni 1 valore di X. Poiché ci sono 36 diverse combinazioni di dadi, ogni risultato ha probabilità. {Verde = 1, rosso = 1} è 36 1 l'unica combinazione che dà un totale di 2, quindi la probabilità di X = 2 è 36. Per ottenere X = 7 avremmo bisogno di {verde = 1, rosso= 6} oppure {verde = 2, rosso = 5} oppure {verde = 3, rosso = 4} oppure {verde = 4, rosso= 3} oppure {verde= 5, rosso = 2} o {verde = 6, rosso = 1}. In questo caso, sei dei possibili risultati andrebbero bene, quindi la probabilità di lanciare 7 è 6/36. La somma di tutte le probabilità è esattamente uguale a 1. Figura 1. Probabilità discrete (esempio con due dadi) Valore atteso di una variabile aleatoria Il valore atteso (Expected Value) di una variabile aleatoria discreta è la media ponderata di tutti i suoi possibili valori, prendendo come peso la probabilità di ciascun risultato. Si calcola moltiplicando ogni possibile valore della variabile aleatoria per la sua probabilità e sommando. In termini matematici, se la variabile aleatoria è indicata con 𝑋, il suo valore atteso è indicato con 𝑬(𝑿). Supponiamo che 𝑋 possa assumere particolari valori 𝒙𝟏 , 𝒙𝟐 , … , 𝒙𝒏 e che la probabilità di 𝑥𝑖 è 𝒑𝒊. Allora avremo: 𝑛 𝐸(𝑋) = 𝑥1 𝑝1 + ⋯ + 𝑥𝑛 𝑝𝑛 = ∑ 𝑥𝑖 𝑝𝑖 𝑖=1 Dato che la somma delle probabilità è 1, non c’è alcuna esigenza di divider per la somma delle probabilità. Tabella 2. Valore atteso di X, esempio con due dadi 7 La terza colonna mostra i valori delle 𝑥𝑖 pesati per le corrispondenti probabilità. Il valore atteso di una variabile aleatoria è spesso descritto come la media della sua popolazione, spesso indicata con 𝝁𝒙 , o semplicemente 𝜇, se non c'è ambiguità. 𝑛 𝐸(𝑋) = 𝑥1 𝑝1 + ⋯ + 𝑥𝑛 𝑝𝑛 = ∑ 𝑥𝑖 𝑝𝑖 = 𝝁𝒙 𝑖=1 Valore atteso di una funzione di una variabile aleatoria Sia 𝑔(𝑋) una funzione qualsiasi di 𝑋. Allora 𝑬[𝒈(𝑿)], il valore atteso di 𝑔(𝑋), è dato da: 𝑛 𝐸[𝑔(𝑥)] = 𝑔(𝑥1 )𝑝1 + ⋯ + 𝑔(𝑥𝑛 )𝑝𝑛 = ∑ 𝑔(𝑥𝑖 )𝑝𝑖 𝑖=1 dove la somma è ottenuta da tutti i possibili valori di 𝑋. La metà sinistra della tabella 3 illustra il calcolo del valore atteso di una funzione di 𝑋. Supponiamo che 𝑋 possa assumere quindi diversi valori da 𝑥1 a 𝑥𝑛 , con probabilità associate da 𝑝1 a 𝑝𝑛. Nella prima colonna, annotiamo tutti i valori che 𝑋 può assumere. Nella seconda scriviamo le probabilità corrispondenti. Nella terza si calcola il valore della funzione per il valore corrispondente di 𝑋. Nella quarta si moltiplicano le colonne 2 e 3. La risposta è data dal totale della colonna 4. Tabella 3. Valore atteso di g(X), esempio con due dadi La metà destra della tabella mostra il calcolo del valore atteso di 𝑋 2 riprendendo l'esempio con due dadi. Potresti essere tentato di pensare che sia uguale a 𝜇𝑥2 , ma non è corretto. 𝐸(𝑋 2 ) è 54,83. Il valore atteso di 𝑋 è stato mostrato nella tabella precedente come uguale a 7. Quindi non è vero che 𝐸(𝑋 2 ) è uguale a 𝜇𝑥2 , il che significa che bisogna stare attenti a distinguere tra 𝐸(𝑋 2 ) e [𝐸(𝑋)]2 (quest'ultimo essendo 𝐸(𝑋) moltiplicato per 𝐸(𝑋) sarebbe 𝜇𝑥2 ). Variabile aleatoria. Distribuzione di probabilità. Funzione di ripartizione Una variabile aleatoria è una funzione numerica di 𝝎 avente come dominio 𝛀 e come codominio (= immagine) l’insieme dei numeri reali: 𝜔∈Ω 𝒇: 𝛀 → 𝐗 ∈ ℝ Una variabile aleatoria è dunque un numero che viene assegnato, mediante una determinata regola, a ciascun punto dello spazio campionario (Ω), ovvero a ciascuno degli esiti possibili di un esperimento aleatorio. Il termine “aleatorio” allude al fatto che ci occupiamo degli esiti possibili di un esperimento aleatorio, ovvero, di un esperimento il cui esito è incerto prima che dell’esecuzione dell’esperimento stesso. Una volta che l’esperimento viene eseguito, il valore 𝑋(𝜔) risulta completamente determinato (si parla allora di realizzazione x di una variabile aleatoria). 𝑿(𝝎) = 𝒙 Distinguiamo tra variabili aleatorie discrete e continue: 1. una variabile aleatoria si dice discreta se può assumere un numero finito, o al più infinito numerabile, di valori; 8 2. si dice continua se può assumere tutti gli infiniti valori dell’asse reale 𝑅, oppure di un suo intervallo [𝑎, 𝑏]. La distribuzione di probabilità 𝑷[𝑿 = 𝒙] della stessa v.a. è legata alle probabilità degli eventi elementari 𝑃[𝜔]. In particolare, la probabilità che la variabile aleatoria 𝑋 assuma il valore 𝑥, 𝑃(𝑋 = 𝑥), è definita come la somma delle probabilità di tutti i punti campione in a cui viene assegnato il valore 𝑥.4 Le probabilità 𝑃(𝑋 = 𝑥) godono delle seguenti proprietà: i. 𝑃(𝑋 = 𝑥) ≥ 0; ii. ∑𝑛𝑖=1 𝑃(𝑋 = 𝑥) = 1.La probabilità dell’evento certo (somma delle probabilità dei singoli eventi) deve essere pari a 1. La funzione di ripartizione, o funzione di probabilità cumulata, di 𝑋 assegna ad ogni numero reale x la probabilità (secondo P) che 𝑋 assuma un valore minore o uguale ad 𝑥. In altre parole, è la funzione𝐹: ℝ → [0, 1], con dominio la retta reale e immagine nell’intervallo [0, 1], definita da: 𝑭𝑿 (𝒙) = 𝑷(𝑿 ≤ 𝒙) La funzione di ripartizione 𝐹𝑋 (𝑥) è limitata, ossia può assumere solo i seguenti valori: 𝟎 𝑠𝑒 𝑥 < 1 𝐹𝑋 (𝑥) = {𝑭(𝒙𝒊 ) 𝑠𝑒 𝑥𝑖 ≤ 𝑥 ≤ 𝑥𝑖−1 𝟏 𝑠𝑒 𝑥 > 1 Regole valore atteso Ci sono tre regole di 𝐸(𝑋) che useremo più e più volte. Sono praticamente evidenti e sono ugualmente validi per variabili aleatorie discrete e continue. 1) Il valore atteso della somma di più variabili è uguale alla somma dei loro valori attesi. 𝑬(𝑿 + 𝒀 + 𝒁) = 𝑬(𝑿) + 𝑬(𝒀) + 𝑬(𝒁) Proprietà additiva 2) Se moltiplichiamo una variabile aleatoria per una costante, moltiplichiamo il suo valore atteso per la stessa costante. Se 𝑋 è una variabile aleatoria e 𝑏 è una costante, allora: 𝑬(𝒃𝑿) = 𝒃𝑬(𝑿) Proprietà moltiplicativa5 3) Il valore atteso di una costante è quella costante. 𝑬(𝒃) = 𝒃 Mettendo insieme le tre regole, è possibile semplificare le espressioni più complicate. Ad esempio, supponiamo di voler calcolare E(Y), dove𝒀 = 𝒃𝟏 + 𝒃𝟐 𝑿 e 𝑏1 , 𝑏2 sono le costanti. Avremo che: 𝐸(𝑌) = 𝐸(𝑏1 + 𝑏2 𝑋 ) = 𝐸(𝑏1) + 𝐸(𝑏2 𝑋) usando la regola 1 = 𝒃𝟏 + 𝒃𝟐 𝑬(𝑿) usando le regole 2 e 3 Varianza di una variabile aleatoria discreta C'è una funzione di 𝑋 alla quale presteremo ora molto interesse, ed è la sua varianza, 𝑣𝑎𝑟(𝑋), una misura utile della dispersione della sua distribuzione di probabilità. È definito come il valore atteso del quadrato della differenza tra la variabile aleatoria 𝑋 e la sua media, ovvero di (𝑋 − 𝜇𝑥 )2 dove 𝜇𝑥 è la media. 𝑣𝑎𝑟(𝑋) = 𝜎𝑋2 = 𝐸[(𝑋 − 𝜇)2 ] = 𝒏 = (𝑥1 − 𝜇) 𝑝1 + ⋯ + (𝑥𝑛 − 𝜇) 𝑝𝑛 = ∑(𝒙𝒊 − 𝝁)𝟐 𝒑𝒊 2 2 𝒊=𝟏 Da 𝜎𝑋2 si ottiene 𝜎𝑋 , la deviazione standard, misura altrettanto popolare della dispersione della distribuzione di probabilità; la deviazione standard di una variabile aleatoria è la radice quadrata della sua varianza. 𝝈𝑿 = √𝑬[(𝑿 − 𝝁)𝟐 ] Illustreremo il calcolo della varianza con l'esempio precedente. Poiché 𝜇 = 𝐸(𝑋) = 7, (𝑋 − 𝜇)2 è (𝑋 − 7)2 in questo caso. Il valore atteso di (𝑋 − 7)2 è calcolato nella tabella di sotto utilizzando la tabella precedente come modello. 4 Questa proprietà è richiesta dal terzo assioma di Kolmogorov (assioma di additività). 5 Esempio: 𝐸(3𝑋) = 3𝐸(𝑋) 9 Una colonna aggiuntiva, (𝑋 − 𝜇), è stata introdotta come passo nel calcolo di (𝑋 − 𝜇)2. Sommando l'ultima colonna, si trova che 𝜎𝑋2 è uguale a 5,83. Quindi, 𝜎𝑋 , la deviazione standard, è uguale a √5,83, che è 2,41. 𝒙𝒊 𝒑𝒊 𝒙𝒊 − 𝝁 (𝒙𝒊 − 𝝁)𝟐 (𝒙𝒊 − 𝝁)𝟐 𝒑𝒊 2 1/36 -5 25 0,69 3 2/36 -4 16 0,89 4 3/36 -3 9 0,75 5 4/36 -2 4 0,44 6 5/36 -1 1 0,14 7 6/36 0 0 0,00 8 5/36 1 1 0,14 9 4/36 2 4 0,44 10 3/36 3 9 0,75 11 2/36 4 16 0,89 12 1/36 5 25 0,69 Totale 5,83 Un uso particolare delle regole del valore atteso è mostrare che la varianza di una variabile aleatoria può essere scritta così: 𝝈𝟐𝑿 = 𝑬(𝑿𝟐 ) − 𝝁𝟐 espressione che a volte risulta più conveniente della definizione originaria. La dimostrazione è un buon esercizio delle regole del valore atteso. Dalla sua definizione, La riga 3 utilizza la regola 1 del valore atteso. La riga 4 utilizza le regole 2 e 3 (µ è una costante). La riga 5 sfrutta il fatto che µ è solo un altro modo di scrivere 𝐸(𝑋). Componente fissa e casuale di una variabile aleatoria Invece di considerare una variabile aleatoria come una singola entità, è spesso conveniente scomporla in una componente fissa e in una componente casuale pura, dove la componente fissa è sempre la media. Se 𝑋 è una variabile aleatoria e µ la sua media, si può fare la seguente scomposizione: 𝑿 = 𝝁𝒙 + 𝒖 dove 𝒖 è quella che verrà chiamata la componente casuale pura (nel contesto dell'analisi di regressione, viene solitamente descritta come il termine di disturbo). Ovviamente la si può guardare dall'altra parte e dire che la componente casuale, 𝑢, è definita come la differenza tra 𝑋 e 𝜇𝑥 : 𝒖 = 𝑿 − 𝝁𝒙 Dalla sua definizione segue che il valore atteso di 𝑢 è zero. Dall'equazione 𝐸(𝑢) = 𝐸(𝑋 − 𝜇𝑋 ) = 𝐸(𝑋) + 𝐸(−𝜇𝑋 ) = 𝜇𝑋 − 𝜇𝑋 = 0 Poiché tutta la variazione di 𝑋 è dovuta a 𝑢, non sorprende che la varianza di 𝑋 sia uguale alla varianza di 𝑢. Questo è facile da dimostrare. Per definizione, 𝜎𝑋2 = 𝐸[(𝑋 − 𝜇𝑋 )2 ] = 𝐸(𝑢2 ) e 𝜎𝑢2 = 𝐸[(𝑢 − 𝑚𝑒𝑑𝑖𝑎 𝑑𝑖 𝑢)2 ] = 𝐸[(𝑢 − 0)2 ] = 𝐸(𝑢2 ) Quindi, 𝝈𝟐 può essere equivalentemente definito come la varianza di 𝑿 o 𝒖. Riassumendo, se 𝑋 è una variabile aleatoria definita da 𝑋 = 𝜇𝑥 + 𝑢, dove 𝜇𝑥 è un numero fissa e u è una componente casuale, con media zero e varianza 𝜎 2 , allora X ha media 𝜇𝑥 e varianza 𝜎 2. 10 Esempio Si consideri il lancio di due dadi a 4 facce numerate: 1, 2, 3, 4. 1 Il primo dado 𝐷1 è equilibrato, e quindi la probabilità di uscita di ognuna delle 4 facce è pari ad 4; il secondo dado 𝐷2 è invece truccato in modo tale che la probabilità di uscita di un numero pari è doppia rispetto all’uscita di un numero dispari. Per questo secondo dado si ha che: 1 2 𝑃(1) = 𝑃(3) = 𝑒 𝑃(2) = 𝑃(4) =. 6 6 Si vuole costruire la v.a. X = “Somma del risultato dei due dadi (D1 + D2)”,determinare i valori della funzione di ripartizione e calcolare il valore atteso e la varianza. Ad ogni risultato di Ω si deve associare un numero che, in questo caso, corrisponde alla somma dei due risultati: Ω = {1,1 ; 1,2; 1,3; 1,4; 2,1; 2,2; 2,3; 2,4; 3,1; 3,2; 3,3; 3,4; 4,1; 4,2; 4,3; 4,4} Questa è la distribuzione campionaria degli eventi. La legge che definisce la variabile aleatoria è la seguente: 𝑋(𝜔 𝜖 𝛺) = 2 3 4 5 3 4 5 6 4 5 6 7 5 6 7 8 Quindi RX che contiene i valori di X è dato da: 𝑅𝑋 = {2, 3, 4,5,6,7,8} Adesso si devono determinare le probabilità 𝑃(𝑋) = 1 1 1 𝑃(𝑋 = 2) = 𝑃(1,1) = ∗ = 4 6 24 1 2 1 1 3 𝑃(𝑋 = 3) = 𝑃(1,2) + 𝑃(2,1) = ∗ + ∗ = 4 6 4 6 24 1 1 1 2 1 1 1 2 1 4 𝑃(𝑋 = 4) = 𝑃(1,3) + 𝑃(2,2) + 𝑃(3,1) = ∗ + ∗ + ∗ = + + = 4 6 4 6 4 6 24 24 24 24 1 2 1 1 1 2 1 1 6 𝑃(𝑋 = 5) = 𝑃(1,4) + 𝑃(2,3) + 𝑃(3,2) + 𝑃(4,1) = ∗ + ∗ + ∗ + ∗ = 4 6 4 6 4 6 4 6 24 1 2 1 1 1 2 5 𝑃(𝑋 = 6) = 𝑃(2,4) + 𝑃(3,3) + 𝑃(4,2) = ∗ + + + ∗ = 4 6 4 6 4 6 24 1 2 1 1 3 𝑃(𝑋 = 7) = 𝑃(3,4) + 𝑃(4,3) = ∗ + ∗ = 4 6 4 6 24 1 2 2 𝑃(𝑋 = 8) = 𝑃(4,4) = ∗ = 4 6 24 I valori della v.a. 𝑋 con le relative probabilità e i valori della funzione di ripartizione possono essere riassunti nella tabella: x Eventi elementari 𝝎𝒊 ∈ 𝜴 𝒑(𝑿) 𝑭𝒙 (𝑿) 2 (1, 1) 1/24 1/24 3 (1,2); (2,1) 3/24 4/24 4 (1,3); (2,2); (3,1) 4/24 8/24 5 (1,4); (2,3); (3,2); (4,1) 6/24 14/24 6 (2,4); (3,3); (4,2) 5/24 19/24 7 (3,4); (4,3) 3/24 22/24 8 (4,4) 2/24 24/24 =1 Totale = 1 Il valore atteso è pari a: 1 3 4 6 5 3 2 124 31 𝐸(𝑋) = 2 ∗ + 3∗ + 4∗ +5∗ + 6∗ + 7∗ + 8∗ = = = 5,17 24 24 24 24 24 24 24 24 6 La varianza è pari a: 11 𝜎𝑋2 𝑜𝑉𝑎𝑟(𝑋) = 𝐸(𝑋 2 ) − 𝜇2 = 1 3 4 6 5 3 2 31 2 =4∗ +9∗ + 16 ∗ + 25 ∗ + 36 ∗ + 49 ∗ + 64 ∗ − ( ) = 2,472 24 24 24 24 24 24 24 6 VARIABILI ALEATORIE DISCRETE PARTICOLARI È ora possibile prendere in considerazione alcune v.a. discrete particolari (uniforme discreta, bernoulliana, binomiale, ipergeometrica, Poisson e geometrica) e analizzarle nel dettaglio, considerando la funzione di probabilità, il valore atteso e la varianza. Uniforme discreta Una variabile aleatoria segue una distribuzione uniforme discreta negli interi 1, 2, … , N, se la sua funzione di probabilità è espressa da: 1 𝑃(𝑋 = 𝑥) = {𝑁 𝑥 = 1, 2, … , 𝑁 0 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖 Il valore atteso e la varianza sono rispettivamente pari a: 𝑁+1 𝑁2 − 1 𝐸(𝑋) = 𝑉𝑎𝑟(𝑋) = 2 12 Bernoulliana Si consideri un esperimento che ammette soltanto due risultati: un successo (evento A) e un insuccesso (evento A̅ ) e si associ il valore x = 1 all’evento A e il valore x = 0 all’evento A̅. Sia 𝑝 (0 < 𝑝 < 1) la probabilità di osservare un successo e (1– 𝑝) la probabilità di osservare un insuccesso. Per cui: Evento x 𝒑(𝒙) A 1 𝑝 A̅ 0 1−𝑝 Totale 0 La v.a. che descrive un esperimento di questo tipo prende il nome di distribuzione di Bernoulli. Quindi in una distribuzione di Bernoulli i risultati possibili sono solamente due: successo (x = 1) e insuccesso (x = 0) con probabilità: 𝑥 (1 𝑃(𝑋 = 𝑥) = {𝑝 − 𝑝)1−𝑥 𝑥 = 0, 1 0 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖 Per il valore atteso e la varianza si ottengono i risultati: 𝐸(𝑋) = 0 ∗ (1 − 𝑝) + 1 ∗ 𝑝 = 𝑝 media 𝑉𝑎𝑟(𝑋) = (0 − 𝑝)2 ∗ (1 − 𝑝) + (1 − 𝑝)2 ∗ 𝑝 = 𝑝2 ∗ (1 − 𝑝) + (1 + 𝑝2 − 2𝑝)𝑝 = 𝑝2 − 𝑝3 + 𝑝 + 𝑝3 − 2𝑝2 = 𝑝 − 𝑝2 = 𝑝(1 − 𝑝) varianza Distribuzione Binomiale Una distribuzione binomiale considera il numero x di successi ottenuti in n prove di Bernoulli identiche ed indipendenti. 12 Partendo dall’esempio 4 si consideri l’estrazione di 4 soggetti in modo indipendente l’uno dall’altro. Ci si chiede quale sia la probabilità che fra i 4 soggetti ce ne siano x (x = 0, 1, 2, 3, 4) occupati. La funzione di probabilità di una binomiale è pari a: 𝑛 ( ) 𝑝 𝑥 (1 − 𝑝)1−𝑥 𝑥 = 0, 1, 2, … , 𝑛 𝑃(𝑋 = 𝑥) = { 𝑥 0 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖 𝑛 𝑛! dove il coefficiente binomiale (𝑥 ) = 𝑥!∗(𝑛−𝑥)! indica il numero di combinazioni possibili in cui sono presenti x successi in n prove indipendenti. Con n! (si legge “n fattoriale”) si intende il prodotto di tutti i valori interi da 1 fino ad n (es. 5! = 5 * 4 * 3 * 2 * 1 = 120); per definizione 0! = 1. La funzione di probabilità permette di calcolare la probabilità che in n prove di Bernoulli, identiche ed indipendenti, ci siano x successi, con x = 1, 2, …, n. Per il valore atteso e la varianza si ottengono i risultati: 𝐸(𝑋) = 𝑛𝑝 𝑉𝑎𝑟(𝑋) = 𝑛𝑝(1 − 𝑝) Distribuzione Ipergeometrica Dato un insieme contenente N unità di cui M con caratteristica A (successi) e N – M con caratteristica A̅ (insuccessi), si effettuano n estrazioni senza reinserimento (prove dipendenti). La distribuzione ipergeometrica considera il numero x di successi ottenuti nelle n estrazioni (anche la binomiale considerava il numero di successi in n prove, ma queste ultime erano indipendenti, ora sono dipendenti). La sua funzione di probabilità è data da: (𝑀 𝑥 )(𝑁−𝑀 𝑛−𝑥 ) max[0, 𝑛 − (𝑁 − 𝑀)] ≤ 𝑥 ≤ min[𝑛, 𝑀] 𝑃(𝑋 = 𝑥) = { (𝑁) 𝑛 0 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖 Il valore atteso e la varianza sono pari a: 𝑀 𝑀 𝑁−𝑀 𝑁−𝑛 𝐸(𝑋) = 𝑛 ∗ 𝑉𝑎𝑟(𝑋) = 𝑛 ∗ ∗ ∗ 𝑁 𝑁 𝑁 𝑁−1 Confrontando la binomiale con la ipergeometrica, si può notare che il valore atteso rimane invariato, mentre per la varianza si ha che: Var (ipergeometrica) < Var (binomiale) con n > 1. Distribuzione di Poisson La distribuzione di Poisson considera il numero di accadimenti (successi) x che si realizzano in un intervallo di lunghezza data o in uno spazio di dimensione data. Se λ indica il numero medio di successi nel tempo o nello spazio definiti, la funzione di probabilità del numero di successi è pari a: 𝑒 −𝜆 𝜆𝑥 𝑃(𝑋 = 𝑥) = { 𝑋! 𝑥 = 0, 1, 2, … 0 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖 Il valore atteso e la varianza sono rispettivamente pari a: 𝐸(𝑋) = 𝜆 𝑉𝑎𝑟(𝑋) = 𝜆 La costante λ è proporzionale alla lunghezza dell’intervallo di tempo o della dimensione dello spazio considerato. Distribuzione geometrica Considerando una successione di prove di Bernoulli, identiche ed indipendenti, in cui la probabilità dell’evento successo è pari a p, si definisce geometrica la v.a. che rappresenta il numero di prove necessarie per ottenere il primo successo. La sua funzione di probabilità è pari a: 𝑥 (1 𝑃(𝑋 = 𝑥) = {𝑝 − 𝑝) 𝑥−1 𝑥 = 0, 1, 2, 3 0 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖 La costruzione di questa formula è intuitiva. Infatti, nel replicare un esperimento di Bernoulli, le prove sono indipendenti e pertanto la probabilità di ottenere un particolare risultato non è altro che il prodotto delle probabilità dei risultati ottenuti nelle singole prove. Se per ottenere il primo successo, la cui probabilità è pari a p, sono necessarie x prove, si avrà: 13 ⏟ − 𝑝) ∗ … ∗ (1 − 𝑝) ∗ 𝑝 = (1 − 𝑝)𝑥−1 ∗ 𝑝 ⏟ ∗ … ∗ 𝑃(𝐼) ∗ 𝑃(𝑆) = (1 𝑃(𝐼 ∗ … ∗ 𝐼 ∗ 𝑆) = 𝑃(𝐼) 𝑥−1 𝑣𝑜𝑙𝑡𝑒 𝑥−1 𝑣𝑜𝑙𝑡𝑒 dove con “I” si indica il verificarsi dell’insuccesso e con “S” il verificarsi del successo. Anche la distribuzione binomiale considera il ripetersi di prove di Bernoulli identiche ed indipendenti, ma conta il numero di successi ottenuti in un numero prefissato n di prove, mentre la geometrica non fissa il numero di prove che devono essere effettuate, ma replica l’esperimento fino ad ottenere il primo successo. Il valore atteso e la varianza della geometrica sono rispettivamente pari a: 1 1−𝑝 𝐸(𝑋) = 𝑒 𝑉𝑎𝑟(𝑋) = 𝑝 𝑃2 VARIABILI ALEATORIE CONTINUE Densità di probabilità Le variabili aleatorie discrete sono molto facili da gestire in quanto, per definizione, possono assumere solo un insieme finito di valori. A ciascuno di questi valori è associato un "pacchetto" di probabilità, la cui somma è uguale a 1. Ciò è illustrato nella tabella 1. Tuttavia, una v.a. si definisce continua se può assumere tutti i valori in un determinato intervallo di numeri reali; cioè se l’insieme X(ω), ω є Ω è un intervallo di numeri reali. La discussione sarà illustrata con l'esempio della temperatura in una stanza. Inizialmente supporremo che questa vari entro i limiti compresi tra 55 e 75 gradi Fahrenheit, e supporremo che sia altrettanto probabile che si trovi ovunque all'interno di questo range di valori. Poiché i valori diversi che la temperatura può assumere sono infiniti, è inutile cercare di dividere la probabilità in pacchettini e dobbiamo adottare un approccio diverso. Parliamo invece della probabilità che la variabile aleatoria si trovi all'interno di un dato intervallo e rappresentiamo graficamente la probabilità come un'area all'interno dell'intervallo. Ad esempio, la probabilità che X si trovi nell'intervallo 57-58°F è 0,05 poiché questo intervallo è 1/20 dell'intervallo completo 55-75°F. La figura 2 mostra il rettangolo che rappresenta la probabilità che X si trovi in questo intervallo. 𝐴 𝑎𝑟𝑒𝑎 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡à 1 𝑎𝑟𝑒𝑎 𝐴 = 𝑏𝑎𝑠𝑒 𝑏 ∗ 𝑎𝑙𝑡𝑒𝑧𝑧𝑎 ℎ ⇔ ℎ = ⇔ ℎ = =ℎ= = 0.05 𝑏 (75 − 55) 20 Poiché la sua area è 0,05 e la sua base è 1, la sua altezza deve essere 0,05. Lo stesso vale per tutti gli altri intervalli di un grado nell'intervallo che X può assumere. Figura 2. Probabilità che la temperatura si trovi nell'intervallo 57-58°F 14 Avendo trovato l'altezza in tutti i punti dell'intervallo, possiamo rispondere ad altre domande simili relative alle probabilità. Ad esempio, possiamo determinare la probabilità che la temperatura sia compresa tra 65 e 70°F. Questo è dato dall'area compresa nell'intervallo 65-70°F, rappresentata dalla zona ombreggiata in figura 3. La base dell'area ombreggiata è 5 e la sua altezza è 0,05, quindi l'area è 0,25. La probabilità è 1/4, il che è comunque ovvio in quanto 65-70°F è 1/4 dell'intero intervallo. Figura 3. Probabilità che la temperatura si trovi nell'intervallo 65-70 °F La probabilità di un intervallo di unità è chiamata densità di probabilità ed è uguale all’altezza del rettangolo “intervallo di unità”. Se la densità di probabilità può essere scritta come una funzione della variabile aleatoria, tale funzione è nota come funzione di densità di probabilità. In questo caso è dato da f(X), dove X è la temperatura e 𝑓(𝑋) = 0.05 𝑝𝑒𝑟 55 ≤ 𝑋 ≤ 75 𝑓(𝑋) = 0 𝑝𝑒𝑟 𝑋 < 55 𝑜𝑟 𝑋 > 75 Figura 4. L'asse verticale è chiamata densità di probabilità. f(X) è la linea spessa L'esempio precedente era particolarmente semplice perché la funzione di densità di probabilità era costante nell'intervallo dei possibili valori di X. Considereremo ora un esempio in cui la funzione non è costante, perché non tutte le temperature sono ugualmente probabili. Supponiamo che il riscaldamento centralizzato e l'aria condizionata siano stati fissati in modo che la temperatura non scenda mai al di sotto dei 65 °F, e che nelle giornate calde la temperatura superi questa temperatura, con un massimo di 75 °F come prima. Supponiamo che la probabilità sia massima a 65°F e che diminuisca uniformemente fino a zero a 75°F, come mostrato nella figura 5. L'area totale all'interno dell'intervallo, come sempre, è uguale a 1, perché la probabilità 1 10∗0,2 totale è uguale a 1. L'area del triangolo è 2 x base x altezza, quindi si ha 2 = 1. Figura 5. Funzione di densità triangolare, 65-75 °F 15 Supponiamo ancora di voler conoscere la probabilità che la temperatura sia compresa tra 65 e 70°F. È dato dall'area ombreggiata nella figura 6, e con un po' di geometria si è in grado di verificare che è pari a 0,75. 𝑏∗ℎ 0.2∗5 Area triangolo isoscele= = = 0.5 2 2 Se dividiamo il triangolo isoscele in due, dal grafico otteniamo 3 triangoli rettangolo identici. Pertanto, Area triangolo isoscele = 0.25 = Area tringolo rettangolo ⇒ 0.25 ∗ 3 = 0.75 2 = probabilità che la temperatura sia compresa tra 65 e 70 °F Figura 6. Probabilità che la temperatura sia compresa nell'intervallo 65-70 °F Se si preferisce parlare in termini di percentuali, ciò significa che c'è una probabilità del 7,5% che la temperatura sia compresa tra 65 e 70°F e solo il 25% di probabilità che sia tra 70 e 75°F. In questo caso, la funzione di densità di probabilità6 è data da f(X), dove: 𝑓(𝑋) = 1.5 − 0.02𝑋 𝑝𝑒𝑟 65 ≤ 𝑋 ≤ 75 𝑓(𝑋) = 0 𝑝𝑒𝑟 𝑋 < 65 𝑜 𝑋 > 75 Se si vuole calcolare le probabilità per funzioni curve più complicate, la geometria semplice non va bene. In generale, è necessario usare il calcolo integrale o fare riferimento a tabelle specializzate, se esistono. Fortunatamente esistono tabelle di probabilità specializzate per tutte le funzioni che ci interesseranno nella pratica. Il calcolo integrale viene utilizzato anche nelle definizioni del valore atteso e varianza di una variabile aleatoria continua. Indipendenza di due variabili aleatorie Due variabili aleatorie X e Y si dicono indipendenti se 𝐸[𝑔(𝑋)ℎ(𝑌)] è uguale a 𝐸[𝑔(𝑋)] 𝐸[ℎ(𝑌)] per qualsiasi funzione 𝑔(𝑋) e ℎ(𝑌). In particolare, se X e Y sono indipendenti, 𝐸(𝑋𝑌) è uguale a 𝐸(𝑋)𝐸(𝑌). COVARIANZA, REGOLE DI COVARIANZA E VARIANZA E CORRELAZIONE Covarianza Veniamo ora ad alcuni concetti relativi a due variabili aleatorie. Il primo è la covarianza. Se abbiamo due variabili aleatorie, 𝑋 e 𝑌, la loro covarianza, 𝐶𝑜𝑣(𝑋, 𝑌), solitamente scritta 𝜎𝑋𝑌 nelle equazioni, è definita come il valore atteso del prodotto delle loro deviazioni dalle medie: 𝐶𝑜𝑣(𝑋, 𝑌) = 𝜎𝑋𝑌 = 𝐸[(𝑋 − 𝜇𝑋 )(𝑌 − 𝜇𝑌 )] dove 𝜇𝑋 e 𝜇𝑌 sono le medie della popolazione rispettivamente di X e Y. Se 𝑋 e 𝑌 sono indipendenti, allora la loro covarianza è zero: 𝐶𝑜𝑣(𝑋, 𝑌) = 𝐸[(𝑋 − 𝜇𝑋 )(𝑌 − 𝜇𝑌 )] = 𝐸(𝑋 − 𝜇𝑋 )𝐸(𝑌 − 𝜇𝑌 ) = = [𝐸(𝑋) − 𝐸(𝜇𝑋 )][𝐸(𝑌) − 𝐸(𝜇𝑌 )] = (𝜇𝑋 − 𝜇𝑋 )(𝜇𝑌 − 𝜇𝑌 ) = 0 ∗ 0 = 0 in virtù del fatto che 𝐸(𝑋) ed 𝐸(𝑌) sono uguali rispettivamente a 𝜇𝑋 e 𝜇𝑌. Regole della covarianza Ci sono alcune proprietà che seguono in modo semplice dalla definizione di covarianza, e poiché verranno utilizzate frequentemente, vale la pena stabilirle immediatamente: 1. Se 𝒀 = 𝑽 + 𝑾, allora𝜇𝑌 = 𝜇𝑉 + 𝜇𝑊 in virtù della proprietà additiva del valore atteso e la 𝐶𝑜𝑣(𝑋, 𝑌) = 𝐸[(𝑋 − 𝜇𝑋 )(𝑌 − 𝜇𝑌 )] = 𝐸{(𝑋 − 𝜇𝑋 )[(𝑉 + 𝑊) − (𝜇𝑉 + 𝜇𝑊 )]} = 6 La forma funzionale della funzione densità di probabilità è f(X) = b1 + b2X. 16 = 𝐸[(𝑋 − 𝜇𝑋 )(𝑉 − 𝜇𝑉 ) + (𝑋 − 𝜇𝑋 )(𝑊 − 𝜇𝑊 )] = 𝑪𝒐𝒗(𝑿, 𝑽) + 𝑪𝒐𝒗(𝑿, 𝑾). 2. Se 𝒀 = 𝒃𝒁, dove b è una costante e Z è una variabile, allora 𝜇𝑋 = 𝑏𝜇𝑍 e la 𝐶𝑜𝑣(𝑋, 𝑌) = 𝐸[(𝑋 − 𝜇𝑋 )(𝑌 − 𝜇𝑌 )] = 𝐸[(𝑋 − 𝜇𝑋 )(𝑏𝑍 − 𝑏𝜇𝑍 )] = = 𝑏𝐸[(𝑋 − 𝜇𝑋 )(𝑍 − 𝜇𝑍 ) = 𝒃𝑪𝒐𝒗(𝑿, 𝒁). 3. Se 𝒀 = 𝒃 , dove b è una costante, allora𝜇𝑋 = 𝑏 e la 𝐶𝑜𝑣(𝑋, 𝑌) = 𝐸[(𝑋 − 𝜇𝑋 )(𝑌 − 𝜇𝑌 )] = 𝐸[(𝑋 − 𝜇𝑋 )(𝑏 − 𝑏)] = 𝐸 = 𝟎 Un esempio: Supponiamo che𝑌 = 𝑏1 + 𝑏2 𝑍, dove b1 e b2 sono costanti e Z è una variabile. Pertanto: 𝐶𝑜𝑣(𝑋, 𝑌) = 𝐶𝑜𝑣[𝑋, (𝑏1 + 𝑏2 𝑍)] = 𝐶𝑜𝑣(𝑋, 𝑏1 ) + 𝐶𝑜𝑣(𝑋, 𝑏2 𝑍)usando la prima regola = 0 + 𝐶𝑜𝑣(𝑋, 𝑏2 𝑍)usando la seconda regola = 𝑏2 𝐶𝑜𝑣(𝑋, 𝑍)usando la terza regola Regole della varianza o dello scostamento Esistono alcune regole semplici per la varianza, delle quali le prime tre sono controparti di quelle per la covarianza: 1. Se 𝒀 = 𝑽 + 𝑾, allora la 𝑉𝑎𝑟(𝑌) = 𝐶𝑜𝑣(𝑌, 𝑌) = = 𝐶𝑜𝑣[(𝑌, (𝑉 + 𝑊)] = 𝐶𝑜𝑣(𝑌, 𝑉) + 𝐶𝑜𝑣(𝑌, 𝑊) usando la prima regola della covarianza = 𝐶𝑜𝑣[(𝑉, 𝑊), 𝑉] + 𝐶𝑜𝑣[(𝑉 + 𝑊), 𝑊] = 𝐶𝑜𝑣(𝑉, 𝑉) + 𝐶𝑜𝑣(𝑊, 𝑉) + 𝐶𝑜𝑣(𝑉, 𝑊) + 𝐶𝑜𝑣(𝑊, 𝑊)usando la prima regola della covarianza = 𝑽𝒂𝒓(𝑽) + 𝑽𝒂𝒓(𝑾) + 𝟐𝑪𝒐𝒗(𝑽, 𝑾). Si noti che 𝐶𝑜𝑣(𝑊, 𝑉) e 𝐶𝑜𝑣(𝑉, 𝑊) sono la stessa cosa. L'ordine delle variabili non fa alcuna differenza nella definizione di covarianza. 2. Se 𝒀 = 𝒃𝒁, dove b è una costante, utilizzando due volte la seconda regola della covarianza, si ha che 𝑉𝑎𝑟(𝑌) = 𝐶𝑜𝑣(𝑌, 𝑌) = 𝐶𝑜𝑣(𝑏𝑍, 𝑌) = 𝑏𝐶𝑜𝑣(𝑍, 𝑌) = 𝑏𝐶𝑜𝑣(𝑍, 𝑏𝑍) = 𝑏 2 𝐶𝑜𝑣(𝑍, 𝑍) = 𝒃𝟑 𝑽𝒂𝒓(𝒁). 3. Se 𝒀 = 𝒃, dove b è una costante, utilizzando la terza regola della covarianza, si ha che 𝑉𝑎𝑟(𝑌) = 𝐶𝑜𝑣(𝑏, 𝑏) = 𝟎. 4. Se 𝒀 = 𝑽 + 𝒃, dove V è una variabile e b è una costante, utilizzando la prima regola della varianza, si ha che 𝑉𝑎𝑟(𝑌) = 𝑉𝑎𝑟(𝑉 + 𝑏) = 𝑉𝑎𝑟(𝑉) + 𝑉𝑎𝑟(𝑏) + 2𝐶𝑜𝑣(𝑉, 𝑏) = 𝑽𝒂𝒓(𝑽). La quarta regola di scostamento inizia utilizzando la prima. Il secondo termine sul lato destro è zero per la terza regola di varianza. Il terzo è anche zero per la terza regola di covarianza. La ragione intuitiva di questo risultato è facile da capire. Se si aggiunge una costante a una variabile, si sposta l'intera distribuzione di tale costante. Il valore atteso della deviazione al quadrato dalla media non viene influenzato. ρ Coefficiente di correlazione Come misura di associazione tra due variabili X e Y, 𝐶𝑜𝑣(𝑋, 𝑌) non è soddisfacente perché dipende dalle unità di misura di 𝑋 e 𝑌. È il valore atteso del prodotto della deviazione di 𝑋 dalla sua media e la deviazione di 𝑌 dalla sua 17 media. La prima deviazione viene misurata in unità di 𝑋 e la seconda in unità di 𝑌. Cambiando le unità di misura si cambierà la covarianza. Una misura migliore di associazione è il coefficiente di correlazione perché è adimensionale e quindi invariante ai cambiamenti nelle unità di misura. È tradizionalmente indicato con 𝜌. Per le variabili 𝑋 e 𝑌 è definito da: 𝜎𝑋𝑌 𝜌𝑋𝑌 = √𝜎𝑋2 𝜎𝑌2 Il numeratore possiede le unità di misura sia di X che di Y. Le varianze di X e Y nel denominatore possiedono le unità di misura al quadrato di tali variabili. Tuttavia, una volta presa in considerazione la radice quadrata, le unità di misura sono le stesse del numeratore e l'espressione nel suo insieme è priva di unità. Notazioni: Se X e Y sono indipendenti, 𝜌𝑋𝑌 sarà uguale a zero perché 𝜎𝑋𝑌 sarà zero. Se esiste un'associazione positiva tra loro, 𝜎𝑋𝑌 , e quindi 𝜌𝑋𝑌 ,sarà positivo. Se esiste una relazione lineare positiva esatta, 𝜌𝑋𝑌 assumerà il suo valore massimo pari a 1. Allo stesso modo, se esiste una relazione negativa, 𝜌𝑋𝑌 sarà negativo, con un valore minimo pari a -1. CAMPIONI, LA DOPPIA STRUTTURA DI UNA VARIABILE E GLI STIMATORI Finora abbiamo ipotizzato di avere informazioni esatte sulla variabile aleatoria in discussione, in particolare che conosciamo la distribuzione di probabilità, nel caso di una variabile aleatoria discreta, o la funzione di densità di probabilità, nel caso di una variabile continua. Con queste informazioni, è possibile derivare la media e la varianza della popolazione e qualsiasi altra caratteristica della popolazione di cui siamo interessati. In realtà, ad eccezione di variabili aleatorie artificialmente semplici come i numeri sui dadi lanciati, non si conosce la distribuzione esatta di probabilità o la funzione di densità. Ne consegue che non si conosce la media o la varianza della popolazione. Tuttavia, è possibile considerare un campione di osservazioni e derivare una stima della caratteristica della popolazione usando una formula appropriata. Campionamento Supponiamo di avere una variabile aleatoria 𝑋 e di prendere un campione di 𝑛 osservazioni con l'intenzione di ottenere informazioni sulla distribuzione di 𝑋. Potremmo, ad esempio, voler stimare la media. Prima di elaborare gli stimatori, è utile fare una distinzione tra il modo in cui pensiamo al campione prima che sia stato effettivamente preso e dopo averlo preso. Una volta generato il campione, le osservazioni sono solo numeri specifici. Uno statistico si riferirebbe a questo come una realizzazione. Infatti, prima che il campione venga generato, le potenziali osservazioni {𝑋1 , 𝑋2 , … , 𝑋𝑛 } stesse potrebbero essere intese come un insieme di numeri casuali: sappiamo che saranno generati casualmente dalla distribuzione per X, ma non conosciamo i loro valori in anticipo. Dopo che il campione è stato prelevato, abbiamo una realizzazione specifica e la indichiamo come {𝑥1 , 𝑥2 , … , 𝑥𝑛 }, dove le lettere minuscole indicano che i valori sono numeri specifici. Quindi ora stiamo pensando a variabili aleatorie su due livelli: la variabile X e le osservazioni del campione 18 prelevate casualmente dalla sua distribuzione. È essenziale essere chiari sulla doppia struttura di una variabile. È la chiave per comprendere l'analisi delle proprietà degli stimatori in base al campione di osservazioni. Stimatore Uno stimatore è uno strumento che ci permette di stimare una caratteristica della popolazione. In altri termini, uno stimatore è una variabile aleatoria che assume valore nell’universo dei campioni. Su tutti i campioni estraibili si valutano le caratteristiche dinamiche dello stimatore. Il valore ottenuto sul campione effettivamente osservato {𝑥1 , 𝑥2 , … , 𝑥𝑛 }, si chiama stima. Quest’ultima non è una variabile, ma un valore7. La stima, inoltre, può essere puntuale o intervallare. Uno stimatore è un caso speciale di una variabile aleatoria perché è una combinazione di {𝑋1 , 𝑋2 , … , 𝑋𝑛 }e, dato che questi ultimi sono quantità casuali, una combinazione di esse deve anch’essa una variabile aleatoria. La media campionaria 𝑋̅, lo stimatore standard della media, fornisce un semplice esempio poiché è solo la media della 𝑋𝑖 nel campione: 𝑛 1 1 𝑋̅ = (𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 ) = ∑ 𝑋𝑖 𝑛 𝑛 𝑖=1 Figura 7. Confronto tra le funzioni di densità di probabilità di una singola osservazione e la media di un campione Le funzioni di densità di probabilità sia di X che di 𝑋̅ sono state disegnate nello stesso diagramma della figura 7. A titolo illustrativo, si presuppone che X abbia una distribuzione Normale. Le distribuzioni di X e 𝑋̅ sono simmetriche rispetto a 𝜇𝑋 e la differenza tra loro è che la distribuzione di 𝑋̅ è più stretta e più alta. 𝑋̅ tende ad essere più vicino a 𝜇𝑋 perché è una media. Si veda, inoltre, come 𝑋̅abbia la stessa media di X: 1 1 ̅ ) = 𝐸 [ (𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 )] = 𝐸(𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 ) = 𝑬(𝑿 𝑛 𝑛 1 1 = [𝐸(𝑋1 ) + ⋯ + 𝐸(𝑋𝑛 )] = (𝜇𝑋 + ⋯ + 𝜇𝑋 ) = 𝑛 𝑛 1 = (𝑛 ∗ 𝜇𝑋 ) = 𝝁𝑿 𝑛 𝜎2 Si dimostra, invece, che se la distribuzione di X ha varianza 𝜎𝑋2 , la media campionaria ha varianza 𝑋 (che è inferiore 𝑛 a 𝜎𝑋2 , come illustrato nel diagramma): 1 1 𝝈𝟐𝑿 = 𝑉𝑎𝑟 [ (𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 )] = 2 𝑉𝑎𝑟(𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 ) = 𝑛 𝑛 1 1 = 2 [𝑉𝑎𝑟(𝑋1 ) + ⋯ + 𝑉𝑎𝑟(𝑋𝑛 )] = 2 (𝜎𝑋2 + ⋯ + 𝜎𝑋2 ) = 𝑛 𝑛 𝟐 1 𝝈 𝑿 = 2 (𝑛 ∗ 𝜎𝑋2 ) = < 𝝈𝟐𝑿 𝑛 𝒏 7 Per ripetere, lo stimatore è una formula, mentre la stima è un numero. 19 Proprietà di uno stimatore Le prime due proprietà riguardano l'analisi in cui i campioni hanno un numero finito di osservazioni. La consistenza è, invece, una proprietà che si riferisce all'analisi quando la dimensione del campione tende all'infinito. 1. Correttezza (unbiasedness). Poiché gli stimatori sono variabili aleatorie, ne consegue che solo per coincidenza una stima sarà esattamente uguale alla caratteristica della popolazione. Generalmente ci sarà un certo grado di errore. Sebbene ciò debba essere accettato, è tuttavia auspicabile che lo stimatore non ci porti fuori strada tendendo a sovrastimare o sottostimare le caratteristiche della popolazione. Per dirla in termini tecnici, uno stimatore sarebbe corretto se il suo valore atteso fosse uguale al valore atteso di tutti i possibili campioni che si possono estrarre dalla popolazione. Se ciò è vero, si dice che lo stimatore è imparziale. In caso contrario, si dice che lo stimatore è distorto e la differenza tra il suo valore atteso e il parametro che si vuole stimare è descritta come bias8. Si supponga di voler stimare la media della popolazione 𝜇𝑋 di una variabile aleatoria X dato un campione di osservazioni. Si dimostra che la media del campione 𝑋̅ è uno stimatore corretto, ma non unico. 1 1 𝑬(𝑿̅ ) = 𝐸 [ (𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 )] = 𝐸(𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 ) = 𝑛 𝑛 1 1 = [𝐸(𝑋1 ) + ⋯ + 𝐸(𝑋𝑛 )] = (𝜇𝑋 + ⋯ + 𝜇𝑋 ) = 𝑛 𝑛 1 = (𝑛 ∗ 𝜇𝑋 ) = 𝝁𝑿 𝑛 Tuttavia, la media del campione non è l'unico stimatore imparziale della media della popolazione. Definiamo uno stimatore generalizzato di un campione con 2 osservazioni: 𝒁 = 𝝀𝟏 𝑿 𝟏 + 𝝀𝟐 𝑿 𝟐 che è la somma ponderata delle due osservazioni, essendo 𝜆1 ,𝜆2 i pesi. Analizziamo il valore atteso di Z e vedremo che la condizione che deve essere soddisfatta dai pesi, affinché Z possa essere definito uno stimatore imparziale, è quella per cui la loro somma deve essere uguale a 1. 𝑬(𝒁) = 𝐸(𝜆1 𝑋1 + 𝜆2 𝑋2 ) = 𝐸(𝜆1 𝑋1 ) + 𝐸(𝜆2 𝑋2 ) = = 𝜆1 𝐸(𝑋1 ) + 𝜆2 𝐸(𝑋2 ) = 𝜆1 𝜇𝑋 + 𝜆2 𝜇𝑋 = = 𝝁𝑿 →se 𝝀𝟏 + 𝝀𝟐 = 𝟏 2. Efficienza. Uno stimatore è efficiente se è poco variabile. Vogliamo che lo stimatore abbia la probabilità più alta possibile di fornire una stima accurata delle caratteristiche della popolazione, il che significa che vogliamo che la sua funzione di densità di probabilità sia il più concentrata possibile attorno al valore reale. Un modo per riassumere ciò è dire che vogliamo che la varianza9 della sua popolazione sia la più piccola possibile, perché tenderà ad essere il più accurato possibile. Figura 8. Nel diagramma, A e B sono entrambi stimatori imparziali, ma B è superiore perché è più efficiente La varianza dello stimatore generalizzato è data da: 𝜎𝑍2 = 𝑉𝑎𝑟(𝜆1 𝑋1 + 𝜆2 𝑋2 ) = 𝑉𝑎𝑟(𝜆1 𝑋1 ) + 𝑉𝑎𝑟(𝜆2 𝑋2 ) + 2𝐶𝑜𝑣(𝜆1 𝑋1 , 𝜆2 𝑋2 ) = = 𝜆12 𝜎𝑋21 + 𝜆22 𝜎𝑋22 + 2𝜆1 𝜆2 𝜎𝑋1 𝜎𝑋2 = Supponiamo che 𝑋1 e 𝑋2 siano generati con le stesse caratteristiche e quindi che 𝜎𝑋1𝑋2 8 Se non c’è Bias questa differenza è uguale a 0 sia zero. 9 La variabilità in genere si misura con la varianza, che per uno stimatore si chiama errore standard 20 = (𝜆12 + 𝜆22 )𝜎𝑋2 = = [𝜆12 + (1 − 𝜆1 )2 ]𝜎𝑋2 = (𝟐𝝀𝟐𝟏 − 𝟐𝝀𝟏 + 𝟏)𝝈𝟐𝑿 Ora, abbiamo già visto che la somma di 𝜆1 e 𝜆2 Per ridurre al minimo la varianza di Z, dobbiamo scegliere deve dare 1 affinché lo stimatore sia imparziale. Quindi per imparzialità, 𝜆2 = 1 − 𝜆1 e 𝜆1 per minimizzare (2𝜆21 − 2𝜆1 + 1). In altre parole, c’è da calcolare la derivata prima di 𝜎𝑍2 rispetto a 𝜆1. 𝝀𝟏 + 𝝀𝟐𝟐 = 𝝀𝟐𝟏 + (𝟏 − 𝝀𝟏 )𝟐 = 𝟐𝝀𝟐𝟏 − 𝟐𝝀𝟏 + 𝟏 𝟐 𝑑𝜎𝑍2 = 0 ⟹ 𝟒𝝀𝟏 − 𝟐 = 𝟎 ⟹ 𝜆1 = 𝜆2 = 0 𝑑𝜆1 Pertanto, il valore minimo viene raggiunto quando 𝜆1 è pari a 0,5. Quindi, anche 𝜆2 = 1 − 0,5 = 0,5. 𝑑2 𝜎𝑍2 La derivata seconda serve a trovare il punto di minimo con concavità verso l’alto =4>0 𝑑𝜆12 Abbiamo visto che è auspicabile che uno stimatore sia imparziale e che abbia la varianza più piccola possibile. Si tratta di due criteri abbastanza diversi e talvolta in conflitto tra loro. A volte accade che si possano costruire due stimatori di una caratteristica della popolazione, uno dei quali non è distorto (A nella figura 9), l'altro è distorto ma ha una varianza minore (B). A sarà migliore nel senso che è imparziale, ma B è migliore nel senso che le sue stime sono sempre vicine al valore reale. Figura 9. Quale stimatore è da preferire? A è imparziale ma B ha una varianza minore Quando uno stimatore è distorto, è più opportuno utilizzare l’errore quadratico medio (MSE - mean squared error): 𝑴𝑺𝑬(𝒁) = 𝑬[(𝒁 − 𝜽)𝟐 ] dove Z è lo stimatore e 𝜃 è il valore della caratteristica della popolazione da stimare. 21 Sia 𝝁𝒁 il valore atteso di Z. Questo sarà uguale a 𝜃 solo se Z è uno stimatore imparziale. In generale, ci sarà una distorsione, data da (𝜇𝑍 − 𝜃). La varianza di Z è uguale 𝐸[(𝑍 − 𝜇𝑍 )2 ]. Si dimostra infatti che l’MSE può essere scomposto nella varianza di Z + il quadrato del bias10: 𝑀𝑆𝐸(𝑍) = 𝐸[(𝑍 − 𝜃)2 ] = 𝐸[(𝑍 − 𝜇𝑍 + 𝜇𝑍 − 𝜃)2 ] = = 𝐸[(𝑍 − 𝜇𝑍 )2 + (𝜇𝑍 − 𝜃)2 + 2(𝑍 − 𝜇𝑍 )(𝜇𝑍 − 𝜃)] = = 𝐸[(𝑍 − 𝜇𝑍 )2 ] + 𝐸[(𝜇𝑍 − 𝜃)2 ] + 𝐸[2(𝑍 − 𝜇𝑍 )(𝜇𝑍 − 𝜃)] = = 𝜎𝑍2 + (𝜇𝑍 − 𝜃)2 + 2(𝜇𝑍 − 𝜃)𝐸(𝑍 − 𝜇𝑍 ) = = 𝜎𝑍2 + (𝜇𝑍 − 𝜃)2 + 2(𝜇𝑍 − 𝜃)(𝜇𝑍 − 𝜇𝑍 ) = = 𝝈𝟐𝒁 + (𝝁𝒁 − 𝜽)𝟐 da cui deriva che la varianza non tiene conto del bias. Quindi, tornando alla figura 9, dati due stimatori corretti, è più efficiente quello con varianza minore, ossia B. 𝑉𝑎𝑟(𝑍𝐵 ) < 𝑉𝑎𝑟(𝑍𝐴 ) 3. Consistenza - uno stimatore è consistente se, all'aumentare della numerosità del campione, la distribuzione di probabilità si concentra in corrispondenza del valore reale del parametro da stimare (verrà approfondita questa proprietà più avanti). Stimatori di varianza, covarianza e correlazione Per una variabile aleatoria X, la varianza 𝝈𝟐𝑿 è 𝑉𝑎𝑟(𝑋) = 𝜎𝑋2 = 𝐸[(𝑋 − 𝜇𝑋 )2 ] Dato un campione di 𝑛 osservazioni, lo stimatore usuale di 𝜎𝑋2 è la somma delle deviazioni al quadrato attorno alla media campionaria divisa per 𝑛 − 1, tipicamente indicato con 𝝈 ̂ 𝟐𝑿 : 𝒏 𝟏 ̂ 𝟐𝑿 𝝈 = ̅ )𝟐 ∑(𝑿𝒊 − 𝑿 𝒏−𝟏 𝒊=𝟏 Poiché la varianza della popolazione è il valore atteso della deviazione quadrata di X rispetto alla sua media, è intuitivo utilizzare la media delle deviazioni quadrate del campione come stimatore. Ma perché dividere per 𝑛 − 1 anziché per 𝑛? Il motivo è che la media campionaria è per definizione al centro del campione, mentre la media della popolazione non lo è, se non per coincidenza. Di conseguenza, la somma dei quadrati delle deviazioni dalla media campionaria tende ad essere leggermente inferiore alla somma dei quadrati delle deviazioni dalla media della popolazione. Quindi, una media semplice delle deviazioni campionarie al quadrato è uno stimatore distorto verso il basso della 𝑛−1 varianza della popolazione. Tuttavia, è possibile dimostrare che la distorsione è un fattore di 𝑛. Pertanto, è possibile tenere conto della distorsione dividendo la somma delle deviazioni al quadrato per 𝒏 − 𝟏 anziché n. Una correzione simile deve essere effettuata quando si stima la covarianza della popolazione. Per due variabili aleatorie, 𝑋 e 𝑌, la covarianza della popolazione 𝝈𝑿𝒀 è 𝐶𝑜𝑣(𝑋, 𝑌) = 𝜎𝑋𝑌 = 𝐸[(𝑋 − 𝜇𝑋 )(𝑌 − 𝜇𝑌 )] Uno stimatore imparziale di 𝜎𝑋𝑌 è dato dalla somma dei prodotti delle deviazioni attorno alle medie campionarie diviso per 𝑛 − 1, tipicamente denotato con 𝜎̂𝑋𝑌 : 𝒏 𝟏 ̂ 𝑿𝒀 𝝈 = ̅ )(𝒀𝒊 − 𝒀 ∑(𝑿𝒊 − 𝑿 ̅) 𝒏−𝟏 𝒊=𝟏 Il coefficiente di correlazione della popolazione 𝝆𝑿𝒀 per due variabili 𝑋 e 𝑌 è definito come la loro covarianza divisa per la radice quadrata del prodotto delle loro varianze: 𝜎𝑋𝑌 𝜌𝑋𝑌 = √𝜎𝑋2 𝜎𝑌2 Il coefficiente di correlazione del campione, 𝜌̂𝑋𝑌 , si ottiene da questo sostituendo la covarianza e le varianze con i loro stimatori. 10 Il bias è il valore atteso dell’errore 22 𝟏 ̂ 𝑿𝒀 𝝈 ∑(𝑿 ̅ )(𝒀 − 𝒀 −𝑿 ̅) ̅ )(𝒀 − 𝒀 ∑(𝑿 − 𝑿 ̅) 𝒏−𝟏 ̂ 𝑿𝒀 = 𝝆 = = 𝟏 ̅ )𝟐 𝟏 ̅ )𝟐 ̅ )𝟐 ∑(𝒀 − 𝒀 √∑(𝑿 − 𝑿 ̅ )𝟐 ̂ 𝟐𝑿 𝝈 √𝝈 ̂ 𝟐𝒀 √ 𝒏−𝟏 ∑(𝑿 −𝑿 𝒏−𝟏 ∑(𝒀 − 𝒀 1 I termini presenti al numeratore e al denominatori sia annullano. 𝑛−1 LA DISTRIBUZIONE NORMALE Figura 10 Nell'analisi finora abbiamo discusso la media e la varianza di una distribuzione di una variabile aleatoria, ma non abbiamo detto nulla di specifico sulla forma effettiva della distribuzione. È giunto il momento di farlo. Ci sono solo quattro distribuzioni, tutte continue, che saranno importanti per noi: la distribuzione Normale, la distribuzione t, la distribuzione F e la distribuzione chi-quadrato (𝜒 2 ). La distribuzione Normale ha la graziosa forma a campana mostrata nella figura 10. La funzione di densità di probabilità per una variabile aleatoria X distribuita normalmente è: 1 1 (𝑋−𝛽) 2 − ( ) 𝑓(𝑋) = 𝑒 2 𝛼 𝛼√2𝜋 dove 𝛼 e 𝛽 sono parametri.Si tratta infatti di una famiglia infinita di distribuzioni poiché 𝛽 può essere qualsiasi numero reale finito e 𝛼 qualsiasi numero reale positivo finito. All'inizio l'espressione può sembrare un po' ostile, ma possiamo apportare un miglioramento immediato. Si può dimostrare che il valore atteso della distribuzione, 𝜇, è pari a 𝛽 e la sua varianza, 𝜎 2 , è pari ad 𝛼 2. Pertanto, è naturale scrivere la funzione di densità di probabilità nella forma 1 1 (𝑋−𝜇) 2 − ( ) 𝑓(𝑋) = 𝑒 2 𝜎 𝜎√2𝜋 La distribuzione è simmetrica, quindi ne consegue automaticamente che la media e la moda coincidono al centro della distribuzione. Inoltre, la sua forma è fissa quando espressa in termini di deviazioni standard, quindi tutte le distribuzioni normali appaiono identiche quando espresse in termini di 𝜇 e 𝜎. Questo è mostrato nella figura 11. Per una questione di stenografia matematica, se una variabile X è normalmente distribuita con media 𝜇 e varianza 𝜎 2 , questa è indicata come 𝑿~𝑵(𝝁, 𝝈𝟐 ) Un caso speciale importante è la distribuzione Normale standard, in cui 𝜇 = 0 e 𝜎 = 1. Questo è mostrato nella figura 12. Figura 12 Figura 11 CONTROLLO DI UN'IPOTESI Cosa viene prima, l’ipotesi teorica o la ricerca empirica? Forse, all’inizio, la teoria potrebbe essere il punto di partenza, ma nella pratica, la teorizzazione e la sperimentazione diventano rapidamente attività interattive. Per questo motivo affronteremo il tema della verifica delle ipotesi da entrambe le direzioni: 23 Da un lato possiamo supporre che la teoria sia venuta prima e che lo scopo dell'esperimento sia valutarne la plausibilità. Ciò porterà all’esecuzione di test di significatività. In alternativa, possiamo prima eseguire l'esperimento e poi considerare quali ipotesi teoriche sarebbero coerenti con i risultati. Ciò porterà alla costruzione di intervalli di confidenza. Formulazione di un'ipotesi nulla e sviluppo delle sue implicazioni Si supponga che una variabile aleatoria 𝑋 abbia una distribuzione Normale con media 𝜇 e varianza 𝜎 2. Inizieremo assumendo che la teoria preceda l'esperimento e che 𝜇 sia uguale a un valore specifico 𝜇0. Descriviamo quindi 𝑯𝟎 : 𝝁 = 𝝁𝟎 come la nostra ipotesi nulla. Definiamo anche un'ipotesi alternativa, denotata 𝐻1 , che rappresenterebbe la nostra conclusione se le prove indicassero che 𝐻0 è falsa. Nel caso presente, 𝐻1 è semplicemente: 𝜇 non uguale a 𝜇0 𝑯𝟏 : 𝝁 ≠ 𝝁𝟎 La nostra strategia di test consiste nel generare un campione di 𝑛 osservazioni indipendenti di 𝑋 e nel calcolare la media campionaria, 𝑋̅. Se l'ipotesi nulla è vera, i valori di 𝑋̅ ottenuti in campioni ripetuti saranno Normalmente distribuiti con media 𝜇0 e 𝜎2 𝜎 varianza 𝑛. Conseguentemente, la deviazione standard è 𝑛. √ La distribuzione potenziale di 𝑋̅, condizionata al fatto che 𝐻0 sia vera, è mostrata nella figura 13. Per disegnare 𝜎 questa figura, dobbiamo conoscere la deviazione standard di 𝑋̅, , il che significa che dobbiamo conoscere il √𝑛 valore di 𝜎. Per il momento, per semplificare il discorso, supponiamo di sì. Nella pratica, dobbiamo stimarlo, quindi alla fine dovremo allentare questa ipotesi. ̅ se 𝑯𝟎 : 𝝁 = 𝝁𝟎 è vera. s.d.= deviazione standard di 𝑿 Figura 13. La distribuzione di 𝑿 ̅ Compatibilità, stranezza e livello di significatività Ora arriviamo al nocciolo della questione. Supponiamo di prendere un campione reale di osservazioni e di calcolare 𝑋̅. Supponiamo che si trovi all'interno di una deviazione standard da 𝜇0. Il punto A nella figura 13 è un esempio di tale risultato. È perfettamente compatibile con l’ipotesi nulla in quanto non prevediamo che 𝑋̅ sia esattamente uguale a 𝜇0 , se non per una strana coincidenza, ma ci aspettiam