Intervalli di Confidenza - Appunti PDF

Document Details

SophisticatedExpressionism516

Uploaded by SophisticatedExpressionism516

Università degli Studi di Milano

2024

Alberto Bertoncini

Tags

inferenza statistica statistica intervalli di confidenza statistica descrittiva

Summary

Questi appunti trattano gli intervalli di confidenza in statistica. Coprono argomenti come la distribuzione normale, l'errore standard, il teorema del limite centrale e forniscono esempi pratici. Gli appunti sono stati preparati da Alberto Bertoncini, un docente dell'Università degli Studi di Milano, per l'anno accademico 2024-2025.

Full Transcript

INFORMATICA E BIOSTATISTICA Anno Accademico 2024-2025 Dott. Alberto Bertoncini INTERVALLI DI CONFIDENZA Inferenza Statistica Processo attraverso il quale si traggono conclusioni su un’intera popolazione in base ad un campione È molto...

INFORMATICA E BIOSTATISTICA Anno Accademico 2024-2025 Dott. Alberto Bertoncini INTERVALLI DI CONFIDENZA Inferenza Statistica Processo attraverso il quale si traggono conclusioni su un’intera popolazione in base ad un campione È molto difficile conoscere i parametri della popolazione. Il campionamento comporta due tipi di errori riducibili ma ineliminabili: Gli errori casuali variano in modo imprevedibile da una misura all’altra e Gli errori sistematici avvengono influenzano il risultato qualche volta sempre nello stesso senso: o sempre per per eccesso, qualche altra volta per eccesso, o sempre per difetto. difetto.  Non si può quindi affermare con certezza che i risultati ottenuto su un campione siano trasferibili ad una popolazione, ma si può generalizzare in termini medi utilizzando opportuni metodi statistici Dott. Alberto Bertoncini INTERVALLI DI CONFIDENZA CAMPIONE: sottoinsieme della popolazione Ci permette di conoscere non i veri parametri della popolazione (es. vera media, vera varianza), ma delle statistiche o stimatori di tali parametri Occorre: ☞ Scegliere il campione in modo corretto (per evitare bias, distorsione dello stimatore). Scelta random = ogni individuo deve avere la stessa probabilità di essere selezionato ►riduzione dell’errore sistematico ☞ Utilizzare un adeguato numero di unità campionarie ► riduzione dell’errore casuale ☞ Elaborare in modo corretto gli stimatori E’ necessario stabilire la precisione degli stimatori del campione ERRORE STANDARD Dott. Alberto Bertoncini ERRORE STANDARD DELLA MEDIA Se si selezionano da una popolazione con media μ e deviazione standard σ tutti i possibili campioni di dimensione n, si ottiene una serie di valori costituiti da medie campionarie Se ciascuna media è considerata come una singola osservazione, la distribuzione di probabilità di queste medie è denominata distribuzione delle medie campionarie Estrazione di 4 campioni di dimensione pari a 100 da una popolazione con μ = 50 kg e σ = 10 kg Dott. Alberto Bertoncini ERRORE STANDARD DELLA MEDIA La distribuzione delle medie campionarie ha 3 importanti proprietà:  La media della distribuzione delle medie campionarie è uguale alla media μ della popolazione  La deviazione standard della distribuzione delle medie campionaria è uguale a:  La forma della distribuzione delle medie campionarie è normale Dott. Alberto Bertoncini ERRORE STANDARD DELLA MEDIA È direttamente proporzionale alla deviazione standard della Popolazione È inversamente proporzionale alla radice quadrata del numero delle osservazioni Distribuzione di 10000 medie calcolate da 10000 campioni di dimensione 100 estratti da una popolazione con μ = 50 kg e σ = 10 kg Dott. Alberto Bertoncini ERRORE STANDARD DELLA MEDIA C’è una minor variabilità tra le medie campionarie che tra le osservazioni individuali All’aumentare di n, diminuisce la variabilità delle medie campionarie Per n sufficientemente grande, la distribuzione delle medie si approssima alla normale (TEOREMA DEL LIMITE CENTRALE) Dott. Alberto Bertoncini TEOREMA DEL LIMITE CENTRALE Se n è sufficientemente grande, la distribuzione delle medie campionarie è approssimativamente normale Sia data una popolazione numerica infinita di media µ e deviazione standard σ da cui vengono estratti dei campioni casuali formati ciascuno da n individui, con n abbastanza grande (n > 30). La distribuzione delle medie campionarie tende a una distribuzione gaussiana di media e deviazione standard. Dott. Alberto Bertoncini TEOREMA DEL LIMITE CENTRALE Se n è sufficientemente grande, la distribuzione delle medie campionarie è approssimativamente normale Poiché la distribuzione delle medie campionarie è approssimativamente normale con media μ e deviazione standard σ/√ n, la distribuzione delle medie campionarie standardizzata è pari a: Ed è normalmente distribuita con media 0 e deviazione Standard 1 Possiamo utilizzare le tabelle della distribuzione Z per fare inferenze sulla media della popolazione NB: la notazione maiuscola indica la media dei valori della variabile casuale X, ovvero la media delle medie campionarie Dott. Alberto Bertoncini TEOREMA DEL LIMITE CENTRALE Quando si analizzano singoli valori provenienti da una distribuzione normale occorre utilizzare la variabile standardizzata: Quando si analizza la media ottenuta da un campione (o gruppo), si ha a che fare con medie campionarie e si utilizza la media campionaria standardizzata: Dott. Alberto Bertoncini TEOREMA DEL LIMITE CENTRALE La distribuzione campionaria delle medie è una distribuzione ipotetica Possiamo considerare alcune caratteristiche della distribuzione campionaria delle medie per indicare quanto buona è la nostra stima Miglior modo per testare la bontà di una media è calcolare L’INTERVALLO DI CONFIDENZA DELLA MEDIA Intervallo di possibili valori entro cui è compresa la media della popolazione Dott. Alberto Bertoncini INTERVALLI DI CONFIDENZA * L’intervallo è compreso tra un limite superiore e uno inferiore * Se l’intervallo di confidenza è ampio, allora la media del campione è una stima piuttosto povera della media della popolazione * Se l’intervallo di confidenza è stretto, allora la media del campione è una buona stima della media della popolazione * Si considera solitamente un intervallo di confidenza del 95% * Possono essere considerati anche altri intervalli (90% o 99%) Dott. Alberto Bertoncini INTERVALLI DI CONFIDENZA Dott. Alberto Bertoncini INTERVALLI DI CONFIDENZA Significato e interpretazione dell’intervallo di confidenza Siamo confidenti al 95% che l'intervallo osservato contenga la vera media della popolazione (ossia: vi è una probabilità pari al 95% che l'intervallo osservato contenga la vera media della popolazione) Se immaginiamo di ripetere un campionamento 20 volte usando la stessa dimensione campionaria, si ottengono 20 differenti stime della media e 20 differenti intervalli di confidenza I 20 intervalli di confidenza con la rispettiva media (simbolo del rombo) che oscillano intorno al valore fisso del vero parametro della popolazione (che non è noto), di questi 19 (pari al 95% dei 20 indicati) lo incrociano ( e quindi il loro intervallo di valori, contiene il vero valore del parametro) Dott. Alberto Bertoncini INTERVALLI DI CONFIDENZA Significato e interpretazione dell’intervallo di confidenza La varianza della produzione di latte in una popolazione di capre è pari a σ2 = 16940 kg2. Un campione di 15 capre selezionato da questa popolazione presenta una produzione media effettiva pari a 570 kg. Calcolare un intervallo di confidenza al 95% per la media della popolazione (μ) Limite inferiore: 570 - 1.96*33.61 = 504.12 kg Limite superiore: 570 + 1.96*33.61 = 635.88 kg Dott. Alberto Bertoncini INTERVALLI DI CONFIDENZA Esercizio Sulla base del seguente campione casuale estratto da una popolazione normale di varianza nota σ2 = 2.5 2.0 1.6 2.5 2.4 2.0 3.1 1.3 2.2 1.8 1.1 determinare l’intervallo di confidenza di μ al livello di probabilità 1 - α = 0.95 Dott. Alberto Bertoncini INTERVALLI DI CONFIDENZA Esercizio La media campionaria calcolata sui 10 elementi selezionati risulta x̅ = 2 Z0.025 perché si desidera una confidenza pari a 0.95, quindi escludiamo 0.05 diviso sull’estremo superiore e inferiore (0.025 l’uno) I valori (sulla distribuzione normale standardizzata) per escludere 0.025 risultano (1.96, -1.96), che verrà moltiplicato per la deviazione standard delle media campionarie al fine di ottenere il corrispettivo valore non standardizzato Dott. Alberto Bertoncini INTERVALLI DI CONFIDENZA Esercizio Il manager che si occupa del controllo di qualità di un’azienda che produce lampadine intende stimare la durata media delle lampadine facenti parte di un determinato lotto di produzione. Si sa che la deviazione standard delle lampadine prodotte è paria 100 ore. Viene estratto un campione di 64 lampadine, che forniscono una durata media pari a 350ore. Rispondere alle seguenti domande: 1)Calcolare un intervallo di confidenza al livello di fiducia del 95% per la durata media delle lampadine; 2)Può il produttore affermare che la durata media delle lampadine è pari a 400ore? Dott. Alberto Bertoncini INTERVALLI DI CONFIDENZA Esercizio Vogliamo una confidenza del 95%, ovvero escludere lo 0.05 (α) della distribuzione più lontana dalla media e considerare lo 0.95 (1-α) dell’area. Escludiamo le due code (positiva e negativa) corrispondenti a z(α/2)=z0.025=z0.975 (uguali in quanto simmetrica) Un modo per scrivere l’intervallo di confidenza consiste nel posizionare la media tra i due limiti (inferiore e superiore), essendone sicuri che lo (1-α)=0.95 dell’area ricadrà in questo intervallo Dott. Alberto Bertoncini ERRORE STANDARD DEL CAMPIONE In genere non si conosce σ. Per calcolare l’ES del campione si utilizza s L’errore standard della media, stimato in base ai dati, è la deviazione standard del campione (s) divisa per la radice quadrata della dimensione del campione (n) Esempio La produzione media di latte di 256 bovine Holstein Friesian è 9414 kg, con deviazione standard pari a 2352 kg. Trovare l‘errore standard: Dott. Alberto Bertoncini ERRORE STANDARD DEL CAMPIONE Errore standard o deviazione standard? Media ± DS Media ± ES  Misura lo scostamento dalla  È una misura della precisione media della media del campione come stima della media della  Da indicazione di quanto le popolazione osservazioni siano vicini alla media  Da indicazione di quanto vicino alla media della popolazione sia  È utilizzata per costruire un la media del campione range in cui si trova la maggior parte delle osservazioni di una  È utilizzata per calcolare popolazione l’intervallo di confidenza che permette di giudicare la precisione della stima della media della popolazione Dott. Alberto Bertoncini INTERVALLO DI CONFIDENZA Intervallo di confidenza con σ non nota  Finora si è assunto che, per una popolazione con μ ignota, σ fosse nota  In realtà se μ è ignota verosimilmente anche σ è ignota  Non utilizza la deviazione standard della popolazione, σ, ma quella del campione s e si ottiene il rapporto t:  t non segue la distribuzione di una normale standardizzata, ma la distribuzione t di Student Dott. Alberto Bertoncini DISTRIBUZIONE T DI STUDENT  È simmetrica e a forma di campana, simile alla normale, ma più piatta e con le code più spesse  È caratterizzata dai gradi di libertà (GL) pari a (n-1)  L’area sottesa dalla curva è pari a 1 Nel grafico: distribuzione t di Student per Per ogni possibile g.l.=1 (blu, indicatore = triangolo) con sovrapposta la normale (nera). valore dei gradi di libertà, c’è una diversa distribuzione t Dott. Alberto Bertoncini DISTRIBUZIONE T DI STUDENT Distribuzione t per differenti GL All’aumentare dei GL la distribuzione t si approssima alla normale (Teorema del limite centrale) Dott. Alberto Bertoncini DISTRIBUZIONE T DI STUDENT La tabella riporta: - IN ALTO: aree sotto la curva solo per alcune probabilità α - A SINISTRA: i GL Per un determinato valore di GL, il valore della tabella rappresenta il valore di tn-1 che delimita il α% della distribuzione (il α/2% perparte) Dott. Alberto Bertoncini DISTRIBUZIONE T DI STUDENT Intervallo di confidenza con σ non nota  Non si può utilizzare la deviazione standard della popolazione, σ, ma quella del campione, s  Non si utilizza più la distribuzione normale ma la distribuzione del t di Student  L’intervallo di confidenza della media è stimato come: Dott. Alberto Bertoncini DISTRIBUZIONE T DI STUDENT Esempio Il progesterone del latte rilevato 24 giorni dopo l’inseminazione in 25 vacche presenta una media pari a 34.8 ng/ml e una deviazione standard pari a 13 ng/ml Calcolare l’intervallo di confidenza al 95% Dott. Alberto Bertoncini DISTRIBUZIONE T DI STUDENT Esercizio Sulla base del seguente campione casuale estratto da una popolazione normale 1.8 1.2 0.5 0.3 0.2 -0.1 -0.7 -1.2 determinare l’intervallo di confidenza di μ al livello di probabilità 1 − α = 0.95 Dott. Alberto Bertoncini DISTRIBUZIONE T DI STUDENT Esercizio Dai dati del campione si ottiene: Dott. Alberto Bertoncini INTERVALLO DI CONFIDENZA DI UNA PROPORZIONE Una proporzione è una parte/percentuale di un campione avente una determinata caratteristica Esempio: estratto un campione da una popolazione di bovini si identifica la proporzione di bovini nel campione che testano «positivo» ad un esame diagnostico  La proporzione del campione (p=#elementi selezionati/n) è la miglior stima puntuale della proporzione della popolazione (π).  Presi tutti i possibili campioni di dimensione n la distribuzione di una proporzione è approssimativamente normale. Dott. Alberto Bertoncini INTERVALLO DI CONFIDENZA DI UNA PROPORZIONE Per una proporzione, l’intervallo di confidenza ricade tra: Supponendo di volere una confidenza del 95% (1.96) p(1-p) risulta l’ES della proporzione Dott. Alberto Bertoncini INTERVALLO DI CONFIDENZA DI UNA PROPORZIONE Esempio Un campione di 115 bovini è selezionato in una determinata zona e i campioni di sangue sono testati per la presenza di anticorpi verso la Leptospira. 36 bovini sono risultati positivi P=36/115=0.313 q=(1-p) = 1 – 0.313 = 0.687 Dott. Alberto Bertoncini INTERVALLO DI CONFIDENZA DI UNA PROPORZIONE Esercizio Si vuole conoscere la proporzione di individui che voteranno «Si» al prossimo referendum. A tale scopo, viene effettuata un’indagine su 80 soggetti, 60 dei quali rispondono che voteranno «Si». Si determini l’intervallo di confidenza, ad un livello di fiducia del 95%, per la stima della proporzione di votanti in modo affermativo («Si»). Dott. Alberto Bertoncini INTERVALLO DI CONFIDENZA DI UNA PROPORZIONE Esercizio n=80 positivi=60 p=60/80=0.75 Dott. Alberto Bertoncini

Use Quizgecko on...
Browser
Browser