Lezioni di Statistica - Università di Milano - PDF
Document Details
Uploaded by SophisticatedExpressionism516
Università degli Studi di Milano
2024
Alberto Bertoncini
Tags
Summary
Questi appunti forniscono un'introduzione ai concetti fondamentali di statistica descrittiva, includendo la spiegazione di indici come media, moda e mediana. Il documento è un documento di lezione per un corso di Informatica e Biostatistica all'Università di Milano.
Full Transcript
INFORMATICA E BIOSTATISTICA Anno Accademico 2024-2025 Dott. Alberto Bertoncini MISURE DI TENDENZA CENTRALE MEDIA MODA MEDIANA Dott. Alberto Bertoncini ...
INFORMATICA E BIOSTATISTICA Anno Accademico 2024-2025 Dott. Alberto Bertoncini MISURE DI TENDENZA CENTRALE MEDIA MODA MEDIANA Dott. Alberto Bertoncini POPOLAZIONE E CAMPIONE POPOLAZIONE: include tutti i rappresentanti di un particolare gruppo Tutti i bovini, tutti i bovini da carne, tutti i bovini piemontesi, l’altezza di ciascun animale CAMPIONE: è un sottogruppo estratto dalla popolazione Popolazioni reali e ipotetiche 1) Siamo interessati all’IMPG nei suini Landrace: popolazione reale 2) Siamo interessati all’effetto di una dieta sperimentale nei suini Landrace, testeremo la dieta su un campione di suini Landrace estratto da un’ipotetica popolazione alimentata con quella dieta: popolazione ipotetica Dott. Alberto Bertoncini SIMBOLI MATEMATICI Pedice: solitamente i o j associato ad una variabile. Significa la i-esima osservazione della variabile x Sommatoria: l’espressione si legge “sommatoria, per i che va da 1 a n, degli i-esimi valori della variabile X” Dott. Alberto Bertoncini SIMBOLI MATEMATICI Esempio. La variabile x assume i seguenti 5 valori. Quindi n = 5 Dott. Alberto Bertoncini MEDIA E’ una misura della tendenza dei dati ad aggregarsi intorno ad un valore centrale. Se i dati rappresentano l'intera popolazione misurabile,la media viene simbolizzata da lettera greca (mu) Se invece i dati sono un campione di n osservazioni il simbolo (x sovrabarrato) A livello di calcolo sono identiche, la somma delle osservazioni diviso il numero NB. l’unità di misura è la stessa della variabile in esame Dott. Alberto Bertoncini MEDIA Riprendendo un esempio precedente vediamo come calcolare l’ACCURATEZZA con l’utilizzo della media Si vuole verificare l’accuratezza di un metodo di determinazione della glicemia del cane. Si esamina per 9 volte una soluzione di glucosio a concentrazione nota (90mg/dl) e si ottengono i seguenti valori: 94, 90, 93, 86, 96, 98, 88, 90, 93 Media delle misurazioni: 828/9 = 92 mg/dl Accuratezza: media – valore vero = 92 – 90 = 2 mg/dl Inaccuratezza: accuratezza/valore vero = 2/90 = 0.022 (2.2%) Dott. Alberto Bertoncini MEDIANA Valore che divide l'area di distribuzione della variabile in due parti equivalenti (da una parte e dall'altra di questo valore abbiamo lo stesso numero di osservazioni). Esempio: Uno studente ha preso, nell'ultima classe di liceo, i seguenti voti in matematica: 2, 4, 6, 8, 2, 3, 5, 7, 7 Ordiniamo le 9 osservazioni: 2, 2, 3, 4, 5, 6, 7, 7, 8. La mediana è il valore che sta al centro della distribuzione (5). La media invece è 4,9. Dott. Alberto Bertoncini MEDIANA Immaginiamo che lo studente avesse preso 10 voti: 7, 6, 7, 8, 2, 8, 9, 7, 10, 9 Ordiniamo le 9 osservazioni: 2, 6, 7, 7, 7, 8, 8, 9, 9, 10 La mediana sarà il valore medio dei due valori centrali, in questo caso (7+8)/2 = 7,5 La media è pari a 7,3 Se, al posto del 10, ci fosse un valore che si discosta molto dagli altri, es. 100, la mediana sarebbe rimasta 7,5 mentre la media sarebbe diventata 16,4 La mediana è un parametro statistico che risente meno della presenza di valori anomali (outlier) Dott. Alberto Bertoncini MEDIANA Formule per il calcolo della mediana Per n (dispari) osservazioni la mediana corrisponde all’i-esima osservazione. Per n (pari) osservazioni la mediana corrisponde alla media tra i valori i-esimo e i+1-esimo Dott. Alberto Bertoncini ESERCIZIO Calcolare media e mediana della seguente sequenza Dott. Alberto Bertoncini ESERCIZIO Usando le formule troviamo: Media = 5.29 Mediana = 2 Dott. Alberto Bertoncini MODA E' il valore della variabile relativo alla classe di maggior frequenza Dott. Alberto Bertoncini MODA In caso di parità di frequenza di due (o più) valori si possono mantenere entrambi, o eseguire un’ulteriore aggregazione Dott. Alberto Bertoncini MEDIA MODA MEDIANA Dott. Alberto Bertoncini MEDIA MODA MEDIANA Dott. Alberto Bertoncini MEDIA MODA MEDIANA Il confronto tra le misure ci dà delle indicazioni sulla simmetria o asimmetria della distribuzione Distribuzione asimmetrica con coda a dx Moda < Mediana < Media Distribuzione asimmetrica con cosa a sx Media < Mediana < Moda Dott. Alberto Bertoncini MEDIA PONDERATA Talvolta i dati, su cui si calcola la media, non contribuiscono equamente alla media finale, alcuni dati contribuiscono più di altri. E’ quindi necessario calcolare la media ponderata per tener conto del diverso peso (w) dei dati Due studenti di MedVet hanno preso nei singoli moduli del corso di ‘Sc. Prop. Di base per la MV’ i seguenti voti: Dott. Alberto Bertoncini MEDIA GEOMETRICA Utilizzata quando la distribuzione dei dati è asimmetrica Dopo la trasformazione logaritmica dei dati la distribuzione risulta più simmetrica, e quindi analizzabile con gli stimatori Ad esempio, nel grafico si nota come la distribuzione dei pesi di 19 cavie (Guinea pig)sia asimmetrica: Dopo trasformazione logaritmica, la distribuzione è più simmetrica La media geometrica è l’antilogaritmo della media dei logaritmi dei singoli valori Dott. Alberto Bertoncini ESERCIZIO Calcolare Media, Mediana e Moda (quando possibile) delle seguenti osservazioni 1) 12 15 25 18 15 4 16 15 13 2) 12 15 25 18 14 4 16 14 13 20 3) 12 13 20 12 12 13 13 12 13 4) verde rosso giallo giallo giallo verde rosso verde giallo Dott. Alberto Bertoncini ESERCIZIO 1) 12 15 25 18 15 4 16 15 13 -4, 12, 13, 15, 15, 15, 16, 18, 25 media= 14.78 mediana= 15 moda= 15 Dott. Alberto Bertoncini ESERCIZIO 2) 12 15 25 18 14 4 16 14 13 20 -4, 12, 13, 14, 14, 15, 16, 18, 20, 25 media= 15.1 mediana= 14.5 moda= 14 Dott. Alberto Bertoncini ESERCIZIO 3) 12 13 20 12 12 13 13 12 13 -12, 12, 12, 12, 13, 13, 13, 13, 20 media= 13.33 mediana= 13 moda= 12, 13 Dott. Alberto Bertoncini ESERCIZIO 4) verde rosso giallo giallo giallo verde rosso verde giallo -giallo, giallo, giallo, giallo, rosso, rosso verde, verde, verde media= NA, mediana= rosso (se ordine alfabetico), moda= giallo Dott. Alberto Bertoncini RANGE Differenza tra il valore massimo e minimo della variabile in studio Serie: 2, 3, 4, 4, 5, 5, 5, 5, 6, 7, 7, 7, 8, 8 Range: 8 - 2 = 6 Dott. Alberto Bertoncini VARIANZA La varianza è una misura della dispersione dei dati ( ) intorno alla media ed definita come la media degli scarti quadratici Nel caso di varianza della popolazione si indica con: Nel caso di varianza campionaria si indica con: É possibile indicarla come funzione V() La formula per la varianza è: Dott. Alberto Bertoncini VARIANZA Per semplicità e correttezza di calcolo la varianza viene calcolata con una formula equivalente alla precedente che però richiede meno operazioni e approssimazioni e di cui pertanto è obbligatorio l'uso. Dott. Alberto Bertoncini DEVIAZIONE STANDARD La deviazione standard è la radice quadrata della varianza ss(x) GRADI DI Denominatore della Denominatore della LIBERTÀ varianza varianza Dott. Alberto Bertoncini DEVIAZIONE STANDARD Perchè l’utilizzo di n-1 al denominatore nel caso della varianza campionaria: Non è possibile ottenere una stima della varianza da un campione di grandezza 1, in quanto non ci sarebbe variazione Quando scegliamo un campione casuale, questo non conterrà verosimilmente troppi valori estremi della popolazione e quindi la deviazione standard campionaria tenderà a sottostimare la vera deviazione standard. Per correggere questa sottostima dovremmo dividere per n-1 invece che per n Motivazioni matematiche legate alla costruzione dello stimatore e al suo valore atteso (non è parte del programma del corso) Dott. Alberto Bertoncini INDICI DI VARIABILITÀ Dott. Alberto Bertoncini INDICI DI VARIABILITÀ Dott. Alberto Bertoncini INDICI DI VARIABILITÀ Dott. Alberto Bertoncini ESERCIZIO Dott. Alberto Bertoncini ESERCIZIO Dott. Alberto Bertoncini COEFFICIENTE DI VARIAZIONE È una misura adimensionale della variabilità di una misurazione(l’u.d.m., uguale sia al numeratore che al denominatore si elide) È una percentuale Permette di valutare la dispersione intorno alla media È indice di precisione della misura Dott. Alberto Bertoncini ESERCIZIO In un campione di 25 pecore adulte viene misurata la ventilazione polmonare a riposo (l/min): Calcolare: media, mediana, moda, range, devianza, varianza, deviazione standard, c.v. Fare istogramma di frequenza. Calcolare le frequenze relative. Sono riportati i valori di ventilazione polmonare elevati al quadrato Dott. Alberto Bertoncini ESERCIZIO Dott. Alberto Bertoncini ESERCIZIO Dott. Alberto Bertoncini DISTRIBUZIONI ASIMMETRIA Caratterizza il grado di asimmetria di una distribuzione intorno alla sua media. L'asimmetria positiva indica una distribuzione con una coda asimmetrica che si estende verso i valori più positivi (coda a destra). L'asimmetria negativa indica una distribuzione con una coda asimmetrica che si estende verso i valori più negativi (coda a sinistra). CURTOSI La curtosi caratterizza la punta massima o minima relativa di una distribuzione rispetto alla distribuzione normale. Una curtosi positiva indica una distribuzione relativa verso il punto massimo. Una curtosi negativa indica invece una distribuzione relativa piatta. Dott. Alberto Bertoncini DISTRIBUZIONI Dott. Alberto Bertoncini BOX-PLOT Fornisce una descrizione sintetica della distribuzione dei valori Dott. Alberto Bertoncini BOX-PLOT Fornisce una descrizione sintetica della distribuzione dei valori Si traccia un asse verticale (scala del carattere) Si disegna un rettangolo che ha il primo (Q1) e il terzo quartile (Q3)come estremi. La larghezza del rettangolo è arbitraria. Si traccia, all’interno del rettangolo, una linea orizzontale in corrispondenza della mediana. Differenza interquartilica = Q3 – Q1 = r NB. può essere disegnato anche orizzontalmente Dott. Alberto Bertoncini BOX-PLOT SI evidenziano valori anomali fuori limite (> Q3 + (1.5 * r) o < Q1 – (1.5 * r)) Si tracciano due linee in corrispondenza di questi limiti: il valore adiacente superiore e inferiore Dott. Alberto Bertoncini BOX-PLOT Le distanze tra ciascun quartile e la mediana forniscono informazioni relativamente alla forma della distribuzione. Se una distanza è diversa dall'altra allora la distribuzione è asimmetrica. I valori adiacenti inferiore e superiore forniscono informazioni sulla dispersione e sulla forma della distribuzione ed anche sulle code della distribuzione. Dott. Alberto Bertoncini BOX-PLOT La distanza tra il terzo ed il primo quartile, Distanza interquartilica, è una misura della dispersione della distribuzione. Il 50% delle osservazioni si trovano comprese tra questi due valori. Se l'intervallo interquartilico è piccolo, la metà delle osservazioni si trova fortemente concentrata intorno alla mediana; all'aumentare della distanza interquartilica aumenta la dispersione del 50% delle osservazioni centrali intorno alla mediana. Le distanze tra ciascun quartile e la mediana forniscono informazioni relativamente alla forma della distribuzione. Se una distanza è diversa dall'altra allora la distribuzione è asimmetrica. Dott. Alberto Bertoncini ESEMPIO Dott. Alberto Bertoncini ESEMPIO Dott. Alberto Bertoncini ESEMPIO Dott. Alberto Bertoncini ESEMPIO Dott. Alberto Bertoncini BOX-PLOT Dott. Alberto Bertoncini BOX-PLOT Dott. Alberto Bertoncini ESERCIZIO Dott. Alberto Bertoncini ESERCIZIO Dott. Alberto Bertoncini