Distribuzione Normale PDF
Document Details
Uploaded by SophisticatedExpressionism516
Università degli Studi di Milano
Alberto Bertoncini
Tags
Summary
Questi appunti trattano la distribuzione normale, un argomento di statistica. La distribuzione è descritta con una curva e il suo utilizzo e le diverse trasformazioni per renderla più semplice, con esempi di utilizzo.
Full Transcript
INFORMATICA E BIOSTATISTICA Anno Accademico 2024-2025 Dott. Alberto Bertoncini DISTRIBUZIONI DI PROBABILITÀ CONTINUE Le variabili continue possono assumere un infinito numeri di valori, è impossibile dividere in un numero finito di singoli valori otten...
INFORMATICA E BIOSTATISTICA Anno Accademico 2024-2025 Dott. Alberto Bertoncini DISTRIBUZIONI DI PROBABILITÀ CONTINUE Le variabili continue possono assumere un infinito numeri di valori, è impossibile dividere in un numero finito di singoli valori ottenibili La distribuzione è descritta con una curva la cui altezza prende il nome di densità di probabilità L’area della regione sottesa dalla curva è uguale a 1 La curva che definisce l’area è detta funzione di densità di probabilità ed è descritta da un’equazione: Dott. Alberto Bertoncini DISTRIBUZIONI DI PROBABILITÀ CONTINUE La probabilità che la variabile continua sia compresa tra 2 limiti è uguale all’area della regione sottesa dai due limiti (tramite integrale). Nel grafico, la probabilità che la variabile casuale X assuma un valore nell'intervallo [0,5;0,7] è pari a 0,229, che corrisponde all'area sottesa alla funzione in quell'intervallo Dott. Alberto Bertoncini DISTRIBUZIONE NORMALE La maggior parte delle misure morfologiche o produttive rilevate sugli animali domestici mostrano di distribuirsi secondo una curva particolare: la curva di Gauss, curva a campana, curva degli errori o curva di distribuzione normale. La distribuzione normale è una curva simmetrica rispetto ad asse centrale, ovvero il valore di maggiore frequenza (la moda) che coincide nella gaussiana con la media delle osservazioni e con la mediana Sull'asse delle ascisse: scala della variabile in studio espressa nella sua unità di misura, ad esempio kg, cm, punti percentuali, litri o altro. X Dott. Alberto Bertoncini DISTRIBUZIONE NORMALE Allontanandosi dalla media si hanno valori di x sempre più rari al crescere della distanza dalla media, superiormente o inferiormente Osservazioni molto distanti dalla media sono magari biologicamente impossibili, ma la curva (funzione matematica) le ammette come possibili anche se con probabilità (valori di y) tendenti a zero. La media come centro della curva indica la tendenza dei dati ad aggregarsi intorno ad un valore centrale, ma non dice quanto strettamente Occorre un secondo parametro che indichi il grado di dispersione intorno alla media: la deviazione standard (DS o σ (sigma)). Dott. Alberto Bertoncini DISTRIBUZIONE NORMALE La seguente funzione descrive la distribuzione normale: La DS (σ) è espressa nella stessa unità di misura della variabile (kg, cm, …) Ogni variabile che rispetta questa distribuzione può quindi essere descritto in termini di media (μ) e DS (σ). Esempio: La razza Frisona Italiana in una lattazione di 305 giorni produce mediamente 90 quintali di latte con una deviazione standard (DS) di circa 20 quintali. 90 ± 20 L'altezza al garrese dei cavalli Avelignesi è di 138 cm con DS 3 cm: 138 ± 3 Dott. Alberto Bertoncini DISTRIBUZIONE NORMALE Dott. Alberto Bertoncini DISTRIBUZIONE NORMALE Si può osservare come al variare della media e della deviazione standard (e quindi della varianza) la curva subisce sia uno spostamento sull’asse dell’ascissa, sia un appiattimento/innalzamento. Se varia solo la deviazione standard (e quindi la varianza) e rimane costante la media, la curva: si appiattisce quando la DS aumenta diventa più appuntita quando la DS diminuisce Dott. Alberto Bertoncini DISTRIBUZIONE NORMALE CARATTERISTICHE DELLA CURVA NORMALE La distribuzione di una variabile continua è una curva di tipo simmetrico e campanulare, dotata delle seguenti caratteristiche: la curva è perfettamente simmetrica all’ordinata massima Y, cioè dove la funzione f(X) raggiunge il suo punto più alto, che è in corrispondenza di Xi = μ; questo fatto comporta che media, mediana e moda coincidano; la sua funzione di distribuzione f(X) è asintotica di X verso -∞ e +∞ (la curva si avvicina all’asse delle ascisse senza mai toccarla); tuttavia per Xi che dista più di 3 σ dalla media, la distanza tra la curva e l’asse delle X è estremamente piccola; è crescente per valori della X che vanno da -∞ a μ ; è decrescente per valori che vanno da μ a +∞; è completamente caratterizzata dai due parametri μ e σ; presenta due punti di flesso in corrispondenza di μ+σ e μ-σ, cioè i punti in cui la curva da convessa diventa concava si trovano in corrispondenza a ±1 deviazione standard dalla media Dott. Alberto Bertoncini DISTRIBUZIONE NORMALE Tutte le possibili distribuzioni normali di variabili biologiche possono essere confrontate tra loro riportandole ad una curva di Gauss standardizzata Dott. Alberto Bertoncini DISTRIBUZIONE NORMALE Una variabile standardizzata (z_i) è la deviazione (scostamento o scarto che ha evidentemente segno positivo o negativo) di ogni osservazione dalla media, misurata nelle unità della sua deviazione standard: Esempio: la produzione di una bovina Frisona = 9400 kg di latte con media 9000 e DS 2000. La sua produzione standardizzata è pari a: (9400 - 9000) / 2000 = 0,2. La produzione della bovina è superiore alla media per 2 decimi di DS Standardizzare una variabile Serve a renderla indipendente dalla grandezza fisica misurata Dott. Alberto Bertoncini DISTRIBUZIONE NORMALE La distribuzione normale standardizzata presenta le stesse caratteristiche della distribuzione normale NON standardizzata. La distribuzione normale standardizzata ha: MEDIA = 0 DEVIAZIONE STANDARD = 1 quindi è rappresentata da UNA SOLA CURVA, mentre la distribuzione normale generale è costituita da infinite curve a seconda dei valori di μ e σ. L’importanza della distribuzione normale standardizzata sta nel fatto che le probabilità corrispondenti ai diversi intervalli tra due valori possono essere calcolate. Queste probabilità sono state tabulate e vengono riportate in apposite tabelle Dott. Alberto Bertoncini DISTRIBUZIONE NORMALE Dott. Alberto Bertoncini DISTRIBUZIONE NORMALE Dott. Alberto Bertoncini DISTRIBUZIONE NORMALE Alcuni punti particolari della tabella rivestono particolare importanza: z ≤ 1.96 esclude il 2.5% a destra della media z ≥ -1.96 esclude il 2.5% a sinistra della media -1.96 ≤ z ≤ 1.96 esclude il 5% della distribuzione normale μ ± 1σ include il 68% circa delle osservazioni: [1 – (2*0.1587) = 0.6826] μ ± 2σ include il 95% circa delle osservazioni [1 – (2*0.0228) = 0.9544] μ ± 3σ include il 99% circa delle osservazioni: [1 – (2*0.0013) = 0.9974] Dott. Alberto Bertoncini DISTRIBUZIONE NORMALE I valori delle probabilità possono essere riportati in diversi modi Esistono tavole riportanti : I valori di probabilità per un valore compreso tra 0 e z I valori di probabilità per un valore maggiore di z I valori di probabilità per un valore minore di z Dott. Alberto Bertoncini DISTRIBUZIONE NORMALE Utilizzo della distribuzione normale standardizzata Calcolo delle probabilità relativa a qualsiasi distribuzione normale I vitelli di razza Piemontese nascono spesso così pesanti da dar luogo a problemi di parto, problemi che insorgono solitamente quando il vitello pesa più di 50 kg e che richiedono l’intervento veterinario. Inoltre, se il vitello pesa più di 54 kg si rende necessaria la macellazione. Sapendo che il peso medio al parto è 46 kg e che la DS è 4 kg ci si chiede: in quale percentuale di casi sia richiesto l'intervento del veterinario per risolvere un parto difficile Dott. Alberto Bertoncini DISTRIBUZIONE NORMALE Utilizzo della distribuzione normale standardizzata Calcolo delle probabilità relativa a qualsiasi distribuzione normale I vitelli di razza Piemontese nascono spesso così pesanti da dar luogo a problemi di parto, problemi che insorgono solitamente quando il vitello pesa più di 50 kg e che richiedono l’intervento veterinario. Inoltre, se il vitello pesa più di 54 kg si rende necessaria la macellazione. Quale percentuale di vitelli sopravvive al parto assistito Di tutti quelli superiori ai 50 kg, si tolgono tutti quelli che verrebbero macellati: 0.1587 – 0.0228 = 0.1359 Si arriva alla conclusione che: Nel ~16% dei casi è richiesto l’intervento veterinario Nel ~13.5% dei casi i vitelli sopravvivono Dott. Alberto Bertoncini DISTRIBUZIONE NORMALE Utilizzo della distribuzione normale standardizzata Determinare i valori Z a partire da aree note Determinare i valori di Z che delimitano il 2.5% inferiore e il 2.5% superiore di probabilità. Si cerca sulle tavole relative alle probabilità della curva normale standardizzata l’area pari a 0.025 e si risale al valore Z Il valore richiesto è Z = -1.96 per la coda a sinistra Il valore richiesto è Z = +1.96 per la coda a destra Dott. Alberto Bertoncini DISTRIBUZIONE NORMALE Utilizzo della distribuzione normale standardizzata Determinare i valori Z a partire da aree note Applicazione (esempio): La capra Camosciata ha una produzione media pari a 553 L con una DS pari a 222 L; determinare le produzioni che delimitano il 2.5% inferiore e il 2.5% superiore della probabilità. Dott. Alberto Bertoncini DISTRIBUZIONE NORMALE Metodi per identificare la non normalità Grafici Istogrammi Box plot Metodo dei quantili normali (Q-Q plot) Numerici Asimmetria Curtosi Shapiro-Wilk Kolmogorov-Smirnov Dott. Alberto Bertoncini DISTRIBUZIONE NORMALE Per rendere normale una distribuzione, i valori possono essere trasformati Trasformazione logaritmica Y’ = ln(y) È la trasformazione più utilizzata Trasformazione arcoseno p’ = arcsin(√p) È utilizzata per i dati espressi come proporzioni Trasformazione radice quadrata Y’ = √Y +1/2 È utilizzata per i dati espressi come conteggi Trasformazione quadratica Y’ = Y^2 È utilizzata quando la distribuzione è asimmetrica a sinistra Trasformazione reciproca Y’ = 1/Y È utilizzata quando la distribuzione è asimmetrica a destra Dott. Alberto Bertoncini DISTRIBUZIONE NORMALE Per rendere normale una distribuzione, i valori possono essere trasformati Trasformazione logaritmica Y’ = ln(y) Dott. Alberto Bertoncini DISTRIBUZIONE NORMALE Esercizio Ad un esame universitario, il voto medio è stato μ=24 con σ=4. Supponendo i voti normalmente distribuiti, calcolare la probabilità che uno studente abbia riportato: A) Un voto superiore a 27 B) Un voto non inferiore a 22 E' inoltre, richiesto: C) Il voto minimo riportato dal 70% degli studenti (più bravi) D) Il voto massimo non superato dal 90% degli studenti Tavole probabilità cumulativa per distribuzione normale: edutecnica.it/calcolo/normale/tabellanormale.htm Dott. Alberto Bertoncini DISTRIBUZIONE NORMALE Soluzione A) Se la variabile x = 27 allora Utilizzando le tavole della probabilità cumulativa per distribuzione normale per valori di z positive con z = 0.75 otteniamo una probabilità cumulative pari a p(z) = p(0.75) = 0.7734 Gli studenti che hanno preso meno di 27 saranno quindi associate all’area di valore 0.7734 mentre coloro che hanno preso più di 27 sono associate alla rimanente area pari a 1 - 0.7734 = 0.2266. Quindi è possibile dire che il 22.66% degli studenti ha preso più di 27. Dott. Alberto Bertoncini DISTRIBUZIONE NORMALE B) Se la variabile x vale 22 Utilizzando le tavole della probabilità cumulativa per distribuzione normale per valori di z negativi con z = -0.5 otteniamo una probabilità cumulative pari a p(z) = p(−0.5) = 0.3085. Gli studenti che hanno non meno di 22 saranno quindi associati all’area rimanente di valore 1 - 0.3085 = 0.6915. Quindi il 69.15% degli studenti ha preso un voto non inferiore a 22. Dott. Alberto Bertoncini DISTRIBUZIONE NORMALE C) Il voto minimo riportato dal 70%, servono alcune considerazioni: tutti gli studenti appartenenti al semipiano positive sono da considerare; infatti questi rappresentano il 50% degli studenti con votazioni maggiori della media/mediana. Poiché 70% = 0.7 = 0.5 + 0.2 e siccome lo 0.5 lo abbiamo già considerate nel punto precedente ci resta da sommare lo 0.2 che sarà necessariamente nel semipiano negativo. Utilizzando le tavole della probabilità cumulativa possiamo ricavare il valore di z nel semipiano negativo tale che l’area sottesa sia circa 0.3 così da identificare il voto minimo preso dal 70% degli studenti. Dalla tavola per la probabilità cumulative per valori negativi di z vediamo che la z che più si avvicina è z=- 0.53 (prendiamo il più vicino da sinistra) Ricordandoci che è standardizzato è immediato ricavare il valore originale da media e DS Quindi il voto minimo riportato dal 70% degli studenti è circa 22. Dott. Alberto Bertoncini DISTRIBUZIONE NORMALE D) Calcolare il voto massimo non superato dal 90% degli studenti In maniera molto più semplice, sappiamo di volere il valore di z corrispondente a probabilità 0.9, quindi tramite la consultazione delle tavole si ottiene (il più vicino da sinistra): 1,28 Da questo ne deduciamo che il voto non superato dal 90% degli studenti è circa 29. Dott. Alberto Bertoncini