Statistica Descritiva PDF
Document Details
Uploaded by SophisticatedExpressionism516
Università degli Studi di Milano
Alberto Bertoncini
Tags
Summary
This document presents an introduction to descriptive statistics, covering qualitative and quantitative variables, associations between variables, and different graphical representations. It includes examples and exercises to illustrate these concepts, particularly focusing on tables, charts, and graphs as tools for data representation and analysis. The document may be material for a university course.
Full Transcript
INFORMATICA E BIOSTATISTICA Anno Accademico 2024-2025 Dott. Alberto Bertoncini STATISTICA DESCRITTIVA Descrizione e presentazione dei dati Variabili categoriche (qualitative) Variabili quantit...
INFORMATICA E BIOSTATISTICA Anno Accademico 2024-2025 Dott. Alberto Bertoncini STATISTICA DESCRITTIVA Descrizione e presentazione dei dati Variabili categoriche (qualitative) Variabili quantitative 1. Tabelle di frequenze 1. Tabelle di frequenze 2. Diagramma a barre (bar chart) 2. Istogramma 3. Torte (pie chart) 3. Box plot Associazione tra variabili categoriche Associazione tra variabili quantitative 1. Tabelle di contingenza 1. Diagrammi di dispersione (scatter 2. Diagramma a barre raggruppate plot) 2. Diagramma a linee Dott. Alberto Bertoncini DESCRIZIONE E PRESENTAZIONE DEI DATI Dati riordinati, classificati e sintetizzati mediante tabelle e grafici di FREQUENZA CLASSE è la suddivisione delle osservazioni in intervalli di determinata ampiezza FREQUENZA ASSOLUTA: numero di osservazioni di un determinato valore (o classe) preso dalla misura in esame FREQUENZA RELATIVA: la frequenza della classe divisa per il totale delle frequenze di tutte le classi DISTRIBUZIONE DI FREQUENZA: ordinamento dei dati secondo le classi (se ordinabili) mostrando le corrispondenti frequenze Dott. Alberto Bertoncini VARIABILE CATEGORICA DISTRIBUZIONE DI FREQUENZE PER ORDINE DI PARTO NELLE BOVINE Dott. Alberto Bertoncini VARIABILE CATEGORICA Variabile categorica Diagramma a barre La lunghezza di ciascuna barra indica la frequenza assoluta o quella relativa di ciascuna classe La scala mostra le frequenze (assolute o relative) parte da 0 Dott. Alberto Bertoncini VARIABILE CATEGORICA Variabile categorica Grafico a torta Un cerchio diviso in settori (o fette), in cui l’area totale rappresenta la frequenza totale I settori rappresentano le categorie L’area di ciascun settore è proporzionale alla percentuale (sul totale) di osservazioni rilevate per quella categoria Dott. Alberto Bertoncini VARIABILE CATEGORICA Grafico a barre orizzontali Utile con etichette di classi lunghe Dott. Alberto Bertoncini VARIABILE CATEGORICA - ASSOCIAZIONE Diagramma a barre raggruppate Visualizza l’associazione tra 2 variabili categoriche Variabile 1: Razza Variabile 2: Fecal Score 2 classi (livello o categorie) 4 classi (livello o categorie) 1)Cocker 1)FS 3 2)Boxer 2)FS4 3)FS5 4)FS6 Dott. Alberto Bertoncini VARIABILE CATEGORICA - ASSOCIAZIONE Diagramma a barre impilate Visualizza l’associazione tra 2 variabili categoriche Si utilizzano rettangoli impilati con un’altezza pari alla frequenza relativa delle categorie in relazione alla categoria in esame (asse x) Permette il confronto delle categorie di una variabile all’interno della categoria di un’altra variabile Dott. Alberto Bertoncini VARIABILE CATEGORICA - ASSOCIAZIONE Tabella di contingenza Tabella di frequenza tra 2 variabili categoriche Esempio Secondo alcuni studiosi il livello di infestazione in alcuni pesci influenza il rischio di predazione da parte degli uccelli. In una grande vasca sono stati posti 3 diversi gruppi di pesci: non infestati, lievemente infestati e fortemente infestati. La vasca è lasciata accessibile a varie specie di uccelli. >> Esercizio: fare il diagramma a barre impilate per questo esempio Dott. Alberto Bertoncini VARIABILE CATEGORICA - ASSOCIAZIONE Tabella di contingenza Tabella di frequenza con frequenze relative Dott. Alberto Bertoncini VARIABILE CATEGORICA - ASSOCIAZIONE Dott. Alberto Bertoncini VARIABILE CATEGORICA - ASSOCIAZIONE Tabella di contingenza Tabella di frequenza con frequenze relative Dott. Alberto Bertoncini VARIABILE CATEGORICA - ASSOCIAZIONE Dott. Alberto Bertoncini VARIABILE CONTINUA Istogramma di frequenza Sono costruiti raggruppando i risultati in classe di frequenza: le osservazioni sono suddivise in classi di ampiezza non necessariamente costante Gli intervalli devono essere mutuamente esclusivi Dott. Alberto Bertoncini VARIABILE CONTINUA Dott. Alberto Bertoncini VARIABILE CONTINUA Poligoni di frequenza Vengono costruiti ponendo un punto al centro di ciascun intervallo all’altezza relativa alla frequenza associata a quell’intervallo. I punti vengono poi uniti da una linea spezzata. Dott. Alberto Bertoncini VARIABILE CONTINUA Regole per costruire un istogramma Un lato del rettangolo deve giacere sull’asse x, ad altezza y=0 Il numero di intervalli deve essere scelto in modo da far risaltare in maniera fedele la distribuzione dei dati Sugli assi cartesiani devono essere indicate le variabili e le misure I software utilizzano formule per calcolare il numero ottimale di intervalli. E.g. la regola di Sturges: oppure K numero di intervalli, n numero di osservazioni Esempio: 20 osservazioni, variabile produzione di latte in L Range 5900-11900 L Regola di Sturges 5 classi Si valuta il grafico e si determina l’opzione migliore: in questo caso 6 classi L Intervallo di classe: (11900-5900)/6 = 1000 L Dott. Alberto Bertoncini VARIABILE CONTINUA Istogramma di frequenza Regola di Sturges per avere il numero di classi Intervallo delle classi: 7.1/6 ~ 1.18 l/min Dott. Alberto Bertoncini VARIABILE CONTINUA Istogramma a colonne raggruppate É usato per confrontare i valori di due categorie Variabile: lunghezza delle pupe di api Categorie: presenza di varroa, assenza di varroa Dott. Alberto Bertoncini VARIABILE CONTINUA Frequenza Cumulativa Somma delle frequenze di un intervallo a quello dell’intervallo precedente Dott. Alberto Bertoncini VARIABILE CONTINUA Esempio di curve cumulative Si considera lo scostamento (%) tra le misure rilevate da medici veterinari e le misure di Gold Standard relativamente a 2 valori ecocardiografici di cani Se si considera uno scostamento massimo del 10%, i medici rilevano in modo più accurato il Param2 Dott. Alberto Bertoncini VARIABILE CONTINUA La serie di dati può essere suddivisa in 4 zone equivalenti, dette QUARTILI Si riconoscono i seguenti valori 25° percentile = valore al disotto del quale è situato il 25% delle osservazioni 50° percentile = valore al disotto del quale è situato il 50% delle osservazioni 75° percentile = valore al disotto del quale è situato il 75% delle osservazioni Dott. Alberto Bertoncini VARIABILE CONTINUA Nei bovini si riferisce l'accrescimento corporeo a un determinato percentile e i grafici qui riprodotti rappresentano l'andamento medio della crescita corporea fino a 24 mesi. Sono realizzati controllando il peso e l'altezza di migliaia di bovine Holstein degli USA. I tecnici raccomandano agli allevatori di mantenere il peso delle manze vicino al 75 ° percentile. Dott. Alberto Bertoncini VARIABILE CONTINUA Quartili e Percentili Quartili: dividono i dati ordinati in 4 parti uguali Q1 (primo quartile) → separa il 25% inferiore dei datidal 75% superiore Q2 (secondo quartile o MEDIANA) → separa il 50% inferiore dei dati dal 50% superiore Q3 (terzo quartile) → separa il 75% inferiore dei dati dal 25% superiore PERCENTILI: dividono i dati ordinati in 100 parti uguali Dott. Alberto Bertoncini VARIABILE CONTINUA Regole pratiche Per calcolare i quartili (o anche i percentili) di una distribuzione, seguiamo i passi di seguito indicati: 1.Si ordinano gli n dati della distribuzione in ordine crescente 2.Indicato con p il percentile in notazione decimale (p=0.25 per il 25° percentile o 1° quartile, p=0.37 per il 37° percentile), si calcola il prodotto 3.k=np 4.Se k è un intero, il quartile (percentile) si ottiene facendo la media del k- esimo e del (k+1)-esimo valore dei dati ordinati 5.Se k non è un intero, si arrotonda k per eccesso al primo intero successivo e si sceglie come quartile (percentile) il corrispondente valore dei dati ordinati Dott. Alberto Bertoncini VARIABILE CONTINUA Calcolare Q1 e Q2 dei seguenti dati Q1: n = 10 p = 0.25 k = 0.25 * 10 = 2.5 Dato che k non è intero si arrotonda al superiore; k = 3 Q1 = 30.4 Q2: n = 10 p = 0.5 k = 0.5 * 10 = 5 Dato che k è intero si fa la media del valore in quella posizione e il successivo Q2 = (30.7 + 31) / 2 = 30.85 Q3: n = 10 p = 0.75 k = 0.75 * 10 = 7.5 Dato che k non è intero si arrotonda al superiore; k = 8 Q3 = 31.3 Dott. Alberto Bertoncini VARIABILE CONTINUA Scatterplot o Grafico a Dispersione L Visualizza l’associazione tra due variabili quantitative L Dott. Alberto Bertoncini VARIABILE CONTINUA Diagrammi a linee Sono utili per visualizzare le tendenze nel tempo rispetto a qualche variabile ordinata É simile al diagramma a dispersione, eccetto che viene visualizzato una sola misura y per ogni osservazione x. I punti lungo l’asse x sono uniti da una retta (e ordinabili) Dott. Alberto Bertoncini VARIABILE CONTINUA Grafico combinato E’ adatto per il confronto di due variabili con valori generalmente difficili da confrontare a causa delle differenze di scala. Spesso ha due assi verticali Dott. Alberto Bertoncini