Document Details

Uploaded by Deleted User

2022

Ciro Esposito

Tags

statistica analisi statistica statistica descrittiva statistica inferenziale

Summary

This document is a handout on statistics, covering topics such as the science of statistics, data, and statistical analysis. It was written by Ciro Esposito for the academic year 2021/2022. The handout explains basic concepts, including the collection, analysis, and interpretation of data, and touches on various statistical approaches.

Full Transcript

Dispensa di Statistica Ciro Esposito A.A. 2021/2022 Cos’è la statistica? La Statistica è una scienza, al pari della matematica e della fisica, ed è definibile come la scienza in grado di prendere decisioni in condizioni di incertezza. (es: colore delle zone nella situazione epidemiologica Covid-19...

Dispensa di Statistica Ciro Esposito A.A. 2021/2022 Cos’è la statistica? La Statistica è una scienza, al pari della matematica e della fisica, ed è definibile come la scienza in grado di prendere decisioni in condizioni di incertezza. (es: colore delle zone nella situazione epidemiologica Covid-19 o medicinale da prescrivere ad un paziente con diverse patologie, etc..). Nei casi in cui occorre assumere decisioni in condizioni di incertezza, la Statistica è importante ed ineliminabile per la ricerca scientifica, poiché fornisce strumenti formali e rigorosi che utilizzano in modo coerente ed efficiente le informazioni disponibili; inoltre una scienza che è onnipresente nel giornalismo, nelle scienze economiche, mediche e fisiche: nel nostro caso per quanto sia una scienza quantitativa, la statistica è una scienza necessaria alle scienze politiche! La definizione di Treccani definisce la Statistica come la scienza che ha per oggetto lo studio dei fenomeni collettivi suscettibili di misura. Si studia a partire da una rilevazione di dati, che poi verranno analizzati e da cui verranno estrapolate delle informazioni. Cosa sono i dati? I dati sono le misure iniziali su cui si fonda la statistica, senza i dati è difficile fare informazione ad esempio per i giornali di cronaca e attualità o anche il giornalismo di precisione (data journalism o giornalismo di inchiesta, ossia un giornalismo che vede come protagonista un giornalista dei dati che riesce a fare uso consapevole/scientifico dei dati raccolti per poi pubblicare in maniera corretta le informazioni che si ottengono). L’uso consapevole dei dati per estrarre informazioni è un valore aggiunto di un buon scienziato politico. Cos’è un fenomeno collettivo? Un fenomeno collettivo è un fenomeno che si interessa della collettività ma non del singolo (es: efficacia del vaccino contro il Covid-19 o il livello di cultura degli studenti italiani). Paradigmi della ricerca statistica Il lavoro della statistica inizia ponendosi come obbiettivo la misurazione di un fenomeno collettivo di interesse, fenomeno per cui saranno saranno raccolti una serie di dati, dai quali a loro volta saranno estratte delle informazioni. La statistica descrittiva in particolar modo, è l’insieme di tutte quelle tecniche e metodi per descrivere i dati e sintetizzarli: difatti, per essere utilizzati nel migliore dei modi, i dati descritti andranno sintetizzati attraverso la sintesi delle informazioni. SINTESI DELLE INFORMAZIONI: di fronte a tante informazioni riguardanti uno o più fenomeni di interesse si cerca un indicatore riassuntivo, utile per lo scopo scelto: tale semplificazione per Dispensa di Statistica Ciro Esposito A.A. 2021/2022 quanto “comoda” risulta essere anche dannosa, poiché comporta il rischio di giungere a conclusioni distorte, motivo per il quale si possono calcolare diverse sintesi. Dopo aver descritto e sintetizzato i dati, inevitabilmente si passerà al paradigma della scoperta del nuovo. SCOPERTA DEL NUOVO: è la fase in cui avviene la messa in evidenza dei fatti, ossia dove ogni rilevazione della statistica è finalizzata a svelare una conoscenza del fenomeno di interesse, la quale non riguarda soltanto i dati raccolti, ma che è intenta a generalizzarsi anche alla collettività (la “popolazione” o “universo”) a cui si riferisce l’intero studio. Strettamente collegato alla parte descrittiva è l’Inferenza statistica, nonchè il momento più matematico della scienza statistica. Per arrivare all’inferenza tuttavia si avrà bisogno di svolgere un intermezzo o calcolo della probabilità. Affinchè il decisore possa prendere decisioni deve imparare a comunicarle, e per questo entrano in gioco le rappresentazioni grafiche. CONTENIMENTO DELL’ERRORE: c’è sicuramente da ricordare che non si può mai essere sicuri di un’informazione statistica, perché in ogni caso essa è accompagnata da un margine di incertezza. In particolar modo, un margine di incertezza (anche detto errore statistico) è generato dalla misurazione dei dati e dalla sintesi delle informazioni. L’errore statistico costituisce un elemento da considerarsi dannoso sia per l’analisi statistica che per la misurazione finale del fenomeno, motivo per cui esso deve essere contenuto e ridotto al minimo. Cos’è una rilevazione statistica? La rilevazione statistica in gergo è detta raccolta dei dati (es: intervista, questionario); i dati da raccogliere sono ovviamente scelti in vista dell’obbiettivo dell’intero studio. Il primo momento della rilevazione statistica è comprendere qual è la popolazione di riferimento (in parole povere su cosa misurare). Infatti la rilevazione dunque può essere totale (si basa sull’intero insieme) o su un campione (un sottinsieme della popolazione). Cos’è l’oggetto di rilevazione statistica? (risponde alla domanda domanda “Che cosa sto rilevando?”) L’oggetto della rilevazione è variabile e riguarda tutti quei fenomeni collettivi suscettibili di variabilità: assume il nome di variabile proprio perché non è una misura costante (Es: qual è lo sport preferito dagli alunni?). Cos’è la “popolazione” o “universo” in termini statistici? Per popolazione o universo si intende il collettivo di riferimento della rilevazione statistica, è difatti l’insieme di tutte le unità statistiche a cui la rilevazione statistica può riferirsi; spesso però la maggior parte delle rilevazione statistiche si basano però su un sottinsieme della popolazione di riferimento (o meglio campione), che viene scelto in maniera oculata, poiché deve rappresentare l’intera popolazione. Dispensa di Statistica Ciro Esposito A.A. 2021/2022 Cos’è un’unità statistica? (risponde alla domanda “Su che cosa sto rilevando?”) L’unità statistica costituisce il singolo elemento che compone la popolazione su cui si basa la rilevazione statistica. Le elaborazioni metodologiche della statistica Le elaborazioni metodologiche si definiscono come l’insieme delle tecniche e metodi statistici per la raccolta dei dati. La prima elaborazione metodologica che si può effettuare è la rappresentazione delle frequenze su cui si può esprimere la variabile ( in parole povere contare e segnare graficamente il numero di volte in cui è stata utilizzata la variabile statistica). Chiari esempi potrebbero essere il numero di dispositivi a disposizione per la DAD di diverse famiglie (variabile di tipo quantitativa), o il liceo di provenienza degli alunni (variabile qualitativa) Cos’è il controllo statistico della qualità? Il controllo statistico della qualità è definibile come l’insieme di tecniche e metodi esplorativi o descrittivi, finalizzati al monitoraggio della qualità del processo produttivo: può difatti aiutare a capire se la produzione sia sotto controllo o meno. E’ importante saper misurare con il minor margine di incertezza. La teoria dei campioni La teoria dei campioni è una parte della Statistica che cerca di delineare i criteri per scegliere un sottinsieme di unità statistiche della popolazione di riferimento (appunto un campione) su cui verrà effettuata la rilevazione statistica. La scelta del campione è fatale, cruciale, poiché potrebbe compromettere l’intera rilevazione dei dati. Le fasi dell’analisi statistica Descritti i vari elementi che compongono l’analisi statistica è necessario definire delle fasi: 1) Scegliere l’obbiettivo della ricerca ; 2) Compiere la rilevazione dei dati ; 3) Svolgere le elaborazioni metodologiche ; 4) Presentare ed interpretare i dati posseduti ; 5) Utilizzazione dei dati della propria ricerca. Dispensa di Statistica Ciro Esposito A.A. 2021/2022 Esempio livello stress studenti: Le origini della statistica L’etimologia della parola statistica è molto discussa, ma l’etimologia più accreditata è quella data intorno al 1600 da uno storico italiano, Ghislini, che definì la statistica come quell’insieme di qualità ed elementi che concludono uno stato (inteso come organizzazione delle attività di un territorio): non a caso le rilevazioni statistiche hanno da sempre accompagnato le attività di ogni Stato o organizzazione. Ogni Stato è dotato di appositi organismi ufficiali dedicati alle rilevazioni statistiche. L’ISTAT Per l’Italia l’ISTAT (Istituto nazionale di statistica) è l’ufficio centrale di statistica che coordina le attività di una serie di uffici amministrativi e organismi dediti alla raccolta di statistiche ufficiali. La rete di fonte di dati ufficiali prende invece il nome di SISTAN (sistema statistico nazionale). Dispensa di Statistica Ciro Esposito A.A. 2021/2022 L’ISTAT non è però l’unico ufficio a raccogliere statistiche ufficiali. Inoltre L’eurostat ha il compito di mediare le banche dati tra i paesi europei. Il censimento Il censimento è una funzione pubblica mirata a monitorare i tratti socio-economico-demografici del paese (quindi ad acquisire informazioni sul numero di abitanti e su caratteristiche della popolazione); essendo una funzione pubblica il censimento è promulgato da una legge specifica della privacy e segue una regolamentazione precisa. Il primo censimento moderno dell’ Italia si è svolto nel 1861 e si svolge solitamente in maniera decennale; l’ultimo censimento decennale risale al 2011, questo perché nel 2018 si è introdotto il censimento permanente della popolazione. Perché si introduce il censimento permanente della popolazione? Siccome negli ultimi decenni la società si sta evolvendo in maniera sostenuta, un censimento decennale non risulta essere ottimale, ed è per questo che ogni anno l’ISTAT esegue il censimento su un campione della popolazione; annualmente dunque vengono selezionati una serie di comuni “a rotazione”, in maniera tale che nel corso del decennio tutti i comuni vengano censiti. Il campione non riguarda però l’intera regione (tutti i comuni della Campania o della Lombardia) proprio perché deve rappresentare tutta la popolazione. Big data Per big data si intende letteralmente grandi dati, ma differentemente a come si possa pensare il termine big non si riferisce soltanto alla numerosità dei dati o al volume, ma alle risorse di dati, che costituiscono uno strumento di potere per tutti i decisori economici, politici etc.. Sono così importanti che è stato necessario creare una nuova unità di misura oltre il terabyte per gestire , organizzare e lavorare su queste risorse. I big data possiedono delle caratteristiche principali riassumibili in tre V: Volume: le grandi quantità di dati disponibili Variety: i dati non strutturati (foto, video, post, e-mail) Velocity: velocità con cui i dati vengono ricevuti e prendere decisioni in condizioni di incertezza L’unità di misura coniata, un gettabyte serve ad evitare di utilizzare unità di misure più piccole Si definiscono invece metadati, tutte quelle informazioni su come sono stati raccolti i dati. Dispensa di Statistica Ciro Esposito A.A. 2021/2022 Natura delle variabili Come già affrontato, gli oggetti delle rilevazioni statistiche sono dette variabili, proprio perché non si tratta di costanti (obbiettivi fissi) e dunque variano Esistono diversi tipologie di variabili, come variabili di tipo quantitative, ossia variabili che si esprimono attraverso l’utilizzo di numeri. A loro volta le variabili quantitative si suddividono in: Variabili quantitative continue: variabili che possono assumere un qualsiasi valore in un intervallo reale (la durata di un esame, il peso, etc..) Variabili quantitative discrete: variabili che possono essere elencate in numeri finiti (numeri di anni studio, un voto, etc..) Esistono inoltre anche variabili di tipo qualitative, ossia variabili che si esprimono attraverso l’utilizzo di parole; A loro volta le variabili qualitative si suddividono in: Variabili qualitative nominali: variabili con le quali non è possibile fare operazioni aritmetiche e tra le quali c’è solo un confronto (liceo di provenienza, marca di sapone utilizzata, etc..) Variabili qualitative ordinabili: variabili che in maniera intrinseca sono ordinabili seguendo un ordine logico sequenziale (menù di un ristorante, grado di istruzione, grado militare) Data l’impossibilità di ordinare le ordinare le variabili qualitative nominali, in alcuni casi le stesse variabili si ordinano a secondo delle loro frequenze assolute in ordine decrescente o crescente. Spesso le stesse informazioni possono essere estratte attraverso l’utilizzo di variabili diverse tra loro; a seconda del modo in cui si vuole sintetizzare il fenomeno collettivo, si prediligono delle variabili rispetto ad altre. C’è da ricordare che è importante conoscere il tipo di variabili per scegliere i metodi di analisi. Matrice dei dati La matrice dei dati è un modo di organizzare un insieme di dati in forma tabellare, in gergo si potrebbe dire “schematizzare in righe e colonne” (si potrebbe pensare ad Excel). Ogni dimensione colonna della matrice esprime ed indica una variabile, qualitativa o quantitativa che sia, mentre ogni dimensione riga esprime un’unità statistica. Ad ogni incrocio tra ciascun riga e ciascun colonna si riscontra la modalità osservata per una determinata unità statistica e per una determinata variabile. Dispensa di Statistica Ciro Esposito A.A. 2021/2022 Dunque: La Xi maiuscola si adopera per denotare la variabile. La xi minuscola denota invece la modalità dell’osservazione. Il pedice indica l’unità statistica di riferimento. Dispensa di Statistica Ciro Esposito A.A. 2021/2022 Distribuzione di frequenza La distribuzione di frequenza è un’organizzazione tabellare in cui si dispongono le modalità osservate per una variabile X statistica (quantitativa o qualitativa) sulle righe; in corrispondenza di queste si riporta la rispettiva frequenza. Esempio: La frequenza assoluta è pari a quante volte è stata osservata una determinata modalità di osservazione in un campione; sii esprime inoltre con 𝑛1. Inoltre dalla frequenza assoluta deriva anche la frequenza relativa. Frequenza relativa La frequenza relativa si definisce come il rapporto tra la frequenza assoluta della modalità e il campione totale (o numerosità del campione) analizzato; si esprime con 𝑓𝑖 La formula per calcolarla dunque è la seguente: 𝑛1 𝑓𝑖 = 𝑛 Esempio: Ù Dispensa di Statistica Ciro Esposito A.A. 2021/2022 NOTA BENE = la somma delle frequenze relative è sempre 1 𝑘 𝑓1 + 𝑓2 + 𝑓𝑘 = ∑ 𝑓𝑖 = 1 𝑖=1 da qui possiamo intendere che le frequenze relative siano sempre dei valori compresi tra 0 e 1. (0 < 𝑓𝑖 < 1) E’ abitudine rapportare le frequenze relative a 100 e dunque trattare delle frequenze percentuali. (𝐸𝑆: 0,1700 ∗ 100 = 17 = 17%) 𝑘 Per questioni di semplicità, la numerosità si indica con il segno ∑𝑖=1 ni ( detto sommatoria cha va da uno a k con n con i ). L’operazione da svolgere è la seguente: 3 𝑛1 + 𝑛2 + 𝑛3 = ∑ ni 𝑖=1 Dove I= alla prima modalità (i=n1) mentre k è uguale all’ultima modalità (k=n3) Funzione di ripartizione empirica La funzione di ripartizione empirica (o frequenza cumulata) si definisce come una funzione che ad ogni modalità di una determinata variabile segna quante sono le unità statistiche su cui si è rilevata una modalità minore o uguale della modalità considerata (x0). Dispensa di Statistica Ciro Esposito A.A. 2021/2022 Grafico della funzione di ripartizione empirica Sull’asse delle x si riportano le modalità della variabile ( 1 ; 2 ; 3 ; 4 ; 5 ; 6 ; 7 ) Sull’asse delle y si riportano le funzioni di ripartizioni e quindi i valori delle sequenze relative cumulate Dopo aver segnato la prima funzione di ripartizione occorre tracciare un segmento orizzontale costante fino ad arrivare alla successiva modalità (Es: 1); in seguito sarà considerato un gradino di misura pari alla differenza tra la seconda funzione di ripartizione (0.17) e la prima (0.05), dunque 0.17 − 0.05 = 0.12 Se lo stesso esempio di grafico a scala si estendesse a due campioni diversi come la regione Campania e la regione Lombardia, noteremmo come le due diverse frequenze crescono in maniera diversa, difatti: Dispensa di Statistica Ciro Esposito A.A. 2021/2022 Il diagramma a barre Dispensa di Statistica Ciro Esposito A.A. 2021/2022 Il diagramma a barre è una rappresentazione grafica in cui sull’asse delle x si considerano nuovamente le modalità di osservazione e in corrispondenza di ogni modalità si considera una barra di cui l’altezza è pari alla frequenza assoluta (o in alcuni casi la relativa). Confronto tra diagramma a barre Per comparare due campioni attraverso l’utilizzo dei diagramma a barra non è possibile adoperare la frequenza assoluta, questo perché i campioni possiedono una numerosità diversa tra loro e l’asse di riferimento delle y non sarebbe lo stesso per entrambi: Dispensa di Statistica Ciro Esposito A.A. 2021/2022 Per questo sull’asse di riferimento delle y si occorre usare le frequenze relative al posto delle frequenze assolute e soprattutto gli assi di riferimento di entrambi i campioni devono obbligatoriamente essere equivalenti. Si potrebbe addirittura pensare di sovrapporre dei diagramma a barra l’uno sull’altro, come in questo esempio: Dispensa di Statistica Ciro Esposito A.A. 2021/2022 Tuttavia questo è sbagliato, perché le numerosità tra il corso 1 e il corso 2 sono diverse, motivo per il quale dobbiamo comunque utilizzare le frequenze relative. Diagramma a barre con variabili qualitative nominali Nel caso in cui volessimo utilizzare delle variabili qualitative nominali al posto di variabili quantitative discrete dobbiamo essere a conoscenza che è comunque possibile forzare un ordine a seconda della frequenza. Per avere un migliore impatto visivo della rappresentazione è opportuno usare un ordine crescente/decrescente. Questo modo di ordinare le variabili qualitative utilizzando l’ordine di tipo decrescente per frequenza assume il nome di diagramma di Pareto (dal famoso economista Vilfred Pareto). Esso è legato al principio di Pareto, individuato come legge empirica nei suoi studi sulla distribuzione Dispensa di Statistica Ciro Esposito A.A. 2021/2022 della ricchezza di un paese: considerando tutti i paesi, rilevò una misura di ricchezza del paese e constatò che l’80% della ricchezza complessiva era posseduta solo dal 20% dei paesi. Diagramma a torta Un aerogramma (o diagramma a torta) è un modo di rappresentare la distribuzione di frequenza di una variabile qualitativa nominale che assegna ad ogni modalità un settore circolare (una “fetta”) di area proporzionale alla frequenza di quella determinata modalità. Tipico uso dell’aerogramma è fatto per rappresentare le intenzioni di voto. L’utilizzo dell’aerogramma è sconsigliato poiché non è facile cogliere la differenza tra “le fette” nell’immediato: per questo motivo esso è spesso affiancato dal diagramma a barre, di cui il confronto lineare salta sicuramente più all’occhio: Dispensa di Statistica Ciro Esposito A.A. 2021/2022 Anche in questo caso si usa la frequenza relativa al posto di quella assoluta, proprio perché quest’ultima risulterebbe “più scomoda”. ________________________________________________________________________ Distribuzione dei dati con una variabile continua Per formulare una distribuzione dei dati con una variabile continua si ragiona per intervalli (x0 ; x1) Il primo passo da fare è determinare le classi di modalità, nonché gli intervalli in cui ho suddiviso il raggio d’azione (o range) della variabile. In seguito, considerate le singole classi di modalità è possibile disporre gli intervalli individuati nella distribuzione dei dati e successivamente sarà possibile calcolare la loro frequenza assoluta, la loro frequenza relativa ed anche la funzione di ripartizione NOTA BENE = Le classi di modalità sono sempre comprese nel 𝐑𝐚𝐧𝐠𝐞(𝐗) della variabile X. Dispensa di Statistica Ciro Esposito A.A. 2021/2022 Ci si può chiedere inoltre come si sceglie il numero delle classi? È un criterio abbastanza arbitrario, ma non è un problema che ci riguarda, di cui non ci occupiamo. Ci sono però dei metodi precisi per determinare quali e quante classi di modalità considerare. La suddivisione molto spesso dipende dal contesto: Difatti, per poter comunicare i risultati in maniera efficace si decide arbitrariamente di adottare uno schema di classi di modalità che permette di comunicare i risultati in minuti. L’altra alternativa per scegliere quante e quali classi di modalità adottare, è considerare delle classi equi-ampie (ossia classi con la stessa con la stessa ampiezza) Ampiezza delle classi di modalità Per ampiezza della classe di modalità (x0 ; x1) si intende la differenza tra gli estremi dell’intervallo, dunque la lunghezza dell’intervallo. 𝑥𝑘 − 𝑥0 𝑎= 𝑘 Dove: xk= è il valore massimo dell’intervallo x0= è il valore minimo dell’intervallo k= è il numero delle classi di modalità Dispensa di Statistica Ciro Esposito A.A. 2021/2022 ________________________________________________________________________ Istogramma Si definisce istogramma una rappresentazione grafica della distribuzione di frequenza che considera sul piano cartesiano sull’asse x le classi di modalità, mentre sull’asse delle y la frequenza assoluta o relativa. Si considera difatti un rettangolo avente come base l’intervallo [x0 ; x1] e come area la frequenza relativa f1. NOTA BENE = L’istogramma è diverso dal diagramma a barre perché si costruisce con dati diversi. X F.A. F.R. Fx [x0 ; x1] n1 f1=n1/n Fx(x1)=f1 [x1 ; x2] n2 f2=n2/n Fx(x2)=f1+f2 [x2 ; x3] n3 f3=n3/n Fx(x3)=f1f2+f3 [x3 ; x4] n4 f4=n4/n Fx(x4)=f1...+f4 [x4 ; x5] n5 f5=n5/n Fx(x4)=f1...+f5 … [xk ; xk] … nk fk=nk/k … Fx(xk)=f1...+fk n 1 1 Dispensa di Statistica Ciro Esposito A.A. 2021/2022 Dove: La base del rettangolo b in figura è costituita dunque dalla classe di modalità [x0 ; x1] ; L’area del rettangolo A in figura è costituita dalla frequenza relativa della classe di modalità (f1) ; L’altezza h è costituita invece dalla densità di frequenza relativa della modalità di 𝑓1 classe 𝒉 = 𝑥1−𝑥0. Densità di frequenza relativa Per densità di frequenza relativa della classe di modalità si intende il rapporto (indicato con hi) tra la frequenza relativa della classe di modalità (fi) e l’ampiezza della classe di modalità stessa (x0- x1) : 𝑓𝑖 𝑓𝑖 ℎ𝑖 = = 𝑎 𝑥𝑘 − 𝑥0 Dove: Dispensa di Statistica Ciro Esposito A.A. 2021/2022 fi= è la frequenza relativa xk= è il valore massimo dell’intervallo x0= è il valore minimo dell’intervallo La densità di frequenza assoluta Per densità di frequenza assoluta della classe di modalità si intende il rapporto (indicato con gi) tra la frequenza assoluta della classe di modalità (ni) e l’ampiezza della classe di modalità stessa (x0- x1) : 𝑛𝑖 𝑛𝑖 𝑔𝑖 = = 𝑎 𝑥𝑘 − 𝑥0 Dove: ni= è la frequenza assoluta xk= è il valore massimo dell’intervallo x0= è il valore minimo dell’intervallo Ai fini comparativi, ricordiamo sia più opportuno utilizzare la frequenza relativa al posto della frequenza assoluta. Indici statistici Per indice statistico si intende una misura sintetica di un insieme di dati raccolti in riferimento ad una rilevazione statistica, dunque è un modo per sintetizzare i dati rispetto ad un determinato tratto del fenomeno collettivo di interesse. X= reddito persona 1 persona 2 persona 3 Famiglia A 20.000 20.000 20.000 Famiglia B 5.000 15.000 50.000 Possiamo dedurre sommando i singoli redditi che: - La famiglia A ha un reddito complessivo di 60000 euro Dispensa di Statistica Ciro Esposito A.A. 2021/2022 - La famiglia B ha un reddito complessivo di 70000 euro Dunque la famiglia B è più benestante della famiglia A Questo è reso grazie alla SINTESI delle informazioni, dunque dalla somma dei singoli redditi. Se però dovessimo capire quale famiglia è più robusta all’eventuale perdita del lavoro di un singolo componente, il reddito complessivo non ci aiuterebbe a ci sintetizzare le informazioni, per questo dovremmo considerare i singoli. Possiamo dedurre osservando le singole situazioni di ogni famiglia che: Nella famiglia A la perdita di un lavoro non costituirebbe una perdita così grave, avendo tutti i singoli un reddito pari a 20000. Nella famiglia B la perdita in un lavoro potrebbe costituire una perdita grave o lieve, in base a quale delle tre persone potrebbe aver perso il lavoro. Da questo esempio possiamo dedurre come nessun indice sia perfetto o sempre appropriato, difatti essi devono essere usati con cautela ed essere interpretati correttamente. Classificazione degli indici statistici La classificazione si basa sul metodo di costruzione della sintesi, NON da che cosa misurano gli indici: Indice assoluto: una misura sintetica di un insieme di dati che deve essere comunicato in relazione all’unità di misura del fenomeno di riferimento (Es: durata di un brano in secondi, reddito delle famiglie in euro). Il principale problema dell’indice assoluto è l’impossibilità di confronto tra le diverse unità di misura (confronto tra peso e altezza). Indice relativo: un indice che comunica una determinata caratteristica dei dati in esame, ma che non hanno bisogno di avere l’unità di misura di riferimento essendo numeri puri adimensionali (100 studenti). Indici normalizzati: sono particolari indici relativi che variano in un intervallo finito, generalmente in [0,1] oppure in [-1, +1]; possono essere utilizzati per effettuare sintesi e confronti tra qualsiasi tipo di fenomeni. Tutti gli indici normalizzati che saranno nostro oggetto del corso di studio potrebbero presentarsi attraverso intervalli come: I ∈ [0 ; 1 ] NOTA BENE = il simbolo “∈“ significa “appartiene a…” I ∈ [-1 ; 1 ] I ∈ [0 ; 1 ] Dispensa di Statistica Ciro Esposito A.A. 2021/2022 Lavorare con un indice normalizzato è un bene perché è facile da “raccontare”, tuttavia sappiamo che non tutti gli indici sono normalizzati: Se (I) è un indice che di cui sono noti i valori minimi e i valori massimi è possibile costruire un indice normalizzato attraverso la trasformazione lineare. Se: Questi valori devono esserci noti 𝐼−𝑎 I= = [0 ; 1] (Il risultato è compreso tra 0 ed 1) 𝑏−𝑎 Se: 𝑎−𝑎 I= =0 𝑏−𝑎 Se: 𝑏−𝑎 I= =1 𝑏−𝑎 Indici statistici di posizione La classificazione affrontata precedentemente riguardava i metodi di costruzioni della sintesi, mentre quella che segue sarà la classificazione degli indici di posizione. La posizione è la risposta alla domanda “dove?”, difatti l’obbiettivo degli indici di posizione è capire la tendenza dei dati ( dove si sintetizzano i dati, dove sono maggiormente disposti i dati). Il principale indice di posizione è la media aritmetica. Media aritmetica Avendo una variabile X quantitativa rilevata su un campione di numerosità n, con modalità di osservazioni (x1 ; x2 ; x3 ; x4 ; x5 ;... xn) La media aritmetica è dunque uno dei principali indici di posizione ed è possibile denotarla in vari modi, come ad esempio μ ; 𝒙𝒏. μ dunque è una sintesi fondamentale per indicare i valori delle modalità di osservazioni. Calcolo della media aritmetica: Il calcolo della media aritmetica è molto semplice e lo si svolge tramite la seguente formula: 1 𝛍= ∗ (𝑥1 + 𝑥2 + 𝑥 + 𝑥4 … + 𝑥𝑛) 𝑛 Dispensa di Statistica Ciro Esposito A.A. 2021/2022 Dove: (𝑥1 + 𝑥2 + 𝑥 + 𝑥4 … + 𝑥𝑛)= è la somma dei valori osservati n= è la numerosità del campione totale Il calcolo della media aritmetica espresso su sommatoria è: 3 𝟏 𝛍 = ∑ xi 𝒏 𝑖=1 Fare la somma dei valori equivale inoltre alla moltiplicazione del singolo valore per la media aritmetica: 𝑓 = (𝛍 + 𝛍 + 𝛍 + 𝛍 … + 𝛍𝐧) = 𝑛 ∗ 𝑥 = (𝑥1 + 𝑥2 + 𝑥 + 𝑥4 … + 𝑥𝑛) Il modo compatto per esprimere questa somma è utilizzare la sommatoria: 3 𝑥1 + 𝑥2 + 𝑥3 = ∑ ni 𝑖=1 Dove I= alla prima modalità (i=x1) mentre k è uguale all’ultima modalità (k=x3) Esempio conto in pizzeria: Si è in pizzeria e arriva il conto da pagare (𝑥1 + 𝑥2 + 𝑥 + 𝑥4 … + 𝑥𝑛) e decidiamo di pagare “alla 1(𝑥1+𝑥2+𝑥+𝑥4…+𝑥𝑛) romana”, dividendo il totale per il numero di partecipanti. Il risultato di 𝑛 questa operazione sarà uguale alla quota che ognuno dovrà mettere, nonché la media aritmetica (𝛍). L’importo dunque sarà medio per tutti. Proprietà della media aritmetica Una media aritmetica per essere svolta, deve disporre di alcuni requisiti, o meglio criteri (o proprietà), che possono riassumersi nel: Criterio di internalità Il criterio di internalità, individuato dal matematico francese Couchy, secondo il quale una qualsiasi media di una variabile X è qualunque valore reale M intermedio tra il valore minimo min(x) ed il valore massimo max(x) di una distribuzione di frequenza: Dispensa di Statistica Ciro Esposito A.A. 2021/2022 min(𝑥 ) ≤ 𝑀 ≤ max (𝑥) Criterio di rappresentatività Il criterio di rappresentatività, individuato dallo statistico Chisini, illustra invece come una media di variabile X è quel valore M intermedio tra il minimo min(x) ed il massimo max(x), il quale, rispetto ad una funzione sintetica, ne lascia inalterato il valore, cioè tale che: 𝑓(𝐱𝟏, 𝐱𝟐 … , 𝐱𝐧) = 𝐟(𝐌, 𝐌 … , 𝐌) Il senso di questo requisito, risiede nel fatto che una volta individuato un valore unico M, se lo sostituisce ad ogni modalità osservato della variabile X, il valore della funzione non cambia. Le due funzioni devono quindi essere UGUALI. Scarto dalla media Gli scarti dalla media indicano quanto devia una determinata quantità dalla media: si definisce scarto dalla media, la differenza tra l’iesima modalità di osservazione e la media aritmetica (xi − μ) Gli scarti possono assumere sia segno negativo (-) che segno positivo (+). La somma degli scarti dalla media vale SEMPRE 0 e questo può essere scritto in due diversi modi: 1) (𝑥1 − 𝛍) + (𝑥2 − 𝛍)+... (𝑥𝑛 − 𝛍) = 0 2) (𝑥1 + 𝑥2 + 𝑥3 … + 𝑥𝑛) − (𝛍 + 𝛍 + 𝛍 … + 𝛍) = 0 Il modo compatto per esprimere questa somma è utilizzare la sommatoria: 𝑛 ∑(xi − 𝛍) = 0 𝑖=1 Il fatto che la loro somma valga 0 è di estrema importanza, poiché dimostra come la media costituisce il baricentro di una distribuzione di frequenza: lo scopo della media aritmetica è stabilire l’equilibrio tra scarti per eccesso e scarti per difetto. Dispensa di Statistica Ciro Esposito A.A. 2021/2022 E’ detto infatti l’indicatore democratico, poiché la media RISENTE di tutti i valori considerati: questo suo difetto è detto scarsa robustezza per valori anomali, questo perché alla minima variazione (valore alto o basso) cambia radicalmente. Linearità La linearità è la proprietà per la quale, se si aggiunge o si sottrae una costante alla variabile X, la rispettiva media sarà modificata dello stesso ammontare: questo risulta essere valido anche se la variabile X è moltiplicata per la costante. Nello specifico, se la variabile X dispone di media aritmetica μ, allora la variabile trasformata αX + β (la variabile X più la sua costante) avrà una media aritmetica pari a αμ+ β (media aritmetica della variabile X più la sua costante) E’ chiaro inoltre che è possibile calcolare gli scarti da un qualsiasi numero C reale, al fine di capire quale sia la tendenza dei dati del campione analizzato, si considerano gli scarti quadratici dalla media aritmetica (𝐱𝐢 − 𝛍) e si svolge la somma dei loro quadrati, dunque: (𝑥1 − 𝛍)2 + (𝑥2 − 𝛍)2 + (𝑥3 − 𝛍)2 … + (𝑥𝑛 − 𝛍)2 Esempio tasse universitarie: Nel dipartimento di Scienze Politiche dell’Università Federico II ogni studente ha pagato un importo diverso relativo alle tasse universitarie, si vuole dunque calcolare la media tra le tasse pagate degli studenti e i relativi scarti quadratici dalla media: STEP 1: Calcolare la media aritmetica n=3 importo s. 1 importo s. 2 importo s. 3 studenti 100 500 150 1 300 𝛍= ∗ (100 + 50 + 150) = = 100 3 3 100 è la media aritmetica. STEP 2: Calcolare la somma dei quadrati della differenza aritmetica (𝒙𝒊 − 𝛍)𝟐 , essendo la media aritmetica 100, si sottrae 100 ad ogni valore, per poi elevarlo al quadrato: Dispensa di Statistica Ciro Esposito A.A. 2021/2022 (100 − 100)2 + (50 − 100)2 + (150 − 100)2 = 5000 Il totale, 5000, rappresenta quanto i valori distano complessivamente da questa media aritmetica. ________________________________________________________________________ Ottenere la media aritmetica con la distribuzione di frequenza E’ possibile ricavare la media aritmetica addirittura da una singola distribuzione di frequenza Data una variabile X quantitativa discreta, rilevata su un campione composto 𝑛 unità statistiche (𝑥1; 𝑥2 … 𝑥𝑛) e la sua distribuzione di frequenza: Attraverso la frequenza assoluta, risulta facilmente intuibile che il valore x1 sia ripetuto n1 volte, così come il valore x2 sia ripetuto da n2 volte… fino al valore xk n volte. E’ possibile sommare il numero di volte in cui si ripetono i valori e successivamente calcolarne la media aritmetica. Esempio fratelli e sorelle: Si è intenzionati a capire quanti fratelli e quante sorelle possiedono 100 n persone, si crea dunque una distribuzione di frequenza: Dispensa di Statistica Ciro Esposito A.A. 2021/2022 X F.A. 0 fratelli 10 0 è ripetuto 10 volte 1 fratello 70 1 è ripetuto 70 volte 2 fratelli 15 2 è ripetuto 15 volte 3 fratelli 5 3 è ripetuto 5 volte 100 Capiamo dalla distribuzione che 10 persone hanno 0 fratelli, dunque il valore 0 è ripetuto 10 volte; 70 persone hanno 1 fratello; 15 persone hanno 2 fratelli; infine 5 persone hanno 3 fratelli. Per cui è possibile fare la somma tra i prodotti dei valori e le loro frequenze assolute: 10 𝑢𝑛𝑖𝑡à 70 𝑢𝑛𝑖𝑡à 15 𝑢𝑛𝑖𝑡à 5 𝑢𝑛𝑖𝑡à 1 𝛍= ∗ ̿̿̿̿̿̿̿̿̿̿̿̿̿̿̿̿̿ (0 + 0 … + 0) + ̿̿̿̿̿̿̿̿̿̿̿̿̿̿̿̿̿ (1 + 1 … + 1) = ̿̿̿̿̿̿̿̿̿̿̿̿̿̿̿̿̿ (2 + 2 … + 2) + ̿̿̿̿̿̿̿̿̿̿̿̿̿̿̿̿̿̿̿̿̿̿̿̿̿ (3 + 3 + 3 + 3 + 3) 100 che sintetizzato tramite moltiplicazione diventa: 1 𝛍= ∗ 0 ∗ 10 + 1 ∗ 70 + 2 ∗ 15 + 3 ∗ 5 = 𝟏𝟎𝟎. 𝟏𝟓 100 La media aritmetica di una variabile continua Con le variabili continue sappiamo si ragioni per classi di modalità (dunque per intervalli), difatti per ottenere la media aritmetica bisogna sintetizzare ogni classe di modalità, trovando un suo rappresentante numerico, che ci è dato dal centro dell’intervallo (c): il calcolo del centro dell’intervallo (o punto medio) è dato dal rapporto tra la somma dei suoi estremi e il numero degli estremi (2). Per ottenere la media aritmetica è possibile seguire degli STEP. STEP 1: Calcolare il centro dell’intervallo di ogni classe di modalità. Dispensa di Statistica Ciro Esposito A.A. 2021/2022 Dalla seguente distribuzione di frequenza possiamo notare come ricavare il punto medio di ogni classe di modalità. STEP 2: Il passo successivo consiste nel riportare nella distribuzione di frequenza il centro delle classi al posto delle classi di modalità. X F.A. c1 n1 c2 n2 c3 n3 c4 n4 c5 n5 … ck … nk n STEP 3: Calcolare la media aritmetica sfruttando i valori della frequenza assoluta dei valori centrali: 1 𝛍 = ∗ 𝑐1 ∗ 𝑛1 + 𝑐2 ∗ 𝑛2 + 𝑐3 ∗ 𝑛3 + 𝑐4 ∗ 𝑛4 + 𝑐5 ∗ 𝑛5.. +𝑐𝑘 ∗ 𝑛 𝑛 Una delle più gravi problematica della media aritmetica è che essa è approssimativa, questo perché con valori continui il centro di ogni classe risulta essere diverso; si tratta quindi di un’approssimazione della media aritmetica reale, che potremmo avere soltanto se possedessimo una serie di dati. Media aritmetica ponderata Dispensa di Statistica Ciro Esposito A.A. 2021/2022 Si definisce media aritmetica ponderata il rapporto tra la somma dei prodotti delle osservazioni (𝒙𝒊) , ciascuna con il loro peso (𝑤𝑖), fratto la somma dei pesi delle osservazioni (𝑤1 + 𝑤2 … + 𝑤𝑘): 𝑥1 ∗ 𝑤1 + 𝑥2 ∗ 𝑤2 … + 𝑥𝑛 ∗ 𝑤𝑛 𝛍𝐰 = 𝑤1 + 𝑤2 … + 𝑤𝑘 che scritta in modo sintetico su sommatoria risulta: ∑𝑛𝑖=1 𝑥𝑖 ∗ 𝑤𝑖 𝛍𝐰 = ∑𝑛𝑖=1 𝑤𝑖 Esempio studente maggiormente bravo: Ci si chiede quali tra due studenti che hanno compiuto gli stessi esami sia maggiormente bravo: per farlo si tengono in considerazione i voti (variabili) ottenuti ad n esami (n unità statistiche) , per poi svolgere la media aritmetica e stabilire chi sia il migliore tra i due studenti. La prima osservazione da fare è che sebbene la media aritmetica sia la stessa per entrambi gli studenti, le unità statitiche non sono equivalenti (esame), questo perché un esame potrebbe valere più CFU di un altro e/o viceversa. Per superare questo ostacolo, si ricorre al concetto di media aritmetica ponderata, che sfrutta il peso (CFU) di ogni osservazione. Tenendo dunque in considerazione della nuova misura (il peso dell’unità statistica, wi), la media aritmetica ponderata tra i due studenti sarà: Dispensa di Statistica Ciro Esposito A.A. 2021/2022 Indici dei prezzi (numeri indice) I numeri indice sono il rapporto tra due valori differenti di uno stesso fenomeno in circostanze differenti; essi sono utili per confrontare l’ammontare di un fenomeno in tempi e/o in luoghi differenti: è pratica moltiplicare il rapporto per 100 (in termini percentuali). I numeri indice maggiormente diffusi sono gli indici dei prezzi. Gli indici dei prezzi sono dei particolari indici elaborati mensilmente dall’ISTAT nella sua attività di controllo, appunto per monitorare le variazione dei prezzi al consumo di beni e servizi per le famiglie, le imprese etc.. Il fenomeno collettivo di nostro interesse è difatti il valore complessivo di un certo paniere di bene e servizi. Essi Indicano la variazione dei prezzi o di altri beni negli anni in un determinato paniere. In ogni istante di tempo di nostro interesse (t), per ciascun tipo di bene e servizio (prodotto 1 ; 2 ;3 ) si rileverà sia la quantità disponibile (q), sia il prezzo (p1) o in altre parole: Per ogni prodotto si misura sia la quantità disponibile (qt), che il prezzo unitario dell’ennesimo bene (p1) rispetto al tempo (t) Risulta necessario dunque scandire due tipologie di tempo: t = tempo costante Dispensa di Statistica Ciro Esposito A.A. 2021/2022 t0 = tempo base o di partenza Dove: - P10= indica il prezzo di una unità del prodotto 1 al tempo 0 ; - Q10= indica la quantità del paniere di riferimento del primo prodotto al tempo 0; - P1t= indica il prezzo di una unità del prodotto 1 al tempo t ; - Q1T= indica quantità del paniere di riferimento del primo prodotto al tempo t. Ricordiamo dunque che il fenomeno collettivo di nostro interesse è il valore complessivo di un certo paniere di bene e servizi e occorre Possiamo calcolare dunque quattro valori complessivi diversi a seconda del se le quantità sono riferite al tempo corrente (t) o al tempo base (0) e se analogamente i prezzi sono valutati al tempo base (0) o al tempo corrente (t): Vtt = Il valore complessivo del paniere disponibile al tempo corrente (t) valutato ai prezzi del tempo corrente (t) 𝑣𝑡𝑡 = 𝑝1𝑡 ∗ 𝑞1𝑡 + 𝑝2𝑡 ∗ 𝑞2𝑡 … + 𝑝𝑚𝑡 ∗ 𝑞𝑚𝑡 V0t = Il valore complessivo del paniere disponibile al tempo base (0) valutato ai prezzi del tempo corrente (t) 𝑣0𝑡 = 𝑝1𝑡 ∗ 𝑞10 + 𝑝2𝑡 ∗ 𝑞20 … + 𝑝𝑚𝑡 ∗ 𝑞𝑚0 Vt0 = Il valore complessivo del paniere disponibile al tempo corrente (t) valutato ai prezzi del tempo base (0) 𝑣𝑡0 = 𝑝10 ∗ 𝑞1𝑡 + 𝑝20 ∗ 𝑞2𝑡 … + 𝑝𝑚0 ∗ 𝑞𝑚𝑡 V00 = Il valore complessivo del paniere disponibile al tempo base (0) valutato ai prezzi del tempo base (0) 𝑣00 = 𝑝10 ∗ 𝑞10 + 𝑝20 ∗ 𝑞20 … + 𝑝𝑚0 ∗ 𝑞𝑚0 Dispensa di Statistica Ciro Esposito A.A. 2021/2022 Adesso si vorrà conoscere la variazione dei prezzi dal tempo corrente al tempo base, tuttavia i prezzi non hanno alcun valore a se’ stante, devono essere pesati con le quantità: per questo si è introdotto l’indice dei prezzi di Laspeyres. Indice dei prezzi di Laspeyres 𝐿 L’indice dei prezzi dal tempo t al tempo 0 di Laspeyres (si indica con 𝐼0,1 ) si definisce come il rapporto fra il valore complessivo del paniere al tempo corrente (t), valutato ai prezzi del tempo base (0) fratto il valore complessivo del paniere al tempo base (0) valutato al tempo base (0), quindi: 𝐿 𝑣𝑡0 𝐼0,1 = 𝑣00 che in forma estesa sarebbe: 𝐿 𝑝1𝑡∗𝑞10+𝑝2𝑡∗𝑞20…+𝑝𝑚𝑡∗𝑞𝑚0 𝐼0,1 = 𝑝10∗𝑞10+𝑝20∗𝑞20…+𝑝𝑚0∗𝑞𝑚0 Date le dovute conoscenze, (vedi sopra media aritmetica ponderata) è possibile comprendere che l’indice di Laspeyres risulta essere il rapporto delle medie aritmetiche ponderate dei prezzi ognuno pesato per la propria quantità fratto la somma totale delle quantità (pesi): 𝑝1𝑡∗𝑞10+𝑝2𝑡∗𝑞20…+𝑝𝑚𝑡∗𝑞𝑚0 𝐿 𝑞10+𝑞20…+𝑞𝑚0 𝐼0,1 = 𝑝10∗𝑞10+𝑝20∗𝑞20…+𝑝𝑚0∗𝑞𝑚0 𝑞10+𝑞20…+𝑞𝑚0 che sintetizzato attraverso l’utilizzo delle sommatorie sarebbe: Dispensa di Statistica Ciro Esposito A.A. 2021/2022 ∑𝑚𝑖=1 𝑝𝑖𝑡∗𝑞𝑖0 ∑𝑚 𝑞𝑖0 𝐿 𝑖=1 𝐼0,1 = ∑𝑚 𝑖=1 𝑝𝑖0∗𝑞𝑖0 ∑𝑚 𝑞𝑖0 𝑖=1 Se il v alore complessivo del paniere risultasse = 1 non c’è variazione nel paniere Se il valore complessivo del paniere risultasse > 1 c’è una variazione nel paniere in positivo Se il valore complessivo del paniere risultasse < 1 c’è una variazione nel paniere in negativo Indice dei prezzi di Paasche L’indice dei prezzi di Paasche si definisce come il rapporto tra il valore complessivo del paniere disponibile al tempo t rivalutato al tempo t e il valore del paniere disponibile al tempo t rivalutato al tempo base (0) 𝐿 𝑣𝑡𝑡 𝐼0,1 = 𝑣0𝑡 che sintetizzato attraverso l’utilizzo delle sommatorie sarebbe: ∑𝑚 𝑖=1 𝑝𝑖𝑡 ∗ 𝑞𝑖𝑡 ∑𝑚 𝑞𝑖𝑡 𝐿 𝐼0,1 = 𝑚 𝑖=1 ∑𝑖=1 𝑝𝑖0 ∗ 𝑞𝑖𝑡 ∑𝑚𝑖=1 𝑞𝑖𝑡 Dispensa di Statistica Ciro Esposito A.A. 2021/2022 La mediana La mediana (si denota con 𝑀𝑒), così come la media aritmetica, è un indice di posizione, e nello specifico si definisce come l’indice di posizione che sintetizza il centro della distribuzione ordinata dei valori dividendola in due parti uguali. In parole povere, essa è la modalità corrispondente dell’unità statistica che occupa il posto centrale nella distribuzione delle osservazioni ordinate. Data una variabile X quantitativa discreta, rilevata su un campione composto da 𝑛 unità statistiche (𝑥1; 𝑥2 … 𝑥𝑛), al fine di trovare la mediana, occorre disporre le nostre modalità delle variabili quantitative discrete in ordine crescente. 𝑥(1) ≤ 𝑥(2) ≤ 𝑥(3) ≤ 𝑥(4) ≤ 𝑥(5) Il centro o mediana in questo caso è X(3). Esempio numerico: 18 ≤ 19) ≤ 20 ≤ 22 ≤ 24 Il centro o mediana in questo caso è 20. NOTA BENE = Si potrebbe pensare che non c’è alcun calcolo dietro questa affermazione semplicemente perché si tratta del valore posto al centro, ma in realtà per calcolare la media con numero di variabili dispari occorre contare il numero di modalità di osservazioni (che nell’esempio 5), aggiungere +1 e dividere il tutto per 2, dunque: 𝑛+1 5+1 𝑀𝑒 = = =3 2 2 La mediana o centro sarà dunque la modalità posta al terzo (3) posto nell’ordine crescente attribuito, quindi ricorrendo all’esempio precedente 20. 18 ≤ 19) ≤ 20 ≤ 22 ≤ 24 1° 2° 3° Mediana con n variabili pari Se il numero di variabili fosse pari: 18 ≤ 19) ≤ 20 ≤ 22 ≤ 24 ≤ 26 Per calcolare la media con numero di variabili pari occorre contare il numero di variabili (nell’esempio 6) e dividere per 2, trovando quindi il primo valore: Dispensa di Statistica Ciro Esposito A.A. 2021/2022 𝑛 6 = =3 2 2 Tuttavia per determinare il centro serve un secondo valore, per cui alla numerosità n (6) si aggiunge +1 e si divide nuovamente per 2: 𝑛+1 6+1 = = 3.5 𝑐ℎ𝑒 𝑎𝑟𝑟𝑜𝑡𝑜𝑛𝑑𝑎𝑡𝑜 𝑝𝑒𝑟 𝑒𝑐𝑐𝑒𝑠𝑠𝑜 𝑑𝑖𝑣𝑒𝑟𝑟𝑒𝑏𝑏𝑒 4 2 2 La mediana o centro sarà dunque la modalità posta tra il terzo (3) e il quarto (4) posto nell’ordine crescente attribuito, quindi ricorrendo all’esempio precedente 20 e 22. 18 ≤ 19) ≤ 20 ≤ 22 ≤ 24 ≤ 26 1° 2° 3° 4° A questo punto il centro è sintetizzato dalla somma delle due osservazioni (modalità) prese in considerazione diviso 2: 20 + 22 = 21 2 Esempio numerico: 𝑥 (1) = 1000 ; 𝑥(2) = 1500 ; x(3) = 2000 ; x(4) = 3000 ; x(5) = 15000 1° 2° 3° Essendo le modalità di osservazioni dispari ci basterà calcolare i valori centrali 𝑛+1 5+1 tramite , dunque = 3. Il centro o mediana è nuovamente al terzo posto, 2 2 difatti è 2000. La mediana a differenza delle media aritmetica non risente di valori anomali (come nell’esempio precedente 15000), difatti è detto l’indice ROBUSTO per valori anomali. Questo però non significa che sia l’indice perfetto applicabile in tutti i casi. Esempio numerico 2: Si vuole individuare la mediana tra i voti ottenuti da due studenti. Studente A 18 ; 18 ; 18 ; 18 ; 30 ; 30 ; 30 Studente B 18 ; 18 ; 18 ; 30 ; 30 ; 30 ; 30 Dispensa di Statistica Ciro Esposito A.A. 2021/2022 7+1 La mediana del primo studente A è 18 ( 2 = 4, 𝑜𝑠𝑠𝑖𝑎 18 ) 7+1 La mediana dello studente B è 30 ( 2 = 4, 𝑜𝑠𝑠𝑖𝑎 30 ) La problematica che presenta la mediana sussiste con le piccole variazioni al centro (poiché piccole variazioni al centro sono in grado di cambiare il risultato della mediana), difatti non è robusto ai valori centrali e per questo bisognerebbe utilizzare la media aritmetica. Ottenere la mediana attraverso la funzione di ripartizione Data una variabile X quantitativa discreta, rilevata su un campione composto 𝑛 unità statistiche (𝑥1; 𝑥2 … 𝑥𝑛) e la sua distribuzione dei dati è comunque possibile ricavare la mediana attraverso i valori delle frequenze cumulate (la funzione di ripartizione): X F.A. F.R. Fx(x) x1 n1 f1=n1/n Fx(x1)=f1 x2 n2 f2=n2/n Fx(x2)=f1+f2 x3 n3 f3=n3/n Fx(x3)=f1+f2+f3 x4 n4 f4=n4/n Fx(x4)=f1...+f4 x5 n5 f5=n5/n Fx(x4)=f1...+f5 … xk … nk fk=nk/k Fx(xk)=f1...+fk n 1 1 La mediana sarà il primo valore della funzione di ripartizione Fx(x) che supererà 0,5 (ossia il 50% dei dati), dunque: 𝑀𝑒 = 𝑥𝑖 𝑠𝑒 𝐹𝑥(𝑥𝑖) ≥ 0,5 Mediana con variabili qualitative ordinali Inoltre la mediana può essere adoperata anche per variabili qualitative ordinali, come ad esempio il grado di istruzione: Dispensa di Statistica Ciro Esposito A.A. 2021/2022 Grado di istruzione F.A. Fx(x) Analfabeta 5 5 Licenza elementare 10 15 Licenza media 15 30 Diploma 30 60 Laurea Triennale 20 80 Laurea Magistrale 15 95 Dottorato 5 1 100 Le modalità di osservazioni sono in questo caso dispari (7), quindi per ottenere il centro (la 7+1 mediana) svolgiamo il solito calcolo 2 = 4, 𝑜𝑠𝑠𝑖𝑎 60 La mediana dunque è rappresentata da chi possiede il diploma di scuola media superiore, nonché il 60% della popolazione. Stavolta abbiamo cumulato le frequenze assolute al posto delle frequenze relative per la funzione di ripartizione, perché ragioniamo in base 100. Quartili Suddividendo in quattro gruppi di pari la numerosità della popolazione di n unità, con modalità presentate in ordine crescente, si individueranno 3 valori, definiti quartili: a. Q1 , detto primo quartile, è il valore della modalità della variabile X tale che il 25% delle unità statistiche presenta valori inferiori a Q1 = (x1 > Q1). b. Q2 , detto secondo quartile, è il valore della modalità della variabile X tale che il 50% delle unità statistiche presenta valori inferiori a Q2 (corrisponde alla mediana) = (x 2 > Q2) c. Q3 , detto terzo quartile, è il valore della modalità della variabile X tale che il 75% delle unità statistiche presenta valori inferiori a Q3 = (x3 < Q3 ) Con i quartili la distribuzione è divisa in quattro parti uguali. Estendendo questo ragionamento ad una suddivisione in 10 gruppi pari la numerosità della popolazione, si otterranno i decili. Dispensa di Statistica Ciro Esposito A.A. 2021/2022 Decili Se si volesse suddividere la distribuzione in dieci parti si utilizzerebbero i decili: o D1 è quella soglia per cui il 10% delle osservazioni della distribuzione è minore uguale di D1 ; o D2 è quella soglia per cui il 20% delle osservazioni della distribuzione è minore uguale di D2 ; o D5 è la mediana ; ▪ ….. ; ▪ ….. ; o D9 è quella soglia per cui il 90% delle osservazioni della distribuzione è minore uguale di D9 Estendendo il ragionamento ad una suddivisione per 100 otterremo i percentili. I decili sono indicatori di posizioni che sono particolarmente utilizzati nella distribuzione dei redditi. Per fare chiarezza, ecco come sarebbe l’ordine di tutti e tre gli ultimi indici di posizione studiati (mediana, quartili e decili): 𝒙(𝟏) ≤ 𝑫𝟏 ≤ 𝑫𝟐 ≤ 𝑸𝟏 ≤ 𝑫𝟑 ≤ 𝑫𝟒 ≤ 𝑸𝟐 ; 𝑫𝟓 (𝑴𝒆) ≤ 𝑫𝟔 ≤ 𝑫𝟕 ≤ 𝑸𝟑 ≤ 𝑫𝟖 ≤ 𝑫𝟗 ≤ 𝒙(𝒌) La mediana e i quartili/decili sono indici assoluti, proprio perché fanno riferimento alla stessa unità di misura. Esempio reddito delle famiglie tra due tempi diversi: Si vuole analizzare il reddito di alcune famiglie e in particolar modo si osserva il primo decile come una sorta di soglia di povertà, difatti individuato il primo decile il 10% dell’unità statistica al t2 (2021) ha un reddito minore al primo decile il 10% dell’unità statistica al t1 (2020): 𝒕𝟏(2020) < 𝐭𝟐(2021) 𝑫𝒕𝟐 (9500) < 𝑫𝒕𝟐 (10.000) Il reddito delle famiglie del 2021 (9500) risulta essere minore del loro reddito del 2020 (10.000) Dispensa di Statistica Ciro Esposito A.A. 2021/2022 Moda La moda (o valore modale) è un indice di posizione assoluto e si definisce come la modalità di X con la massima frequenza. Data una variabile X quantitativa discreta, rilevata su un campione composto 𝑛 unità statistiche (𝑥1; 𝑥2 … 𝑥𝑛) e la sua distribuzione di frequenza STEP 1= Si elencano le modalità nella distribuzione, ricavando le loro frequenze assolute e relative. X F.A. F.R. x1 n1 f1 x2 n2 f2 x3 n3 f3 x4 n4 f4 x5 n5 f5 … xk … nk fk n 1 STEP 2= Si osserva nella distribuzione quale delle modalità dispone della frequenza maggiore. La modalità con la massima frequenza sarà appunto la moda. Esempio voti studente universitario: Si considera la distribuzione dei voti di uno studente universitario, per capire quanto sia bravo: X F.A. 18 1 19 2 20 4 21 5 22 2 23 1 Moda 24 6 25 3 26 1 27 0 28 0 29 1 30 1 La moda dunque è 24, la modalità di osservazione con la massima frequenza assoluta. Dispensa di Statistica Ciro Esposito A.A. 2021/2022 La sintesi della moda è che lo studente ha preso il voto 24 con massima frequenza, dunque è uno studente discreto. Tuttavia questo esclude tutti gli altri voti non con la massima frequenza ma che sono comunque alti, non dando una sintesi accurata. E’ possibile inoltre individuare la moda anche con variabili qualitative nominali: Esempio ingredienti utilizzati per la preparazione di alcuni dolci: Ingredienti F.A. Uova 5 Latte 3 Moda Zucchero 9 Cannella 2 Cacao in polvere 6 Burro 7 Fragole 1 La moda (l’ingrediente più utilizzato) è la modalità di osservazione con la massima frequenza assoluta, ossia lo zucchero. Purtroppo però, pur essendo un indice di posizione, la moda presenta un problema legato all’unicità, ossia non è detto che sia unica. In una distribuzione di frequenza due modalità potrebbero essere presenti due frequenze massime uguali. Esempio colore di capelli di 100 persone: Dispensa di Statistica Ciro Esposito A.A. 2021/2022 Colore di capelli F.A. Biondo 5 Moda Castano 40 Nero 5 Bianco 0 Rossi 10 Moda Altro 40 100 Quando si presentano casi del genere, si parla di distribuzioni bimodali, o in casi diversi (quando la massima frequenza potrebbe riguardare persino più modalità) si parla di distribuzioni multimodali. E’ possibile calcolare la moda anche per delle variabili quantitative continue. Data una variabile X quantitativa continua, rilevata su un campione composto 𝑛 unità statistiche (𝑥1; 𝑥2 … 𝑥𝑛) e la sua distribuzione di frequenza: X F.A. F.R. [x0 ; x1] n1 f1 [x1 ; x2] n2 f2 [x2 ; x3] n3 f3 [x3 ; x4] n4 f4 [x4 ; x5] n5 f5 … [xk ; xk] … nk fk n 1 Tuttavia il ragionamento non è lo stesso che si fa per le variabile discrete, (dunque la moda in questo caso non è la classe di modalità con la maggiore frequenza), proprio perchè gli intervalli non posseggono la stessa ampiezza. Dispensa di Statistica Ciro Esposito A.A. 2021/2022 Esempio reddito n famiglie: Reddito X F.A. [0 ; 500] 100 [500 ; 1000] 200 [1000 ; 2000] 100 [2000 ; 2500] 150 [2500 ; 3500] 120 [3500 ; 10000] 50 n Nel concreto dell’esempio, com’è possibile intuire, considerare 100 famiglie con il reddito tra 0 a 500 euro è diverso dal considerare invece 100 famiglie con il reddito tra 1000 e 2000 euro. Per determinare la moda e arginare questo problema, si considera quindi densità di frequenza relativa, di cui il calcolo è: 𝑓𝑖 𝑓𝑖 ℎ𝑖 = = 𝑎 𝑥𝑘 − 𝑥0 La variabilità La variabilità si definisce come l’attitudine di un fenomeno a presentarsi in modalità diverse; esistono alcuni principi generali riguardanti gli indici di variabilità: 1) Ogni indice di variabilità è sempre maggiore o uguale a 0 2) Ogni indice di variabilità calcolato per una distribuzione costante è 0 3) Aggiungendo una costante ad una variabile, l’indice di variabilità non deve cambiare. La variabilità inoltre può essere: Variabilità delle modalità rispetto ad un indice di posizione, tramite una sintesi degli scarti ; Variabilità della modalità ordinate, mediante duna funzione di ripartizione empirica ; Mutua variabilità, se si considerano le variabili 2 a 2 ; Variabilità rispetto alle frequenze relative. Dispensa di Statistica Ciro Esposito A.A. 2021/2022 Variabilità rispetto ad un centro La variabilità rispetto ad un centro consiste nel misurare se le singole unità statistiche di una variabile X presentano modalità più o meno stabili rispetto ad un indice di posizione, il quale viene assunto come rappresentativo dell’intera distribuzione di frequenza. In particolare il suo obbiettivo è determinare come e quanto variano i dati (cioè quanto si allontanano) dalla media aritmetica. Per determinare la variabilità si potrebbe pensare di considerare semplicemente gli scarti dalla media, tuttavia si sa che la loro somma è uguale a 0 ed è per questo che si considera lo scarto quadratico. (𝑥1 − 𝛍)2 + (𝑥2 − 𝛍)2 … (𝑥𝑛 − 𝛍)2 Definito lo scarto quadratico dalla media, risulta necessario introdurre il concetto di varianza. Varianza La varianza di X costituisce l’indice più importante per misurare la variabilità di una distribuzione e si definisce come la media aritmetica degli scarti dalla media al quadrato (𝑥𝑖 − μ)2. Si indica con sigma al quadrato σ2 o con Var(X) e il suo calcolo dunque sarà: 𝑛 2 2 2 (𝑥1 − 𝛍) + (𝑥2 − 𝛍) … (𝑥𝑛 − 𝛍) 𝛔2 = = ∑(𝑥𝑖 − 𝛍)2 n 𝑖=1 Proprietà della varianza La varianza dispone di alcune proprietà, quali: 1. La varianza è sempre maggiore uguale a 0 (≥ 0), dunque non è MAI negativa. 2. La varianza è uguale a 0 se e soltanto se la variabile è costante. 3. Se si aggiunge alla variabile una costante finita 𝐜, il valore della varianza non cambia. 4. Se la variabile si moltiplica per una costante 𝐜, la varianza dovrà essere moltiplicata per la costante 𝐂𝟐. 𝑉𝑎𝑟(𝑋 + 𝑐 ) = 𝑉𝑎𝑟(𝑋), tale che: 𝑋: 𝑥1, 𝑥2 … 𝑥𝑛 ⟶ 𝛍 𝑋 + 𝑐: 𝑥1 + 𝑐, 𝑥2 + 𝑐 … 𝑥𝑛 + 𝑐 ⟶ 𝛍 + 𝐜 La varianza inoltre, così come la media aritmetica, non è robusta per valori anomali. Esempio numerico: 𝑋: 𝑥1 = 1, 𝑥2 = 2, 𝑥3 = 3, 𝑥4 = 4 𝑥5 = 5 ⟶ 𝛍 = 𝟑 Dispensa di Statistica Ciro Esposito A.A. 2021/2022 𝑌 = 𝑋 + 2 ∶ 𝑥1 = 3, 𝑥2 = 4, 𝑥3 = 5, 𝑥4 = 6 𝑥5 = 7 ⟶ 𝛍 + 𝟐 = 𝟓 La media aritmetica della distribuzione ordinata è 3, la costante c presa in considerazione è stata denominata Y e vale 2. Dunque aggiungendo al primo valore della distribuzione (x1) la costante y(+2) si ottiene che il primo valore non sarà ancora 1 ma 3 (x1+2) La media aritmetica dei valori + la costante y infatti sarà uguale alla media della distribuzione, tuttavia +2, dunque : μy = μx + 2 = 5 Il calcolo della varianza sarà infatti: 1 𝑉𝑎𝑟(𝑌) = (𝑦1 − 𝛍𝐲)2 + (𝑦2 − 𝛍𝐲)2 + (𝑦3 − 𝛍𝐲)2 + (𝑦4 − 𝛍𝐲)2 + (𝑦5 − 𝛍𝐲)2 5 che concretizzato in valori numerici sarà: 1 𝑉𝑎𝑟(𝑌) = (3 − 𝟓)2 + (4 − 𝟓)2 + (5 − 𝟓)2 + (6 − 𝟓)2 + (7 − 𝟓)2 5 di cui il risultato sarà semplicemente: 𝑉𝑎𝑟(𝑌) = 𝑉𝑎𝑟(𝑋) Esempio numerico: 𝑋 ∶ 𝑥1 = 1, 𝑥2 = 2, 𝑥3 = 3, 𝑥4 = 4, 𝑥5 = 50 ⟶ 𝛍 = 12 1 𝛔2 = (1 − 𝟏𝟐)2 + (2 − 𝟏𝟐)2 + (3 − 𝟏𝟐)2 + (4 − 12)2 + (50 − 𝟏𝟐)2 = 362 5 362 non è per niente rappresentativo per la variabile X e questo dimostra la scarsa robustezza della varianza ai valori anomali. Scarto quadratico medio Un ulteriore “difetto” della varianza deriva dal fatto che essa è espressa nell’unità di misura della variabile al quadrato. Per questo motivo, risulta di fondamentale importanza introdurre lo quadratico medio definito come la radice quadrata della varianza (denotato con σ): √(𝑥1 − 𝛍)2 + (𝑥2 − 𝛍)2 … + (𝑥𝑛 − 𝛍)2 𝛔= n Dispensa di Statistica Ciro Esposito A.A. 2021/2022 Coefficiente di variazione Se si volesse effettuare il confronto tra due variabili X che dispongono di diverse unità di misura (es: altezza in cm e peso in kg), questo risulterebbe difficile, poiché sia la varianza che lo scarto quadratico medio dipenderebbero da due unità di misura diverse. Per confrontarle realmente, occorre considerare un ulteriore indice, relativo, che assume il nome di coefficiente di variazione. Esso si denota con il simbolo 𝐜𝐯 e si definisce come il rapporto tra lo scarto quadratico medio (σ) e la media aritmetica (μ): 𝛔 𝐜𝐯 = 𝛍 NOTA BENE = Il coefficiente di variazione cvx può essere definito solo e soltanto se la media aritmetica è maggiore di 0, 𝛍 > 0 Esempio numerico, altezza e peso di una persona: σx 10cm 10 1 cvx = = = = 𝑎𝑙𝑡𝑒𝑧𝑧𝑎 μx 170cm 170 17 σy 15kg 15 cvy = = = 𝑝𝑒𝑠𝑜 μy 70kg 70 Visto che si tratta di valori adimensionali, è possibile confrontarli: 𝐜𝐯𝐱 > 𝑐𝑣𝑦 Variabilità delle modalità ordinate Le misure di variabilità delle modalità ordinate hanno la funzione di determinare qual è il raggio d’azione (l’insieme dei valori compresi tra due estremi ) della variabile presa in considerazione, ne esistono diversi tipi: Campo di variazione (range o raggio d’azione) Il campo di variazione di una variabile X (denotato con Range(X) ) si definisce come la differenza tra le modalità massima e la modalità minima: 𝐑𝐚𝐧𝐠𝐞(𝐗) = 𝐦𝐚𝐱(𝐗) − 𝐦𝐢𝐧 (𝑿) Dispensa di Statistica Ciro Esposito A.A. 2021/2022 Anche il range risente della problematica circa la scarsa robustezza per valori anomali. Campo di variazione interquartile Al fine di arginare tale problematica, si introduce il campo di variazione interquartile, che si indica con 𝐈𝐐𝐑(𝐗) e si definisce come la sottrazione tra il terzo quartile e il primo quartile, quindi: 𝐈𝐐𝐑(𝐗) = 𝐐𝟑 − 𝐐𝟏 Ricordiamo che Q3 rappresenta il 25% dei valori più alti, mentre Q1 il 25% dei valori più bassi. Campo di variazione interdecile Il campo di variazione interdecile si indica con 𝐈𝐃𝐑(𝐗) e si definisce come la sottrazione tra il nono decile e il primo decile, quindi: 𝐈𝐃𝐑(𝐗) = 𝐃𝟗 − 𝐃𝟏 NOTA BENE = Si ricorda che che D9 rappresenta il 10% dei valori più alti, mentre D1 il 10%dei valori più bassi. Box-Plot Il Box-Plot o diagramma a scatola si definisce una rappresentazione grafica sintetica dei dati mediante il primo quartile, il secondo quartile (Me) e il terzo quartile. Fu inventato da John Tukey ( inventore della explore date analysis, nonché la statistica descrittiva) e realizza graficamente una scatola rettangolare che ha come estremo (o cardine) inferiore Q1 e come estremo (o cardine) superiore Q3; la mediana suddivide in due la scatola. L’ampiezza della scatola è data dal campo di variazione interquartile, poiché la scatola parte dal primo quartile e termina con il terzo quartile. Dall’estremo inferiore della scatola e dall’estremo superiore della scatola si individuano quelli che prendono il nome di “baffi” del box-plot. Dispensa di Statistica Ciro Esposito A.A. 2021/2022 - Il cardine inferiore (H1) è data dal primo quartile - il campo di variazione interquartile ; - il cardine superiore (H2) è data dal terzo quartile – il campo di variazione interquartile. I cardini servono per dare una misura di tolleranza per definire un valore come anomalo, ossia un valore che si allontana dal centro per eccesso o per difetto. Se i puntini al di sopra del secondo cardine e al di sotto del primo cardine non ci sono, significa che il box-plot non dispone di valori anomali (anche detti outliers). Il box-plot è uno degli strumenti grafici più adoperati per i confronti: Dispensa di Statistica Ciro Esposito A.A. 2021/2022 Per essere comparati più box-plot è necessario che le variabili siano commensurabili (devono avere lo stesso asse di riferimento) o che si tratti dello stesso fenomeno misurato e comparato in tempi diversi. Variabili trasferibili Sono particolari variabili quantitative discrete per cui è possibile immaginare uno scenario alternativo in cui il totale delle modalità osservate può essere ridistribuito senza modificare il suo valore complessivo (es: reddito, pensioni). Si tratta di variabili discrete, difatti contrariamente variabili continue come il peso e l’età NON sono trasferibili. Questo tipo di variabili si denota con tilde: 𝑥1 + 𝑥2 + 𝑥3 … + 𝑥𝑛 = ̃ + 𝑥2 𝑥1 ̃ + 𝑥3 ̃ … + 𝑥𝑛 ̃ Esempio numerico reddito: Si considera n famiglie con X reddito variabile trasferibile: 𝑥1 = 1000 ; 𝑥2 = 500 ; 𝑥3 = 1500 La prima famiglia dispone dunque di un reddito pari a 1000, la seconda pari a 500, la terza pari a 1500: la loro somma equivarrà a 3000. 𝑥1(1000) + 𝑥2(500) + 𝑥3(1500) = 3000 Si ipotizzano diversi scenari in cui il totale del reddito non cambia, ma la sua distribuzione si: 𝑥1(1000) + 𝑥2(1000) + 𝑥3(1000) = 3000 Oppure: 𝑥1(2000) + 𝑥2(500) + 𝑥3(500) = 3000 Mutua variabilità La mutua variabilità permette di individuare la differenza tra le singole unità statistiche, facendo però riferimento a variabili trasferibili (vedi soprastante). Differenze semplici tra modalità Per differenze semplici tra modalità, si intende la differenza tra tutte le modalità osservate che compongono la variabile X trasferibile. L’intento è quello di misurare quanto le modalità di osservazione distano le une dalle altre e dunque quanto mutualmente variano. Data una variabile X quantitativa, discreta trasferibile, rilevata su un campione composto 𝑛 unità statistiche (𝑥1; 𝑥2 … 𝑥𝑛), X le differenze semplici tra modalità osservate della mutua variabilità saranno svolte con i loro valori assoluti: Dispensa di Statistica Ciro Esposito A.A. 2021/2022 |𝑥1 − 𝑥2|, |𝑥1 − 𝑥3|, |𝑥1 − 𝑥4|, … |𝑥1 − 𝑥𝑛 − 1| I valori assoluti (che si indicano con | | ), sono valori che privano le modalità del loro segno originale, rendendoli in ogni caso positivi, questo perché le distanze tra le modalità non possono essere negative. Tuttavia, adesso avendo calcolato quanto x1 dista da x2, adesso ci occorre calcolare quanto dista la seconda modalità (x2) dalle altre modalità, motivo per il quale ripetiamo la stessa procedura osservata precedentemente. La stessa procedura dovrà essere svolta per tutte le modalità. E’ possibile osservare che per ogni unità statistica si svolgono n-1 confronti e generalizzando dunque questo ragionamento si ottiene: n ∗ (n − 1) confronti Dove: n= è la numerosità (tutte le unità statistiche) Occorre tuttavia sapere quanto la distanza reciproca sia complessivamente, per questo bisognerà sintetizzare il tutto attraverso la differenza semplice media. Differenza semplice media La differenza semplice media si definisce la media aritmetica delle 𝐧 ∗ (𝐧 − 𝟏) differenze semplici (considerate in valore assoluto); si indica con delta, dunque con il segno ∆x. Il suo calcolo quindi sarà: 𝟏∗(|𝐱𝟏−𝐱𝟐|+|𝐱𝟏−𝐱𝟑|+..….+|𝐱𝟏−𝐱𝐧|) ∆x = 𝐧∗(𝐧−𝟏) Dispensa di Statistica Ciro Esposito A.A. 2021/2022 NOTA BENE = a differenza della semplice media aritmetica (che avrebbe al divisore semplicemente n) con la differenza semplice media al divisore va inserito 𝐧 ∗ (𝐧 − 𝟏) E’ possibile osservare che: - La differenza semplice media è un indice assoluto. - La differenza semplice media è sempre maggiore uguale a 0 e sempre minore uguale a due volte la media aritmetica della variabile X. 0 ≤ ∆x ≤ 2μX - La differenza semplice media è uguale a 0 se è soltanto se tutte le differenze semplici sono uguali sono nulle (si annullano). In questo caso si parla di equidistribuzione della variabile. ∆x = 0 |𝑥1 − 𝑥2|, |𝑥1 − 𝑥3|, |𝑥1 − 𝑥4|, … |𝑥1 − 𝑥𝑛 − 1| = 0 - La differenza semplice media è uguale a due volte la media aritmetica della variabile X se è soltanto se c’è una modalità di osservazione pari al totale della variabile X e tutte le altre modalità di osservazione valgono invece 0. Ricordiamo inoltre la possibilità di costruire un indice normalizzato tra 0 ed 1 [0 ; 1] sulla base di un indice assoluto attraverso la formula: 𝐈 − min (𝑋) I (normalizzato) = max (X) − min (𝑋) [0;1]o[a;b] Rapporto di concentrazione di Gini Il rapporto di concentrazione di Gini (che si indica con 𝑅𝑥) si definisce come il rapporto tra la differenza semplice media ∆x meno il valore minimo (0), fratto il valore massimo (2𝛍𝐗) meno il valore minimo (0), quindi: ∆x − 0 ∆x 𝑅𝑥 = = 2𝛍𝐗 − 0 2𝛍𝐗 A questo punto in sintesi possiamo intendere il rapporto di concentrazione di Gini come il rapporto tra la differenza semplice media e 2 volte la media aritmetica della variabile X Dispensa di Statistica Ciro Esposito A.A. 2021/2022 NOTA BENE: Il rapporto di concentrazione di Gini è la media aritmetica normalizzata. Introduzione alla curva di Lorenz La curva di Lorenz è uno strumento grafico che ci aiuta a rappresentare quanto è concentrata (o distribuibile) una distribuzione per una variabile X trasferibile. La concentrazione di una variabile X deriva dalla possibilità di “trasferire” l’ammontare del fenomeno da una unità statistica ad un’altra, avvicinandosi o allontanandosi dalla situazione di equidistribuzione dell’ammontare complessivo della variabile. Considerando quindi una variabile X quantitativa, discreta trasferibile, rilevata su un campione composto 𝑛 unità statistiche (𝑥1; 𝑥2 … 𝑥𝑛), si dispongono le modalità di osservazione in ordine crescente tra loro e si considerano inoltre due possibili scenari, opposti tra loro, nonché quello di equidistribuzione e di massima concentrazione: Equidistribuzione (o minima concentrazione) La situazione di equidistribuzione è data dal fatto che su tutte le unità statistiche si osserva lo stesso valore della variabile X (xn) e questo valore è uguale alla media aritmetica (𝛍) 𝑥1 = 𝑥2 = 𝑥3 … = 𝑥𝑛 = μ Massima concentrazione Lo scenario di massima concentrazione si innesca invece se esiste una modalità di osservazione pari al totale della variabile X e tutte le altre modalità di osservazione valgono invece 0: 𝑥1 = 𝑥2 = 𝑥3 … = 0 𝑚𝑎 𝑒𝑠𝑖𝑠𝑡𝑒 𝑥𝑖 = 𝑛μ La distribuzione di una variabile trasferibile si stanzia tra questi due scenari, l’obbiettivo sarà dunque quello di capire quanto sia equidistribuita e quanto sia la sua concentrazione. La prima modalità di osservazione (x1) corrisponde ad un ennesimo delle unità statistiche: 1 𝑥1 = n Le prime due modalità di osservazione (x1+x2) corrispondono a due ennesimi delle unità statistiche, difatti verrà segnato: Dispensa di Statistica Ciro Esposito A.A. 2021/2022 2 𝑥1 + 𝑥2 = n …. …. Di conseguenza il totale delle modalità di osservazione (xn) corrisponde al totale ennesimi delle unità statistiche, difatti scriveremo: n 𝑥𝑛 = =1 n Si definisce dunque il pongo (indicato con 𝑃𝑖), ossia è la funzione di ripartizione empirica delle i unità statistiche che assegna peso a ciascuna unità. n 1 2 i 𝑃1 = n ; 𝑃2 = n ; … ; 𝑝𝑖 = n = 1 In corrispondenza al pongo (𝑃𝑖) corrisponde una quantità che viene indicata con q, che rappresenta la frazione di unità statistiche, definita: x(1) + x(2) … + x(i) i 𝑞𝑖 = = x(1) + x(2) … + x(n) n Sia il valore del pongo che della quantità sappiamo essere compreso tra 0 e 1. Curva di Lorenz La curva di Lorenz si definisce come la spezzata di concentrazione che unisce sul piano cartesiano i punti di coordinate Pi con qi (di cui i va da 1 ad n) - Sull’asse delle x si dispongono gli ennesimi (Pi) - Sull’asse delle y si dispongono le quantità (qi) Dispensa di Statistica Ciro Esposito A.A. 2021/2022 La spezzata di concentrazione o curva di Lorenz è spesso accompagnata e confrontata dalla retta di equidistribuzione, ossia la retta che congiunge la bisettrice del primo e terzo quadrante ( dunque la retta che unisce 0 a 0, 1 ad 1 etc..) Ricordiamo che nel caso di equidistribuzione x1 vale 𝛍: 1 x1 𝛍 𝟏 𝑃1 = che corrisponde a q1= = = n n 𝐧𝛍 𝐧 2 x1+x2 𝟐𝛍 𝟐 𝑃2 = che corrisponde a q2= = = n n 𝐧𝛍 𝐧 Possiamo dedurre dunque che: Se la curva di Lorenz è vicina (o peggio coincide) alla retta di equidistribuzione, la concentrazione sarà minima. Se la curva di Lorenz si allontana dalla retta di equidistribuzione, la concentrazione sarà massima. Dispensa di Statistica Ciro Esposito A.A. 2021/2022 L’unità di misura che indica la concentrazione della variabile X è l’Area di concentrazione, che considera l’area e la spezzata di concentrazione. Indici di forma Due variabili statistiche possono possedere la stessa posizione e la stessa variabilità ma differire nella distribuzione dei valori più grandi o più piccoli rispetto al valore centrale, a causa del comportamento differenziato delle “code” della distribuzione. Evidenziata questa problematica, risulta essere necessario introdurre degli indici statistici che indaghino sulla forma della distribuzione: chiaramente si sta parlando degli indici di forma. Gli indici di forma difatti fanno riferimento alla distribuzione di una variabile X, che può essere intesa sia in termini di simmetria (asimmetrico o simmetrico) o come appuntimento della distribuzione (curtosi). Distribuzione simmetrica Una distribuzione è simmetrica quando si è in grado individuare il centro e i dati considerati sia a destra che a sinistra del centro si dispongono in maniera simmetrica. Dispensa di Statistica Ciro Esposito A.A. 2021/2022 Distribuzione asimmetrica Una distribuzione è in gergo detta asimmetrica quando si è in grado individuare il centro e i dati considerati sia a destra che a sinistra del centro NON si dispongono in maniera simmetrica rispetto al centro. In base a quanto studiato in precedenza, graficamente si potrebbero individuare la moda, la mediana e la media aritmetica nel caso A e nel caso B: A) In questo caso la distribuzione è detta asimmetrica negativa, poiché la coda della distribuzione è posta verso i valori più bassi (verso sinistra) e dunque la media aritmetica (μ) è minore della mediana (Me) , che a sua volta è minore della moda (Mo); si tratta dunque di asimmetria negativa. B) In questo caso invece la distribuzione è detta asimmetrica positiva, poiché la coda della distribuzione è posta verso i valori più alti (verso destra) e dunque la Moda (Mo ) è minore della mediana (Me) , che a sua volta è minore della moda (μ); si tratta dunque di asimmetria positiva. Dispensa di Statistica Ciro Esposito A.A. 2021/2022 La distanza tra media e mediana ci informa su quanto è lunga la coda della distribuzione, dunque se l’asimmetria è forte o debole. Indice di asimmetria Un primo indice di asimmetria (indicato con A) potrebbe essere dato dal confronto della distanza (dalla differenza) tra media e mediana, quindi: 𝐴 = μ − Me Tuttavia l’indice di asimmetria è un indice assoluto e ricordiamo sia preferibile lavorare su indici che siano normalizzati, di conseguenza l’indice di asimmetria sarà dato dalla differenza tra media e mediana, ma rapportato allo scarto quadratico medio: μ − Me 𝐴= σ Ricordiamo l’indice essere compreso tra -1 ed 1. - Se l’indice ha come valore -1 è detto asimmetrico negativo. - Se l’indice ha come valore 0 è detto tendenzialmente simmetrico. - Se l’indice ha come valore 1 è detto asimmetrico positivo. Esempio numerico: X F.A. X F.A. 1 7 1 1 2 6 2 2 3 5 3 3 4 4 4 4 5 3 5 5 6 2 6 6 7 1 7 7 Dispensa di Statistica Ciro Esposito A.A. 2021/2022 Come tutti gli indici, l’indice di asimmetria non fa eccezione e non è perfetto, perché in entrambi i casi dell’esempio se si svolgessero i calcoli per ricavarlo, l’indice sarà comunque uguale a 0 (Ax=Ay=0), nonostante la prima distribuzione di frequenza sia asimmetrica positiva e l’altra asimmetrica negativa. Per questo motivo si sente la necessita di un indice che sia “più completo” e che comprenda tutte le osservazioni. Determinare la forma della distribuzione con gli scarti Per determinare la forma della distribuzione si considerano stavolta tutti gli scarti della media: 𝐱𝟏 − 𝛍 ; 𝐱𝟐 − 𝛍 … 𝐱𝐧 − 𝛍 Ricordiamo però gli scarti essere indici assoluti e sappiamo che è altamente preferibile lavorare con indici normalizzati, motivo per il quale occorre adoperare la standardizzazione. Standardizzazione della variabile X Si definisce standardizzazione una particolare trasformazione lineare della variabile X che permette di eliminare l’unità di misura della stessa variabile X, preservandone però la Dispensa di Statistica Ciro Esposito A.A. 2021/2022 forma e le altre caratteristiche. Si indica con la lettera Z e il suo calcolo è dato dalla differenza tra la variabile X e la media (μ), fratto lo scarto quadratico medio (σ). 𝐗−𝛍 𝑍= 𝛔 La sua formula potrebbe essere scritta anche in questo modo: 𝟏 ∗ 𝐗 𝛍𝐱 𝑍= − 𝛔𝐱 𝛔𝐱 - E’ possibile osservare inoltre che la media aritmetica della variabile standardizzata Z è sempre pari a 0. - E’ possibile osservare inoltre che lo scarto quadratico medio della variabile standardizzata Z è sempre pari ad 1. Scarti standardizzati della variabile X Si definisce scarto dalla media standardizzati la differenza tra 𝐱𝐢 e 𝛍 fratto lo scarto quadratico medio, quindi: 𝐱𝟏−𝛍 𝐱𝟐−𝛍 𝐱𝐧−𝛍 𝑧1 = ; 𝐳𝟐 = … ; 𝐳𝐧 = 𝛔 𝛔 𝛔 Scarti standardizzati al cubo Si definisce scarto dalla media standardizzati la differenza tra 𝐱𝐢 e 𝛍 fratto lo scarto quadratico medio, il tutto elevato alla terza potenza, quindi: 𝑧13 ; 𝑧23 ; … 𝑧𝑛3 Si è scelta la terza potenza perché si mantiene il segno e si può misurare la simmetria. Tuttavia gli scarti devono essere sintetizzati su tutte le osservazioni con la media aritmetica. Dispensa di Statistica Ciro Esposito A.A. 2021/2022 Indice di asimmetria di Fisher Si indica con la lettera γ (gamma) e si definisce la media aritmetica degli scarti standardizzati al cubo: 𝑛 𝑛 𝟏 ∗ (𝑧13 + 𝑧23 + ⋯ 𝑧𝑛3 ) 𝐱𝟏 − 𝛍 3 γ= = ∑ 𝑧𝑖 3 = ∑( ) 𝐧 𝛔 𝑖=1 𝑖=1 L’indice di Fisher è un indice relativo, perché non dipende da alcuna unità di misura di misura e soprattutto può assumere sia valori positivi che negativi. - Se γ (gamma) è maggiore di 0 siamo nella situazione di asimmetria positiva - Se γ (gamma) è minore di 0 siamo nella situazione di asimmetria negativa - Se γ (gamma) è uguale a 0 corrisponde all’assenza di asimmetria, di conseguenza ci sarà simmetria Distribuzione doppia di frequenza La distribuzione doppia di frequenza rileva su un campione di n unità statistiche una coppia di variabili statistiche X ed Y (es: nati e residenti, sesso e colore di capelli, professione e grado di istruzione). Ad ogni riga corrisponde una modalità di osservazione della variabile X, mentre ad ogni colonna corrisponde una modalità osservata per la variabile Y. L’obbiettivo della distribuzione di frequenza consiste nel capire se le variabili X e Y sono indipendenti o se ci sono legami tra le due variabili (se un’osservazione della variabile X ci può dare informazioni sull’osservazione di un’altra variabile Y) Dispensa di Statistica Ciro Esposito A.A. 2021/2022 NOTA BENE: 1. I due pedici ricordiamo essere il primo per indicare l’ordine della variabile X, mentre il secondo per indicare l’ordine della variabile Y ; 2. Le frequenze assolute marginali vengono indicate col punto (.) : se il punto è posto prima del pedice indica la frequenza assoluta marginale della variabile Y, mentre se è posto dopo il pedica indica la frequenza assoluta marginale della variabile X ; La somma di tutte le frequenze assolute ricordiamo essere uguale ad n (la numerosità del campione) anche in questo caso; anche la somma delle frequenze assolute marginali (sia della variabile X che dalla variabile Y) varrà n. Esempio numerico: Si vuole capire a quale vaccino abbia corrisposto quale reazione. La variabile X indica il tipo di reazione; la variabile Y indica invece il tipo di vaccino ricevuto. Bisogna contare quante volte si è presentata una modalità (la frequenza doppia) sulle diverse modalità, quindi per ogni possibilità di coppia si è associata una frequenza doppia: Dispensa di Statistica Ciro Esposito A.A. 2021/2022 Possiamo inoltre ottenere la distribuzione di frequenza delle singole variabili, che prende il nome di distribuzione di frequenza marginale (costituita dai valori in rosso) Otterremo due tipi di distribuzione: la distribuzione di frequenza marginale della variabile X, che è quella disposta al lato destro della tabella e la distribuzione di frequenza marginale della variabile Y, che invece è quella disposta al lato inferiore della tabella. Indipendenza tra le variabili X ed Y Se le variabili X e Y si ipotizza siano indipendenti (non c’è alcuna connessione tra di loro, c’è assenza di legame), si può affermare che qualsiasi valore assunto da X non modifica la distribuzione di frequenza della variabile Y e viceversa. In particolar modo, il concetto di indipendenza implica che la conoscenza del valore assunto da una delle due variabili non deve aggiungere alcuna informazione sulla distribuzione dell’altra. Per ogni valore di X, dovrà 𝑥 verificarsi che: 𝐧𝐣𝟏 𝐧𝐣𝟐 𝐧𝐢𝐡 𝐧𝐢. = …= = 𝐧. 𝟏 𝐧. 𝟐 𝐧. 𝐡 𝐧 E analogamente per ogni valore di Y, dovrà 𝑦 verificarsi che: 𝐧𝐢𝟏 𝐧𝐢𝟐 𝐧𝐣𝐤 𝐧. 𝐣 = …= = 𝐧𝟏. 𝐧𝟐. 𝐧𝐤. 𝐧 Questo tuttavia può accadere soltanto se per ogni coppia di modalità (𝑥 , 𝑦 ) tutte le frequenze doppie e marginali sono legate da una proporzionalità per le righe e per le colonne. Quindi le componenti X e Y di una variabile (X,Y) sono indipendenti se e solo se: 𝐧𝐢.∗ 𝐧. 𝐣 𝑛𝑖𝑗 = 𝐧 Dispensa di Statistica Ciro Esposito A.A. 2021/2022 Frequenze teoriche sotto l’ipotesi di indipendenza Dunque, si definiscono frequenze teoriche sotto l’ipotesi di indipendenza le quantità cij , i dati dai prodotti delle marginali fratto n, quindi: 𝐧𝐢. ∗ 𝐧.𝐣 𝑐𝑖𝑗 = 𝐧 - Se le frequenze teoriche sotto l’ipotesi di indipendenza (cij) sono vicine alle doppie alle frequenze doppie osservate (nij) c’è indipendenza; - Se le frequenze teoriche sotto l’ipotesi di indipendenza (cij) sono lontane d

Use Quizgecko on...
Browser
Browser