Statistica Riassunto Completo Marella PDF

Document Details

Uploaded by Deleted User

Università degli Studi Roma Tre

Tags

statistica analisi statistica fenomeni collettivi metodologia statistica

Summary

This document provides a summary of statistics. It covers topics such as qualitative and quantitative characters, modalities, samples, and investigation methods. The document is aimed at undergraduate-level students.

Full Transcript

statistica riassunto completo marella Statistica Universita degli Studi Roma Tre 33 pag. Document shared on www.docsity.com Downloaded by: sar.atiba ([email protected]) RI...

statistica riassunto completo marella Statistica Universita degli Studi Roma Tre 33 pag. Document shared on www.docsity.com Downloaded by: sar.atiba ([email protected]) RIASSUNTO STATISTICA - LA STATISTICA è la disciplina che si occupa dei fenomeni collettivi -> fenomeni che non si manifestano sempre allo stesso modo. Fornisce un complesso di procedure e tecniche per l’analisi quantitativa dei fenomeni empirici. FENOMENI COLLETTIVI: per essere studiati richiedono una pluralità di informazioni che vengono raccolte attraverso un indagine statistica UNITÀ STATISTICA: è la singola entità portatrice del fenomeno che si vuole analizzare POPOLAZIONE STATISTICA: è l’insieme delle unità statistiche su cui interessa analizzare i fenomeni oggetto di studio CARATTERE STATISTICO: è ciascuna singola caratteristica che viene rilevata sulle unità statistiche per studiare i fenomeni -> due tipi: 1) CARATTERI QUALITATIVI: caratteri statistici le cui modalità sono rappresentate da parole -> a loro volta divisi in due tipi( es. diploma ,genere) a) Qualitativi sconnessi (o nominali): quando date due modalità possiamo solo dire se sono uguali o diversi (es.genere) b) Qualitativi ordinati (o ordinali): quando date due modalità possiamo dire che sono uguali o diverse e, se diverse, quale viene prima.(es.titolo di studio) 2) CARATTERI QUANTITATIVI: caratteri statistici le cui modalità sono numeri su cui è lecito applicare operazioni matematiche -> a loro volta divisi in due tipi(es.numero addetti/età/peso) a) Quantitativi discreti: modalità sono numeri interi(es. num.addetti) b) Quantitativi continui: modalità sono numeri reali compresi in un determinato intervallo(es.peso) MODALITA’: ciascuno dei modi di manifestarsi di un carattere statistico  Un CARATTERE STATISTICO in ogni UNITA’ STATISTICA delle POPOLAZIONI assume una determinata MODALITA’. CAMPIONE: insieme delle unità statistiche rilevate con un’indagine parziale. Quando si dispone di un campione, l’interesse prevalente risiede nello studio della popolazione da cui il campione è stato estratto -> necessari metodi che consentano di estendere i risultati del campione alla popolazione (metodi di inferenza statistica). INDAGINE: può essere di due tipi : 1-COMPLETA (O CENSUARIA)- STATISTICA DESCRITTIVA: lo scopo è descrivere il fenomeno attraverso opportuni metodi statistici traendo indicazioni sull’intera popolazione; 2-PARZIALE (O CAMPIONARIA)- STATISTICA INFERENZIALE: lo scopo è estendere i risultati ottenuti per il “CAMPIONE”(insieme delle unità statistiche rilevate con un’indagine parziale. Quando si dispone di un campione, l’interesse prevalente risiede nello studio della popolazione da cui il campione è stato estratto -> necessari metodi che consentano di estendere i risultati del campione alla popolazione (metodi di inferenza statistica).all’intera popolazione con un certo grado di affidabilità. LA MATRICE DEI DATI :Insieme di numeri e parole organizzate in righe e colonne , tabella in cui sono raccolti i dati rilevati OGNI RIGA: rappresenta un’unità statistica,tante righe quanti sono i soggetti OGNI COLONNA: rappresenta una variabile,tante colonne quante sono le variabili osservate. La costruzione della matrice dei dati avviene in 2 fasi: 1) CODIFICA :È la fase in cui si stabilisce in che modo dovrà avvenire la memorizzazione delle informazioni nella matrice dei dati per ciascuna variabile rilevata si determinano: - La colonna corrispondente alla matrice dei dati Document shared on www.docsity.com Downloaded by: sar.atiba ([email protected]) - I possibili valori alfa7numerici che compariranno nella colonna.  Per le VARIABILI QUALITATIVE: si stabilirà il numero di colonna corrispondente alla matrice e come memorizzare le modalità osservate, sia quelle NOMINALI che ORDINALI subiscono una codifica (attribuzioni di codici numerici completamente arbitraria per le VARIABILI NOMINALI,PER LE VARIABILI ORDINALI dovrà rispettare l’ordine naturale esistente tra le modalità osservate).  Per le VARIABILI QUANTITATIVE :le modalità osservate essendo numeriche vengono memorizzate come sono,fissando l’insieme dei valori accettabili. Il CODICE NUMERICO consente un risparmio di memoria del calcolatore e una più veloce memorizzazione e trattazione informatica. 2) MEMORIZZAZIONE DEI DATI: è la fase in cui i dati vengono raccolti ,immessi su un supporto magnetico da personale addetto,che utilizza la tastiera di un computer ed un opportuno programma informatico.Le prime colonne generalmente sono occupate dalle informazioni che consentono di identificare in modo univoco ciascuna statistica (caso dei QUESTIONARI  associare a ciascuno di essi un numero progressivo) QUESTIONARI RIGHE DOMANDECOLONNE QUESTIONARIO: uno degli strumenti più utilizzati per rilevare le informazioni di un indagine statistica,costituito da un insieme di domande predefinite a cui vengono sottoposti tutti i soggetti di indagine;la somministrazione di un questionario può avvenire per intervista diretta,intervista telefonica,autocompilazione.Le domande sono raccolte in gruppi omogenei rispetto alla tematica.la numerazione delle domande riflette l’organizzazione in sezioni. TIPI DI ANALISI STATISTICA DELLA MATRICE In base alle variabili che si analizzano: 1) ANALISI UNITARIA: Una variabile. Obbiettivi: - Individuare incongruenze nei dati. - Suggerire aggregazioni in classi di modalità. - Fornire prime informazioni di sintesi sul fenomeno. 2) ANALISI BIVARIATA: Due variabili. 3) ANALISI MULTIVARIATA: Più di due variabili. Esempio : indagine condotta su una popolazione di N= 12 dipendenti di azienda A e di aver rilevato le seguenti informazione:  GENERE (G)  TITOLO STUDIO (TDS)  CATEGORIA LAVORATIVA (CL)  ANNI DI ANZIANITA’ (AA)  STIPENDIO(S) Vedremo che : La popolazione statistica è 12 dipendenti L’unità statistica è il singolo dipendente Le variabili sono: - G variabile qualitativa sconnessa - TDS e CL variabili qualitative ordinali - AA variabile quantitativa discreta - S quantitativa continua Document shared on www.docsity.com Downloaded by: sar.atiba ([email protected]) VARIABILE STATISTICA: insieme delle modalità che un carattere statistico assume in una determinata popolazione. Indicata con la lettera X. Due variabili saranno indicate con le lettere X e Y. Modalità di un variabile X saranno indicate con x ed un indice identificativo in basso a destra. Una variabile si dirà QUALITATIVA NOMINALE, QUALITATIVA ORDINALE O QUANTITATIVA (O CARDINALE) SECONDO IL CARATTERE STATISTICO a cui è associata. DISTRIBUZIONE DI FREQUENZA: strumento utile per descrivere e sintetizzare i dati in modo da evidenziarne le caratteristiche.Si tratta di una tabella nella quale ad ogni MODALITA’(modo di manifestarsi di un carattere statistico)corrisponde la rispettiva FREQUENZA ASSOLUTA (numero di UNITA’ STATISTICHE in cui è osservata la modalità) CALCOLO DISTIBUZIONE FREQUENZA VARIABILE GENERE (variabile qualitativa sconnessa) Nella 1° COLONNA si elencano le modalità della variabile sotto esame Document shared on www.docsity.com Downloaded by: sar.atiba ([email protected]) Nella2°COLONNA il Numero di volte (FREQUENZA ASSOLUTA) che il dato corrispondente compare nella corrispettiva colonna della MATRICE-DATI LE FREQUENZE ASSOLUTE: numero di unità statistiche in cui è stata osservata la modalità.Non sono di facile interpretazione,per cogliere meglio l’incidenza delle singole modalità rispetto alla distribuzione complessiva e rispetto alle atre modalità si ricorre alle FREQUENZE RELATIVE che annullano l’effetto della numerosità dei casi. Un primo tipo di FREQUENZA RELATIVA E’ LA PROPORZIONE. PROPORZIONE: si ottiene dividendo ogni singola FREQUENZA ASSOLUTA per il NUMERO TOTALE DELLA DISTRIBUZIONE ES( 3 CARATTERE STATISTICO /12 POPOLAZIONE=0.25 PROPORZIONE). LA SOMMA DELLE PROPORZIONI E’ SEMPRE UGUALE A 1,TUTTE LE FREQUENZE SI COLLOCANO ENTRO UN CAMPO DI VARIAZIONE CHE VA DA 0 A 1, IL CHE AGEVOLA IL CONFRONTO FRA FREQUENZE DI MODALITA’ DIVERSE. Altro modo più consueto è relativizzare le Frequenza è riportarle a un campo di variazione tra 0 e 100 FREQUENZE PERCENTUALI. Le FREQUENZE PERCENTUALI si ottengono moltiplicando le proporzioni per 100 con la seguente formula: FREQ.PERCENTUALE = FREQUENZA ASSOLUTA/NUMERO DI CASI*100 Es(3/12*100= 25%)FEMMINE (9/12*100=75%) LA DIFFERENZA TRA LE 2 FREQUENZE OSSIA 75-25=50% SI DESCRIVE dicendo che è di 50 PUNTI PERCENTUALI (unità di riferimento da usare per rilevare differenze percentuali).Riportare al massimo un solo valore decimale nell’inchiesta campionaria tra 0-4 si arrotonda per difetto (16,73-16,7),fra 6-9 per eccesso (34.27 – 34.3) se è 5 occore guardare se è possibile passare al decimale successivo (se 16.75 è arrotondamento di 16.752 diventa 16.8 se 16.75 è arrotondamento di 16.748 si arrotonda a 16.7,se 16.75 non è un arrotondamento si può arrotondare per difetto o per eccesso) FREQUENZE PERCENTUALI: 1- misura il peso relativo di ciascuna modalità rispetto all’insieme, 2- può essere interpretata come la frequenza assoluta che la modalità avrebbe qualora la popolazione fosse costituita da 100 unità statistiche invece di N , 3- è utile quando si vuole confrontare due o più distribuzioni relative ad uno stesso carattere ma a popolazioni differenti ES :supponiamo di aver rilevato la modalità GENERE su 30 DIPENDENTI (popolazione statistica)di un azienda B FREQ.PERC FEMMINE A = 3/12*100 =25% FREQ.PERC FEMMINE B = 6/30*100 =20% FREQ.MASCHI A= 9/12*100=75% FREQ.MASCHI B=24/30*100=80% ERRORE STA NEL DIRE CHE LA PRESENZA FEMMINILE E’ MAGGIORE NELL’AZIENDA B CHE NELLA A POICHE’ 6 E’ MAGGIORE DI 3 Document shared on www.docsity.com Downloaded by: sar.atiba ([email protected]) IL CONFRONTO TRA LE DUE DISTRIBUZIONI A-B DOVRA TENER CONTO DELLA DIVERSA NUMEROSITA’ TOTALE.DOVRA’ QUINDI ESSERE EFFETTUATO CONFRONTANDO LE FREQUENZE PERCENTUALI DELLA MODALITA’ FEMMINA. NELL’AZIENDA A LA PERCENTUALE DELLA MODALITA’ FEMMINA E’ MAGGIORE Per la rappresentazione GRAFICA della sua distribuzione essendo la MODALITA’ GENERE UNA VARIABILE QUALITATIVA NOMINALE si può utilizzare un GRAFICO A COLONNE O A TORTA. Se la VARIABILE che si vuole rappresentare è di tipo ORDINALE O CARDINALE è possibile avvantaggiarsi della relazione d’ordine sottesa alle sue categorie per calcolare un altro tipo di FREQUENZA Per rispondere alle domande Qual è la percentuale di dipendenti che sono al massimo funzionari? Qual è la percentuale di coloro che sono almeno funzionari? si utilizza la FREQUENZA CUMULATA (numero o percentuale di casi che appartengono a quella categoria o a una precedente) (SOLO PER VARIABILI ORDINALI E CARDINALI) FREQUENZA CUMULATA RELATIVA = corrisponde alla somma della sua frequenza percentuale con quelle delle modalità che la precedono.si possono calcolare solo per le variabili ordinali o cardinali. (Qual è la percentuale di dipendenti che sono al massimo funzionari? 42+33= 75 ) FREQUENZA RETRO-CUMULATA=corrisponde alla somma dei casi di quella categoria o a una successiva (Qual è la percentuale di coloro che sono almeno funzionari?42+25=67) LE PERCENTUALI CUMULATE POSSO ESSERE CALCOLATE PER TUTTE LE MODALITA’DELLA VARIABILE CATEGORIA COME SI VEDE DALLA TABELLA: Document shared on www.docsity.com Downloaded by: sar.atiba ([email protected]) Si nota che la FRE.CUMULATIVA relativa alla 1 modalità è sempre uguale a quella percentuale,mentre per l’ultima modalità è sempre uguale a 100 I 3 TIPI DI FREQUENZA (ASSOLUTA,PERCENTUALE E CUMULATE) SONO TRA LORO EQUIVALENTI E’ SEMPRE POSSIBILE PASSARE DA UN TIPO ALL’ALTRO. - PASSAGGIO DALLE FREQ.PERCENTUALI ALLA FREQ.ASSOLUTA : FREQ.ASSOLUTA= (TOT/100)*PERCENTUALE ANDAMENTI DELLE FREQUENZE ASSOLUTE E DELLE PERCENTUALI: quando si studiano gli andamenti nel tempo delle frequenze assolute e delle percentuali di una stessa variabile -> fare attenzione -> non necessariamente questi andamenti coincidono. AGGREGAZIONE DI MODALITA: Serve per migliorare la lettura delle tabelle e per ridurre la presenza di frequenze assolute molto basse.Ci sono vari livelli di aggregazioni da sgegliere in funzionedegli obbiettivi di analisi: 1- AGGREGAZIONI IN CLASSI: suddividere in sotto-intervalli adiacenti l’intervallo numerico in cui varia la variabile cardinale; serve per ottenere un livello di sintesi accettabile nella distribuzione di frequenza. (simbolo per aggregazione in classe: Ⱶ  la presenza del trattino verticale indica che l’estremo è incluso nel sottointervallo,mentre l’assenza di trattino verticale indica che l’estremo è escluso) - Non esistono criteri generali per suddividere una variabile cardinale in classi -> suggerimento: evitare classi con frequenza assoluta molto basse e di formare classi con ampiezze simili - Quando la variabile cardinale può assumere solo valori interi, classi ed intervalli coincidono. NUMEROSITA’ DEI CASI Al ricercatore conviene presentare solo le frequenze percentuali ,il numero complessivo dei casi in valore assoluto.la specificazione del numero di casi sui quali le percentuali sono state calcolate ha 2 finalità: 1- COMUNICARE LO SPESSORE EMPIRICO DEI RISULTATI 2- PERMETTERE DI RISALIRE ALLE FREQUENZE ASSOLUTE Es( se gli Impiegati sono il 33% ed il numero complessivo è 12 unità statistiche ne consegue che il numero degli impiegati è 12*33/100 =4) NEL CASO DI UNA VARIABILE ORDINALE O CARDINALE l’ordine in cui saranno elencate le modalita’ rispetta quelle della relazione del’ordine Es. Impiegato-funzionario-dirigente,mentre nel caso di una distibuzione riferita ad UNA VARIABILE NOMINALE vi è maggior libertà. Nelle VARIABILI CARDINALI è possibile una maggior numerosità di modalità, in questo caso bisognerà raggruppare le modalità in un numero minore di classi. ESEMPIO DISTRIBUZIONE DI FREQUENZA STIPENDIO ( var.quantitativa continua- CARDINALE) Document shared on www.docsity.com Downloaded by: sar.atiba ([email protected]) Si procede all’aggregazione in classi della variabile : Divisione in 3 classi: - Classe 1:1100 - I 1600 (stip.bassi) (-indica che l’estremo è compreso nel (-)sotto intervallo) - Classe 2: 1600 - I 2100 (stip.medi) - Classe 3: 2100 – I 2600 (stip.alti) Si suddivide l’intervallo cercando di mantenere un ampiezza preferibilmente uguale assegnando una classe corrispondente ad ogni osservazione rilevata SE SI DECIDE DI RAGGRUPPARE ANCHE LE ULTIME DUE SI OTTERREBBE: Per la rappresentazione grafica della distribuzione di frequenza, essendo la MODALITA’ STIPENDIO UNA VARIABILE CARDINALE si utilizzerà l’ISTOGRAMMA (grafico a colonne contigue per dati numerici raggruppati in classi- se le classi hanno la stessa ampiezza le colonne hanno come base gli intervalli in cui sono raggruppate le osservazioni e le altezze pari alla frequenza delle classi- se hanno diversa ampiezza occorre calcolare per ogni classe la densità di frequenza) COLONNE STESSA AMPIEZZA Document shared on www.docsity.com Downloaded by: sar.atiba ([email protected]) CALCOLO DENSITA’ COLONNE ISTOGRAMMA D= percentuale/ampiezza classe 1° CLASSE 1100-1600 D= 50/1600-1000 = 0.01 2° CLASSE 1600-2600 D=50/2600-1600= 0.05 SU CIASCUN INTERVALLO,RAPPRESENTATO IN ASCISSA, SI COSTRUISCE UN RETTANGOLO DI ALTEZZA = ALLA DENSITA’ DI FREQUENZA DELLA CLASSE Le Frequenze solitamente sono rappresentate da rettangoli di base eguale e di lunghezze proporzionate alle frequenze si ha cosi un diagramma a colonna (modalità disposte orizzontalmente)o un diagramma a nastri (modalità disposte verticalmente Se la VARIABILE è ORDINALE O CARDINALE le modalità vanno disposte secondo l’ordine ad esso sotteso. DATI ERRATI O DATI MANCANTI E’ facile che le attività di rilevazione dei dati diano luogo ad errori e incongruenze nella matrice-dati ,vanno eliminati prima di effettuare operazioni di analisi statistica vera e propria.La presenza di DATI MANCANTI va rilevata e gestita.Un controllo consiste nel confrontare le distribuzioni di variabili fra loro concatenanti per far emergere eventuali incongruenze.L’ispezione delle DISTRIBUZIONI DI FREQUENZA fa emergere l’errore e permette di correggerlo. Altri controlli si effettuano per mezzo della TABULAZIONE INCROCIATA DI DUE VARIABILI. ESISTONO DUE TIPI DI RAPPRESENTAZION I GRAFICHE: RAPPRESENTAZIONI GRAFICHE: associa delle entità geometriche alle informazioni (modalità e frequenze) Document shared on www.docsity.com Downloaded by: sar.atiba ([email protected]) presenti in una tabella. Consente di cogliere più facilmente l’informazione contenuta nella tabella, poiché risulta facilmente comprensibile e non richiede conoscenze particolari; requisito essenziale di un grafico è di essere indipendente dalla tabella a cui si riferisce, contenendone tutte le informazioni necessarie.  I grafici definiti per variabili qualitative possono essere utilizzati anche per quelle quantitative, mentre quelli definiti per variabili quantitative non si possono utilizzare per le variabili qualitative. GRAFICO A COLONNE: tracciato asse delle ordinate (asse verticale), perpendicolarmente a quello delle ascisse e passante per l’origine, riporteremo su di esso i valori delle frequenze assolute oppure percentuali. Infine disegneremo le colonne aventi per base gli intervalli prescelti sull’asse delle ascisse, ed altezza pari alla corrispondente frequenza delle modalità. La scelta dell’ordine della variabile nominale (riportata sull’asse orizzontale) è quella della successione che le modalità hanno nella tabella; per le variabile qualitativaCordinata l’ordine con cui riportare le modalità sull’asse è quello naturale delle variabile. GRAFICO A NASTRI: è simile a quello a colonne e si ottiene invertendo l’associazione di modalità e frequenza agli assi ( modalità-asse verticale, frequenze-asse orizzontale). GRAFICO A TORTA (AEROGRAMMA): rappresentare la distribuzione di frequenza con l’area del cerchio associata al totale della frequenza  suddivisa in un numero di settori circolari pari al numero delle modalità della distribuzione. Ogni settore ha un’area di ampiezza proporzionale alla frequenza della modalità corrispondente. Associazione tra settori e modalità legenda. Calcolo angoli che definiscono i settori circolari  proporzioni. GRAFICO A COLONNE AFFIANCATE: due distribuzioni possono essere sintetizzate in un unico grafico per un confronto immediato. GRAFICO A PUNTI: a ciascuna modalità corrisponde un punto sull’asse orizzontale Per ciascuna modalità è riportato un punto nel piano che corrisponde alla frequenza assoluta (o percentuale) corrispondente. GRAFICO A LINEE: possono essere riportate agevolmente e confrontate più distribuzioni. ISTOGRAMMA: si può riportare una distribuzione teorica o modello; asse verticale delle ordinate la densità di frequenza -> percentuale/ampiezza classe(VARIABILI CARDINALI) Osservazione 1: l’area del rettangolo costruito su ciascuna classe corrisponde alla percentuale della classe. Osservazione 2: l’istogramma può essere costruito utilizzando le frequenze assolute al posto delle percentuali -> aree dei rettangoli corrispondo alle frequenze assolute delle classi.1. Osservazione 3: non si possono affiancare i rettangoli di più istogrammi sullo stesso grafico, a differenza di quanto è possibile fare con i grafici a colonne. GRAFICO A SCATOLA: è una rappresentazione grafica di una VARIABILE CARDINALE che ne mette in evidenza alcunivalori caratteristici che riguardano sia la tendenza centrale (mediana, quartili, media aritmetica) che la variabilità ( campo di variazione, differenza interquartile). La scatola che viene evidenziata contiene il 50% delle modalità osservate che occupano la posizione dell’intervallo centrale tra il primo e il terzo quartile. Poiché l’ampiezza della scatola rappresenta la differenza interquartile Q, la variabilità tende ad essere tanto maggiore quanto più ampia è tale scatola. Quale tipo di rappresentazione grafica dipende dal tipo di variabile: le rappresentazioni lineari, a differenza di quelle circolari, suggeriscono che ci sia un ordine fra le categorie, anche quando non esiste, quindi sono auspicabili per le variabili cardinali e ordinali. Le rappresentazioni circolari, invece, danno la percezione dell’incidenza di una modalità sul totale, ma rendono arduo il confronto fra due modalità. A prescindere dal tipo di rappresentazione utilizzata, è necessario prendere altre decisioni: a. Frequenze relative o assolute? Dal punto di vista grafico, la scelta è indifferente. Ma è preferibile utilizzare le frequenze relative, che devono essere indicate con un’etichetta a fianco di ogni rettangolo o spicchio come “%” o “% cum.” (o “valori assoluti” se si tratta delle frequenze assolute). b. Va rappresentata la frequenza dei dati mancanti, se sì, come? È consigliabile se permette di interpretare o inquadrare meglio la distribuzione di frequenza Per le VARIABILI ORDINALI e, in particolare, per quelle CARDINALI si possono vedere altre opzioni. Per le VARIABILI CARDINALI si può ricorrere: a. ISTOGRAMMA Document shared on www.docsity.com Downloaded by: sar.atiba ([email protected]) b. POLIGONO DI FREQUENZA: quando le modalità sono particolarmente numerose-> anziché disegnare tanti istogrammi conviene rappresentare ogni frequenza con un punto e congiungere questi punti con segmenti c. OGIVA: rappresentazione per distribuzione cumulata-> si ricorre ad un poligono di frequenza dove i punti non solo le singole frequenze ma le frequenze cumulate SIA PER LE VARIABILI CARDINALI CHE PER QUELLE ORDINALI SI PUÒ UTILIZZARE L’ISTOGRAMMA DI COMPOSIZIONE, È UN RETTANGOLO DIVISO IN FASCE E OGNUNA CORRISPONDE ALLE FREQUENZE DELLE MODALITÀ, O LA SPEZZATA A GRADINI. È CONSIGLIABILE RICORRERE A GRAFICI SEMPLICI E SENZA TRIDIMENSIONALITÀ. TENDENZA CENTRALE VALORI CARATTERISTICI DI UNA DISTRIBUZIONE DI FREQUENZA: sintetizzare gli aspetti informativi rilevanti della distribuzione di frequenza di un carattere statistico -> individuazione di specifiche modalità o al calcolo di opportuni valori -> valori caratteristici della distribuzione -> tendenza centrale; variabilità. FREQUENZA CENTRALE: una modalità o un valore che secondo un determinato criterio rappresenti l’insieme delle modalità osservate in una distribuzione ne costituisce una sintesi di tendenza centrale. LA TENDENZA CENTRALE E LA VARIABILITA’ SONO LE PIU’ IMPORTANTI CARATTERISTICHE DI UNA DISTRIBUZIONE DI FREQUENZA. TENDENZA CENTRALE: La tendenza centrale di una distribuzione di frequenza è la modalità relativa della varibile verso il quale i casi tendono a gravitare (rappresenta i dati osservati secondo dei criteri). La scelta degli indici di tendenza centrale dipende dalla natura (QUANTITATIVA-QUALITATIVA) dei dati.LA MODA SI PUÒ CALCOLARE SEMPRE,LA MEDIANA SOLO SE LE VARIABILI SONO ORDINALI E LA MEDIA ARITMETICA SOLO NEL CASO DI VARIABILI QUANTITATIVE. Gli indicatori di TENDENZA CENTRALE SONO: MODA: si può calcolare per QUALSIASI TIPO DI VARIABILE ed è la modalità di una variabile alla quale è associata la maggiore frequenza.(la forma più elementare) LA MODA E’ L’UNICO VALORE CARATTERISTICO CHE RILEVA LA TENDENZA CENTRALE NELLE VARIABILI NOMINALI. La moda di una distribuzione non è necessariamente unica se la distribuzione statistica presenta le seguenti caratteristiche: - Unica moda =unimodale - Due mode=bimodale - Più mode =plurimodale MEDIANA: si può calcolare per VARIABILI QUALITATIVE ORDINALI E CARDINALE. Essa rappresenta la modalità del caso che occupa il posto centrale. Una volta ordinate tutte le modalità, si individua quella che si trova in mezzo alle altre.Bipartisce la distribuzione in due parti uguali lasciando a sinistra e a destra un ugual numero di dati.Ciò significa che lascia a dx il 50% delle osservazioni e a sx il 50% delle osservazioni. Per il calcolo della MEDIANA IN DISTRIBUZIONI UNITARIE OCCORRE: - ordinare le modalità osservate dalla più piccola alla più grande - determinare la posizione centrale occupata dalla mediana - individuare la mediana ,modalità che nella sequenza ordinata occupa la posizione centrale SE IL NUMERO DEI CASI (N) È DISPARI, ALLORA C’È UN SOLO CASO CENTRALE, QUELLO CHE OCCUPA LA POSIZIONE (N+1)/2. ES. N=11 STUDENTI VARIABILE = VOTO MEDIO 27.4,28.3,27.7,29.2,25.6,28.7,28.4,24.3,22.2,25.6,24.8 1-Per procedere al calcolo bisogna ordinare i valori dal più grande al più piccolo 22.2,24.3,24.8,25.6,25.6,27.4,27.7,28.3,28.4,28.7,29.2 2-Calcolare la posizionare centrale: (N+1)/2. = 11+1/2= 6 Document shared on www.docsity.com Downloaded by: sar.atiba ([email protected]) 3-Individuare la mediana :modalità che nella sequenza ordinata occupa il 6 posto: Mediana =27.4 SE N È PARI CI SONO DUE CASI N/2 E N/2 + 1. ES. N=10 STUDENTI VARIABILE = VOTO MEDIO 22.3,23.8,29.5,26.7,25.4,24.5,26.8,20.4,26.4,23.9 1-Per procedere al calcolo bisogna ordinare i valori dal più grande al più piccolo 20.4,22.3,23.8,23.9,24.5,25.4,26.4,26.7,26.8,29.5 2-Calcolare la posizionare centrale: N/2= 10/2=5 (N+1)/2. = 11+1/2= 6 3-Individuare le modalità corrispondenti alle 2 posizioni centrali (5 e 6 posto) 24,5-25.4 Qualunque numero compreso tra 24.5-25.4 potrebbe essere scelto come mediana della distribuzione dei voti medi Se si desidera un unico valore si ricorre alla semissomma delle due mediane : 24.5+25.4/2=24.95 IL CALCOLO DELLA MEDIANA NELLE DISTRIBUZIONI DI FREQUENZA RICHIEDE IL CALCOLO PERCENTUALE CUMULATE E’ COINCIDERA’ CON LA MODALITA’IN CORRISPONDENZA DELLA QUALE LA PERCENTUALE CUMULATA PER LA PRIMA VOLTA SIA MAGGIORE O UGUALE AL 50% Esempio la MEDIANA NELLA distribuzione frequenza variabile categoria lavorativa è FUNZIONARIO MEDIA ARITMETICA: E’ la misura di tendenza centrale più utilizzata delle VARIABILI CARDINALE.Si osserva nelle unità statistiche della popolazione ,nelle situazioni di equidistribuzione della variabile.E’ la somma dei valori assunti dalla variabile su tuttii casi divisa per il numero dei casi. La media sulla variabile X è espressa dalla seguente formula: X= variabile media di x e x i ∑=Sigma segno sommatorio (somma successione di numeri)rappresenta l’operatore di somma.Il calcolo della media si basa su tutte le osservazioni. Poiché in una distribuzione di frequenza abbiamo per ogni valore Xi della variabile la frequenza con quale Document shared on www.docsity.com Downloaded by: sar.atiba ([email protected]) esso si presenta, possiamo calcolare la media sommando i prodotti ottenuti moltiplicando ogni valore per la sua rispettiva frequenza, per cui la formula diventa: Dove k è il numero delle modalità della variabile, X con j sono i valori e f con j le frequenze. Ha senso avvalersi della MEDIA soltanto se la VARIABILE E’ CARDINALE (effettuabile solo su valori pieni di significato numerico) DEFINIZIONE ANALITICA (CHISINI): in termini matematici la media aritmetica di una variabile cardinale è il valore costante che sostituito a ciascuna delle modalità osservate ne mantiene inalterata la somma (o ammontare totale) -> la media aritmetica di una variabile cardinale è unica. VISIONE GEOMETRICA: se si riportano su una retta coordinata le modalità osservate della variabile cardinale, la media aritmetica corrisponderà al punto della retta “più vicino” all’insieme di punti che rappresentano le modalità osservate. ESEMPIO CONSIDERANDO LA VARIABILE ANNO DI ANZIANITA’ DI N=12 DIPENDENTI DI AZIENDA A 5,6,7,5,5,6,7,10,5,6,5,5, Calcolo della media : 5+6+7+5+5+6+7+10+6+5+5=72 Ridistribuire equamente l’ammontare tra i N=12 dipendenti: 72/12=6 In media i 12 dipendenti hanno 6 anni di anzianità. CALCOLO MEDIA FREQUENZA ASSOLUTA VARIABILE ANNI DI ANZIANITA.(mod.quantitativa discreta) ERRORE SAREBBE CALCOLARE LA MEDIA CON LA SEGUENTE FORMULA : 5+6+7+10/4=7 Per calcolare LA MEDIA bisogna tener conto delle freq.Assolute pertanto la formula corretta sarà: La MEDIA ARITMETICA gode delle seguenti PROPRIETÀ: 1- INTERNALITA’:La media è sempre compresa tra la più grande modalità e la più piccola modalità della variabile asservata.(Es. fig.precedente la modalità più piccola è 5 la più grande 10 ,per la proprietà di internalità la MEDIA ARITMETICA deve essere compresa tra 5-10)proprietà che hanno anche la MODA e la MEDIANA,criterio di coerenza. 2- ANNULLAMENTO DELLA SOMMA DEGLI SCARTI: Se si confrontano le modalità osservate con la media aritmetica si verificherà in generale che alcune modalità sono rappresentate per eccesso ,altre per difetto.Più il valore della differenza è vicino a 0 tanto meglio la media rappresenterà il punto ggio considerato.le differenze sono considerate scarti dalla media aritmetica e si verifica facilmente che la loro somma è zero.PROPRIETÀ SODDISFATTA SOLO DALLA MEDIA ARITMETICA.La somma delle differenze tra ogni modalità osservata e la media aritmetica è sempre uguale a 0. Document shared on www.docsity.com Downloaded by: sar.atiba ([email protected]) LA DIFFERENZA TRA VIENE DEFINITA SCARTI. - ES.La MEDIA ARITMETICA abbiamo definito che equivale a 6.Eseguiamo il Calcolo degli SCARTI: ANNI DI ANZIANITA’ 5,6,7,5,5,6,7,10,5,6,5,5,  (5-6)=-1 , (6-6)= 0 (7-6) = 1, (5-6)=-1 , (5-6)=-1 , (6-6)=0 , (10-6)=4 , (5-6)=-1, (6-6)= 0, (5-6)= -1 (5-6) = -1 Somma ∑=--1+0+1-1-1+0+1+4-1+0-1-1=0 3- PROPRIETÀ ASSOCIATIVA :se la popolazione viene suddivisa in gruppi allora la media aritmetica si può ottenere come media ponderata delle medie dei gruppi con pesi pari alla loro numerosità. Es. Distribuzione ripartizione territoriale di 300 famiglie e il corrispondente numero medio di componenti. Nel Nord-Ovest sono presenti 150 famiglie la cui ampiezza MEDIA è pari a 2.0 Per calcolare il numero MEDIO di componenti di tutte le 300 famiglie non bisogna fare il seguente ERRORE CALCOLARE LA MEDIA ARITMETICA DEI 4 VALORI MEDI Bisogna considerare che le 4 ripartizioni ( nord-ovest,nord-est,centro e sud) presentano un numero diverso di famiglie Il calcolo corretto sarà quindi moltiplicare (num.famiglia di ogni ripartizione per il numero di componenti ,sommarli tra loro e dividerli ter il numeto totale di famiglie) CONFRONTO TRA MODA, MEDIANA E MEDIA: possibile dire se sono sotto la media (media aritmetica maggiore della mediana) o sopra la media (media aritmetica minore della mediana) oltre il 50% dei soggetti valutati. Nel caso di variabili quantitative con distribuzione simmetrica ed unimodale, i valori di moda, mediana e media aritmetica coincidono. TIPI DI VARIABILI E CORRISPONDENTI VALORI CARATTERISTICI Tipo di variabile - Operazioni possibili sui valori - Tendenza centrale - Variabilità Variabile Nominale ¿≠ Moda Omogeneità Variabile Ordinale ¿ variabili cardinali). VARIABILITA’: i dati si distribuiscono intorno ai valori centrali in una forma più o meno dispersa. I valori sintetici ci forniscono la tendenza centrale, ma non dicono come si collocano le altre modalità attorno a questo punto centrale. Quindi occorre rilevare anche la sua variabilità che varia a seconda del tipo di modalità. Le distribuzioni possono presentare anche SOTTOMODE: modalità diverse dalla moda che presentano comunque frequenze relativamente elevate. Document shared on www.docsity.com Downloaded by: sar.atiba ([email protected]) Le distribuzioni si possono distinguere in UNIMODALI o BIMODALI a seconda dell’esistenza di eventuali sottomode e del loro numero. La VARIABILITA’ è la seconda importante caratteristica di un insieme di dati la 1° è la TENDENZA CENTRALE, la variabilità di un carattere statistico è la sua attitudine a presentarsi con modalità differenti nelle diverse unità statistiche di un collettivo. DUE DISTRIBUZIONI POSSONO DIFFERIRE SIA NELLA POSIZIONE CENTRALE CHE NELLA VARIABILITÀ. (si calcola nelle variabili cardinali quantitative) Esempio grafico di distribuzione avente stessa variabilità ma diversa media: Esempio stessa media ma diversa variabilità ESEMPIO : Rilevamento voti statistica di 2 gruppi di N= 5 studenti 1°gruppo= 27,21,26,22,24 = calcolo media 27+21+26+22+24= 24 2°gruppo= 24,26,24,24,22 = calcolo media 24+26+24+24+22= 24 In quale delle due la MEDIA rappresenta meglio la DISTRIBUZIONE? - Nel 1° gruppo il 24 compare 1 sola volta =1/5 - Nel 2° gruppo il 24 compare 3 volte=3/5 pertanto si evince che è la minor variabilità dei voti E’ NECESSARIO DISTINGUERE LE 2 SITUAZIONI COSTRUENDO DEGLI INDICI DI VARIABILITA’ ,AD ESSI SARA’ CHIESTO DI : 1-Assumere valori maggiori o uguali a 0 2-Assumere valori uguali a 0 solo in assenza di variabilità (tutte le modalità osservate sono uguali) SI HANNO COSI 2 TIPI DI INDICI: 1-Indici di VARIABILITA’ ASSOLUTA ( utile quando si analizza una singola distribuzione o più distribuzioni della stessa variabile con stessa linea di misura e medie uguali o molto simili): -CAMPO DI VARIAZIONE (variabili cardinali)definito anche Range R: Ampiezza dell’intervallo in cui variano le modalità osservate e della variabile.Differenza che intercorre fra il valore minimo e il valore massimo. 1-Esempi: Rilevamento voti statistica di 2 gruppi di N= 5 studenti Document shared on www.docsity.com Downloaded by: sar.atiba ([email protected]) 1°gruppo= 27,21,26,22,24  R = 27-21= 6 MAGGIOR VARIABILITA’ 2°gruppo= 24,26,24,24,22  R = 26-22= 4 In alcuni casi R risulta una misura non adeguata della variabilità. Il limite è che non tiene conto di come i dati si distribuiscono tra il valore più grande e quello più piccolo. 2-Esempi: Rilevamento voti statistica di 2 gruppi di N= 5 studenti 1°gruppo= 27,21,26,22,24  R = 27-21= 6 MAGGIOR VARIABILITA’ 2°gruppo= 24,27,24,24,21  R = 27-21= 6 Il campo di variazione dipende da 2 valori la media è= 24 La variabilità in cui il 24 compare é: 1°gruppo: 1 2°gruppo: 3 La variabilità è differente ma il CAMPO DI VARIAZIONE o R è lo stesso LA DIFFERENZA INTERQUARTILE serve per ovviare al problema del CAMPO DI VARIAZIONE -R ,in quanto R può assumere valori anomali , essa serve per rilevare la DISPERSIONE DELLA DISTRIBUZIONE Si utilizza la seguente formula: Q2 corrisponde sempre alla mediana = N+1/2 1°gruppo= 27,21,26,22,24  21,22,24,26,27 Calcolo della mediana = 5+1/2= Posizione 3 = 24 pertanto i Quartili saranno = Q1= 22 Q2= 24 Q3= 26 - RI = 26-22= 4 MAGGIOR VARIABILITA’ 2°gruppo= 24,27,24,24,21  21,24,24,24,27 Calcolo della mediana= 5+1/2 = Posizione 3 = 24 pertanto i Quartili saranno Q1= 24 Q2= 24 Q3= 24 RI = 24-24 =0 La DIFFERENZA INTERQUARTILE non è influenzata da valori estremi ma comunque soffre dello stesso inconveniente del CAMPO DI VARIAZIONE in quanto anch’egli dipende da 2 soli valori( Q1 e Q3), si può annullare anche in presenza di variabilità. Esempio: 2°gruppo= 24,27,24,24,21 Campo di variazione = 27-21 = 6 è presente variabilità Differenza interquartile Q3-Q1 = 24-24= 0 Per ovviare alle limitazioni delle DIFFERENZE INTERQUARTILI E DEL CAMPO DI VARIAZIONE si puo’ utilizzare LA VARIANZA che è l’indice più utilizzato. (solitamente non usata nell’analisi monovariata) LA VARIANZA: misura quanto le N modalità osservate di discostano dalla media della distribuzione, attraverso il confronto basato sulla differenza del valore osservato della modalità con la media aritmetica. IL QUADRATO DELLA DEVIAZIONE STANDARD è la VARIANZA. Formula : Più sono elevati gli scarti è più alta è la variabilità della distribuzione. Esempio: : Rilevamento voti statistica di 2 gruppi di N= 5 studenti 1°gruppo= 27,21,26,22,24 – calcolo media aritmetica = 27+21+26+22+24/5=24 (27-24)= 3 ,(26-24)=2,(24-24)=0,(22-24)=-2,(21-24)-3 = 3+2+0-2-3=0 Come misura di sintesi dei precedenti scarti non possiamo considerare la loro media perché essa è sempre nulla uguale a 0 a causa della PROPRIETA’ DI ANNULLAMENTO DEGLI SCARTI DELLA MEDIA ARITMETICA perciò bisogna prendere in considerazione i QUADRATI DEGLI SCARTI. Document shared on www.docsity.com Downloaded by: sar.atiba ([email protected]) 1°gruppo= 27,21,26,22,24 – calcolo media aritmetica = 27+21+26+22+24/5=24 - (27-24)²=(3) ² ,(26-24) ²=(2) ²,(24-24)²=(0) ²,(22-24) ²=(-2) ²,(21-24) ² = (-3) ² - 9 + 4 + 0 + 4 + 9 / 5 = 5.2 VARIANZA L’unità di misura in cui è espressa la VARIANZA è data dal QUADRATO dell’unità di misura in cui è espresso il CARATTERE,ossia la VARIANZA non è ancora confrontabile con i voti di statistica dei 5 studenti poiche si basa sui quadrati degli scarti ,dobbiamo effettuare sulla MEDIA ottenuta l’operazione inversa del quadrato,ossia la radice quadrata della il valore quindi ottenuto si chiama DEVIAZIONE STANDARD LA DEVIAZIONE STANDARD (SCARTO QUADRATICO MEDIO) è la radice quadrata della VARIANZA Il suo calcolo si ottiene dalla somma degli scarti elevati al quadrato diviso la somma del numero dei casi e poi si estrae la radice quadrata. LE 2 PROPRIETA’ DELLA DEVIAZIONE STANDARD: - È SEMPRE MAGGIORE O UGUALE A 0 - E UGUALE A 0 SE E SOLO SE TUTTE LE MODALITA’ OSSERVATE SONO UGUALI. Il campo di variazione R soddisfa entrambe le precedenti proprietà, la differenza interquartile soddisfa solo la prima proprietà. Esempio: 1°gruppo= 27,21,26,22,24 – calcolo media aritmetica = 27+21+26+22+24/5=24 - (27-24)²=(3) ² ,(26-24) ²=(2) ²,(24-24)²=(0) ²,(22-24) ²=(-2) ²,(21-24) ² = (-3) ² - 9 + 4 + 0 + 4 + 9 / 5 = 5.2 VARIANZA DEVIAZIONE STANDARD= √ ❑ 5.2=2.28 si arrotonda ad un unicodecimale per cui2.3 Analizzando i dati si può dire che la media dei voti di statistica dei 5 studenti del 1° gruppo si discosta dal voto medio 24 di circa 2 punti ANALISI DEL 2° GRUPPO: 2°gruppo= 24,27,24,24,21  21,24,24,24,27 Calcolo della mediana= 5+1/2 = Posizione 3 = 24 pertanto i Quartili saranno Q1= 24 Q2= 24 Q3= 24 RI = 24-24 =0 CALCOLO VARIANZA - (27-24)²=(3) ² ,(24-24)²=(0) ²,(24-24)²=(0) ²,(24-24)²=(0) ²,(21-24) ² = (-3) ² 9 + 0 + 0 + 0 + 9 / 5 = 1.8 VARIANZA DEVIAZIONE STANDARD √ ❑ 1.8=1.34 arrotondatoa 1.3 QUINDI INDICANDO GLI SCARTI AL QUADRATO CON SI RICAVA CHE : - LA VARIANZA (media del quadrato degli scarti) - LA DEVIAZIONE STANDARD(radice quadrata della varianza) 2-Indici di VARIABILITÀ RELATIVA(non dipendono dall’unità di misura, utili per confrontare la variabilità di una distribuzione riguardanti le variabili con differente unità di misura e stessa unita ma media molto diversa) - COEFFICIENTE DI VARIAZIONE è dato da: S= deviazione standard x= media Document shared on www.docsity.com Downloaded by: sar.atiba ([email protected]) Si utilizza per : - Variabili con stessa unità di misura ma media molto diversa - Confronto tra 2 distribuzioni che differiscono tanto nelle dimensioni da rendere poco significativo il confronto tra le DEVIAZIONI STANDARD - Differente unità di misura. Esempio di confronto tra VARIABILI CON UNITA’ DI MISURA DIVERSE(peso-altezza): Dati su N=5 adolescenti di 13-15 anni relativi alle variabili PESO e ALTEZZA. PESO: 50,56,67,60,62 ALTEZZA: 150,165,172,169,155 CALCOLO MEDIA: PESO: X= 50+56+67+60+62/5=59 MEDIA VARIANZA = (50-59)²+(56-59)²+(67-59)²+(60-59)²+(62-59)²/5= (-9)²+(-3)²+(8)²+(1)²+(3)²/5= 81+9+64+1+9/5= 32.8 DEVIAZIONE STANDARD ¿ √ 32.8=5.72 arrotondato per difetto 5.7 D.STANDARD COEFFICIENTE DI VARIAZIONE = DEV.STANDARD/MEDIA *100 = 5.7/59*100= 9.661 si arrotonda per eccesso 9.7 COEF.DI VARIAZIONE ALTEZZA : X= 150+165+172+169+155= 162.2 MEDIA VARIANZA= = (150-162.2)²+(165-162.2)²+(172-162.2)²+(169-162.2)²+(155-162.2)²/5= (-12.2)²+ (2.8)²+ (9.8)²+ (6.8)²+ (-7.2)²/5=148.8+7.8+96+46.2+51.8/5=70.1 DEVIAZIONE STANDARD= ¿ √ ❑70.1=8.37 arrotondato per difetto 8.4 D.STANDARD COEFFICIENTE DI VARIAZIONE = DEV.STANDARD/MEDIA*100= 5.178 = 5.1 COEF.DI VARIAZIONE Si evince che il PESO (9.7) è più VARIABILE DELL’ALTEZZA (5.1) Esempio confronto tra VARIABILI CON STESSA UNITA’ DI MISURA (peso) MA MEDIE DIVERSE : 1- Dati su 4 Bambini che pesano: 30,34,38,42 2- Dati su 4 Adulti che pesano: 61,65,69,73 Si procede al calcolo della MEDIA : 1- 30+34+38+42/4= 36 MEDIA PESO BAMBINI 2- 61+65+69+73/4= 67 MEDIA PESO ADULTI Si calcola la VARIANZA: 1- (30-36)²+(34-36)²+(38-36)²+(42-36)²/4= (-6)²+(-2)²+(2)²+(6)²/4= 36+4+4+36/4=20 2- (61-67)²+(65-67)²+(69-67)²+(73-67)²/4= (-6)²+(-2)²+(2)²+(6)²/4= 36+4+4+36/4=20 Si calcola la DEVIAZIONE STANDARD: 1- √ ❑ 20=4 , 47 arrotondato per eccesso4.5 D.STANDARD 2- √ ❑ 20=4. 47 si arrotonda per eccesso 4.5 D.STANDARD Si calcola il COEFFICIENTE DI VARIAZIONE: 1- DEV.STANDARD/MEDIA*100= 4.47/36*100 = 4.1 2- DEV.STANDARD/MEDIA*100= 4.47/67*100 = 6.7 Document shared on www.docsity.com Downloaded by: sar.atiba ([email protected]) RIEPILOGO SU INDICI DI VARIABILITÀ ASSOLUTA: la loro costruzione segue due diversi approcci A) CONFRONTO TRA VALORI OSSERVATI ( O VALORI CARATTERISTICI) - CAMPO DI VARIAZIONE (R) - DIFFERENZA INTERQUARTILE (Q) B) CONFRONTO TRA TUTTI I VALORI OSSERVATI ED UNA LORO MEDIA - DEVIAZIONE STANDARD (S) - VARIANZA (S2) INDICE DI VARIABILITÀ RELATIVA: non dipendono dall’unità di misura della variabile. Sono utili per dare giudizi sulla variabilità che non siano influenzati dalla scelta di una particolare unità di misura. Consentono di ovviare ad una limitazione che presenta la deviazione standard, che non può essere utilizzata per confrontare la variabilità di distribuzioni riguardanti variabili con differente unità di misura oppure con stessa unità di misura ma media molto diversa. - COEFFICIENTE DI VARIAZIONE (CV): confrontare il valore dell’indice di variabilità con la media aritmetica ->rapporto tra la deviazione standard e la media aritmetica.Dividendo per la media relativizziamo il valore della deviazione standard in proporzione a quello della media. Può essere moltiplicato per cento per avere una misura dell’incidenza percentuale di s sulla media.Non deve essere confuso con il campo di variazione; quest’ultimo è basato soltanto su due valori (massimo e minimo) della distribuzione. SERIE TERRITORIALI E SERIE STORICHE A volte, come nelle fonti statistiche ufficiali, l’unità di analisi è costituita da un aggregato territoriale. Molte variabili per questo tipo di unità di analisi sono cardinali, in quanto si basano principalmente sul conteggio e la misurazione (ad esempio: età, posti-letto in ospedale, decessi, ecc.). questo, però, non preclude che ci possano essere delle variabili ordinali o nominali come, ad esempio, la posizione occupata nella graduatoria del reddito delle regioni europee. A fianco ad ogni valore è necessario riportare la dimensione della popolazione dei singoli aggregati: può capitare che si presentino gli stessi valori per due aggregati diversi ma le loro popolazioni sono nettamente differenti. I dati riferiti agli aggregati territoriali si presentano spesso in due forme: 1. SERIE TERRITORIALE: è una sequenza di valori assunti da una variabile nello stesso momento in diversi aggregati a. Rappresentazione grafica: diagramma a colonne o CARTOGRAMMI  utilizzo delle carine geografiche per mettere in luce le distribuzioni dei vari stati, regioni o comuni ESEMPIO SERIE DEL NUMERO DI SCUOLE PRESENTI NELL’ANNO 2010 NELLE SEGUENTI PROVINCE RAPPRESENTAZIONE GRAFICA SERIE TERRITORIALE (grafico a colonne) Document shared on www.docsity.com Downloaded by: sar.atiba ([email protected]) Lo studio dell’andamento di un fenomeno nello spazio avviene tramite il calcolo delle VARIAZIONI ASSOLUTE E PERCENTUALI. CALCOLO VARIAZIONE PERCENTUALE DELLA MATRICE DI DATI VARIAZIONE PERCENTUALE DI ROMA RISPETTO A MILANO VP= 733-634/634*100 = 15.6% il numero di scuole per ROMA e in AUMENTO rispetto a MILANO 2. SERIE STORICA: è una sequenza di valori assunti da una variabile su uno stesso aggregato ma in tempi diversi a. Rappresentazione grafica: sull’asse delle ascisse la variabile temporale, sua quella delle ordinate i valori assunti dalla variabile ESEMPIO SERIE STORICA DEGLI STRANIERI ISCRITTI ALL’UNIVERSITA’ NELLA REGIONE A NEL PERIODO 2010-2014 RAPPRESENTAZIONE GRAFICA SERIE STORICA (grafico a linee dove sull’asse orizzontale sono collocate le variabili temporali e sull’asse verticale i valori assunti dalle variabili) Document shared on www.docsity.com Downloaded by: sar.atiba ([email protected]) È possibile e necessario calcolare le variazioni di un fenomeno nel tempo o nel territorio. Per fare ciò si individuano la variazione assoluta e quella relativa. Se indichiamo con a e b le due grandezze, abbiamo le seguenti formule: ESEMPIO CALCOLO VARIAZIONE ASSOLUTA DEL 2011-2012 RISPETTO ALL’ANNO 2010-2011 V.assoluta (2012/2011) = 6341-6207= 134 (aumento iscritti università n.unità) L’importanza della variazione assoluta registrata dipende da quanti erano gli stranieri nell’anno precedente 2010-2011 ,per ottenere una misura relativa della variazione bisogna confrontare la VARIAZIONE ASSOLUTA con il valore dell’anno precedente tramite la VARIAZIONE PERCENTUALE (variabilità relativa) ESEMPIO CALCOLO : 1- REGIONE A VA2012/2011 = 6341-6207 =134 V.ASSOLUTA 2- REGIONEB VA 2012/2011 = 281-147= 134 V.ASSOLUTA L’aumento avrà un peso maggiore se il numero di stranieri nell’anno precedente era minore Si procede al calcolo della VARIAZIONE PERCENTUALE : VARIABILE PERCENTUALE = V.ASSOLUTA(2012-2011)/VALORE DI RIFERIMENTO DELL’ANNO (2010- 2011)*100 1- REGIONE A = 134/6207*100= 2% V.PERCENTUALE 2- REGIONE B= 134/147*100= 91% V.PERCENTUALE FORMULA DELLA VARIAZIONE ASSOLUTA –PERCENTUALE. La variazione assoluta e percentuale del fenomeno tra il tempo t-1 e t sono date da : VA(tIt-1) = valore periodo t – valore periodo t-1 VP(tIt-1)= (VA(tIt-1):VALORE PERIODO t-1) *100 NUMERI INDICE Servono nello studio delle variazioni nel TEMPO o nello SPAZIO ,consentono di confrontare le intensità di un fenomeno in situazioni di tempo o di spazio diverse. IL NUMERO INDICE è dato: (valore del periodo t : periodo t-1)*100 è può essere messo in RELAZIONE con la VARIABILE PERCENTUALE.(NUMERO INDICE= Var.Percentuale+100) 1- ESEMPIO STRANIERI DELLA REGIONE A NEL 2012-2011 SONO AUMENTATI DEL 2% RISPETTO AL - -- 2011-2012 REGIONE A = 134/6207*100= 2% V.PERCENTUALE Calcolo del NUMERO INDICE: 2(v.percentuale)+100= 102 N.I 2- ESEMPIO PARTITO POLITICO A è PASSATO DA 5000 VOTI NELL’ANNO 2010 A 5500 NEL 2011 Document shared on www.docsity.com Downloaded by: sar.atiba ([email protected]) NUMERO INDICE = 5500/5000*100= 110 - 110-100 =10% AUMENTO DEI VOTI PARTITO A 3- ESEMPIO PARTITO POLITICO B è PASSATO DA 5000 VOTI NELL’ANNO 2010 A 4000 NEL 2011 NUMERO INDICE = 5000/4000*100= 80 - 100-80 =20% DIMINUZIONE DEI VOTI PARTITO B CIO’ SIGNIFICA CHE PER I NUMERI INDICE: 1- Valori maggiori di 100 indicano un aumento percentuale pari alla differenza tra il N.INDICE e 100 2- Valori minori indicano una diminuzione percentuale pari alla differenza tra 100 e il N.INDICE 3- Valori uguali a 100 indicano che il fenomeno non è variato. RAPPORTI STATISTICI E ALTRE FORME DI COMBINAZIONE FRA VARIABILI Le variabili cardinali che non derivano né da una misurazione né da un conteggio, bensì dalla combinazione di altre variabili cardinali si chiamano “variabili derivate”. Il ricorso a variabili derivate è particolarmente diffuso quando l’unità di analisi è un aggregato territoriale: molte variabili quasi sempre vanno normalizzate rispetto ad altre variabili. Quando ci si trova in situazioni in cui i valori assunti da una variabile risentono della diversa dimensione degli aggregati, occorre relativizzare tali valori in funzione delle rispettive basi di riferimento calcolando un rapporto statistico. Tali rapporti permettono di effettuare comparazioni nel tempo, nello spazio, o fra situazioni diverse. ESISTONO DIVERSI TIPI DI RAPPORTI STATISTICI: 1. i RAPPORTI DI COMPOSIZIONE, che mettono in relazione la parte al tutto, consistono nel mettere in relazione una parte di un fenomeno al fenomeno stesso nella sua totalità. 1- Esempio: spesa della famiglia per affitto/spesa totale della famiglia; 2- Esempio proporzione di maschi (19 freq.assoluta/44 numerosità) rapporto di composizione= 19/44 CI SONO 19 MASCHI SU 44 PERSONE COMPLESSIVE 2. un RAPPORTO DI COESISTENZA è un rapporto tra due parti di un insieme, ossia il rapporto fra la frequenza di una modalità e la frequenza di un’altra.(tra singole grandezze) 1- Esempio: rapporto di mascolinità (numero di maschi/numero di femmine) CALCOLO INDICE DI MASCOLINITA’= FREQ.ASS MASCHI/FREQ.ASS FEMMINE*100= 19/25*100= 76 MASCHI OGNI 100 FEMMINE 2- Esempio :Indice di vecchiaia dato dal rapporto tra popolazione con età fino a 14 anni e quello con età maggiore o uguale a 65.Nel 2004 in Italia il rapporto è risultato uguale a 137.7% il che equivale a dire che nella popolazione sono presenti 137 anziani ogni 100 giovani. Altri esempi di rapporti di coesistenza sono : - Numero di occupanti nell’industria manifatturiera/numero di occupanti in agricoltura. - Numero di coniugati/numero di non coniugati 3. un RAPPORTO DI DERIVAZIONE corrisponde al rapporto fra la misura di un fenomeno e quella di un altro che può essere considerato un suo presupposto necessario. 1- Esempio: il rapporto tra nati e popolazione, la natalità dipende dalla popolazione. Moltiplicando il rapporto per 1000 si avranno quindi i nati ogni 1000 abitanti. Document shared on www.docsity.com Downloaded by: sar.atiba ([email protected]) Altri esempi di rapporti di derivazione sono : - Laureati/Iscritti università - Tasso di mortalità - Tasso di nuzialità - Tasso di abortività Nei rapporti di derivazione non è univocamente definita la quantità da porsi al denominatore; 4. nei RAPPORTI MEDI le due grandezze messe in relazione attengono a due fenomeni. 1- Esempio: rendimento medio per ettaro (tonnellate di grano prodotto/ettari coltivati), 2- il rapporto fra il numero di posti letto di un ospedale e la popolazione 3- Densità popolazione tra numero di abitanti e superficie del territorio Kmq ( in Italia nel 2009 era circa 200 ,ossia risiedevano circa 200 persone per kmq) 4- Numero di componenti famiglia/numero di stanze dell’abitazione 5- Numero di ore di sciopero/numero di occupanti I rapporti medi sono una sorta di categoria residua che raccoglie i rapporti che non ricadono nei casi precedenti. Essi possono essere della natura più varia, e in genere il ricercatore ha ampia libertà di scegliere cosa mettere al denominatore per rendere i numeratori confrontabili. DISTRIBUZIONI DOPPIE ANALISI BIVATIATA Esempio popolazione N=15 unità le due variabili sono: 1) Orientamento religioso con le seguenti modalità - Mussulmano - Cattolico - Protestante 2) Partito politico - Rosso - Verde - Blu Domanda? L’orientamento religioso influenza la scelta del partito politico? Per rispondere si costruisce un nuovo tipo di tabella denominata : DISTRIBUZIONE DI FREQUENZA CONGIUNTA o TABELLA DI FREQUENZA DOPPIA. Document shared on www.docsity.com Downloaded by: sar.atiba ([email protected]) TABELLA DI FREQUENZA DOPPIA 1) Notiamo che le 9 celle interne alla tabella evidenziate in verde contengono le FREQUENZE ASSOLUTE di associazione. ESEMPIO : frequenza di associazione della coppia (CATTOLICO ROSSO)è pari a 3. Significa che su 15 individui 3 sono cattolici ed hanno votato il partito rosso. 2) I TOTALI della tabella sono denominati FREQUENZE MARGINALI. Coincidono con le FREQUENZE ASSOLUTE delle distribuzioni Document shared on www.docsity.com Downloaded by: sar.atiba ([email protected]) LA TABELLA FORNISCE : - Informazioni sull’associazione tra le modalità delle due variabili. - Le stesse informazioni dell’analisi univariata. CALCOLO PERCENTUALI TABELLA DOPPIA In una tabella doppia è possibile calcolare 3 TIPI DI PERCENTUALI: 1- TOTALI : Si ottengono dividendo le frequenze di cella sul totale generale. ES.La percentuale per riga di (c,r) è 3/15*100= 20% equivale a dire che su 100 intervistati i cattolici che votano il partito rosso sono 20. 2- PER RIGA: Si ottengono dividendo le frequenze di cella per il rispettivo totale riga. Si calcola quando si vuole analizzare l’influenza che la variabile posta in riga ha sulla variabile in colonna. ES.La percentuale per riga di (c,r) è 3/5*100= 60% equivale a dire che su 100 intervistati cattolici 60 vota il partito rosso 3- PER COLONNA: Si ottengono dividendo le frequenze di cella per il rispettivo totale colonna.Si calcola quando si vuole analizzare l’influenza che la variabile posta in colonna ha sulla variabile in riga ES.La percentuale per riga di (c,r) è 3/4*100= 75% equivale a dire che su 100 intervistati che votano il partito rosso il 75 è cattolico ANALISI BIVARIATA Per studiare la relazione tra le variabili X e Y bisogna considerare i seguenti aspetti: 1- DIREZIONE DELLA RELAZIONE: valutare come nella tabella precedente se La scelta del partito politico dipende dall’orientamento religioso? E’ possibile assegnare alle variabili un ruolo asimmetrico: - X = orientamento religioso rappresenta LA VARIABILE ESPLICATIVA - Y= partito politico rappresenta VARIABILE DIPENDENTE XY Esistono situazioni in cui le due variabili sono simmetriche cioè sullo stesso piano e ciò che interessa è studiarne l’interrelazione. XY Document shared on www.docsity.com Downloaded by: sar.atiba ([email protected]) 2- FORMA DELLA RELAZIONE: per analizzare l’associazione tra le due modalità di variabili qualitative lo strumento principale di analisi è la distribuzione di frequenza congiunta. ANALIZZA SE AL VARIARE DELLA MODALITÀ DELLA VARIABILE X VARIA LA DISTRIBUZIONE DELLA VARIABILE Y Si analizza per cui la dipendenza ovvero se all’interno dei gruppi individuati dalle modalità della variabile X varia la distribizione di Y Es. Le modalità di (orientamento religioso) X riferita alla tabella precedente individuano i 3 gruppi: - Cattolico di numerosità 5 - Mussulmano di numerosità 6 - Protestante di numerosità 4 LE DISTRIBUZIONI DI Y SONO INDIVIDUATE DALLE RIGHE DELLA TABELLA DI FREQUENZA CONGIUNTA  La distr.di Y all’interno del gruppo della modalità cattolico di X denominata distribuzione di Y condizionata alla modalità cattolico di X è  La distr.di Y all’interno del gruppo della modalità mussulmano di X denominata distribuzione di Y condizionata alla modalità mussulmano di X è  La distr.di Y all’interno del gruppo della modalità protestante cattolico di X denominata distribuzione di Y condizionata alla modalità protestante di X Document shared on www.docsity.com Downloaded by: sar.atiba ([email protected]) Nel confronto bisogna tener conto dei diversi TOTALI MARGINALI,ovvero delle diverse numerosità dei 3 gruppi attraverso il calcolo delle DISTRIBUZIONI PERCENTUALI. Le modalità della variabile esplicativa X = orientamento religioso sono associate alle righe perciòsi effettua il calcolo delle distribuzioni percentuali in riga.Se fossero state associate alle colonne avremmo calcolato le distribuzioni percentuali per colonna. Tabella distribuzioni percentuali Y CONDIZIONATe AD X Nella riga totale sono inserite le percentuali rispetto al totale 15 e non le somme delle percentuali di colonna. Dalla distribuzione condizionata si ricavano le percentuali della riga : Le distribuzioni percentuali di Y sono condizionate alle modalità di X sono diverse per cui si può dire che Y dipende da X. La scelta del partito politico è influenzata dall’orientamento religioso. Document shared on www.docsity.com Downloaded by: sar.atiba ([email protected]) NELLA RIGA DEL TOTALE LE PERCENTUALI SONO RISPETTO AL TOTALE 15 E NON ALLE SOMME DELLE PERCENTUALI DI COLONNA Dall’analisi della tabella possiamo dire che esiste una maggior propensione: - Dei cattolici a votare il partito rosso 60% - Dei mussulmani a votare il partito verde 66% - Dei protestanti a votare il partito blu 75% In CASO DI INTERRELAZIONE tra X e Y è utile sia l’analisi delle DISTRIBUZIONI PERCENTUALI di Y condizionate da X che quelle di X condizionate da Y = calcolo percentuale per riga e per colonna. Diagramma di dispersione Quando si hanno due variabili quantitative, per l'analisi della relazione si usa il diagramma di dispersione. Supponiamo ad esempio di aver rilevato su 10 studenti di ingegneria sia il voto preso all'esame di statistica che il voto preso all'esame di matematica e di aver ottenuto la seguente matrice dei dati. Diagramma di dispersione – 2 Vi ricordo che la matrice dei dati ha tante righe quante sono le unità statistiche intervistate e tante colonne quante sono le variabili rilevate. Quindi vediamo che il primo studente individuato dal codice 1 ha preso ad esempio 27 in statistica e 25 in matematica. Codice Studente Voto Statistica Voto Matematica 1 27 25 2 20 18 3 24 22 4 28 30 5 25 26 6 18 18 7 19 21 8 26 28 9 29 27 10 30 29 Diagramma di dispersione – 3 Per costruire il diagramma di dispersione, quindi è necessario associare all'asse orizzontale la variabile voto di statistica e all'asse verticale la variabile voto di matematica. Ad ogni studente corrisponderà quindi un punto nel piano individuato dai valori delle due modalità delle variabili X e Y. Ad esempio, il primo studente sarà individuato nel pianto dal punto di coordinate (27, 25). Diagramma di dispersione – 4 Document shared on www.docsity.com Downloaded by: sar.atiba ([email protected]) Quindi poiché ogni punto del piano individua uno studente, nel piano saranno rappresentati al massimo 10 punti. Il numero di punti sarà inferiore a 10 solo se ci sono studenti con la stessa coppia di voti, cioè che hanno preso lo stesso voto sia in matematica che in statistica. Diagramma di dispersione – 5 Quindi dal diagramma di dispersione risulta evidente la concordanza tra le due variabili, ciò significa che, quando la X cresce, cresce anche la Y; quando la X decresce, decresce anche la Y. Diagramma di dispersione – 6 Supponiamo ora di aver rilevato le stesse variabili, voto di statistiche e voto di matematica, anche su 10 studenti di Economia e di aver ottenuto il seguente diagramma di dispersione. Document shared on www.docsity.com Downloaded by: sar.atiba ([email protected]) Diagramma di dispersione – 7 In entrambi i diagrammi di dispersione si coglie chiaramente un legame di concordanza tra le variabili, ma il legame del primo grafico relativo ai 10 studenti di Ingegneria è chiaramente più forte del legame del secondo grafico relativo ai 10 studenti di Economia. I punti tendono ad addensarsi intorno ad una linea retta, ma nel primo grafico la relazione tra le due variabili è talmente forte che si può prevedere Y a partire da X con una precisione molto elevata. Covarianza Per misurare la forza del legame lineare tra due variabili quantitative possiamo utilizzare la covarianza. La covarianza è definita come la media del prodotto degli scarti dalle rispettive medie delle due variabili X e Y. N 1 Cov ( X , Y )= ∑ ( x −x́)( y i− ý ) N i =1 i Covarianza – 2 La covarianza può essere positiva o negativa. Positiva quando X e Y variano in modo concorde (cioè al crescere della X, tende a crescere anche la Y e al diminuire della X, tende a diminuire anche la Y) e quindi la retta intorno alla quale si addensano i dati ha un’inclinazione positiva. Negativa invece quando X e Y variano in modo discorde (cioè quando al crescere di X, la Y tende a diminuire e viceversa) e quindi la retta intorno alla quale di addensano i dati ha un’inclinazione negativa. Covarianza – 3 Document shared on www.docsity.com Downloaded by: sar.atiba ([email protected]) Il limite principale della covarianza è quello di non avere un valore massimo e un valore minimo fissi, predefiniti, e quindi per valutare la forza della relazione che intercorre tra due variabili X e Y in termini relativi bisogna utilizzare il coefficiente di correlazione. Correlazione Il coefficiente di correlazione è dato dal rapporto tra la covarianza e il prodotto tra le deviazioni standard delle due variabili. Assume sempre valori compresi tra -1 e 1. Cov ( X ,Y ) −1 ≤r = ≤1 s X sY Se il coefficiente di correlazione indicato con r è positivo, allora fra i dati prevale concordanza. Nel grafico quindi a sinistra abbiamo un esempio di debole correlazione positiva; nel grafico a destra abbiamo invece un esempio di forte correlazione positiva. Correlazione – 2 Se r = 1 vuol dire invece che c'è una relazione lineare positiva perfetta tra X e Y e quindi vuol dire che tutti i punti del diagramma di dispersione giacciono su una linea retta che ha inclinazione positiva. Correlazione – 3 Se r è negativo, allora fra i dati prevale discordanza. Nel grafico a sinistra abbiamo un esempio di debole correlazione negativa; nel grafico a destra abbiamo un esempio di forte correlazione negativa. Correlazione – 4 Se il coefficiente di correlazione assume il valore -1, allora si ha una relazione lineare negativa perfetta tra X e Y, ciò significa che tutti i punti del diagramma di dispersione giacciono su una linea retta che ha inclinazione negativa. Correlazione – 5 Se il coefficiente di correlazione è uguale a 0, non vi è alcuna relazione lineare tra le due variabili X e Y. Chiaramente non si può concludere però che non esiste alcuna relazione tra le due variabili, ciò che si può escludere è unicamente una relazione di tipo lineare. Correlazione – 6 Document shared on www.docsity.com Downloaded by: sar.atiba ([email protected]) Ad esempio, le due variabili X e Y potrebbero essere legate da una relazione parabolica come quella mostrata in figura. Document shared on www.docsity.com Downloaded by: sar.atiba ([email protected])

Use Quizgecko on...
Browser
Browser