Statistica 1 - Le Basi (PDF)
Document Details
Uploaded by MercifulBohrium
Università degli Studi di Padova
2023
Alessandra Dalla Valle
Tags
Summary
Questo documento fornisce una panoramica sulle basi della statistica, chiarendo le differenze tra variabili qualitative e quantitative, nonché le diverse scale di misura. Sono presentati esempi pratici per illustrare i concetti. Il testo è rivolto a studenti universitari di statistica.
Full Transcript
STATISTICA 1 slide Statistica 1 (matricole pari) Alessandra Dalla Valle Dipartimento di Scienze Statistiche Università degli Studi di Padova Statistica: le basi...
STATISTICA 1 slide Statistica 1 (matricole pari) Alessandra Dalla Valle Dipartimento di Scienze Statistiche Università degli Studi di Padova Statistica: le basi a.a. 2023/24 a.a. 2023/24 1/ 32 Le basi 26. 02 Popolazione Statistica Insieme di unità statistiche alle quali si fa riferimento nello - studio di un fenomeno. territorio ↑ Unità Statistica F ↑ - Ente elementare astratto o concreto sul quale si è manifestato il fenomeno statistico. su cosa lo misuro Variabile Statistica o Carattere Statistico Il fenomeno statistico rilevato sulle unità statistiche. Modalità I diversi modi in cui la variabile statistica si manifesta sulla popolazione statistica a.a. 2023/24 2/ 32 Le variabili qualitative Le variabili statistiche possono essere di due tipi: 1. Qualitative > - quantità non Le modalità NON SONO numeri (in senso quantitativo) ma - ! espressioni verbali, attributi, aggettivi... Parole La suddivisione è stabilita dalla Scala: a. Scala Ordinale o Categoriale o Rettilinea ! le modalità sono ordinabili esempi: Titolo di studio, Statura e Peso (basso, medio, alto), Giudizio, Voto (non numerico), Grado degli ufficiali nell’Esercito... b. Scala Sconnessa o Nominale ! le modalità non sono ordinabili esempi: cittadinanza, genere, professione, stato civile, religione, razza... a.a. 2023/24 3/ 32 Le variabili quantitative 2 Quantitative Le modalità sono NUMERI e si distinguono in: a. Scala Discreta ContE6610 ↓ le modalità sono numeri naturali provenienti da conteggi età in anni Compluti ! l’insieme delle modalità è finito o numerabile Es: Numero di figli, Numero di difetti in una sto↵a, Numero di vani in una casa... Numero d... b. Scala Continua Misurazioni le modalità sono numeri reali provenienti da misurazioni ! l’insieme delle modalità è un intervallo dell’asse reale non numerabile Es: Statura, Peso, Spessore di un foglio di compensato, Temperatura, Età ,... a.a. 2023/24 4/ 32 Le variabili quantitative Vedi libro Attenzione! 1. La distinzione tra variabile continua e discreta è molto importante e va chiarita subito. Può accadere infatti che, dati i limiti di precisione delle misurazioni e le tecniche di raccolta dati, le modalità possano apparirvi sempre discrete, perché di fatto osservate nei dati numeri interi, ma non è assolutamente vero. Per lo statistico, la suddivisione di una variabile quantitativa nelle due categorie non si desume mai dall’osservazione del numero (intero o con cifre decimali), ma al contrario va individuata sulla sua natura. a.a. 2023/24 5/ 32 Le variabili quantitative 2. Misurare un carattere continuo implica necessariamente un’approssimazione per i limiti di precisione dello strumento per i limiti di lettura dell’operatore I passi da fare sono 2: 1. scegliere il livello di precisione (legato all’ordine di grandezza del fenomeno da rilevare) esempio: Statura ! approssimata al cm (uso metro) Lunghezza di petali dei fiori ! decimo di mm (uso calibro) 2. accettare un implicito intervallo di tolleranza ovvero un insieme di valori potenzialmente possibili in relazione a quella misurazione. a.a. 2023/24 6/ 32 Le variabili quantitative Esempio: Statura in un collettivo Livello di precisione: cm Misurazione 185 cm ! Intervallo di tolleranza 184.5 e 185.5 Livello di precisione: mm Misurazione 185.4 cm ! Intervallo di tolleranza 185.35 e 185.45 Deviazione rispetto alla misura e↵ettiva non superiore alla metà dell’unità che esprime il livello di precisione scelto. Fare attenzione ad esempio a variabili che fanno eccezione come l’età in anni compiuti. variabile discreta Ad esempio un ragazzo di 18 anni compiuti non potrà avere un’età compresa tra 17.5 e 18.5 anni, dunque di fatto si prende solo la parte intera di quel numero e l’errore sarà al più di un anno. a.a. 2023/24 7/ 32 Supporto Stessa cosa - L’insieme delle modalità di una variabile qualitativa o quantitativa si chiama SUPPORTO della variabile. es. Altezza ↓ H la + alta la + bassa Intervallo è il supporto a.a. 2023/24 8/ 32 Unità statistica : Cliente ↓ singolare ! qualitativa lanche numero) scala sconnessa I se , a valitativa sconnessa (qualità : Maschio - femminal variabili qualitativa ordinata quantitativo discreta (non posso dare HPO 5. 5) a.a. 2023/24 9/ 32 unità statistica : topo sconnessa libertà se discreta variabili att ~ a.a. 2023/24 10/ 32 Dagli esempi precedenti... Raccolta di↵erenziata (2020) Unità statistica: il comune Variabile Quantità di rifiuti (Kg/ab anno): Natura quantitativa, scala continua, supporto (teorico) ST = R+ Addetti in aziende. Unità statistica: Azienda. Numero d... Variabile Numero addetti: Natura quantitativa, scala discreta, supporto (teorico) ST = N Presenza di vani. Unità statistica: Appartamento. Variabile Numero di vani: Natura quantitativa, scala discreta, supporto - ST = N o SE = {1, 2, 3, 4, 5} Supporto Effettivo Parentesi Graffe INSIEME Lunghezza uova. Unità statistica: uovo. Variabile Lunghezza: Natura quantitativa, scala continua, supporto ST = R+ o SE = [19.85, 23.85] parentesi quadra Intervallo Alberi di Cedro Nero Unità statistica: albero di cedro. Variabili Volume (in m3 ), Diametro (in cm), Altezza (in m): Natura quantitative, scala continua, supporto ST = R+ a.a. 2023/24 11/ 32 01. 03 Genesi dei dati statistici Indagine statistica I dati provengono da un collettivo statistico reale (popolazione finita) le cui unità (persone, imprese, abitazioni, ecc) sono entità esistenti, individuabili e osservabili. ne conosco le Caratteristiche Esperimento Le unità statistiche (persone, animali, oggetti...) - sono sottoposte ad un trattamento per osservare la loro risposta o reazione ad un trattamento Non È detto che conosca le caratt. Studio Osservazionale Non sono definite unità statistiche e neppure una popolazione statistica da indagare e nemmeno unità assegnate a trattamenti * la stat.. descrittiva quello popolazione è el unico. Cosa presa in considerazione a.a. 2023/24 12/ 32 Indagine statistica Censimento o Indagine? stat inferenziale : ha dati eli processa MA deve vedere come questi su tutta la dati agiscono popolazione ↓ esteso a tutta la pop. a.a. 2023/24 13/ 32 Censimento... in trasformazione... Informazione completa su tutta la popolazione di interesse, ma... CONTRO : È molto costoso PRO : Meno Unità statistiche recupers Info su tutl Alcuni individui di difficile reperibilità Popolazioni sempre in movimento Tempi lunghi, anzi lunghissimi In Italia si è e↵ettuato ogni 10 anni fino al 2011. Attualmente il censimento è stato eliminato e sostituito con il Censimento permanente della popolazione e delle abitazioni Sono rilevate variabili: fa attraverso Si Campioni del - personali sulla famiglia, - sul tipo di alloggio, - presenza impianti di climatizzazione, - connessione a internet, - possesso cellulari, - posto auto, - impianti igienico sanitari... a.a. 2023/24 14/ 32 Indagini campionarie CAMPIONAMENTO 1. casuale semplice o probabilistico (CCS) I Le unità statistiche hanno la stessa probabilità di selezione I Si usa la Tavola dei numeri casuali ↳ di essere estratte estrarre le unità stat. Con stessa Probabilità 2. stratificato (CS) strati seleziono gli e pol la pop defli Strati I Si attua un CCS su sottopopolazioni omogenee (strati) I Es. popolazione suddivisa nei due strati Maschi e Femmine e - - campionamento dai due strati 3. a due stadi (CDS) seleziono Macrounità (Comuni) 10 20 e pol le famiglie I I stadio: estrazione casuale di macro-unità da cui campionare II stadio: dalle macro-unità estrazione casuale delle unità elementari I Es. Indagine forze lavoro (ISTAT) - Unità I stadio: Comuni Unità II stadio: campione di famiglie dei Comuni selezionati al I stadio a.a. 2023/24 15/ 32 Un caso eclatante Le elezioni statunitensi del 1936 si ricordano per un evento che fu sensazionale nella storia della statistica e dei sondaggi - -- Alf Landon (AL) (foto sx) si propose come candidato repubblicano alla presidenza opponendosi a Franklin Delano Roosevelt (FDR) (foto dx). a.a. 2023/24 16/ 32 Un caso eclatante La rivista Literary Digest, reclutò un campione di 10 milioni di cittadini americani ricevendo 2.4 milioni di risposte. Secondo il Digest, Landon avrebbe vinto le elezioni e Roosvelt avrebbe ottenuto solo il 43% dei voti In parallelo lo statistico George Gallup predisse la vittoria di Roosvelt utilizzando un campione ristretto (50.000 persone) Alla fine accadde che Roosvelt stravinse col 63% dei voti La rivista venne chiusa poco dopo Che cosa poteva essere successo? a.a. 2023/24 17/ 32 Un caso eclatante Il Literary Digest aveva intervistato I suoi lettori Gli utenti telefonici I possessori di automobili In questo modo aveva analizzato un campione distorto o non rappresentativo della popolazione degli elettori perché troppo sbilanciato a favore di coloro che avevano un reddito ben superiore alla media nazionale (era il periodo della grande depressione), e quindi sostenitori dei repubblicani. Gallup dimostrò che poco importa avere a disposizione un campione di grandi dimensioni se la sua composizione non è derivata da tecniche di estrazione casuali e probabilistiche. a.a. 2023/24 18/ 32 Esperimento Esempio 1 Vengono reclutati 50 pazienti. Alla metà di questi, scelti a caso, viene assegnato un nuovo farmaco; ai rimanenti 25 invece un placebo ovvero una sostanza inerte che si somministra per far credere di aver ricevuto un farmaco vero. Dopo un periodo di tempo si confrontano i due gruppi per vedere se il gruppo dei trattati col farmaco ha mostrato e↵etti positivi. Questo è un esempio di: Esperimento = Un ricercatore sottopone ad un trattamento alcuni soggetti scelti attraverso un meccanismo casuale a.a. 2023/24 19/ 32 Esempio Vaccino ASTRA ZENECA Reclutati 12196 pazienti. A 6106 di questi è stato somministrato il Vaccino AZ disponibile in due dosi; ai rimanenti 6090 è stata iniettata una soluzione salina. Due studi condotti in parallelo: in Regno Unito e in Brasile. L’87% dei pazienti ha età compresa tra 18 e 64 anni e i restanti superiore o uguale a 65. La seconda dose è stata fatta variare da minimo 3 a massimo 23 settimane con 86.1% che ha ricevuto le due dosi in un intervallo da 4 a 12 settimane gruppo trattato: 64 casi Covid su 5258 vaccinati (2 dosi) gruppo controllo: 154 casi Covid su 5210 (2 dosi placebo) nel complesso efficacia 59.5 % che aumenta a 82.4% se seconda dose dopo almeno 12 settimane dalla prima Inoltre per tutti i vaccinati 0 casi di ospedalizzazione vs 14 casi nel gruppo di controllo, di cui uno fatale a.a. 2023/24 20/ 32 Studio Osservazionale Retrospettivo Esempio 2 Il MISA⇤ ha indagato le morti per cause respiratorie e cardiovascolari nel periodo 1996-2002 in 15 città italiane, scelte tra i principali centri urbani, coinvolgendo più di 9 milioni di abitanti. subisce e Non sceglie nulla (Now può fare esperimenti) ↑ Questo è un esempio di: Osserva analizza dati sono già stati Rilevato e che Studio Osservazionale = Un ricercatore osserva in modo Retrospettivo documentazione già raccolta in passato e quindi già esistente prima di iniziare lo studio. quello che vedo : No trarre relazioni di Causa-effetto posso solo descrivere Non vi sono meccanismi di selezione casuale delle unità Fare attenzione a trarre conclusioni che coinvolgano relazioni causa/e↵etto MISA⇤ =metanalisi italiana di studio e↵etti a breve termine inquinamento atmosferico a.a. 2023/24 21/ 32 Studio Osservazionale Prospettico Esempio 3 Il Nurses Health Study è uno dei più colossali studi prospettici, per capire i fattori che possono influire sulla salute delle donne. I soggetti reclutati erano infermiere a cui sono stati somministrati questionari dal 1976. Si è capito che la dieta, attività fisica e corretti stili di vita possono aiutare ad avere una vita sana. Questo è un esempio di: Studio Osservazionale Prospettico = Un ricercatore seleziona i soggetti interessati dal fenomeno da indagare e li segue nel tempo raccogliendo attraverso un questionario specifico i dati. insiame di unità statistiche segue un nel tempo a.a. 2023/24 22/ 32 Prospettico verso Retrospettivo Svantaggi Richiede molto tempo, operatori e energie Non è applicabile a eventi rari, per la difficoltà a reperire un sufficiente numero di casi ↓ Malattie RARE (x Poche unità statistiche Vantaggi Ha il vantaggio di poter controllare la qualità del dato riducendo al minimo la possibilità di errori sistematici Ha il vantaggio di conoscere la storia pregressa e le condizioni del soggetto precedenti all’insorgenza eventuale del fenomeno a.a. 2023/24 23/ 32 La Matrice dei dati Peso alla nascita di N = 32 neonati, durata della gravidanza (in settimane) e attitudine al fumo della madre (S/N). unita stat > - ↑ variabili a.a. 2023/24 24/ 32 La Matrice dei dati La Matrice dei dati è una tabella che presenta i dati raccolti per ogni unità statistica e per ogni variabile rilevata. 1. Ogni riga riporta i dati di una particolare unità statistica 2. Ogni colonna riporta i dati di una variabile (eccetto la prima se riporta il numero o etichetta dell’unità statistica) Dimensione della Matrice dei Dati (numero di righe ⇥ numero di colonne) (numero di unità statistiche ⇥ numero di variabili) Esempio Nell’esempio dei dati del peso dei bambini, la matrice ha dimensione (32 ⇥ 3) perché le unità statistiche sono i 32 bambini e le variabili sono 3: Peso, Durata Gravidanza e Fumo. a.a. 2023/24 25/ 32 Matrice sı̀ o no? Unità di misura !!! Misurazioni del livello di fosfato inorganico (mg/dl) nel plasma di - soggetti obesi iperglicemici (OI), obesi non iperglicemici (ON) e di controllo (C) a un’ora dalla somministrazione di un test standard per l’assorbimento del glucosio. è una matrice di dati ??? No ! perche ? Riga Non corrisponde a un soggetto a.a. 2023/24 26/ 32 Codifica dei dati adesso si che è una matrice di dati v a.a. 2023/24 27/ 32 Codifica dei dati Possiamo codificare la tipologia di paziente tramite 0 e 1 (assenza/presenza), ma abbiamo 3 possibili modalità: obesi iperglicemici (OI), obesi non iperglicemici (ON) e di controllo (C). Possiamo immaginare di sostituire la variabile Tipo di paziente con 3 variabili: Tipo OI (sı̀/no), Tipo ON (sı̀/no), Tipo C (sı̀/no). Poi associamo alla modalità sı̀ il numero 1. a.a. 2023/24 28/ 32 Codifica dei dati ↓ le la elimino Ridondante a.a. 2023/24 29/ 32 Codifica dei dati A ben vedere, la nostra codifica è ridondante, perchè sappiamo che, nel nostro studio, se un soggetto non è né obeso iperglicemico (OI), né obeso non iperglicemico (ON), non può essere altro che un soggetto di controllo (C). Allora ci bastano 2 sole delle 3 variabili per codificare il Tipo di paziente, per esempio Tipo OI (sı̀/no) e Tipo ON (sı̀/no). Sappiamo che se valgono entrambe no, il paziente è un controllo. Associamo alla modalità sı̀ il numero 1. a.a. 2023/24 30/ 32 Codifica dei dati a.a. 2023/24 31/ 32 Codifica dei dati - Regola NB NON NUMERI Per inserire una variabile qualitativa (o categoriale) in una matrice di dati sono necessarie le Variabili Dummy dette anche Variabili Indicatrici. assenza a presenza Per codificare correttamente una variabile categoriale con k modalità, abbiamo però bisogno di solo (k 1) variabili - indicatrici, perché l‘ultima modalità viene automaticamente individuata attraverso la negazione di tutte le altre. Non ha ovviamente rilevanza quale sia, tra tutte, questa ultima modalità a.a. 2023/24 32/ 32 Statistica 1 (matricole pari) Alessandra Dalla Valle Dipartimento di Scienze Statistiche Università degli Studi di Padova Distribuzioni di frequenza a.a. 2023/24 a.a. 2023/24 1/ 26 La Rilevazione dei dati Data una variabile statistica X e una popolazione composta da N unità statistiche. Rilevazione = associare una modalità di X a ciascuna unità statistica della popolazione Dobbiamo scegliere la scala delle modalità (insieme dei modi in cui la variabile si manifesta nella popolazione) che deve essere: 1. Esaustiva ! In grado di interpretare qualunque manifestazione del carattere 2. Mutuamente Esclusiva! In grado di identificare senza dubbio le manifestazioni del carattere a.a. 2023/24 2/ 26 ⑳ Dati indagine Albergo ② Definiamo Distribuzione Statistica Disaggregata la successione indicata con x1 , x2 ,... , xN dove xi identifica la modalità della variabile X e↵ettivamente rilevata sulla i esima unità statistica per i = 1,... , N. Esempio: indagine grado soddisfazione clienti albergo X: Sesso, modalità: (M, F ) N = 36. x1 = M, x2 = M, x3 = M,... , x36 = F (M, M, M,..., F ) sequenza di lunghezza 36 che indica tutte le modalità rilevate sulla popolazione. a.a. 2023/24 3/ 26 Distribuzione Statistica disaggregata a.a. 2023/24 4/ 26 04. 03 Distribuzioni statistiche In questo caso ho l’informazione completa sulla manifestazione del carattere X sulla popolazione, ma non ho la possibilità di avere una visione di insieme. Per raggiungere questo obiettivo è necessario: 1. aggregare unità statistiche che presentino modalità Blanco Blond o... distinte identiche , e sono meno delle ↓ Unità statistiche 2. contare quante volte ogni singola modalità è presente nella distribuzione disaggregata. nel passato si faceva manualmente (spoglio manuale) adesso si fa con i PC. M a.a. 2023/24 5/ 26 Distribuzione Statistica Aggregata Per ogni variabile qualitativa o quantitativa X, definiamo Distribuzione Statistica Aggregata la coppia formata dalle modalità distinte e↵ettivamente rilevate x 1 , x2 ,... , x k il numero di volte (frequenza assoluta) n1 , n2 ,... , nk in cui ogni modalità compare nella distribuzione disaggregata. Si ottiene la distribuzione di frequenza di X, Modalità Frequenza Assoluta Non COME puoi PRIMA chiamarle x1 n1 NUMEROSIta Numero di ↳ questo numero che modalità indica le x2 n2 Modalita' distinte distinte...... xk 7) X6 Nel Caso nk del Capelli Totale N dove k è il numero di modalità distinte di X a.a. 2023/24 6/ 26 Distribuzione di frequenza La successione delle coppie modalità n y quante volte si manifesta {(x1 , n1 ), (x2 , n2 ),... , (xk , nk )} prende anche il nome di Serie o Seriazione di frequenza. È chiaro che tutte le distribuzioni di frequenza o serie devono soddisfare il vincolo Xk ni = N i=1 Esempio X:Sesso Modalità Frequenza Assoluta M 19 F 17 Totale 36 a.a. 2023/24 7/ 26 Frequenza Relativa e Frequenza Percentuale Accanto alla Frequenza Assoluta si definisce anche il concetto di Frequenza Relativa indicata con fi , per i = 1,... , k, che si ottiene dividendo le Frequenze ni per il totale N ni fi = , i = 1,... , k N È chiaro che vale: X k fi = 1 i=1 Analogamente si definisce anche il concetto di Frequenza Percentuale fi %, per i = 1,... , k, ottenuta moltiplicando le Frequenze relative fi per 100. fi % = fi ⇥ 100, i = 1,... , k In questo caso k X fi % = 100 i=1 a.a. 2023/24 8/ 26 Frequenze Assolute, Relative o Percentuali? Perché si usa ricorrere alle frequenze Relative o Percentuali? 1. Perché interessa valutare la composizione interna della popolazione rispetto alle modalità della variabile X 2. Perché interessa e↵ettuare confronti circa il comportamento della variabile X in di↵erenti gruppi di unità statistiche anche aventi numerosità diverse Qual è lo svantaggio? I Si perde la percezione del fenomeno nella sua scala naturale ovvero l’ordine di grandezza di X a.a. 2023/24 9/ 26 Esempio Gravidanza X: Durata in settimane Modalità Frequenza Assoluta Frequenza Relativa Frequenza Perc. xi ni fi fi % 1 34 1 0.03125 = 32 3.125 35 3 0.09375 3 = 32 9.375 36 3 HENI + anti0.09375 9.375 Num dope 37 2 0.06250 la VIRGold 6.25 38 5 0.15625 15.625 39 7 0.21875 21.875 40 3 0.09375 9.375 41 3 0.09375 9.375 42 5 0.15625 15.625 Totale 32 1 100 (*) Attenzione ai Totali: per e↵etto dell’arrotondamento può verificarsi che i totali non sommino a 1 o 100. Conviene agire sugli arrotondamenti evitando il troncamento (*) Chiaramente il problema della saturazione e↵ettiva dei totali scompare tenendo più cifre decimali dopo la virgola a.a. 2023/24 10/ 26 Distribuzioni di Frequenza Cumulate Se il carattere X è: = Qualitativo Ordinale o Quantitativo si possono calcolare le Frequenze Assolute Cumulate Ni l'ultima Fra Assoluta NB : dire i che val ↑ assume X No colore CAP , N i = n1 + n2 +... + ni , i = 1,... , k - ~ Si titolo di studio SOMMO le FREa. Assolute ovvero, per ogni modalità di X, il numero di unità statistiche tra le N considerate che presenta una modalità del carattere X non superiore a xi. - MI FERMO a Xi IDEM si possono calcolare le Frequenze Relative Cumulate Fi Fi = f 1 + f 2 +... + f i , i = 1,... , k che esprimono, per ogni modalità di X, la frazione di unità statistiche tra le N considerate che presenta una modalità del carattere X non superiore a xi. Attenzione ! Non lo x tutte posso fare MA SE E SOLO S3 Il FENOMENO e Quantitativo mentre qualitative solo su quelle cqualsiasi tipo di ORDINALI (tl Cresc. e decress) quant ). NON delle SCONNESSE Z a.a. 2023/24 11/ 26 In altre parole... In sostanza si tratta di formare, idealmente, degli insiemi di unità statistiche che possiedano modalità inferiori o uguali alla i esima. N 1 = n1 N 2 = n1 + n2 N 3 = n1 + n2 + n3.... =.. N k = n1 + n2 +... + nk = N É chiaro dunque perché nel caso di caratteri non ordinali le frequenze cumulate siano del tutto prive di senso oltre che non univoche. L’utilità di queste frequenze sarà più evidente quando introdurremo gli indicatori di posizione a.a. 2023/24 12/ 26 Esempi Esempio X: Comfort (soddisfazione) Mod. Fr.Ass. Fr.Rel. Fr. Ass.Cumulata Fr.Rel.Cumulata xi ni fi Ni Fi 1 1 0.0278 O1 - 0.0278 2 -3 0.0833 + 1 3- 4 4 = 0.1111 1 3 1 0.0278 4 +1 5 = 5 0.1389 S 4 6 0.1667 +5 6 11 = 11 0.3056 I " 5 6 0.1667 / & 17 0.4723 6 6 0.1667 " 23 0.6390 7 6 0.1667 29 0.8057 8 6 0.1667 35 0.9724 9 1 0.027835 + 1 36 = O 1 Totale 36 1 a.a. 2023/24 13/ 26 Suddivisione in classi Per fenomeni quantitativi di tipo continuo si può utilizzare un diverso tipo di rilevazione che consenta di ripartire SCEGLIAMO INTERVAILI + PO 1 65-1 95.. l’intervallo delle osservazioni = campo di variazione in k sub-intervalli assegnando le N unità statistiche all’intervallo cui appartengono. In questo caso si parla di Seriazione in Intervalli dove gli Intervalli sono le modalità Pregio quando si dispone di un grande numero di osservazioni consente di presentare i dati in forma compatta e più semplice Difetto C’è sempre una perdita di informazione perché si rinuncia al dato esatto e si rileva solo a quale classe appartiene a.a. 2023/24 14/ 26 Costruzione della Seriazione in Intervalli Azioni 1. Scegliere il numero di classi 2. Scegliere l’ampiezza delle classi 3. Contare il numero di unità in ciascuna classe Buonsenso non è una buona scelta raggruppare 6 osservazioni in 12 classi perché molte classi avrebbero frequenza nulla se invece raggruppassimo 1000 osservazioni in 3 classi perderemmo troppe informazioni a.a. 2023/24 15/ 26 Costruzione della seriazione in Intervalli Si devono conciliare tre esigenze: I Perdita d’informazioni deve essere ridotta al minimo I Parsimonia del numero di classi I Efficacia della presentazione dei dati Come ausilio ci sono delle regole che permettono di individuare il ”giusto” numero k di classi. k = log2 N + 1 a.a. 2023/24 16/ 26 Costruzione della seriazione in Intervalli Attenzione 1. a di↵erenziare il diverso addensamento delle modalità della variabile, formando classi di ampiezza diversa: più piccole laddove le osservazioni sono più addensate e più ampie altrove. 2. ciascuna osservazione deve andare in una e una sola classe 3. le classi non devono sovrapporsi (mi raccomando...) Esempio (150 160) (160 170) ! NO! (non si sa dove mettere 160) (150, 160] (160, 170] ! SI! (160 si colloca nella prima classe) N.B la parentesi tonda ( esclude il valore la parentesi quadra [ include il valore a.a. 2023/24 17/ 26 Distribuzione di frequenza in classi Intervallo Frequenza (c0 , c1 ] n1 (c1 , c2 ] n2...... (ci 1 , ci ] ni...... (ck 1 , ck ] nk Totale N Nell’intervallo (ci 1 , ci ] ci 1 è l’estremo inferiore non incluso nell’intervallo ci è l’estremo superiore incluso nell’intervallo. Si possono trovare intervalli - aperti a destra ` - aperti a sinistra a - chiusi (inclusi entrambi gli estremi) a.a. 2023/24 18/ 26 Distribuzione di frequenza in classi Definiamo ampiezza della classe (ci 1 , ci ] la quantità di = c i ci 1 Indichiamo il valore centrale della classe: ci 1+ ci xi = 2 ovvero la media aritmetica degli estremi della classe o semi-somma degli estremi. xi è la modalità che rappresenta l’intervallo (ci 1 , ci ] contenente infiniti valori. a.a. 2023/24 19/ 26 Esempio altezze X: Stature in cm. di 70 individui Intervallo Frequenza Assoluta Valore cent Ampiezza ci 1 a ci ni xi di 145 a 155 5 150 10 155 a 160 7 157.5 5 160 a 165 9 162.5 5 165 a 175 15 170 10 175 a 180 11 177.5 5 180 a 185 15 182.5 5 185 a 200 8 192.5 15 Totale 70 (*) (*) In assenza di xi questa distribuzione di frequenza sarebbe scarsamente utile: non sarebbe infatti possibile utilizzare le modalità di X visto che le abbiamo aggregate in intervalli contenenti infiniti valori. a.a. 2023/24 20/ 26 Assunto: Equidistribuzione Rappresentare ogni intervallo ci 1 a ci con una sola quantità xi è un’operazione delicata ma necessaria. Si procede ponendosi in una condizione semplificativa. L’assunzione che si fa in questo caso è l’Equidistribuzione delle unità statistiche negli intervalli ci 1 a ci 8i = 1,... , k Tanto più vicini si è a questa ipotesi di equidistribuzione tanto più accurato risulterà xi. La maggior parte delle volte, la seriazione in intervalli rappresenta l’unica fonte di dati e quindi non c’è possibilità di verificare l’assunto. a.a. 2023/24 21/ 26 Equidistribuzione Cosa si intende per Equidistribuzione o Uniforme distribuzione? Consideriamo la classe ci 1 a ci avente frequenza ni e ampiezza di. Immaginiamo di suddividerla in ni intervallini uguali, ovvero di stessa ampiezza di /ni. Supponendo di posizionare 1 sola unità statistica al centro di ogni intervallino, le unità statistiche saranno collocate nell’intervallo tutte alla stessa distanza l’una dall’altra. a.a. 2023/24 22/ 26 Classi di diversa ampiezza Se le ampiezze delle classi sono diverse, utilizzare le frequenze assolute ni non è più un’operazione corretta per l’analisi. Definiamo allora come densità di frequenza della classe ci 1 a ci la quantità ni hi = di hi risulterà tanto più elevato quanto più denso è l’intervallo: questa densità va intesa come a↵ollamento delle unità statistiche nell’intervallo di ampiezza di , sotto l’ipotesi di equidistribuzione. In altre parole hi indica quante sono in media le unità statistiche contenute in un sotto-intervallo di ampiezza unitaria della variabile X. Questa operazione rende le classi omogenee e quindi confrontabili. a.a. 2023/24 23/ 26 Esempio densità di frequenza Intervallo Frequenza Assoluta Valore cent Ampiezza Densità ci 1 a ci ni xi di hi 145 a 155 5 150 10 0.5 155 a 160 7 157.5 5 1.4 160 a 165 9 162.5 5 1.8 165 a 175 15 170 10 1.5 175 a 180 11 177.5 5 2.2 180 a 185 15 182.5 5 3 185 a 200 8 192.5 15 0.53 Totale 70 (*) a.a. 2023/24 24/ 26 Ampiezza delle classi Questa impostazione serve anche per calcolare il numero di unità statistiche appartenenti a porzioni di intervalli. Consideriamo, ad esempio, nella classe ci 1 a ci di frequenza ni e ampiezza di , un intervallo di ampiezza ; le unità appartenenti all’intervallo di ampiezza sono: ni n( ; i) = · = hi · di Esempio: Calcolare il numero di unità statistiche comprese tra 167 cm e 172 cm. Soluzione Essendo = 172 167 = 5 cm e hi = 1.5 n(5; 4) = 1.5 · 5 = 7.5 In questo caso, essendo 7.5 un numero non naturale, lo si arrotonda, in ogni caso, sempre per eccesso: n(5; 4) = 1.5 · 5 = 7.5 = ˜ 8 visto che sono Unità stat Non possono a.a. 2023/24 avere la virgola 25/ 26 Ampiezza delle classi Se gli intervalli hanno ampiezza costante, ci ci 1 = d, 8 i = 1,... , k la densità di frequenza è proporzionale alla frequenza. ni hi = d Significa che la densità di frequenza e la frequenza assoluta coincidono a meno di un fattore di scala. In questo caso ricorrere alla densità di frequenza anziché alla frequenza non fa di↵erenza xi gi = bxi Yi a = + a.a. 2023/24 26/ 26 Statistica 1 (matricole pari) Alessandra Dalla Valle Dipartimento di Scienze Statistiche Università degli Studi di Padova Distribuzioni doppie di frequenza a.a. 2023/24 a.a. 2023/24 1/ 11 Distribuzioni doppie o multiple In un supermercato alimentare si è osservata la seguente distribuzione dei clienti per fascia oraria di arrivo (X) e importo di spesa (in euro) (Y ) Y X 0 a 20 20 a 50 50 a 80 80 a 120 ni0 8 a 10 1 3 5 1 10 10 a 12 2 12 25 21 60 12 a 14 7 5 10 8 30 14 a 16 10 15 30 30 85 16 a 18 6 4 7 13 30 18 a 20 15 20 40 45 120 n0i 41 59 117 118 335 a.a. 2023/24 2/ 11 Tabella a doppia entrata Y X y1 y2... yj... yt Totale x1 n11 n12... n1j... n1t n10 x2 n21 n22... n2j... n2t n20........................ xi ni1 ni2... nij... nit ni0........................ xs ns1 ns2... nsj... nst ns0 Totale n01 n02... n0j... n0t N a.a. 2023/24 3/ 11 Notazione I pedici nella notazione si riferiscono rispettivamente alle variabili X e Y. nij A. & X Riga Y Colonna i = 1,... , s j = 1,... , t Esempio X : Orario di arrivo Y : Importo di spesa n34 = 8: numero di unità statistiche arrivate tra le 12 e le 14 e che hanno speso tra 80 e 120 euro. n52 = 4: numero di unità statistiche arrivate tra le 16 e le 18 e che hanno speso tra 20 e 50 euro. a.a. 2023/24 4/ 11 Frequenze congiunte Le frequenze congiunte nij presentano alcune importanti proprietà: t X ni0 = nij per i = 1, 2,... , s j=1 Xs n0j = nij per j = 1, 2,... , t i=1 s X X t s X t X N= nij = ni0 = n0j i=1 j=1 i=1 j=1 Ovviamente, dividendo per il corrispondente totale otteniamo la distribuzione di frequenza doppia relativa, le distribuzioni marginali relative e le distribuzioni relative condizionate. a.a. 2023/24 5/ 11 Frequenze cumulate Se entrambi i caratteri sono Quantitativi o Qualitativi, ma su scala ordinale, è possibile definire le frequenze cumulate per la distribuzione doppia. Frequenza assoluta cumulata: j i X X Nij = nhk h=1 k=1 Frequenza relativa cumulata: j i X i j X 1 XX Fij = fhk = nhk N h=1 k=1 h=1 k=1 Ovviamente: s X X t s X t X Nst = nij = ni0 = n0j = N i=1 j=1 i=1 j=1 s X X t s X t X Fst = fij = fi0 = f0j = 1 i=1 j=1 i=1 j=1 a.a. 2023/24 6/ 11 Distribuzioni Marginali In una tabella a doppia entrata si possono sempre estrarre (2 + s + t) distribuzioni di frequenza. Le prime due sono dette MARGINALI. La distribuzione marginale di X (con s modalità) è la distribuzione di X che si avrebbe se X venisse rilevata da sola. modalità di X x1 x2... xi... xs Totale frequenza n10 n20... ni0... ns0 N La distribuzione marginale di Y (con t modalità) è la distribuzione di Y che si avrebbe se Y venisse rilevata da sola. modalità di Y y1 y2... yj... yt Totale frequenza n01 n02... n0j... n0t N Le frequenze si ricercano ai margini della tabella, in corrispondenza dell’ultima colonna per X e dell’ultima riga per Y a.a. 2023/24 7/ 11 Distribuzioni Condizionate Le distribuzioni Condizionate si estraggono all’interno della tabella di frequenze congiunte a seconda di quale sia la Variabile Condizionata e quale la Variabile Condizionante. La distribuzione condizionata di X|Y = yj è data dalle modalità di X a cui sono associate le frequenze congiunte che nella tabella si trovano in colonna in corrispondenza della modalità yj di Y. modalità di X x1 x2... xi... xs Totale frequenza n1j n2j... nij... nsj n0j Da notare che il totale ora è n0j. Lo 0 significa che si sommano le frequenze rispetto a tutte le modalità di X che è la variabile condizionata. a.a. 2023/24 8/ 11 Distribuzioni Condizionate La distribuzione condizionata di Y |X = xi è data dalle modalità di Y a cui sono associate le frequenze congiunte che nella tabella si trovano nella riga in corrispondenza della modalità xi di X. modalità di Y y1 y2... yi... yt Totale frequenza ni1 ni2... nij... nit ni0 Da notare che il totale ora è ni0. Lo 0 significa che si sommano le frequenze rispetto a tutte le modalità di Y che è la variabile condizionata. a.a. 2023/24 9/ 11 Esempio Gravidanza Esempio X: Durata in settimane Y: Fumo X|Y = no Freq. X|Y = si Freq. xi ni xi ni 34 1 34 0 35 2 35 1 36 1 36 2 37 2 37 0 38 2 38 3 39 3 39 4 40 3 40 0 41 1 41 2 42 1 42 4 Totale 16 Totale 16 X|Y =no e X|Y =si sono distribuzioni condizionate. a.a. 2023/24 10/ 11 Esercizio per casa Un individuo ogni giorno dell’anno deve decidere il mezzo di trasporto con cui andare al lavoro. Siano Y = Mezzo di trasporto X = Condizioni Meteorologiche della giornata. Mezzo di trasporto bicicletta autobus automobile Totale sereno 84 26 11 121 Condizioni variabile 29 98 29 156 meteorologiche pioggia 7 26 55 88 Totale 120 150 95 365 Individuare unità statistica, popolazione, variabili, natura, scala, supporto; calcolare distribuzioni di frequenza marginali e condizionate complete. ↑ a.a. 2023/24 11/ 11 Unità statistica : Individuo Popolazione : 365 Variabil : quantitative scala : discreta SUPPORTO : 3 ? distribuzione marginale di x: modalità bICI bus auto FREQ. 120 150 95 distribuzione al marginale 4 : modalità Sereno Variabile ploggia FREQ. 121 156 88 Statistica 1 (matricole pari) Alessandra Dalla Valle Dipartimento di Scienze Statistiche Università degli Studi di Padova Rappresentazioni grafiche a.a. 2023/24 a.a. 2023/24 1/ 31 Introduzione Le Rappresentazioni grafiche strumento indispensabile per visualizzare immediatamente le caratteristiche delle distribuzioni di frequenza; rendono possibile il confronto tra più distribuzioni in maniera efficace; mettono in risalto dati anomali, trend, relazioni, picchi; semplificano la divulgazione dei risultati soprattutto ai non-statistici Principio essenziale Individuare natura e scala della Variabile e poi scegliere il grafico, tra quelli ammissibili, in funzione degli obiettivi dell’analisi. a.a. 2023/24 2/ 31 Requisiti essenziali Accuratezza: la precisione dei dettagli per non confondere (ad es. dimensioni non adeguate allo spazio disponibile) Semplicità: grafici essenziali senza orpelli Chiarezza: comunicare senza ambiguità gli aspetti salienti Armonia: tratto, colori, proporzioni, caratteri... Gerarchie: mettere in evidenza ciò che ha più rilievo rispetto ad altro... a.a. 2023/24 3/ 31 Grafici per Variabili Qualitative Variabili Qualititative ! Diagramma a barre Esempio: interesse per lo studio della Matematica per studenti delle classi V di due licei scientifici di una città. Interesse Liceo A Liceo B X ni ni Elevato 70 80 Medio 150 270 Basso 20 130 Nullo 10 20 Totale 250 500 Rappresentare graficamente i dati a.a. 2023/24 4/ 31 Diagramma a barre - scala diversa? NO! 250 150 200 100 150 100 50 50 0 0 alto medio basso nullo alto medio basso nullo a.a. 2023/24 5/ 31 Diagramma a barre - stessa scala ma... a.a. 2023/24 6/ 31 Diagramma a barre corretto Interesse Liceo A Liceo B Liceo A Liceo B X ni ni fi % fi % Elevato 70 80 28 16 Medio 150 270 60 54 Basso 20 130 8 26 Nullo 10 20 4 4 Totale 250 500 100 100 NO SI’ a.a. 2023/24 7/ 31 Diagramma a barre: 2 errori Non si devono usare Scale diverse e Frequenze assolute per confrontare popolazioni con diverse numerosità. Nell’esempio, i totali degli studenti del liceo B e del liceo A sono l’uno il doppio dell’altro. Quindi si deve scegliere una delle seguenti opzioni: a. Sostituire nel diagramma a barre le frequenze assolute con le relative o percentuali lavorando su una scala comune b. Proporre due diagrammi a settori circolari In questo ultimo caso, il diagramma a settori circolari ha il vantaggio di evidenziare anche la dimensione relativa dei due totali. Obiettivamente, tra i due, quello a barre ha la resa grafica e visiva più elevata. a.a. 2023/24 8/ 31 Grafici per Variabili Qualitative Variabili Qualititative ! Diagramma a settori circolari Si usa quando il numero delle modalità non è elevato 1. Angolo al centro del settore circolare Si calcola la successione degli angoli {↵i } ↵i : 360 = ni : N ↵i = nNi · 360 2. Raggi dei Cerchi In presenza di più popolazioni con numerosità diverse N1 e N2 si impone che ⇡r12 : N1 = ⇡r22 : N2 I raggi dei cerchi devono essere determinati in modo che le aree siano proporzionali al totale della popolazione nei due gruppi. Fissato ad esempio r2 = 1 si determina l’altro raggio r1 di conseguenza q r1 = r22 · NN2 1 a.a. 2023/24 9/ 31 Tornando all’esempio sull’interesse per la matematica Calcoliamo gli angoli... Int. matematica Liceo A Liceo B Liceo A Liceo B xi fi % fi % ↵i ↵i Elevato 28 16 100.8 57.6 Medio 60 54 216 194.4 Basso 8 26 28.8 93.6 Nullo 4 4 14.4 14.4 Totale 100 100 360 360 360 ↵i = fi % · 100 360 Esempio ↵1 = 100.8o = 28 · 100 a.a. 2023/24 10/ 31 Raggi dei cerchi... Calcoliamo i raggi dei due cerchi... 2 ⇡rA 250 2 = ⇡rB 500 2 rA 1 2 = rB 2 r rA 1 = rB 2 rB p = 2 rA p r B = rA · 2 p Posto un valore arbitrario a rA = 1 allora rB = 2 = 1.4142 a.a. 2023/24 11/ 31 Grafico a settori circolari a.a. 2023/24 12/ 31 Grafico a settori circolari tridimensionale Da evitare assolutamente perché restituisce una rappresentazione ambigua dei dati basata su proiezioni che distorcono la percezione della reale estensione del settore circolare. a.a. 2023/24 13/ 31 Diagramma a barre affiancate - L’uso di fibre in una dieta Esperimento: Uso di fibre in una dieta A 12 individui diversi è stato chiesto di mangiare una certa quantità di un tipo di pane arricchito con fibre, prima di iniziare il pasto. L’idea sottostante è che il pane arricchito con fibre diminuisca l’appetito e di conseguenza la quantità totale di calorie ingerite. Sono stati utilizzati quattro diversi tipi di pane: pane normale (non arricchito, controllo), pane arricchito con crusca, pane con fibre di gomma naturale e un quarto tipo (combo) arricchito con entrambe. È stato infine misurato l’apporto netto di calorie e i problemi di digestione riscontrati nell’uso della dieta su una scala ordinale: a (nessun problema), b (problemi minori), c (problemi marcati) e d (molti problemi). Obiettivo: capire se usare fibre in una dieta comporti perdita di peso a.a. 2023/24 14/ 31 Diagramma a barre affiancate a.a. 2023/24 15/ 31 Diagramma a nastri sovrapposti a.a. 2023/24 16/ 31 Grafici per Variabili Quantitative Discrete Variabili Quantitative Discrete ! Diagramma a bastoncini (aste) X 34 35 36 37 38 39 40 41 42 fi 0.031 0.094 0.094 0.062 0.156 0.219 0.094 0.094 0.156 a.a. 2023/24 17/ 31 Grafici per Variabili Quantitative Discrete Variabili Quantitative Discrete ! Grafico della Funzione di Ripartizione Empirica Data una variabile quantitativa discreta X rilevata presso un insieme di N unità, avente supporto (x1 , x2 ,... , xN ), si può definire la Funzione di Ripartizione Empirica come numero osservazioni x F (X) = N ovvero la frazione di unità statistiche con modalità minore o uguale a un certo valore x. La funzione ha come dominio la retta reale R e come codominio l’intervallo [0, 1] Le modalità vanno ovviamente poste in ordine crescente Reale Dominio estremi inclusi comminio 10 : 1) > => E Modalità vanno poste in ordine Crescente a.a. 2023/24 18/ 31 Funzione di Ripartizione Empirica Dataset Gravidanza X 34 35 36 37 38 39 40 41 42 ni 1 3 3 2 5 7 3 3 5 fi 0.031 0.094 0.094 0.063 0.156 0.218 0.094 0.094 0.156 Fi 0.031 0.125 0.219 0.282 0.438 0.656 0.75 0.844 1 Parte da Zero 8 > > 0 se x < 34 > > > > 0.031 se 34 x < 35 > > > > > > 0.125 se 35 x < 36 > > > > > > 0.219 se 36 x < 37 > > > > < 0.282 se 37 x < 38 Fi (x) = > > 0.438 se 38 x < 39 > > > > 0.656 se 39 x < 40 > > > > > > 0.75 se 40 x < 41 > > > > > > 0.844 se 41 x < 42 > > > > Arriva fino A 1 : 1 se x 42 Per valori > di 42 nov automaticamente quicia aliamo nua a.a. 2023/24 Vale 1 19/ 31 Grafico della Funzione di Ripartizione Empirica La funzione di Ripartizione è una funzione costante a tratti che compie dei salti pari a fi in corrispondenza dei valori del supporto. funzione a gradini => guardare dove rac " - Che è dove se concentra la gerolation di solito al centro si concentro no modalità. Cont frequenta I alta COMMENTO : I in me normale litra verebbe do representato manal : una scala ! regolare 35 a.a. 2023/24 20/ 31 Grafici per Variabili Quantitative Continue Per Variabili Quantitative Continue ! Istogramma 1. Classi di uguale ampiezza Si disegnano rettangoli adiacenti con base proporzionale all’ampiezza della classe e altezza proporzionale alla frequenza. modalità suddividere in classi & => abbiamo un supporto le nel quale 60 modalità variant le > - come Gestiamo manier frequenza Modalità) in Stesse Amniezza 40 > - continua 20 0 retangoli 50 100 150 200 avvicinat glucosio , quantitativa continu a.a. 2023/24 21/ 31 Istogramma di frequenza Con classi di ampiezza c, costante, l’altezza è proporzionale alla frequenza ni e quindi anche l’area del rettangolo c · ni è proporzionale alla frequenza ni 2. Classi di ampiezza diversa Se si pone l’altezza del rettangolo proporzionale alla frequenza SENO INTERVAllI Non deve enere = 10 + 15 di AMPIEZZA # devo ossemo el altezza cre costruire se il resto non Che mettono grafici è uguale IN EVIDENZA AREE =) Non he intervalli uguali è evidente che non va bene. => FA ACQUA m a.a. 2023/24 22/ 31 Istogramma di frequenza Infatti è l’area del rettangolo che deve essere proporzionale alla frequenza. Indicando con ai l’altezza del rettangolo (incognita) e con di l’ampiezza della base dell’intervallo (data) ni = d i · a i si ricava che l’altezza ai deve essere: ni ai = = hi di che è proprio la densità di frequenza assoluta a.a. 2023/24 23/ 31 Istogramma di frequenza Esempio Viene riportato il reddito espresso in $ e le fi % a.a. 2023/24 24/ 31 Istogramma di frequenza sbagliato Visivamente si deduce che vi sono più famiglie con reddito superiore a 25000 $ che famiglie con reddito inferiore a 7000 $!! a.a. 2023/24 25/ 31 Istogramma di frequenza giusto qui dentro c'è la frequenza PERCENTUALE Il 5% delle unità statistiche ha reddito in (6000, 7000] l’8% ha reddito in (25000, 50000]. 8%>5% ma è distribuito su classe molto più ampia! Si deve usare la densità di frequenza percentuale ovvero la percentuale di unità statistiche per 1000$ ossia l’a↵ollamento-tipo in ciascun intervallo. a.a. 2023/24 26/ 31 Grafici per Variabili Quantitative Continue Variabili Quantitative Continue ! Grafico della Funzione di Ripartizione Empirica in classi Esempio: Acquisti annuali dei clienti di un’azienda (migliaia di euro) Acquisti annuali ni Ni Fi (0, 10] 19 19 0.307 (10, 18] 16 35 0.565 (18, 30] 10 45 0.726 (30, 50] 12 57 0.919 (50, 80] 5 62 1 segmenti di retta ipotesi di equidistribuzione delle osservazioni nelle classi a.a. 2023/24 27/ 31 Funzione di Ripartizione empirica in classi 1.0 0.8 0.6 F(X) 0.4 0.2 0.0 0 10 20 30 40 50 60 70 80 Acquisti annuali (Migliaia di euro) Per esercizio: costruire anche l’istogramma di frequenza a.a. 2023/24 28/ 31 Serie storiche a m · Per la rappresentazione delle serie storiche si ricorre ai diagrammi cartesiani Sull’asse delle ascisse si pongono i tempi e sull’asse delle - ordinate le intensità associate. I punti del piano cartesiano vengono poi uniti con segmenti di retta che danno l’idea dell’andamento del carattere. Di E i Il ↑ - 4 D a.a. 2023/24 29/ 31 ISS Bollettino sorveglianza integrata COVID19 17/3/2021 a.a. 2023/24 30/ 31 Esercizio per casa X: Stature dei maschi coscritti ad una classe di leva Intervallo Frequenza Assoluta Valore cent Ampiezza Densità ci 1 a ci ni xi di hi 145 a 155 5 150 10 0.5 155 a 160 7 157.5 5 1.4 160 a 165 9 162.5 5 1.8 165 a 175 15 170 10 1.5 175 a 180 11 177.5 5 2.2 180 a 185 15 182.5 5 3 185 a 200 8 192.5 15 0.53 Totale 70 (*) Costruire l’istogramma di frequenza e la funzione di ripartizione empirica a.a. 2023/24 31/ 31 Statistica 1 (matricole pari) Alessandra Dalla Valle Dipartimento di Scienze Statistiche Università degli Studi di Padova La famiglia delle Medie Lasche o di Posizione a.a. 2023/24 a.a. 2023/24 1/ 24 Famiglie di medie Medie Lasche (Medie di posizione) Identificano un valore che risulta favorito o perché più frequente o perché occupa una determinata posizione. es. Moda, Mediana, Quantili, Percentili... Medie Potenziate (Medie analitiche) Forniscono l’ordine di grandezza del fenomeno e utilizzano tutte le coppie (xi , ni ), i = 1,... , k della seriazione. es. Media Aritmetica, Media Armonica, Media Geometrica... Entrambe soddisfano: Principio di Cauchy Data una variabile quantitativa X, indicato con x(1) ,... , x(N ) il vettore ordinato dove x(1) è il valore minimo e x(N ) è il valore massimo, allora la media M x(1) M x(N ) a.a. 2023/24 2/ 24 Medie Lasche: Moda Moda: modalità che presenta massima frequenza 1. Calcolabile per variabili qualitative e quantitative 2. Non calcolabile per dati singoli non ripetuti ovvero per distribuzioni di frequenza con frequenze tutte uguali a 1 N 3. Inutile quando le frequenze sono vicine a K. 4. Se esistono due o più modalità associate alle frequenze più alte si parla di variabili bimodali oppure plurimodali. 5. Per distribuzioni di frequenza con classi di diversa ampiezza, si ricerca l’intervallo modale cioè quello con la più alta densità di frequenza e si sceglie il valore centrale come rappresentativo della classe. Es. Intervallo modale X: Statura (cm) 165 a 175 165 + 175 Moda x̂ = = 170 cm 2 a.a. 2023/24 3/ 24 Medie Lasche: Mediana Definizione La Mediana di X è la modalità associata all’unità statistica che occupa la posizione centrale, dopo aver ordinato le unità statistiche in senso crescente rispetto alle modalità e si indica di solito con m oppure x0.5. Si calcola per: -variabili quantitative, su qualunque scala; -variabili qualitative, solo se la scala è ordinale: sono escluse le variabili qualitative sconnesse. a.a. 2023/24 4/ 24 Caso Qualitativo Ordinale e Quantitativo discreto: N dispari 1. Si ordinano le unità in senso crescente secondo le modalità; 2. Si cerca l’unità in posizione N 2+1 che lascia alla sua sx e alla sua dx lo stesso numero di unità, cioè N 2 1 ; 3. La modalità posseduta da quella unità è la mediana. a.a. 2023/24 5/ 24 Caso Qualitativo Ordinale e Quantitativo discreto: N pari N N 1. Si ordinano le unità e si cercano quelle in posizione 2 e 2 + 1 che lasciano rispettivamente a sx e a dx lo stesso numero di unità. 2. Caso qualitativo: Se la modalità posseduta dalle unità è la stessa, quella è la mediana. Se invece non è la stessa, la mediana non esiste! 3. Caso quantitativo discreto: Se la modalità posseduta dalle unità è la stessa, quella è la mediana, altrimenti ogni valore compreso tra le 2 modalità è mediana e di solito si sceglie il valore centrale. a.a. 2023/24 6/ 24 Moda: Variabile Qualitativa Tab. Grado di istruzione di due popolazioni AeB A B xi ni N i Pos. fi Fi ni Ni Pos. fi Fi N.L. 30 30 1 30 0.30 0.30 3 3 1 3 0.03 0.03 L.E. 30 60 31 60 0.30 0.60 3 6 4 6 0.03 0.06 L.M 33 93 61 93 0.34 0.94 33 39 7 39 0.34 0.40 L.S. 3 96 94 96 0.03 0.97 30 69 40 69 0.30 0.70 L. 3 99 97 99 0.03 1 30 99 70 99 0.30 1 Tot. 99 1 99 1 La Moda (modalità con massima frequenza) nelle due popolazioni è uguale: x̂A = x̂B = L.M. Le due popolazioni sono molto diverse: nella A il grado di istruzione è di molto inferiore rispetto a B e la Moda non lo evidenzia a↵atto. Si deve passare ad un indice più accurato come la mediana a.a. 2023/24 7/ 24 Mediana: Variabile Qualitativa N Dispari Tab. Grado di istruzione di due popolazioni AeB A B xi ni N i Pos. fi Fi ni Ni Pos. fi Fi N.L. 30 30 1 30 0.30 0.30 3 3 1 3 0.03 0.03 L.E. 30 60 31 60 0.30 0.60 3 6 4 6 0.03 0.06 L.M. 33 93 61 93 0.34 0.94 33 39 7 39 0.34 0.40 L.S. 3 96 94 96 0.03 0.97 30 69 40 69 0.30 0.70 L. 3 99 97 99 0.03 1 30 99 70 99 0.30 1 Tot. 99 1 99 1 1. N = 99 (dispari) 2. Posizione N2+1 = 99+12 = 50o 3. Si cerca, nella colonna posizioni, la 50o unità e si individua la modalità associata per le Pop. A e B ovvero: Pop. A ! x0.5 = m = Lic. El. Pop. B ! x0.5 = m = Lic. Sup. oppure, analogamente, 1. N = 99 (dispari) 2. Si cerca, nella colonna frequenza cumulata, dove si trova Fi = 0.50 e si individua la modalità associata per le Pop. rispettivamente A e B e si trova il medesimo risultato. a.a. 2023/24 8/ 24 Mediana: Variabile Qualitativa N Pari C D xi ni Ni Pos. fi Fi ni Ni Pos. fi Fi N.L 30 30 1 30 0.31 0.31 19 19 1 19 0.19 0.19 L.E. 30 60 31 60 0.31 0.62 30 49 20 49 0.31 0.50 L.M 33 93 61 93 0.33 0.95 33 82 50 82 0.33 0.83 L.S. 3 96 94 96 0.03 0.98 11 93 83 93 0.12 0.95 L. 2 98 97 98 0.02 1 5 98 94 98 0.05 1 Tot. 98 1 98 1 1. N = 98 (pari) 2. Posizioni N2 = 982 = 49 o e N2 + 1 = 98 2 + 1 = 50 o 3. Si cerca, nella colonna posizioni, a che modalità sono entrambe associate e si trova che: Pop. C ! x0.5 = m = L.E. Invece, per la pop. D, non essendo uguali le modalità si ha che: Pop. D ! x0.5 = m = non esiste oppure, analogamente 1. N = 98 (pari) 2. Si cerca, nella colonna frequenza cumulata, Fi = 0.50 e 0.51 corrispondenti alle due unità e si trova il medesimo risultato. a.a. 2023/24 9/ 24 Mediana: Variabile Quantitativa continua (classi) 1. Individuazione della classe mediana (cq 1 , cq ) Esempio c i 1 a c i ni N i Pos. 0 a 10 5 5 1 o 5o 10 a 30 8 13 6 o 13o 30 a 60 12 25 14o 25o 60 a 80 10 35 26o 35o Totale 35 I Posizione: N2+1 = 18o I Intervallo Mediano: 30 a 60 2. Individuazione della Mediana esatta nella sua classe ricordando l’ipotesi di Uniforme distribuzione nell’intervallo Mediano a.a. 2023/24 10/ 24 la 18o unità è la 5o unità dell’intervallo 30 a 60 ed è posizionata al centro del 5o intervallino che ha ampiezza dq cq cq 1 60 30 = = = 2.5 nq nq 12 da cui: ✓ ◆ ✓ ◆ dq 1 dq 1 dq x0.5 = 30 + 5 · · = 30 + 5 nq 2 nq 2 nq = 30 + 4.5 · 2.5 = 30 + 11.25 = 41.25 a.a. 2023/24 11/ 24 Mediana caso Quantitativo: N dispari La posizione dell’unità statistica “centrale” si calcola considerando prima tutte le N osservazioni e poi la si “aggiusta” all’interno dell’intervallo Mediano (cq 1 , cq ) ✓ ◆ N +1 Nq 1 2 dove Nq 1 è il numero di unità statistiche che precedono l’intervallo Mediano. La formula della Mediana diventa allora ✓ ◆ N +1 1 dq m = x0.5 = cq 1 + Nq 1 · 2 2 nq ✓ ◆ N dq = cq 1 + Nq 1 · 2 nq a.a. 2023/24 12/ 24 Mediana caso Quantitativo: N Pari La Mediana è la media delle mediane riferite alle due unità statistiche in posizione N2 ed N2 + 1 nell’ordinamento generale. ✓ ◆ N 1 dq x( N ) = c q 1 + Nq 1 · 2 2 2 nq ✓ ◆ N 1 dq x( N +1) = cq 1 + + 1 Nq