Document Details

Uploaded by Deleted User

Maria Simona Andreano

Tags

statistica statistica descrittiva statistica economica contabilità nazionale

Summary

These are lecture notes on introductory statistics, covering basic concepts, graphs, and indices in descriptive statistics, along with an introduction to national accounting and sampling surveys. The notes also include an introduction to probability and random variables.

Full Transcript

Lezione introduttiva Andrea Mazzitelli Statistica descrittiva Statistica descrittiva Concetti e grafici di base Indici di posizione Indici di variabilità Statistica descrittiva Le rilevazioni doppie Rilevazione doppia e tabella a doppia entrata Grafici per le rilevazioni dopp...

Lezione introduttiva Andrea Mazzitelli Statistica descrittiva Statistica descrittiva Concetti e grafici di base Indici di posizione Indici di variabilità Statistica descrittiva Le rilevazioni doppie Rilevazione doppia e tabella a doppia entrata Grafici per le rilevazioni doppie Misura della connessione fra due caratteri Il concetto di indipendenza Statistica descrittiva Cenni di probabilità Cenni sulle variabili casuali Contabilità Nazionale Contabilità nazionale Le prime 10 lezioni del blocco di Statistica economica: rassegna delle principali fonti statistico- economiche; introduzione allo schema SEC della contabilità nazionale. Contabilità nazionale Le informazioni statistiche per l’azienda: Dato statistico, informazioni e “statistiche” Fonte di dati Metadati Impresa Addetto Unità locale Contabilità nazionale Una breve introduzione alle indagini campionarie: L’indagine campionaria e le sue fasi. Popolazione obiettivo, popolazione effettiva, popolazione d’indagine. Selezione del campione. Tecniche di rilevazione. Il questionario. Valutazione dei risultati. Contabilità nazionale Secondo blocco di lezioni (10 lezioni) I conti economici nazionali secondo il sistema SEC 95 e principali differenze rispetto al SEC 2010. I conti della distribuzione e redistribuzione del reddito. La contabilità produttiva disaggregata attraverso la tavola input-output. La tavola input-output come strumento contabile: equazioni di bilancio e dei costi Statistica economica Statistica economica Terzo blocco di lezioni (9 lezioni) I rapporti statistici quale strumento per interpretare e comparare i dati riferiti a fenomeni aziendali. Definizione di rapporto statistico I numeri indici come classe di rapporti statistici: rapporto di composizione; rapporto di coesistenza; rapporto di densità; rapporto di derivazione Statistica economica I Numeri Indici semplici e composti: definizioni, concetti, proprietà L’indice di Laspeyres, l’indice di Paasche, l’indice di Fisher. I Numeri Indici ufficiali dei prezzi. Inflazione e deflazione degli aggregati monetari. Statistica economica Cenni di serie storiche: la statistica economica nell’ambito temporale. L’approccio classico. Approccio moderno (Box-Jenkins). Esercizi di riepilogo di Statistica economica. INTRODUZIONE ALLA STATISTICA Maria Simona Andreano Maria Simona Andreano “Introduzione alla statistica” Indice 1. COSA È LA STATISTICA -------------------------------------------------------------------- 3 2. IL FENOMENO STATISTICO -------------------------------------------------------------- 5 3. POPOLAZIONE E CAMPIONE ------------------------------------------------------------ 7 4. STATISTICA DESCRITTIVA E INFERENZA ------------------------------------- 10 Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 2 di 11 Maria Simona Andreano “Introduzione alla statistica” 1. COSA È LA STATISTICA Sicuramente la definizione più divertente e diffusa della Statistica è quella che ritroviamo nella famosa poesia di Trilussa: Sai ched’è la statistica? E ‘na cosa che serve pe’ fa’ un conto in generale De la gente che nasce, che sta male, che more, che va in carcere e che sposa Ma pe’ me la statistica curiosa È dove c’entra la percentuale pe’ via che, lì, la media è sempre uguale puro co’ la persona bisognosa Me spiego. Da li conti che se fanno secondo le statistiche d’adesso risurta che te tocca un pollo all’anno: e, se nun entra ne le spese tue, t’entra nella statistica lo stesso perché c’è un antro che ne magna due Carlo Alberto Salustri TRILUSSA (1871-1951) Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 3 di 11 Maria Simona Andreano “Introduzione alla statistica” “La Statistica” L’aspetto cruciale della statistica è di essere rivolto alla conoscenza dei fenomeni collettivi e non ai casi individuali specifici. Da qui l’errore interpretativo di Trilussa, che invece analizza il risultato personale. Infatti la parola STATISTICA deriva da Stato. Infatti, lo Stato fu il primo a raccogliere dati e informazioni circa i “fatti che lo riguardavano” per i più disparati motivi: religiosi, militari, sociali, sanitari. Lo studio dei fenomeni collettivi è possibile attraverso l’osservazione della collettività intera di individui, ossia della popolazione. Attraverso gli strumenti analitici statistici è possibile: - Sintetizzare le informazioni con indici, tabelle e grafici; - Validare un modello teorico attraverso osservazione di dati reali; - Quantificare l’incertezza; - Mettere in relazione diversi fenomeni e individuare nessi di casualità. Questi sono solo alcuni tra i principali obiettivi che si pone la Statistica e i suoi ambiti applicativi e teorici sono molti e in continua evoluzione. Alcuni termini statistici sono diventati di uso comune e l’informazione statistica è ovunque: nei giornali, in azienda, nei laboratori, etc. quindi diviene fondamentali essere capaci di applicare e, sopratutto, leggere correttamente tali strumenti. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 4 di 11 Maria Simona Andreano “Introduzione alla statistica” 2. IL FENOMENO STATISTICO Chiameremo fenomeno statistico l’oggetto della nostra analisi. Spesso al posto di utilizzare il termine fenomeno si usa: carattere, variabile di interesse, caratteristica. Questi sono tutti sinonimi tra loro e rappresentano cosa si va concretamente a osservare sulle unità statistiche. Per un corretto studio del fenomeno statistico è innanzi tutto necessario definire e specificare correttamente l’obiettivo conoscitivo. Esso deve essere individuato senza ambiguità, altrimenti tutta l’analisi che ne consegue risulta non valida. Non sempre il passaggio dall’oggetto conoscitivo, che può essere espresso anche in forma astratta, e la definizione del corrispondente fenomeno da rilevare concretamente è immediato. Consideriamo qualche esempio, per chiarire tale passaggio fondamentale. Esempio1: Analizzare l’andamento degli studenti di Universitas Mercatorum (obiettivo conoscitivo). Quale deve essere la caratteristica da osservare? Abbiamo, infatti, diverse variabili di interesse: numero di esami fatti o superati, voto medio, voto di laurea, tempo impiegato per preparare gli esami, etc. Al fine di eseguire senza ambiguità l’analisi sarà necessario specificare tali caratteristiche senza ambiguità, definendo l’a.a. di riferimento, l’anno di corso, il corso di laurea, etc. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 5 di 11 Maria Simona Andreano “Introduzione alla statistica” Esempio2: Conoscere l’andamento del mercato immobiliare a Roma (obiettivo conoscitivo). Quale deve essere la caratteristica da osservare? Abbiamo come variabili di interesse (fenomeno statistico): numero appartamenti venduti o affittati, m2 degli appartamenti, tempo impiegato per vendere/affittare, etc. Anche qui, al fine di individuare senza ambiguità, dobbiamo specificare qual è la tipologia dell’immobile (residenziale, commerciale) che interessa, l’anno o il trimestre di riferimento, la distinzione territoriale (per area nel comune), etc. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 6 di 11 Maria Simona Andreano “Introduzione alla statistica” 3. POPOLAZIONE E CAMPIONE Popolazione: l’insieme degli individui portatori della caratteristica di interesse. Gli individui non necessariamente sono “esseri umani”, ma possono essere macchinari, aziende, immobili, etc. Gli individui vengono più propriamente chiamati unità statistiche. E su tali unità statistiche saranno rilevate (osservate) le caratteristiche definite nell’obiettivo dell’analisi. Se l’indagine non è totale, il fenomeno sarà osservato soltanto su una parte (sottoinsieme) della popolazione. In questo caso parleremo di indagini campionarie. La Popolazione (o il Campione) può essere reale, cioè effettivamente esistente e osservabile, o virtuale, cioè definibile ma non osservabile. Esempi di popolazione reale sono: o Residenti di una certa regione; o Studenti iscritti all’Università di Trento. Esempi di popolazione virtuale sono: o Possibili cinquine su una ruota del lotto; o Possibili risultati in una schedina del totocalcio. La “Teoria dei campioni” è una branca della Statistica che definisce i criteri per la selezione delle unità nella popolazione al fine della formazione del campione. L’unità statistica è l’elemento di osservazione nella popolazione ai fini dell’oggetto dell’indagine statistica. L’unità di rilevazione è, Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 7 di 11 Maria Simona Andreano “Introduzione alla statistica” invece, l’elemento base della rilevazione e spesso non coincide con l’unità statistica. Per esempio nel Censimento della popolazione l’unità di rilevazione è rappresentato dalla “famiglia”, anche se poi l’interesse finale è la raccolta delle informazioni sui singoli individui che compongono la famiglia, e tali individui coincidono con l’unità statistica. Raramente le analisi vengono svolte direttamente sull’osservazione dell’intera popolazione, più spesso si ricorre ad indagini campionarie. Vediamo quali sono i pregi (evidenziati in verde) e i difetti (in rosso) di tali due tipologie di indagini. In particolare notiamo che spesso i pregi di uno rappresentano gli svantaggi dell’altro. Pregi e difetti Popolazione Campione Esaustività Ricchezza informazioni Maggior dettaglio (copertura) Economicità Costi elevati Possibilità ripetizione Lunghi tempi indagine elaborazione Difficoltà a raggiungere Indagini mirate tutti Tempestività Qualità informazioni (?) Errore campionario Minor livello di copertura Selezione campione Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 8 di 11 Maria Simona Andreano “Introduzione alla statistica” Al contrario di quello che si può pensare, il ricorso alla popolazione non necessariamente implica una maggiore qualità dell’informazione. Intesa questa come definita in ambito internazionale, dagli Istituti statistici, dove si richiedono attendibilità, accuratezza, tempestività, periodicità, etc. delle informazioni. Il dettaglio informativo è sicuramente maggiore nel caso delle indagini censuarie, con una copertura territoriale molto dettagliata. D’altro canto però, la costruzione di un campione rappresentativo con una corretta copertura, permette di ricavare più informazioni differenziate, per via dei costi e dei tempi ridotti. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 9 di 11 Maria Simona Andreano “Introduzione alla statistica” 4. STATISTICA DESCRITTIVA E INFERENZA Noi parliamo di Statistica, in realtà esistono diverse Statistiche. Abbiamo detto precedentemente che una branca della Statistica che si occupa della formazione e delle proprietà probabilistiche dei campioni è la Teoria dei campioni. Esistono molte altre sotto-branche della statistica. La distinzione principale è fatta tra: - Statistica descrittiva - Statistica inferenziale La statistica descrittiva La descrittiva si occupa di descrivere e sintetizzare (con tabelle, grafici, indici sintetici, ecc..) le informazioni (qualitative e quantitative) relative ad un certo gruppo di “soggetti” al fine di far emergere caratteristiche, andamenti ed eventuali relazioni che si verificano all’interno del fenomeno analizzato. L’Inferenza La statistica inferenziale utilizza le informazioni raccolte da un’indagine campionaria e le “manipola” (grazie all’utilizzo di opportuni “modelli”) in modo da poter generalizzare le indicazioni tratte dal gruppo (analisi parziale) investigato a tutta la popolazione dalla quale tale gruppo è stato estratto. Mentre gli strumenti della statistica descrittiva permettono di sintetizzare e rappresentare i dati osservati, l’inferenza statistica è un processo induttivo che permette di passare dal particolare (l’indagine Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 10 di 11 Maria Simona Andreano “Introduzione alla statistica” campionaria) al generale (la popolazione da cui è stato estratto il campione). Il passaggio dal campione alla popolazione avviene in condizioni di incertezza, ed è per questo che l’inferenza usa strumenti probabilistici per estendere le informazioni campionarie alla popolazione. Fanno parte della Statistica descrittiva: - la costruzione delle tabelle e dei grafici - il calcolo delle medie - l’analisi della variabilità - le tabelle doppie di contingenza - la retta di regressione Sono invece argomenti tipici dell’inferenza: - il calcolo delle probabilità - le variabili casuali - il teorema del limite centrale - gli stimatori - la stima per intervallo - i test. In realtà argomenti come “la retta di regressione” e “la tabella doppia di contingenza” possono essere studiati soltanto in un contesto descrittivo oppure anche inferenziale. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 11 di 11 CLASSIFICAZIONE DEI FENOMENI STATISTICI Maria Simona Andreano Maria Simona Andreano “Classificazione dei fenomeni statistici” Indice 1. TIPOLOGIA DI FENOMENI E MODALITÀ ------------------------------------------ 3 2. OPERAZIONI SULLE MODALITÀ ------------------------------------------------------ 7 3. ESEMPIO CARATTERE QUALITATIVO --------------------------------------------- 8 4. ESEMPIO CARATTERE QUANTITATIVO ----------------------------------------- 11 5. ESERCIZI ----------------------------------------------------------------------------------------- 14 Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 2 di 14 Maria Simona Andreano “Classificazione dei fenomeni statistici” 1. TIPOLOGIA DI FENOMENI E MODALITÀ I dati a disposizione dello statistico non sono tutti della stessa natura, poiché i fenomeni statistici possono essere di diverso tipo. La caratteristica osservata sulle unità statistiche si può esplicitare in modo diverso e a seconda della sua tipologia sarà possibile condurre analisi diverse sui dati raccolti. La conoscenza della tipologia del fenomeno rappresenta pertanto un primo passo fondamentale nell’analisi statistica. Esiste un ordine nella tipologia dei caratteri rilevati, definito in base all’informazione che se ne può estrarre con il metodo statistico. Nell’ordine più basso sarà possibile effettuare poche operazioni sui dati rilevati e ricavare indicazioni di basso livello informativo, nella parte alta della graduatoria d’ordine ritroviamo invece caratteri a forte contenuto informativo che possono essere gestiti in diversi modi. Riprendiamo alcune definizioni fondamentali per introdurre la classificazione dei fenomeni: - unità statistica = individuo su cui si osserva la caratteristica di interesse - il carattere = è la caratteristica, oggetto di studio, rilevata e/o misurata sulle unità statistiche. Il carattere osservato sull’unità statistica si può esprimere attraverso un attributo o attraverso un numero. Nel primo caso (attributo) parliamo di carattere qualitativo e nel secondo (numero) di carattere quantitativo. Consideriamo il seguente esempio ipotetico, dove su alcuni studenti universitari sono stati osservate diverse caratteristiche: il Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 3 di 14 Maria Simona Andreano “Classificazione dei fenomeni statistici” numero di esami sostenuti (E), il voto riportato negli esami (V), il grado di soddisfazione dello studente (R), il fatto di essere o no fuori sede (F). I dati relativi a cinque unità, specificate con i numeri: 27, 131, 271, 311 e 321, sono riportati nella seguente tabella. Vedremo più avanti che tale modo di elencare i dati unitari, per elenco, è spesso poco efficiente. Tuttavia andiamo a leggere nel dettaglio i dati raccolti: - l’unità individuata con il numero 27 ha sostenuto 2 esami, dove ha riportato le votazioni di 28 e 25, esprime un grado di soddisfazione “Ottimo” ed è uno studente “Fuori sede”. - L’unità individuata con il numero 131 ha sostenuto 1 esame, dove ha riportato la votazione di 29, esprime un grado di soddisfazione “ottimo” ed è “Fuori sede”. -... Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 4 di 14 Maria Simona Andreano “Classificazione dei fenomeni statistici” - Lo studente 321 ha sostenuto 2 esami, entrambi con voto 26 e 25, ha un grado di soddisfazione “Buono”, ed è “Fuori sede”. Possiamo notare che la manifestazione e osservazione dei diversi caratteri analizzati si può esprimere con un numero (esempio numero esami o votazione riportata) o con un attributo (esempio grado soddisfazione e Fuori sede). Nel primo caso abbiamo pertanto due caratteri quantitativi, nel secondo, invece, si sono osservati due caratteri qualitativi. In realtà è possibile fare un’ulteriore specificazione. Infatti il carattere “Grado di soddisfazione” e “Fuori sede” non presentano le stesse proprietà. Nel primo caso è possibile definire un ordine tra i risultati registrati sulle unità statistiche, nel secondo no. Avremo allora che i caratteri qualitativi sono divisi a loro volta in: -caratteri qualitativi sconnessi (non ordinabili, ad esempio: sesso, stato civile, squadra di calcio per cui si tifa); -caratteri qualitativi ordinabili (ad esempio: livello nella professione, grado militare). Allo stesso modo è possibile specificare meglio le proprietà dei caratteri quantitativi. Benché tutti si manifestino attraverso un numero, alcuni caratteri quantitativi assumono soltanto numeri interi come valori osservabili (o in generale un insieme numerabile), altri invece, fissato un intervallo, possono esprimersi potenzialmente attraverso tutti i valori all’interno di tale intervallo. Avremo pertanto che i caratteri quantitativi (misure) possono essere distinti in: Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 5 di 14 Maria Simona Andreano “Classificazione dei fenomeni statistici” - caratteri quantitativi discreti, cioè in grado di assumere solo un numero discreto (finito o infinito) di modalità (ad esempio: numero di figli di una coppia, voto esame universitario); - caratteri quantitativi continui, cioè in grado di assumere qualunque valore all’interno di un intervallo definito (ad esempio: peso, reddito). Il modo in cui il carattere si manifesta sulla singola unità statistica è detto “modalità”. Riprendendo la tabella precedente abbiamo, per esempio, che il carattere “Soddisfazione” si manifesta con le modalità: Ottimo, Buono e Sufficiente. A seconda quindi della tipologia del carattere, le modalità saranno attributi o numeri, ordinabili o non ordinabili, discreti o continui. Schematizzazione dei differenti mo- Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 6 di 14 Maria Simona Andreano “Classificazione dei fenomeni statistici” 2. OPERAZIONI SULLE MODALITÀ A ciascuna tipologia di carattere, e quindi di modalità, corrispondono diverse operazioni applicabili. Per esempio, nel caso di un carattere qualitativo nominale (non ordinabile) si può esprimere soltanto un parere di uguaglianza-disuguaglianza. Nel caso il carattere, benché qualitativo, sia almeno ordinabile, sarà possibile invece esprimere un confronto “maggiore - minore”. Se infine abbiamo caratteri quantitativi, il confronto si può esplicitare attraverso la misurazione della differenza o del rapporto tra modalità. La seguente tabella riassume le differenti operazioni che possono applicarsi sulle varie tipologie di caratteri. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 7 di 14 Maria Simona Andreano “Classificazione dei fenomeni statistici” 3. ESEMPIO CARATTERE QUALITATIVO Consideriamo il seguente esempio esplicativo, riferito a un carattere qualitativo. Su 4 studenti (unità statistiche) di Universitas Mercatorum si è osservato il carattere “Comune di residenza”: Studente Comune Lucia Anzio Marco Roma Luca Roccaraso Matteo Roma La modalità del carattere è espressa con un attributo e non con un numero: il carattere è qualitativo. Lucia, Luca, etc. sono le nostre unità. Possiamo anche evitare di trascriverne il nome e riportarne un numero identificativo in sequenza. Il carattere osservato è: Comune di residenza e le modalità, ossia il modo di manifestarsi del carattere, sono Anzio, Roma, etc. Su tali modalità possiamo soltanto applicare operazioni di = e ≠ (carattere qualitativo sconnesso). Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 8 di 14 Maria Simona Andreano “Classificazione dei fenomeni statistici” Nello specifico possiamo affermare che: - Il comune di residenza di Lucia è diverso (≠) da quello di Marco. - Il comune di residenza di Marco è uguale (=) a quello di Matteo. Non è invece possibile definire un ordine nelle modalità e neanche calcolare “quanto” siano diverse. Consideriamo il seguente secondo esempio. Supponiamo che su 5 persone intervistate per strada (unità statistiche) sia stato chiesto il titolo di studio posseduto e i risultati sono presentati nella seguente tabella: Unità statistica Titolo 1a media inf 2a diploma 3a media inf 4a laurea 5a elementare Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 9 di 14 Maria Simona Andreano “Classificazione dei fenomeni statistici” Anche in questo caso la modalità del carattere è espressa con un attributo e non con un numero, quindi abbiamo a che fare con un carattere qualitativo. Tuttavia in questo caso tra le modalità possiamo applicare sia operazioni di uguaglianza e disuguaglianza, che di ordine. Ossia è possibile esprime se una modalità si trova prima o dopo di un’altra, nella rispettiva graduatoria di riferimento. Abbiamo allora che il carattere è qualitatico ordinabile. Riprendendo la tabella possiamo allora dire che: - La 4a unità ha il titolo più alto (>); - La 5a unità ha il titolo più basso ( 60 4 Tota 15 le Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 10 di 12 Maria Simona Andreano “Le distribuzioni di frequenza” L'ultima classe, per comodità, è lasciata aperta. Potevamo invece mettere 60-90 o altro limite superiore, in base ai valori osservati. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 11 di 12 Maria Simona Andreano “Le distribuzioni di frequenza” 4. ESERCIZI 1. A 20 clienti di una banca è stato chiesto il grado di soddisfazione del servizio fornito. Questi sono i risultati (IN=insufficiente, S=sufficiente, B=buono, O=ottimo): S S O B B IN S IN O O B S S S B S O O B IN Costruire la tabella di frequenze. 2. Su 150 utenti di un gestore telefonico si è rilevato il numero di ore settimanali consumate. I dati sono stati raccolti nella seguente tabella di frequenze: Classi di consumi (in ore settimanali) 10-20 20 0-10 30 >50 40 20-50 50 tot 150 Individuare gli errori presenti nella costruzione di tale tabella. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 12 di 12 LE DIVERSE TIPOLOGIE DI FREQUENZA Maria Simona Andreano Maria Simona Andreano “Le diverse tipologie di frequenza” Indice 1. LE FREQUENZE RELATIVE E PERCENTUALI ---------------------------------- 3 2. LE FREQUENZE CUMULATE------------------------------------------------------------- 6 3. ESEMPIO DI FREQUENZE RELATIVE, PERCENTUALI E CUMULATE ---------------------------------------------------------------------------------------------------------- 8 4. ESERCIZI ----------------------------------------------------------------------------------------- 10 Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 2 di 10 Maria Simona Andreano “Le diverse tipologie di frequenza” 1. LE FREQUENZE RELATIVE E PERCENTUALI Le frequenze semplici che portano alla costruzione della distribuzione di frequenza si determinano semplicemente facendo il “conteggio” delle unità che presentano una particolare modalità Consideriamo il seguente esempio: Abbiamo rilevato su 350 studenti il numero di esami sostenuti nell'anno in corso. I dati unitari sono riportati di seguito (esempio Iacus, cap. 2): 3, 1, 3, 1, 3, 1, 1, 3, 2, 2, 1, 3, 2, 1, 1, 2, 0, 2, 1, 1, 1, 3, 2, 1, 1, 1, 1, 1, 0, 2, 0, 0, 1, 3, 2, 2, 2, 2,.... L'utilizzo della distribuzione di frequenza ci permette una rappresentazione sintetica dell'insieme di dati. Andando a interpretare e leggere tali dati, possiamo affermare, per esempio, che 45 studenti non hanno sostenuto esami. Tuttavia Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 3 di 10 Maria Simona Andreano “Le diverse tipologie di frequenza” questo dato ha un significato diverso se si riferisce ad un totale di 45 studenti (quindi la totalità), a 90 studenti oppure a 1000 studenti. Vediamo quindi che può essere utile guardare non solo la frequenza come valore assoluto, ma anche in termini “relativi” al totale. Allora avremo che: - 45 su 350 studenti non hanno fatto esami - 36 su 350 hanno fatto tre esami - 45/350 = 0.13 = frequenza relativa (relativa al Totale!) - 45/350 * 100 = 13 = frequenza percentuale Quando la frequenza viene rapportata al totale otteniamo la frequenza relativa. Ai fini interpretativi è tuttavia più immediato trasformare tale frequenza in percentuale, semplicemnte moltiplicando per 100% il valore ottenuto precedentemente. In questo caso abbiamo la frequenza percentuale. Il calcolo di tali frequenze è semplice e immediato, come si evince dai seguenti dati riportati nella tabella. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 4 di 10 Maria Simona Andreano “Le diverse tipologie di frequenza” Notiamo tuttavia che benchè le frequenze relative e percentuali permettano di cogliere meglio il modo di distribuirsi del carattere, tali frequenze perdono una informazione fondamentale: la numerosità delle osservazioni. In effetti questa informazione ha un grande peso ai fini delle analisi statistiche. Infatti la robustezza del risultato è condizionato dalla numerosità delle osservazioni. Un conto è un 13% di studenti che non ha sostenuto esami che si riferisce a 40 osservazioni e un altro se basato su 1000 osservazioni! Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 5 di 10 Maria Simona Andreano “Le diverse tipologie di frequenza” 2. LE FREQUENZE CUMULATE Esistono altre tipologie di frequenze, strettamente legate a quelle appena introdotte: le frequenze cumulate. Tali frequenze cumulate servono a rispondere a domande del tipo: Quanti studenti hanno dato meno di 2 esami? Le frequenze cumulate possono calcolarsi per caratteri ordinabili (almeno qualitativi ordinabili) e possono determinarsi rispetto alle frequenze assolute, relative o percentuali. Come la parola stessa ci dice, per calcolare le frequenze cumulate dobbiamo “cumulare”, che in termini matematici equivale a “sommare”. Riprendiamo i dati visti precedentemente, sugli esami sostenuti, abbiamo: Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 6 di 10 Maria Simona Andreano “Le diverse tipologie di frequenza” Xi ni fi pi Ni Fi Pi 0 45 0.13 13% 45 0.13 13% 1 136 0.39 39% 181 0.52 52% 2 133 0.38 38% 314 0.90 90% 3 36 0.10 10% 350 1.00 100% 350 1 100% - 136 studenti hanno fatto 1 esame (ni). - 181 studenti hanno fatto al massimo 1 esame (Ni). - il 52% degli studenti ha fatto al massimo 1 esame (Pi). Vedete che l’interpretazione di queste frequenze è diversa da quella che potevamo ricavare dalle frequenze semplici. Un altro modo di leggere le frequenze cumulate fa riferimento all’ordine delle osservazioni. Se pensiamo di ordinare tutti gli studenti (mettendoli in fila) in base al numero di esami sostenuti, avremo allora che: - dal 1° al 45-esimo abbiamo studenti con 0 esami; - dal 46-esimo al 181-esimo abbiamo studenti con 1 esame - e così via. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 7 di 10 Maria Simona Andreano “Le diverse tipologie di frequenza” 3. ESEMPIO DI FREQUENZE RELATIVE, PERCENTUALI E CUMULATE Vediamo con un esempio come calcolare le diverse frequenze introdotte nella lezione e quale uso se ne può fare. Su 246 lavoratori è stato rilevato il numero di giorni di malattia presi nell'ultimo mese. I dati sono riportati nella seguente tabella Xi ni 0 35 1 51 2 122 3 38 Totale 246 - Calcolare le frequenze relative e percentuali. - Quanti sono, in assoluto e in percentuale, i lavoratori che hanno preso al massimo 2 giorni di malattia? - Quanti sono i lavoratori che hanno preso più di 1 giorni di malattia? Per rispondere alla seconda domanda è necessario calcolare le frequenze assolute e percentuali cumulate: Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 8 di 10 Maria Simona Andreano “Le diverse tipologie di frequenza” Xi ni Ni pi Pi 0 35 35 14 14 1 51 35 + 51=86 21 14+21=35 2 113 35+51+113=199 46 14+21+46=81 3 47 35+...+47=246 19 14+...+19=100 246 100 - Quanti sono, in assoluto e in percentuale, i lavoratori che hanno preso al massimo 2 giorni di malattia? 35 + 51 + 113 = 199 (Fr. assoluta cumulata) 14+21+46=81% (Freq. percentuale cumulata) - Quanti sono i lavoratori che hanno preso più di 1 giorni di malattia? 246 – 86 = 160 100 – 35 = 65% Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 9 di 10 Maria Simona Andreano “Le diverse tipologie di frequenza” 4. ESERCIZI 1. Sia data la seguente tabella di frequenze dell’età dei ricercatori di una università italiana: Età Freq. assolute 25-30 20 30-40 500 40-50 300 50-65 380 1200 Calcolare le frequenze relative e percentuali di tale tabella. Quanti sono, in percentuale, i ricercatori con al massimo 40 anni? Quanti sono in valore assoluto i ricercatori che sono oltre 15 anni dalla pensione? Rispondere alle seguenti domande: 1. E’ possibile ricavarsi le frequenze assolute da quelle percentuali? 2. E’ possibile ricavarsi le frequenze percentuali da quelle relative? 3. E’ possibile ricavarsi le frequenze assolute semplici dalle frequenze assolute cumulate? (Risposte: no, si, si) Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 10 di 10 ESERCITAZIONE SULLE FREQUENZE Maria Simona Andreano Maria Simona Andreano “Esercitazione sulle frequenze” Indice 1. ESERCIZIO 1 SULLE FREQUENZE ---------------------------------------------------- 3 2. ESERCIZIO 2 SULLE FREQUENZE ---------------------------------------------------- 6 Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 2 di 8 Maria Simona Andreano “Esercitazione sulle frequenze” 1. ESERCIZIO 1 SULLE FREQUENZE In 500 aziende agricole situate in una provincia pugliese è stata rilevata la tipologia di piantagione prevalente. I dati sono riportati nella seguente tabella: Xi ni Ulivi 210 Vigneti 80 Alberi da frutto 40 Grano 170 Totale 500 a) Calcolare le frequenze relative e percentuali per i dati riportati in tabella. b) Può avere senso calcolare le frequenze cumulate per la distribuzione data? c) Che percentuale di copertura ha la piantagione più diffusa sul territorio? Riprendiamo innanzi tutto le formule per calcolare le frequenze relative e percentuali: Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 3 di 8 Maria Simona Andreano “Esercitazione sulle frequenze” Applichiamo tali formule ai dati della tabella e completiamo i calcoli per determinare la colonna delle frequenze relative e quella delle frequenze percentuali. Xi ni fi pi Ulivi 210 210/500=0.42 0.42100=42 Vigneti 80 80/500= 0.16 0.26100=26 Alberi da 40 40/500= 0.08 0.08100=8 frutto Grano 170 170/500=0.34 0.34100=34 Totale 500 1 100 Può avere senso calcolare le frequenze cumulate per la distribuzione data? Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 4 di 8 Maria Simona Andreano “Esercitazione sulle frequenze” Ricordiamo che le frequenze cumulate sono ricavate semplicemente da quelle normali, sommando, mano a mano che si avanza nelle modalità. Ovviamente può aver senso calcolare tali frequenze cumulate soltanto se l’ordine con cui si riportano le modalità è predefinito, altrimenti avremmo delle frequenze cumulate che cambiano a seconda della sequenza scelta. Quindi requisito necessario per calcolare le frequenze cumulate è che il carattere sia “almeno” ordinabile. Nel nostro caso il carattere è qualitativo sconnesso, pertanto non è possibile determinare le frequenze cumulate. Che percentuale di copertura ha la piantagione più diffusa sul territorio? Per rispondere a tale risposta si deve individuare il massimo di frequenza e vedere quale modalità gli corrisponde. Notiamo in particolare che la modalità con massimo di frequenza è la stessa, sia se si guarda alla frequenza assoluta, relativo che percentuale. Questo perchè le seconde sono ricavate dalle precedenti per divisione o moltiplicazione con una costante e quindi il massimo rimane inalterato. Avremo allora che la risposta alla domanda è: Il 42% e si riferisce agli "Ulivi". Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 5 di 8 Maria Simona Andreano “Esercitazione sulle frequenze” 2. ESERCIZIO 2 SULLE FREQUENZE Nella seguente tabella è riportato il numero degli addetti nelle aziende ICT del comune ABC: Xi ni 1-5 25 5-10 19 10-20 20 > 20 6 Totale 70 a) Calcolare le frequenze relative e percentuali della tabella. b) Quante sono, in termini assoluti e percentuali, le aziende ICT con al massimo 20 addetti? c) E con massimo 10 addetti? Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 6 di 8 Maria Simona Andreano “Esercitazione sulle frequenze” Calcoliamo le frequenze relative e percentuali con le solite formule introdotte nelle slide precedenti: Xi ni fi pi 1-5 25 25/70 = 0.36 è0.35 0.35100=35 5-10 19 19/70 = 0.27 0.27100=27 10-20 20 20/70 = 0.29 0.29100=29 > 20 6 6/70 = 0.09 0.09100=9 Totale 70 1 100 Per rispondere agli altri quesiti è necessario calcolare le frequenze cumulate. Riportiamo quindi nella seguente tabella tutte le frequenze richieste: Xi ni Ni pi Pi 1-5 25 25 35 35 5-10 19 25+19=44 27 35+27= 62 10-20 20 25+19+20=64 29 35+27+29= 91 > 20 6 25+...+6=70 9 35+...+9=100 Totale 70 100 Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 7 di 8 Maria Simona Andreano “Esercitazione sulle frequenze” Ricordiamo che con la lettera maiuscula si indica la frequenza cumulata e con quella minuscola quella normale. Possiamo a questo punto rispondere alla seguente domanda. Quante sono, in termini assoluti e percentuali, le aziende ICT con al massimo 20 addetti? Sono 64, in termini assoluti, che rappresentano il 91% del totale E con massimo 10 addetti? Sono 44 aziende, che rappresentano il 62% del totale. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 8 di 8 RAPPRESENTAZIONI GRAFICHE Maria Simona Andreano Maria Simona Andreano “Rappresentazioni grafiche” Indice 1. INDICAZIONI DI BASE PER I GRAFICI --------------------------------------------- 3 2. GRAFICI PER CARATTERI QUALITATIVI SCONNESSI --------------------- 5 3. GRAFICI PER CARATTERI QUALITATIVI ORDINATI ----------------------- 8 4. GRAFICI PER CARATTERI QUANTITATIVI DISCRETI ------------------- 11 Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 2 di 12 Maria Simona Andreano “Rappresentazioni grafiche” 1. INDICAZIONI DI BASE PER I GRAFICI Le distribuzioni di frequenza sono un ottimo strumento di sintesi dei dati osservati e permettono di organizzare in modo leggibile i dati rilevati. Tuttavia spesso la loro capacità "comunicativa" non è immediata e l’impatto visivo non è ottimale, E’ per questo che è sempre utile affiancare la tabella con una sua rappresentazione grafica, che riesce a mostrare meglio l’andamento del fenomeno. Il grafico non è altro che una maniera diversa di esprimere in forma sintetica l'andamento dei dati, i cui valori sono esplicitati nella distribuzione di frequenza. E’ necessario fare attenzione ad usare il grafico appropriato a seconda della tipologia del carattere analizzato. L’uso corretto dei grafici permetterà di evidenziare in maniera ottimale le informazioni disponibili nei dati. La costruzione di un grafico per caratteri qualitativi sconnessi su dati di un carattere quantitativo non permetterà di evidenziarne tutte le proprietà. Non esistono regole fisse per la costruzione e per la scelta del grafico ma si possono dare semplici consigli, affinché la rappresentazione sia la più chiara ed intuitiva possibile. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 3 di 12 Maria Simona Andreano “Rappresentazioni grafiche” E’ buona regola che un grafico contenga: Titolo con l’esatto contenuto del grafico con l’indicazione dei caratteri riportati in Assi essi Legenda per la comprensione del grafico Unità di misura in cui sono espressi i caratteri Fonte dei dati E’ inoltre buona prassi evitare di costruire i grafici senza farsi abbandonare troppo alla fantasia. Infatti il grafico è uno strumento statistico e non artistico. Presentiamo qui una breve rassegna delle varie tipologie dei grafici disponibili in letteratura, associandoli alla tipologia di carattere più appropriato. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 4 di 12 Maria Simona Andreano “Rappresentazioni grafiche” 2. GRAFICI PER CARATTERI QUALITATIVI SCONNESSI Un carattere qualitativo sconnesso può essere rappresentato graficamente in diversi modi, tra cui: - rappresentazione tramite rettangoli - grafici a torta - rappresentazione tramite figure Nel caso della rappresentazione tramite rettangoli, si disegnano in corrispondenza di ciascuna modalità dei rettangoli di stessa base e altezza proporzionale alle frequenze. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 5 di 12 Maria Simona Andreano “Rappresentazioni grafiche” Tali rettangoli possono essere disegnati anche in senso orizzontale, in quel caso le modalità saranno elencate nell’asse delle y e le frequenze sull’asse delle x. Probaabilmente il grafico più diffuso per rappresentare i caratteri qualitativi sconnessi è dato dal “Grafico a torta”. In questo caso si costruisce un cerchio, i cui settori circolari (α) hanno ampiezza proporzionale alle frequenze (α= fi * 360°) Infine consideriamo i grafici con figure: si sceglie una figura per rappresentare l'unità di misura e si rappresentano le modalità riportando un numero di figure proporzionale alle frequenze osservate. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 6 di 12 Maria Simona Andreano “Rappresentazioni grafiche” Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 7 di 12 Maria Simona Andreano “Rappresentazioni grafiche” 3. GRAFICI PER CARATTERI QUALITATIVI ORDINATI Se il carattere è qualitativo ordinabile si possono usare comunque le rappresentazioni grafiche viste precedentemente, ma è necessario qualche accorgimento per assicurare che l'ordine sia rispettato. In questo caso si sconsiglia di usare il grafico a torta, poichè fuorviante, in quanto il cerchio non prevede la possibilità di ordinare le modalità. L'ordine delle modalità permette più correttamente di evidenziare l'andamento del fenomeno. Consideriamo un esempio per comprendere meglio la costruzione del grafico a rettangoli nel caso in oggetto. Supponiamo di aver rilevato il carattere “livello di scolarità”. Si tratta di un carattere qualitativo misurabile su scala ordinale, e le modalità con cui si presenta il fenomeno sono k=4: Analfabeta, Obbligo, Superiore, Laurea Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 8 di 12 Maria Simona Andreano “Rappresentazioni grafiche” Scolarità ni A 2 O 6 S 8 L 4 Totale 20 Andiamo a rappresentare tala tabella con un grafico a rettangoli, dove riportiamo sulla base le modalità, seguendo l’ordine implicito del carattere. I rettangoli sono costruite in modo tale che la base corrispondente alle modalità sia fissa, mentre l’altezza è proporzionale alle frequenze osservate. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 9 di 12 Maria Simona Andreano “Rappresentazioni grafiche” Il grafico permette di evidenziare l’evoluzione nel fenomeno all’aumentare del titolo scolastico. I rettangoli possono essere affiancati l’uno all’altro oppure distanziati. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 10 di 12 Maria Simona Andreano “Rappresentazioni grafiche” 4. GRAFICI PER CARATTERI QUANTITATIVI DISCRETI Il grafico più adatto a descrivere i caratteri quantitativi discreti è il "grafico a barre". Tale grafico è molto simile al grafico a rettangoli, dove però le frequenze sono rappresentate soltanto da un segmento lineare. Il grafico viene disegnato quindi su un piano cartesiano, dove sull'asse orizzontale si riportano le modalità – discrete – del carattere, e sull'asse verticale le rispettive frequenze. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 11 di 12 Maria Simona Andreano “Rappresentazioni grafiche” La barra è disegnata soltanto in corrispondenza del valore puntuale del carattere, per mettere in evidenza che questo è discreto. Nel caso rappresentato nella figura, il carattere può assumere soltanto i valori 0, 1, 2 e 3. Se erroneamente avessimo disegnato un grafico a rettangoli, le modalità sarebbero state degli intervalli, corrispondenti alle basi dei rettangoli stessi. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 12 di 12 L'ISTOGRAMMA Maria Simona Andreano Maria Simona Andreano “L'istogramma” Indice 1. L’AMPIEZZA E LA DENSITÀ DI CLASSE -------------------------------------------- 3 2. RAPPRESENTAZIONE TRAMITE ISTOGRAMMA------------------------------- 5 3. ESERCIZI ------------------------------------------------------------------------------------------- 8 Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 2 di 8 Maria Simona Andreano “L'istogramma” 1. L’AMPIEZZA E LA DENSITÀ DI CLASSE I caratteri quantitativi continui sono rappresentati tramite tabelle con modalità espresse in classi. I grafici usati per i caratteri qualitativi o quantitativi discreti non possono essere usati automaticamente sui dati continui. La presenza delle classi richiede alcune accortezze. Innanzi tutto, al fine della costruzione del grafico, è fondamentale tener conto dell'ampiezza della classe (ai): ai  wi1  wi Le distribuzioni  di caratteri continui possono avere classi con ampiezza differente. L’ampiezza della classe può essere definita a priori dalla rilevazione oppure può essere scelta arbiatrariamente dal ricercatore, in base ai dati raccolti. Di fatto abbiamo che se un intervallo ha ampiezza maggiore, sarà più facile contare osservazioni che cadono in quell’intervallo e quindi osservare una frequenza maggiore di un intervallo meno ampio. Ossia le frequenze riportate nella tabella sono condizionate dalla diversa ampiezza degli intervalli. Nelle rappresentazioni grafiche abbiamo però l’esigenza di avere assicurata una proporzionalità tra le aree e le frequenze. Pertanto nel caso in oggetto sarà necessario effettuare un’operazione di normalizzazione delle frequenze. In particolare, per depurare le frequenze dalla diversa ampiezza delle classi si devono calcolare le densità di frequenza (li) ni li  ai Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633)  Pag. 3 di 8 Maria Simona Andreano “L'istogramma” Il significato della densità di frequenza è quello di dire quanto le mie osservazioni sono “addensate” all’interno della classe. E’ come si le osservazioni venissero distribuite equamente all’interno della classe. Per esempio, supponiamo di avere un intervallo 5-8 e al suo interno osserviamo 6 unità (frequenza assoluta ni=6). Noi non sappiamo queste 3 unità dove si posizionano all’interno dell’intervallo. Quando calcoliamo la densità: li = 6/3 = 2, distribuiamo le 6 unità all’interno della classe e posizioniamo tali unità in modo tale che ogni sotto-intervallo di ampiezza 1 abbia 2 unità. La densità di frequenza ci dice pertanto come si distribuiscono le frequenze all'interno dell'intervallo. L'ipotesi è quella di equidistribuzione. Consideriamo la seguente tabella e calcoliamo le densità. Le densità di frequenza possono calcolarsi per qualsiasi tipologia di frequenza (semplice, relativa o percentuale). Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 4 di 8 Maria Simona Andreano “L'istogramma” 2. RAPPRESENTAZIONE TRAMITE ISTOGRAMMA Nella costruzione dell'istogramma è fondamentale che le aree dei rettangoli rispettino le proporzioni tra le frequenze osservate. Se un intervallo ha una frequenza doppia rispetto ad un altro, anche la rispettiva area deve essere doppia. Se noi andassimo a disegnare un grafico a rettangoli, prendendo come base la classe e come altezza la frequenza, tale proporzionalità non sarebbe rispettata. Al fine di rispettare tali proporzionalità è necessario calcolare le densità di frequenze e costruire l'istogramma rispetto a queste. L'istogramma è simile al diagramma a rettangoli visto per caratteri qualitativi, solo che la base corrisponde all'intervallo osservato. Ogni rettangolo associato al rispettivo intervallo, deve avere l'area uguale alla frequenza osservata. L'area del rettangolo è data da base x altezza, dove la base è l'ampiezza dell'intervallo. Vadiamo quindi che considerando nel rettangolo l’altezza pari alla densità, la corrispondenza tra area e frequenza è rispettata. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 5 di 8 Maria Simona Andreano “L'istogramma” Se invece riportiamo sull’asse delle ordinate le frequenze direttamente osservate in corrispondenza delle classi, la rappresentazione sarebbe errata, come messo in evidenza dai seguenti due istogrammi, costruiti in corrispondenza dei dati riportati nella precedente tabella. Il primo istogramma considera sulle ordinate le frequenze. Se prendiamo i primi due intervalli, abbiamo che il secondo presenta il doppio delle osservazioni del primo. Se andiamo a fare però il confronto in termini di rettangoli, il primo ha un’area pari a 30 (=10  3) e il secondo pari a 48 (=8  6). Quando invece disegnamo l’istogramma in riferimento alle densità di frequenze, il primo rettangolo ha un’area pari a 3 (=10  0.3) e il secondo pari a 6 (=8  0.75). In questo secondo caso è rispettata la corrispondenza tra frequenze. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 6 di 8 Maria Simona Andreano “L'istogramma” Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 7 di 8 Maria Simona Andreano “L'istogramma” 3. ESERCIZI 1. Calcolare per la seguente tabella le ampiezze e le densità di frequenza: Xi ni 0 - 10 50 10 - 50 80 50 - 100 200 100-500 180 2. Disegnare per tale tabella il rispettivo istogramma e controllare che effettivamente l’area della classe 50-100 sia 4 volte quella della classe 0-10. 3. Si può disegnare un istogramma per caratteri quantitativo discreti? 4. Possiamo disegnare per la tabella riportata sopra il grafico a torta? Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 8 di 8 ESERCITAZIONE SULLE RAPPRESENTAZIONI GRAFICHE Maria Simona Andreano Maria Simona Andreano “Esercitazione sulle rappresentazioni grafiche” Indice 1. ESEMPIO GRAFICO A TORTA ----------------------------------------------------------- 3 2. ESEMPIO ISTOGRAMMA ------------------------------------------------------------------- 6 Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 2 di 11 Maria Simona Andreano “Esercitazione sulle rappresentazioni grafiche” 1. ESEMPIO GRAFICO A TORTA Consideriamo la seguente distribuzione dell’uso del suolo (APAT, 2003): Aree Aree Aree boschive e artificiali agricole seminaturali Altro ITALIA 1273 16174 12406 361 Il diagramma a torte si ottiene dividendo l’angolo al centro di 360 gradi, in “fette” di dimensione proporzionale alla frequenza di ciascuna modalità. Nell’esempio, la modalità “aree agricole”, ha frequenza percentuale pari al 53,53%. Vediamo come fare per ricavarsi l’angolo che mi definisce la sezione corrispondente a tale modalità. La corrispondente fetta della torta è caratterizzata da un angolo α di: 360 53,53   193 100 La soluzione precedente  si ricava facendo riferimento alle proporzioni. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 3 di 11 Maria Simona Andreano “Esercitazione sulle rappresentazioni grafiche” Infatti il totale del cerchio, pari a 360°, corrisponde al totale delle frequenze, ossia al 100% (se abbiamo frequenze percetuali, altrimenti al corrispondente totale assoluto o relativo). Quindi abbiamo che il grado α sta al totale di 360°, come la frequenza pi sta al corrispondere totale di 100%. In formule avremo quindi:  : 360  pi :100 Nel nostro caso specifico, quindi, avremo in corrispondenza   : 360  53,53:100 agricole”: della frequenza delle “aree Da cui con semplici passaggi matematici ricaviamo:  360 53,53   193 100 In generale possiamo quindi applicare la seguente formula, a  seconda che il grafico a torta sia calcolato in corrispondenza delle frequenze percentuali, relative o assolute: 360 pi 360 ni   360 f i  100 n  Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 4 di 11 Maria Simona Andreano “Esercitazione sulle rappresentazioni grafiche” Abbiamo quindi: AREE ni pi α Aree artificiali 1273 4,21 15,17 Aree agricole 16174 53,53 192,71 Aree boschive o 12406 41,06 147,82 seminaturali Altro 361 1,19 4,30 Il rispettivo grafico è riportato di seguito: Uso del Suolo 1,19% 4,21% 41,06% 53,53% Aree artificiali Aree agricole Aree boschive e seminaturali Altro Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 5 di 11 Maria Simona Andreano “Esercitazione sulle rappresentazioni grafiche” 2. ESEMPIO ISTOGRAMMA Consideriamo la seguente distribuzione dei redditi (espressi in migliaia di euro) di 160 redditieri: Classi ni 50-60 10 60-70 12 70-80 18 80-90 46 90-100 50 100-110 24 160 In questo caso abbiamo che le ampiezze delle classi sono tutte uguali e pari a 10. In teoria in tale situazione, non avendo che le frequenze sono influenzate dalle ampiezze delle classi, l’istogramma può essere determinato considerando direttamente le frequenze osservate. Se l’istogramma viene calcolato rispetto alle frequenze, l’area dei rettangoli non equivale alla frequenza, ma sarà comunque proporzionale a questa. Pertanto viene rispettata la relazione di proporzionalità tra le varie classi. Per non creare confusione, anche in questo caso noi costruiamo l’istogramma ricorrendo alle densità di frequenza: Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 6 di 11 Maria Simona Andreano “Esercitazione sulle rappresentazioni grafiche” ni li  ai Dove ai è fissa e pari a 10.  Le densità di frequenze sono calcolate in una colonna a destra delle frequenze: Classi ni li = ni/ai 50-60 10 1 60-70 12 1,2 70-80 18 1,8 80-90 46 4,6 90-100 50 5,0 100-110 24 2,4 160 L’istogramma determinato sulla base delle densità è riposrtato di seguito: Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 7 di 11 Maria Simona Andreano “Esercitazione sulle rappresentazioni grafiche” Istogramma di frequenza 6 Altezze o densità di frequenza h 5 4 3 2 1 0 50-60 60-70 70-80 80-90 90-100 100-110 Classi Calcoliamo l’area della prima classe e della terza classe: base  altezza = ai  li = 10  1 = 10 base  altezza = ai  li = 10  1,2 = 12 L’area corrisponde alle frequenze osservate. Consideriamo ora il seguente esercizio, sempre riferito all’istogramma. Si consideri la distribuzione dei bambini in età prescolare presso un pediatra di base Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 8 di 11 Maria Simona Andreano “Esercitazione sulle rappresentazioni grafiche” Classi ni 0-1 10 1-6 20 Totale 30 In questo caso le classi sono di diversa ampiezza, quindi non possiamo lascaire le frequenze ai fini della rappresentazione grafica. Infatti se, erroneamente, determinassimo l’istogramma sui valori direttamente riportati nella tabella, avremmo il seguente istogramma: Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 9 di 11 Maria Simona Andreano “Esercitazione sulle rappresentazioni grafiche” Calcolando le aree abbiamo: base  altezza = ai  fi = 1  10 = 10 base  altezza = ai  fi = 5  20 = 100 Abbiamo pertanto che la seconda area è 10 volte la prima, mentre in termini di frequenze osservate, la seconda classe ha frequenze che sono 2 volte la prima!!!! Sappiamo invece che: - Negli istogrammi deve esistere corrispondenza tra l’area dell’intervallo e la rispettiva frequenza (assoluta o relativa). - La densità di frequenza permette di rispettare tale proporzionalità. - Se si calcola l'area dei rettangoli per ogni intervallo (base x altezza), questa equivale esattamente alla rispettiva frequenza osservata. Calcoliamo allora le densità: ni n li   i wi1  wi ai  Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 10 di 11 Maria Simona Andreano “Esercitazione sulle rappresentazioni grafiche” e sulla base di queste determiniamo l’istogramma corretto: Classi ni wi+1–wi li 0-1 10 1 10 1-6 20 5 4 Totale 30 Adesso abbiamo che la proporzionalità tra le frequenze è rispettata nel grafico. Infatto guardando le aree abbiamo: base  altezza = ai  li = 1  10 = 10 base  altezza = ai  li = 5  4 = 20. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 11 di 11 INTRODUZIONE ALLE MEDIE Maria Simona Andreano Maria Simona Andreano “Introduzione alle Medie” Indice 1. CONCETTI BASILARI SULLA MEDIA ------------------------------------------------ 3 2. LE MEDIE DI POSIZIONE ------------------------------------------------------------------ 5 3. LA MODA ------------------------------------------------------------------------------------------- 7 4. ESERCIZI ----------------------------------------------------------------------------------------- 11 Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 2 di 11 Maria Simona Andreano “Introduzione alle Medie” 1. CONCETTI BASILARI SULLA MEDIA I primi passi per organizzare e sintetizzare una serie di dati sono quelli della costruzione di una tabella di frequenze e di rappresentarla con un opportuno grafico. In questo modo è possibile avere una più immediata e facile comprensione dell’andamento del fenomeno analizzato. Scopo principale della statistica è, tuttavia, quello di cercare di sintetizzare con degli opportuni indici, l’andamento globale del fenomeno, in modo di passare da un’informazione unitaria ad una sintetica. Osservando il grafico di una particolare distribuzione, viene naturale pensare di descriverne alcune caratteristiche attraverso degli indici sintetici. Esistono molti indici sintetici, che rispondono a diverse esigenze conoscitive. L’uso di tali indici permette di conoscere le caratteristiche principali del fenomeno investigato. A partire da tali indici è possibile rispondere a diverse domande, tra cui: Quale reddito disponibile ha mediamente una certa popolazione? Qual è l’età media al pensionamento di un gruppo di lavoratori? Qual è la classe di addetti in cui si addensano il maggior numero delle imprese operanti in un territorio? La media è l'indice sintetico adatto a descrivere la tendenza del fenomeno e infatti spesso viene anche definito indice di tendenza. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 3 di 11 Maria Simona Andreano “Introduzione alle Medie” La media permette di sintetizzare con un unico valore (attributo) l'intera distribuzione osservata. Erroneamente siamo abituati a pensare che la media sia una sola e che esiste un’unica formula per calcolarla. In realtà il matematico Cauchy ha fornito una formula generale di media, dalla quale è possibile ricavare infinite medie diverse. In realtà solo alcune di queste hanno un significato immediato e permettono un’interpretazione reale e significativa. Nel nostro corso concentreremo l'attenzione solo su alcune medie, riprendendo la differenza fondamentale tra medie di posizione e medie analitiche. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 4 di 11 Maria Simona Andreano “Introduzione alle Medie” 2. LE MEDIE DI POSIZIONE Le medie di posizione sono degli indici sintetici ricavati facendo riferimento alla particolare posizione occupata da una osservazione nella distribuzione. Al fine di comprendere bene quale particolare media è utile calcolare sui dati disponibile, è necessario riprendere le distinizioni introdotte tra le diverse tipologie di caratteri: - caratteri qualitativi sconnessi - caratteri qualitativi ordinabili - caratteri quantitativi discreti e continui Sappiamo che a posizioni superiori di tale graduatoria corrisponde una capacità informativa superiore. La stessa analogia si ritrova nel calcolo degli indici sintetici. Esistono medie calcolabili per caratteri qualitativi sconnesi, per caratteri almeno odinabili o solo per caratteri quantitativi. Le medie di posizioni possono calcolarsi anche per caratteri nella fascia bassa della precedente graduatoria e anche se sono a volte poco ricche di informazioni sulla distribuzione osservata, hanno il grande vantaggio di essere determinabili sempre e per qualsiasi tipologia di caratteri. Tra le medie di posizione ritroviamo: - la moda - la mediana - i quantili (quartili) Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) Pag. 5 di 11 Maria Simona Andreano “Introduzione alle Medie” Nel caso di medie analitiche, invece, si applica una particolare formula sui dati osservati. Pertanto sarà necessario poter sommare, moltiplicare, dividere, etc. tra loro i valori osservati. E’ per questo che sono applicabili soltanto se le modalità del carattere sono espressi numericamente, ossia se stiamo lavorando con caratteri quantitativi. Tra le diverse medie analitiche presenti in letteratura noi concentriamo la nostra attenzione esclusivamente sulla media aritmetica. Ritroviamo una graduatoria informativa tra le varie medie, che segue quella della tipologia dei caratteri, sui quali è possibile applicarle: Moda < Mediana = Quantili < Media aritmetica dove il segno "

Use Quizgecko on...
Browser
Browser