Statistica 2324 PDF

Statistica La statistica è l’insieme dei metodi che consentono di lavorare con i dati in modo efficace aiutando a prendere decisioni migliori. È basata sulla linea guida DCOVA: § Define: definire i dati che si intendono studiare per risolvere un problema o raggiungere un obiettivo § Collect: raccogliere i dati da fonti adeguate § Organize: organizzare i dati raccolti attraverso tabelle § Visualize: rappresentare i dati raccolti attraverso grafici § Analyze: analizzare i dati raccolti per trarre conclusioni e presentare i risultati ottenuti L’utilizzo delle linee guida DCOVA aiuta ad applicare i metodi statistici a diverse categorie di attività aziendali: § riassumere e rappresentare i dati § trarre conclusioni sulla base di tali dati § fare previsioni attendibili riguardo alle attività aziendali § migliorare i processi aziendali Nella statistica, i dati sono i valori, associati a un tratto o a una proprietà (non sono solamente valori numerici), che aiutano a distinguere il verificarsi di qualcosa. Un tratto al quale sono associati dei valori (dati) si chiama variabile. § Variabile: caratteristica di un individuo o di un oggetto § Dati: valori individuali associati a una variabile I metodi statistici permettono di stabilire se i dati rappresentano informazioni utili al processo decisionale o meno. Sono utili, inoltre, a comprendere e ridurre la variabilità intrinseca a ogni processo decisionale e permettono di descrivere i rischi connessi a una decisione e di individuare eventuali strutture presenti nei dati e stabilire se gli scarti da tali strutture sono casuali oppure no. Quando si parla di statistica, si utilizzano due termini importanti: § la statistica descrittiva riguarda raccolta, sintesi, presentazione e analisi di insiemi di dati. Per presentare in modo sintetico i dati vengono utilizzati tabelle e grafici. Per descrivere alcune caratteristiche dei dati sono utilizzati indici statistici (tra i quali media, mediana e deviazione standard) § la statistica inferenziale ha come scopo quello di trarre conclusioni su popolazioni generali partendo dall’elaborazione dei dati relativi a piccoli gruppi, scelti come campioni1. L’uso dei metodi statistici, insieme alle tecnologie dell’informazione, ha reso possibile la diffusione della statistica nel mondo aziendale: si parla di business analytics. Le analisi aziendali combinano metodi statistici, management science e sistemi informativi (data science) in uno strumento interdisciplinare che supporti una gestione delle decisioni basata su fatti concreti. I big data sono insieme di dati che non possono essere analizzati attraverso metodi tradizionali. Il termine indica grandi volumi di dati raccolti molto velocemente, oppure dati che racchiudono una varietà di forme. Volume, velocità e varietà sono le caratteristiche che contraddistinguono i big data rispetto ad altri dati che, pur essendo molto grandi, sono strutturati in righe e colonne. Questo nuovo tipo di dati rappresenta un’opportunità per le aziende, che soprattutto attraverso l’applicazione di nuovi metodi di business analytics possono estrarre insights e valore da essi. 1 La selezione dei campioni è un’operazione complessa e fondamentale e, affinché sia svolta correttamente, è necessario che sia effettuata attraverso la randomizzazione (caso). 1 Le caratteristiche dei big data vengono rappresentate da 6 “V”: volume: vengono trattati dati in quantità molto elevata; varietà: i dati possono essere molto diversi tra loro; velocità: caratteristiche di aggiornamento e velocità di trasformazione dei dati in insights (informazioni di valore); veridicità: qualità dei dati raccolti; valore; vulnerabilità. Introduzione e raccolta dati Stabilire un obiettivo segna la fine del processo di definizione di un problema e da qui prende il via il processo di identificazione dei dati necessari a raggiungere l’obiettivo. L’individuazione di dati necessari si effettua in due fasi: § definire le variabili che si intende studiare per risolvere un problema o raggiungere un obiettivo § raccogliere i dati per tali variabili utilizzando fonti appropriate Definizione delle variabili Bisogna fornire per ogni variabile una definizione operativa universalmente accettata e chiara. Questa permette di classificare le variabili, includendo ulteriori informazioni, come le unità di misura, la gamma dei valori accettati e le definizioni dei valori. Inoltre, occorre classificare correttamente le variabili in base al metodo statistico che si vuole utilizzare. Gli statistici classificano le variabili in: § variabili quantitative o numeriche: assumono valori che indicano una quantità misurata2 o discrete: assumono valori numerici interi che solitamente derivano da processi di conteggio o continue: assumono valori numerici che derivano da processi o strumenti di misurazione; l’unità di misura e la precisione sono elementi fondamentali della definizione operativa di variabili continue § variabili qualitative o categoriche: assumono valori informativi, non derivanti da misurazioni3 o ordinali: rappresentano categorie che presentano un ordine implicito o nominali: rappresentano categorie senza un ordine naturale Raccolta dei dati La raccolta dei dati consiste nell’identificazione delle fonti, nella distinzione fra popolazione e campione, nella pulizia dei dati e, a volte, nella ricodifica di variabili. Identificazione delle fonti Le fonti dei dati possono essere: § primarie: chi raccoglie i dati e chi effettua l’analisi sono la stessa persona § secondarie: chi effettua l’analisi dei dati è una persona diversa da chi li ha raccolti Le fonti possono, inoltre, essere classificate nelle seguenti categorie: § fornite da un’organizzazione o da un soggetto privato: le società per le ricerche di mercato e le associazioni commerciali raccolgono e distribuiscono i dati in riferimento a specifici settori o mercati (anche quotidiani e agenzie di comunicazione online) § provenienti da un disegno sperimentale (esperimenti) § provenienti da un’indagine (interviste) § provenienti da uno studio osservazionale: un ricercatore raccoglie i dati osservando direttamente un comportamento in un contesto naturale e neutro (focus group) § provenienti da attività di business continuative: i dati provenienti da attività finanziarie che possono essere raccolti da sistemi operativi e commerciali o fonti secondarie (social network, app e servizi online) 2 La definizione operativa di una variabile numerica può includere il range dei valori accettati; vi sono casi in cui i limiti imposti ai valori che possono essere assunti dalle variabili sono suggeriti dalla conoscenza specifica di chi li analizza. 3 La definizione operativa di una variabile categorica include la lista dei valori permessi e la definizione di ogni valore. 2 Distinzione tra popolazione e campione Si possono raccogliere dati relativi ad una popolazione o ad un campione: § una popolazione è composta da tutti gli oggetti o gli individui (“unità statistiche”) relativamente ai quali si vogliono ottenere informazioni § un campione è una parte della popolazione selezionata per condurre analisi; i risultati delle analisi di campioni vengono utilizzati per stimare le caratteristiche dell’intera popolazione La selezione di un campione è più vantaggiosa per vari motivi: § richiede meno tempo della selezione della popolazione § è meno costosa della selezione della popolazione § la sua analisi risulta più pratica e presenta una difficoltà minore dell’analisi dell’intera popolazione I dati raccolti possono essere formattati in una varietà di modi. Quando non presentano di strutture che si ripetono si parla di dati non strutturati; questi devono essere convertiti in dati strutturati. Lo stesso modello di dati può esistere in vari formati elettronici, alcuni dei quali utilizzabili più rapidamente di altri (ad es, immagine scannerizzata o foglio di calcolo). I dati possono essere codificati in più modi, a seconda dei quali può variare la precisione dei valori registrati per variabili continue. Questa alterazione della precisione può portare alla violazione della definizione operativa di variabile continua e in alcuni casi può avere effetti indesiderati sui risultati calcolati. Pulizia dei dati Qualunque sia il metodo scelto per la raccolta dei dati, si potranno verificare casi in cui siano presenti irregolarità nei valori (ad es, valori indefiniti o impossibili). Nela caso di una variabile categorica, un valore indefinito che non rientri nelle categorie definite per la variabile. Per una variabile numerica, un valore al di fuori della gamma di valori possibili. Per una variabile numerica priva di una gamma di valori possibili, si potranno trovare delle anomalie, ovvero valori eccessivamente differenti. Un altro tipo di irregolarità è rappresentata dai valori mancanti (missing values), ovvero valori che non è stato possibile raccogliere (e quindi analizzare). Ricodifica di variabili Una volta raccolti i dati, si può definire una variabile ricodificata che integri o sostituisca la variabile originale nell’analisi4. Quando si ricodificano le variabili, occorre assicurarsi che le definizioni facciano rientrare ogni dato in un’unica categoria (condizione mutuamente esclusiva) e che le categorie create per le nuove variabili ricodificate includano tutti i valori ricodificati (condizione collettivamente esaustiva). Nel caso di una ricodifica di una variabile categorica si può mantenere una o più delle categorie originali qualora le ricodifiche siano mutuamente esclusive e collettivamente esaustive. Quando si ricodificano le variabili numeriche, occorre porre attenzione alle definizioni operative delle categorie create per la variabile ricodificata, soprattutto se queste non sono auto-esplicative. Le variabili quantitative, ricodificate in classi, divengono variabili qualitative ordinali. Metodi di campionamento Il processo di campionamento inizia con la definizione della lista della popolazione, ovvero l’elenco di tutte le unità statistiche che appartengono alla popolazione d’interesse. Successivamente bisogna selezionare le unità statistiche campionarie. A seconda della modalità di selezione, i metodi di campionamento possono essere due: metodi probabilistici e metodi non probabilistici. Nel campionamento non probabilistico le unità statistiche sono estratte senza che sia nota la loro probabilità di inclusione nel campione; nel campionamento probabilistico per ogni unità 4 Ad esempio, può capitare di riconsiderare le categorie per una variabile categorica o di dover trasformare una variabile numerica in una variabile categorica. 3 statistica è nota la probabilità di inclusione nel campione. Poiché i campionamenti probabilistici consentono di ottenere risultati non distorti per la popolazione di interesse, quando è possibile è opportuno utilizzare questo tipo di campionamento. § Metodi probabilistici: i più usati campionamenti probabilistici sono il campionamento casuale, sistematico, stratificato e a grappolo. o Casuale: tutte le unità statistiche della popolazione hanno la stessa probabilità di inclusione. Tuttavia, i risultati ottenuti sono spesso soggetti a variazioni; inoltre, quando la popolazione analizzata è molto ampia, questo potrebbe richiedere tempi lunghi e risultare antieconomico. Nello schema del campionamento casuale 𝑛 indica l’ampiezza (numerosità) del campione, mentre 𝑁 rappresenta la numerosità della popolazione di riferimento. Se si numerano tutte le unità statistiche nella lista da 1 a 𝑁, la probabilità che un singolo elemento venga selezionato alla prima estrazione è ! pari a ". Le unità statistiche possono essere selezionate: § con re-immissione: dopo aver estratto un’unità, la si reinserisce nella popolazione, così che questa avrà nuovamente le stesse possibilità di essere estratta § senza re-immissione: la probabilità che un determinato soggetto venga selezionato alla prima ! ! estrazione è , alla seconda e così via " "#! Esistono molto modi per estratte numeri casuali5, uno di questi è l’uso della tavola dei numeri casuali. Il sistema di generazione dei numeri casuali si basa sulle 10 cifre; perciò, la probabilità di generare una ! particolare cifra è !$. " o Sistematico6: la popolazione di 𝑁 soggetti viene divisa in 𝑛 gruppi di 𝑘 soggetti in cui: 𝑘 =. Il valore % di 𝑘 è detto passo di campionamento e viene approssimato all’intero più vicino. È necessario selezionare a caso un soggetto fra i primi 𝑘 nella popolazione, per poi selezionare i restanti 𝑛 − 1 soggetti prendendo un soggetto ogni 𝑘. o Stratificato: la popolazione di 𝑁 soggetti viene suddivisa in varie sottopopolazioni, dette strati. Queste vengono definite sulla base di qualche caratteristica comune, detta variabile di stratificazione. Successivamente si estrae un campione casuale da ciascuno strato, per poi combinare i sotto-campioni in un unico campione. Il campionamento stratificato è più efficiente sia del campionamento casuale che del sistematico poiché garantisce che le varie sottopopolazioni siano adeguatamente rappresentate nel campione. § Metodi non probabilistici: un campionamento non probabilistico può essere: o di convenienza: si selezionano oggetti che siano facili, economici e convenienti da ottenere7 o a scelta ragionata: si possono condurre interviste a esperti di un certo settore o materia, detti “testimoni privilegiati”8 5 Possono anche essere generati da software, tuttavia i numeri che ne escono non sono veramente casuali e possono mostrare ripetitività o distribuzioni indesiderate 6 Ad esempio, per selezionare un campione di 𝑛 = 40 individui da una popolazione di 𝑁 = 800 impiegati, si ripartiscono gli 800 soggetti in 40 gruppi, ognuno con 20 impiegati. Se si seleziona a caso il numero 008, i soggetti scelti sono quelli con il codice 008, 028, 048, 068, 088, 108, …, 768 e infine 788. 7 Ad esempio, l’autoselezione: le aziende che chiedono ai clienti che visitano i loro siti web di compilare e inviare questionari di soddisfazione. Le risposte a questi sondaggi possono fornire, in modo rapido ed economico, una grande quantità di dati. Tuttavia, il campione, essendo composto da utenti auto-selezionati, è soggetto alla cosiddetta distorsione da autoselezione (o self-selection bias). 8 Anche in questo caso, per quanto gli esperti possano essere ben informati e preparati, non è possibile generalizzare i risultati all’intera popolazione. 4 Errori di campionamento Quando dati ed informazioni vengono raccolti attraverso indagini è necessario capirne l’attendibilità: basandosi sulla mancanza di obiettività e credibilità. A tal fine, bisogna prendere in considerazione l’obiettivo dell’indagine, perché e per conto di chi è stata realizzata. In secondo luogo, è necessario capire se l’indagine sia basata su un campione casuale o non casuale: solo il campionamento probabilistico può considerarsi statisticamente corretto. Infatti, indagini basate su campionamento non probabilistici possono produrre distorsioni che rendono i risultati privi di significato. Ci sono 4 tipi di errori campionari: 1. errore di copertura: una corretta procedura di campionamento parte dalla disponibilità della lista della popolazione aggiornata e completa. Un errore di copertura si verifica quando gruppi specifici di soggetti non sono inclusi nella lista, questo tipo di errore produce la cosiddetta distorsione da selezione (o selection bias). Se la lista della popolazione non include certi gruppi di soggetti, qualunque campionamento probabilistico potrà fornire una stima delle caratteristiche della lista e non della popolazione. 2. errore dovuto alle mancate risposte: non tutte le persone hanno la stessa disponibilità a partecipare a una ricerca. L’errore deriva dal fatto che non si sono raccolti i dati su tutti i soggetti del campione e la distorsione delle stime è dovuta alle non risposte sistematiche, il cosiddetto non-response bias. 3. errore di campionamento: risiede nel fatto che ci sono variazioni, differenze casuali, fra un campione e un altro. Per questo a volte si possono accompagnare le indagini campionarie con l’affermazione di un margine di errore. Questo si identifica proprio con l’errore di campionamento e può essere ridotto aumentando la numerosità campionaria (innalzando i costi dell’indagine). 4. errore di misurazione: i processi di misurazione spesso sono determinati da ciò che è conveniente o praticabile e non da ciò che sarebbe realmente necessario. Per ridurre o minimizzare questi errori è necessario progettare e realizzare l’indagine in modo molto accurato, anche se ciò talvolta può avere costi notevoli. Nel campionamento le questioni etiche riguardano proprio i 4 tipi di errori: § un errore di copertura comporta una distorsione delle stime dovuta alla selezione; questo errore può trasformarsi in una questione etica se alcuni gruppi/soggetti sono esclusi di proposito per rendere i risultati dell’indagine più graditi al committente § le mancate risposte possono dar luogo a questioni eticamente rilevanti se il committente già sa a priori che certi gruppi/soggetti non risponderanno all’intervista § riguardo l’errore di campionamento, se i risultati di un’indagine vengono presentati senza far riferimento alla numerosità campionaria e al margine di errore, il committente potrebbe fare affermazioni e proporre il suo punto di vista basandosi su risultati privi di significatività statistica. § gli errori di misurazione hanno una rilevanza etica se: o il committente dell’indagine sceglie alcune domande che orientano rispondenti in una particolare direzione o gli intervistatori, attraverso i modi e il tono della voce, spingono gli intervistati a determinate risposte o gli intervistati deliberatamente forniscono false informazioni Infine, una questione etica sorge anche quando i risultati di un’indagine non campionaria vengono utilizzati per trarre conclusioni sull’intera popolazione. 5 La rappresentazione dei dati: grafici e tabelle I dati vengono organizzati solitamente in tabelle in modo da facilitarne la comprensione. Le tabelle permettono di visualizzare facilmente una grande quantità di dati e allo stesso tempo mostrare i valori associati a determinate variabili. Infatti, le fasi organize e visualize della linea guida DCOVA vengono realizzate insieme e permettono un’analisi preliminare dei dati prima di passare alla fase analyze. Le variabili qualitative Organizzare le variabili qualitative I dati qualitativi possono essere raggruppati in categorie. Per ogni categoria si presentano poi le frequenze o percentuali con opportune tabelle e grafici: § nel caso di una singola variabile si utilizzano tabelle di distribuzione di frequenza o una distribuzione di frequenza è una tabella sintetica che riporta le varie categorie di una variabile con le frequenze (assolute o percentuali) per cogliere la diversità fra l’una e l’altra; una distribuzione di frequenza è composta dall’elenco delle modalità in una colonna e le frequenze assolute o percentuali, in un’altra colonna o in diverse colonne § nel caso di più variabili categoriche si utilizzano tabelle di contingenza o una tabella di contingenza riporta le frequenze congiunte di due variabili qualitative in forma di una tabella a doppia entrata che ha sulle righe le modalità di una variabile e sulle colonne le modalità dell’altra variabile; le intersezioni delle righe e delle colonne sono chiamate “celle” e, in base al tipo di tabella di contingenza costruita, possono contenere: § le frequenze congiunte § le percentuali rispetto al totale complessivo § le percentuali rispetto al totale di ciascuna riga § le percentuali rispetto al totale di ciascuna colonna Rappresentazione di variabili qualitative La scelta del tipo di diagramma dipende dall’obiettivo della rappresentazione grafica: per confrontare le frequenze delle modalità della variabile qualitativa, si utilizza il diagramma a barre o in un diagramma a barre, ogni barra rappresenta una categoria; la sua lunghezza rappresenta la frequenza assoluta o la percentuale dei casi in ciascuna modalità per privilegiare il peso di una certa modalità rispetto al tutto, si utilizza il diagramma a torta; se le modalità sono numerose, il diagramma a torta può risultare poco chiaro ed è più opportuno il diagramma a barre o un diagramma a torta è un grafico a settori circolari in cui le singole “fette” rappresentano le categorie; la dimensione di ciascuna fetta della torta è proporzionale alla percentuale di ciascuna modalità se i dati sono concentrati in poche categorie, si utilizza il diagramma di Pareto o il diagramma di Pareto è un particolare diagramma a barre verticali in cui le modalità sono ordinate per frequenze decrescenti e, nello stesso grafico, viene rappresentata anche la spezzata delle frequenze percentuali cumulate; questo diagramma è adatto a rappresentare quei casi in cui si verifica il principio di Pareto (la maggior parte delle osservazioni, “unità statistiche”, si concentra in poche modalità a elevata frequenza e le altre si distribuiscono su un elevato numero di modalità a bassa frequenza) per due variabili categoriche, si utilizza un diagramma a barre verticali o il diagramma a barre affiancate utilizza delle barre per mostrare le risposte congiunte derivate da due variabili categoriche 6 Le variabili quantitative Organizzare le variabili qualitative Solitamente per meglio comprendere le informazioni contenute nei dati, i numeri possono essere ordinati. Tuttavia, quando la numerosità del campione è molto elevata, esaminare una sequenza ordinata risulta inadeguato per analizzare e interpretare correttamente i dati. In queste circostanze, i dati possono essere rappresentati più opportunamente attraverso: tabelle, grafici, distribuzioni di frequenza, istogrammi, poligoni e poligoni cumulati (ogiva). La distribuzione di frequenza assoluta in classi (DFAC) è una tabella in cui i dati sono divisi in classi e a ogni classe è associato il numero di unità statistiche appartenenti a quella classe. Nella costruzione di una distribuzione di frequenza in classi, occorre prestare particolare attenzione alla scelta del numero e dell’ampiezza di ciascuna classe, trovando gli estremi di ogni classe in modo da evitare sovrapposizioni. Il numero di classi dipende dalla numerosità dei dati: all’aumentare della numerosità sono necessarie più classi (in genere, DFAC ha da un minimo di 5 ad un massimo di 15 classi). Se le classi sono troppe o troppo poche, la quantità e la qualità delle informazioni sarà minore. Se si vogliono classi di eguale ampiezza, si divide il range dei dati9 per il numero di classi desiderato: 𝑟𝑎𝑛𝑔𝑒 𝑎𝑚𝑝𝑖𝑒𝑧𝑧𝑎 𝑑𝑒𝑙𝑙 & 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑙𝑜 = 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒𝑙𝑙𝑒 𝑐𝑙𝑎𝑠𝑠𝑖 Molto spesso, piuttosto che concentrarsi sulle frequenze assolute, è meglio analizzare la frequenza relativa (proporzione) o la frequenza percentuale di ciascuna classe sul totale. La frequenza relativa di ciascuna classe si ottiene dividendo la frequenza assoluta per la numerosità totale delle osservazioni; la percentuale di ciascuna classe si ottiene poi moltiplicando per 100 ciascuna frequenza relativa: 𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑧𝑎 𝑎𝑠𝑠𝑜𝑙𝑢𝑡𝑎 𝑑𝑒𝑙𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝑖 − 𝑒𝑠𝑖𝑚𝑎 𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑧𝑎 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 = 𝑛𝑢𝑚𝑒𝑟𝑜𝑠𝑖𝑡à 𝑡𝑜𝑡𝑎𝑙𝑒 𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑧𝑎 𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑢𝑎𝑙𝑒 = 𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑧𝑎 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 ∙ 100 Quando si confrontano due campioni di diversa ampiezza, è necessario utilizzare la distribuzione delle frequenze relative o la distribuzione delle percentuali. La distribuzione delle frequenze relative si ottiene determinando, inizialmente, le frequenze assolute per ogni classe e dividendole, poi, per la numerosità totale. La distribuzione delle frequenze percentuali cumulate (DFPC) fornisce la percentuale di dati che risultano minori- uguali di un determinato valore. Il punto di partenza per costruire la distribuzione delle percentuali cumulate è la distribuzione delle percentuali. Dopo aver raccolti i dati per una variabile numerica per più di un gruppo, è possibile inserirli in un foglio di lavoro sia come impilati che come non impilati. Nel caso di dati non impilati, si creano variabili numeriche separate per ogni gruppo. Per i dati impilati, si aggiunge una seconda variabile categorica con i valori che identificano il gruppo a cui appartiene ogni valore numerico. Rappresentazione di variabili quantitative È possibile rappresentare i dati di una variabile numerica tramite una varietà di tecniche che includono: istogramma: le frequenze di ciascuna classe sono rappresentate come singole barre verticali; i valori di ogni variabile oggetto di analisi sono sull’asse 𝑥; sull’asse delle ordinate si pongono le frequenze di ciascuna classe poligono di frequenza: utili a confrontare graficamente due o più distribuzioni di frequenza in classi; un poligono di frequenza si costruisce congiungendo in sequenza i punti le cui coordinate sono i valori centrali di 9 Il range è dato dalla differenza tra il valore più grande e il valore più piccolo. 7 ciascuna classe e le loro rispettive percentuali; per evitare distorsioni, l’asse delle ascisse 𝑥 non può includere l’origine degli assi (questa viene inclusa dalle ordinate) poligono delle percentuali cumulate (ogiva): è un grafico in cui sull’asse 𝑥 vi è la variabile di interesse, mentre sull’asse 𝑦 la distribuzione delle percentuali cumulate Quando si analizzano due variabili quantitative, è necessario utilizzare il diagramma di dispersione e il diagramma per le serie storiche. Il diagramma a dispersione (o scatterplot) è usato per analizzare relazioni tra due variabili quantitative 𝑥 e 𝑦. Per ogni osservazione, si segna un punto su un piano cartesiano che ha sulle ascisse i valori della variabile 𝑥 e sulle ordinate la variabile 𝑦. Il diagramma per le serie storiche è utilizzato per rappresentare graficamente l’andamento nel tempo dei valori di una variabile quantitativa. Ogni valore è rappresentato come un punto su un piano cartesiano in cui la variabile tempo è posta sull’asse delle ascisse (𝑥) e la variabile da analizzare sull’asse delle ordinate (𝑦). Tabelle a doppia entrata Analizzare l’associazione tra due o più variabili qualitative è un elemento fondamentale per la comprensione dei fenomeni in qualunque settore. Una tabella di contingenza riporta le frequenze congiunte di più variabili qualitative, in forma di una tabella a doppia entrata avente: sulle righe le modalità di una variabile sulle colonne le modalità dell’altra variabile Le intersezioni delle righe e delle colonne sono chiamate “celle” e possono contenere le frequenze congiunte, le percentuali rispetto al totale complessivo, le percentuali rispetto al totale di ciascuna riga o le percentuali rispetto al totale di ciascuna colonna. Le tabelle di contingenza possono includere anche una variabile numerica. Si utilizzano altre variabili (categoriche o che rappresentino unità di tempo) come righe e colonne per formare i gruppi in base ai quali la variabile numerica verrà riassunta. Queste tabelle illustrano anche la data discovery, ovvero metodi che permettono di effettuare analisi preliminari tramite un riassunto dei dati. Questi metodi si usano per osservare più da vicino dati storici o valori insoliti, permettendo di aggiungere/rimuovere variabili e rivelare nuovi andamenti/relazioni. La data discovery fornisce così gli strumenti per un’esplorazione e presentazione dei dati. La forma più semplice di data discovery è il drill-down o elenco a discesa. Problemi di organizzazione e rappresentazione delle variabili Quando si organizzano e rappresentano delle variabili, si deve fare attenzione a non creare false impressioni. Per ovviare a questo problema è utile il riassunto selettivo, ossia una rappresentazione di una sola parte dei dati. Questo viene utilizzato quando i dati raccolti fanno riferimento ad un lungo periodo di tempo e sono riassunti come variazioni percentuali per un periodo più breve. L’aggiunta o la sostituzione delle barre o linee con elementi decorativi possono oscurare i dati o creare false impressioni. In questo caso, si parla di chartjunk (letteralmente: “spazzatura grafica”). È necessario seguire regole precise per costruire un grafico significativo: il grafico non deve distorcere i dati il grafico non deve contenere abbellimenti inutili, non finalizzati a trasmettere le informazioni ogni grafico bidimensionale deve contenere una scala per ciascun asse la scala delle ordinate deve iniziare dall’origine degli assi il grafico deve avere un titolo e tutti gli assi devono aver un’etichetta chiara e leggibile fra i vari tipi di grafici è bene scegliere quello più semplice ed evitare effetti 3D 8 La statistica descrittiva: indici di posizione e variabilità Per descrivere e sintetizzare le variabili quantitative, tabelle e grafici non sono sufficienti; bisogna, quindi, considerare anche misure e indici che sintetizzano altre caratteristiche: § tendenza centrale: valore tipico intorno a cui i dati si raggruppano e si concentrano variabilità: tendenza ad assumere valori differenti e a disperdersi intorno al valore centrale forma: andamento delle frequenze di una distribuzione dal valore più basso al valore più alto Bisogna definire anche covarianza e coefficiente di correlazione, utili a misurare la forza dell’associazione tra due variabili quantitative. Indici di posizione Molti insiemi di dati mostrano una tendenza a raggrupparsi intorno a un valore centrale. Le tre misure di tendenza centrale più diffuse sono media, mediana e moda. La media è l’indice di posizione più comune per dati quantitativi. La media indica il valore tipico o centrale per un insieme di dati. È la sola misura nella quale tutti i valori hanno lo stesso peso e rappresenta il “baricentro” di un insieme di dati. La media viene calcolata sommando tutti i valori di un insieme di dati e dividendo tale somma per il numero dei dati. Denotando con 𝑥! , 𝑥' , … , 𝑥% un insieme di dati, dove 𝑛 rappresenta il numero di osservazioni, la media viene calcolata con la seguente equazione: 𝑥! + 𝑥' + ⋯ + 𝑥% 𝜇= 𝑛 o Limiti: la media può essere fortemente influenzata anche da un solo valore molto diverso dagli altri, detto valore anomalo/estremo o outlier. In presenza di outlier non si dovrebbe usare la media come misura della tendenza centrale: la media è un indice “non robusto” e affetto dalla presenza di valori anomali. La mediana è quel valore che si colloca al centro di una serie di dati dopo averli riordinati dal più piccolo al più grande. Poiché la mediana occupa la posizione centrale, essa non è influenzata dai valori estremi: si può %(! utilizzare anche quando questi sono presenti. La mediana è il valore che occupa il posto ' nella serie ordinata di dati. La mediana può essere calcolata per variabili quantitative e per variabili qualitative ordinali10 e si può calcolare seguendo una delle seguenti regole: o regola 1: se la numerosità è un numero dispari, la mediana è il valore centrale o regola 2: se la numerosità è un numero pari, la mediana è la media tra i due valori centrali La moda è il valore che appare più frequentemente in una serie di dati, cioè il valore a frequenza più alta. Non è influenzata da valori estremi e può accadere, in una serie di dati, che la moda non esista o ce ne siano diverse. La moda è informativa per le variabili qualitative ordinali e quelle nominali. Tipicamente, in presenza di variabili continue, è improbabile che due valori siano esattamente uguali. Confronto tra media e mediana Quando si analizzano dati, è pratica comune il confronto preliminare tra media e mediana. La media è sensibile a valori estremi, ciò vuol dire che: una media più grande della mediana è indice di outlier grandi o di una distribuzione asimmetrica (coda lunga a destra, verso i valori molto alti) una media più piccola della mediana è indice di outlier molto piccoli o di una distribuzione asimmetrica (coda lunga verso sinistra, verso i valori molto piccoli) 10 La mediana non può essere calcolata per variabili qualitative nominali perché i valori non possono essere ordinati. 9 Rappresentazioni grafiche come istogrammi e boxplot aiutano a individuare la causa della differenza osservata. Variabilità e forma Oltre che dalla tendenza centrale, ogni insieme di dati quantitativi è caratterizzato anche da misure della sua variabilità e della sua forma. § La variabilità misura la dispersione dei valori in una serie di dati. o Una semplice misura di variabilità è il range, o campo di variazione, ossia la differenza tra il valore più grande e quello più piccolo di un insieme di dati. Il range è pari all’ampiezza dell’intervallo in cui variano i dati ed è uguale alla differenza tra il più grande e il più piccolo valore: 𝑟𝑎𝑛𝑔𝑒 = 𝑥)*+ − 𝑥),% Il range non tiene conto di come i dati si distribuiscono e dipende esclusivamente da due valori (il minimo e il massimo); è, quindi, una misura “poco robusta” della variabilità11. o Comunemente utilizzate sono la deviazione standard, anche detta scarto quadratico medio, e la varianza. A differenza del range, deviazione standard e varianza consentono di capire come sono distribuiti i valori dell’insieme dei dati: questi indici misurano la “dispersione” dei valori intorno alla loro media. § Per una serie di 𝑁 dati 𝑥! , 𝑥' , 𝑥- , … , 𝑥% la varianza è data dal rapporto tra SS (somma dei quadrati: somma degli scarti dalla media al quadrato) e il numero dei valori: (𝑥! − 𝜇)' + (𝑥' − 𝜇)' + ⋯ + (𝑥" − 𝜇)' 𝜎' = 𝑁 § La deviazione standard di una popolazione è la radice quadrata della varianza: ∑" (𝑥, − 𝜇)' 𝜎 = G ,.! = I𝜎 ' 𝑁 Poiché la somma dei quadrati è una somma di quantità sempre non negative, la varianza e la deviazione standard sono sempre positive. Per misurare la variabilità di una distribuzione di usa molto più frequentemente la deviazione standard, questa aiuta a capire come un insieme di dati si concentra o si disperde intorno alla sua media. Per calcolare manualmente varianza e deviazione standard si può: § calcolare la media § calcolare la differenza tra ciascun valore e la media § elevare al quadrato ciascuna differenza § sommare le differenze elevate al quadrato § dividere questo totale per 𝑁 per ottenere la varianza § calcolare la radice quadrata della varianza per ottenere la deviazione standard o Il coefficiente di variazione è una misura di variabilità relativa. Misura la dispersione dei dati in relazione all’entità della media. Il coefficiente di variazione è il rapporto tra la deviazione standard e la media, moltiplicato per 100: 𝜎 𝐶𝑉 = ∙ 100 % 𝜇 Il coefficiente di variazione è utile quando si confrontano due o più serie di dati con diverse unità di misura. § La forma di un insieme di dati rappresenta l’andamento delle frequenze di tutti i valori, dal più basso al più alto, dell’intero range e si visualizza con un istogramma. Molti insiemi di dati hanno un andamento “a campana”, con un picco più o meno evidente per i valori situati al centro della distribuzione. Una distribuzione può essere: o simmetrica: i valori al di sotto e al di sopra della media sono distribuiti in modo speculare o asimmetrica (skewness): i valori non sono simmetrici intorno alla media Se la distribuzione è simmetrica, media, mediana e moda sono pressoché uguali; mentre forme diverse modificano le posizioni relative della media e della mediana: o 𝑚𝑒𝑑𝑖𝑎 < 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 = asimmetria negativa, coda a sinistra § gran parte dei valori nella parte superiore della distribuzione; coda a sinistra con valori estremamente piccoli che spingono la media verso il basso 11 Ciò vuol dire che se il range viene utilizzando quando almeno uno tra il massimo e il minimo è un outlier si ottiene un risultato fuorviante. 10 o 𝑚𝑒𝑑𝑖𝑎 ~ 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 = simmetria o asimmetria zero § le due metà della curva sono uguali e i valori più piccoli e più grandi si bilanciano o 𝑚𝑒𝑑𝑖𝑎 > 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 = asimmetria positiva, coda a destra § gran parte dei valori nella parte inferiore della distribuzione; coda a destra con valori estremamente elevati che spostano la media verso l’alto L’indice di curtosi misura la concentrazione relativa di valori nel centro della distribuzione, rispetto alle code: o 𝐼/01234, > 0: indica una distribuzione più appuntita con frequenze più elevate al centro o 𝐼/01234, = 0 : indica una distribuzione approssimativamente a campana o 𝐼/01234, < 0 : indica una distribuzione più piatta con frequenze più elevate nelle code Lo Z-score Lo Z-score indica quanto un’osservazione sia lontana dalla media rispetto alla variabilità della distribuzione. Poiché un valore estremo (outlier) è un valore molto lontano dalla media, lo Z-score è utile per identificarli. Questo è dato dalla differenza tra il valore 𝑥 e la media 𝜇, divisa per la deviazione standard: 𝑥−𝜇 𝑍= 𝜎 La differenza (𝑥 − 𝜇) rappresenta la distanza fra il singolo valore 𝑥 e la media. Quando tale distanza viene divisa per la deviazione standard, si ottiene la distanza tra 𝑥 e la media nell’unità di misura della deviazione standard12. La regola empirica Si può utilizzare la regola empirica per analizzare la variabilità delle distribuzioni: § circa il 68% dei valori si trova nell’intervallo media ± 1 deviazione standard § circa il 95% dei valori si trova nell’intervallo media ± 2 deviazione standard § circa il 99,7% dei valori si trova nell’intervallo media ± 3 deviazione standard La regola empirica serve a misurare come sono distribuiti i valori sopra e sotto la media e aiuta a identificare eventuali valori anomali. Per le distribuzioni a campana, solo 1 valore su 20 sarà distante di oltre 2 deviazioni standard dalla media (in entrambe le direzioni). In generale, i valori fuori dall’intervallo 𝜇 ± 2𝜎, si possono considerare come potenziali valori anomali, visto che la probabilità con cui occorrono è del 5% circa. La regola inoltre implica che solo circa 3 valori su 1000 si scosteranno di oltre 3 deviazioni standard dalla media: i valori esterni all’intervallo 𝜇 ± 3𝜎, si possono considerare anomali. La regola di Chebyshev Secondo la regola di Chebyshev, con qualsiasi distribuzione, la percentuale di valori che si trovano entro una distranza di 𝑘 > 1 deviazioni standard dalla media è almeno pari a: 1 Z1 − [ ∙ 100% 𝑘' 12 Ad esempio, 𝑍 = 2,3 corrisponde ad un valore della 𝑥 che sta 2,3 deviazioni standard sopra la media. 𝑍 = −0,9 corrisponde ad una 𝑥 che sta 0,9 deviazioni standard sotto la media. 11 Se l’insieme di dati ha una forma più o meno a campana, la regola empirica rifletterà più fedelmente la maggiore concentrazione di dati intorno alla media. Analisi di dati numerici Esistono altri strumenti per analizzare i dati quantitativi contraddistinti, nel loro insieme, come analisi esplorativa dei dati. Fra gli strumenti dell’analisi esplorativa vi sono: quartili, sintesi a cinque e box-plot o diagramma a scatola e baffi. § I quartili sono misure descrittive che dividono i dati ordinati in 4 parti: o il primo quartile 𝑄! è quel valore tale che il 25% delle osservazioni è ≤ 𝑄! e il 75% è > 𝑄! %(! § 𝑄! = 5 − 𝑒𝑠𝑖𝑚𝑎 𝑜𝑠𝑠𝑒𝑟𝑣𝑎𝑧𝑖𝑜𝑛𝑒 𝑛𝑒𝑖 𝑑𝑎𝑡𝑖 𝑜𝑟𝑑𝑖𝑛𝑎𝑡𝑖 o il secondo quartile 𝑄' è la mediana: il 50% delle osservazioni è ≤ 𝑄' e il 50% è > 𝑄' o il terzo quartile 𝑄- è quel valore tale che il 75% dei dati risulta ≤ 𝑄- e il 25% è > 𝑄- -(%(!) § 𝑄- = 5 − 𝑒𝑠𝑖𝑚𝑎 𝑜𝑠𝑠𝑒𝑟𝑣𝑎𝑧𝑖𝑜𝑛𝑒 𝑛𝑒𝑖 𝑑𝑎𝑡𝑖 𝑜𝑟𝑑𝑖𝑛𝑎𝑡𝑖 Le posizioni dei quartili possono essere calcolate attraverso 3 regole: o regola 1: se la posizione del quartile è un numero intero, allora il quartile è uguale all’osservazione che corrisponde a quella posizione13 o regola 2: se la posizione del quartile è un numero con una cifra decimale uguale a 5 (ad es, 2.5, 4.5, …) allora il quartile è uguale alla media delle osservazioni a cavallo di quelle posizioni14 o regola 3: se la posizione del quartile è un numero con due cifre decimali uguali a 25 o 75 (ad es, 2.24, 4.75, …) la posizione del quartile si può approssimare, per eccesso o per difetto, all’intero più vicino e il quartile sarà l’osservazione corrispondente a questa posizione15 Il range interquartile misura la dispersione del 50% centrale dei dati e non è influenzato dai valori estremi. È dato dalla differenza tra il terzo e il primo quartile: 𝑟𝑎𝑛𝑔𝑒 𝑖𝑛𝑡𝑒𝑟𝑞𝑢𝑎𝑟𝑡𝑖𝑙𝑒 = 𝑄- − 𝑄! § La sintesi a cinque è uno strumento utilizzato per riassumere l’intera distribuzione e analizzarne la variabilità e la forma attraverso solo cinque numeri, ovvero attraverso gli estremi, i quartili e la mediana: 𝑋),% 𝑄! 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 𝑄- 𝑋)*+ § Il boxplot (o diagramma a scatola e baffi) fornisce una rappresentazione grafica dei dati sulla base della sintesi a cinque. La linea verticale all’interno della scatola rappresenta la mediana; la linea verticale a sinistra della scatola indica il primo quartile 𝑄! ; la linea verticale a destra della scatola indica il terzo quartile 𝑄-. La scatola rappresenta graficamente il 50% centrale delle osservazioni della distribuzione. Il 25% dei valori più piccoli è rappresentato dalla linea tratteggiata (un baffo) che collega il lato sinistro della scatola con l’estremo inferiore 𝑋),%. Analogamente, il 25% dei più elevati è rappresentato da una linea tratteggiata che collega il lato destro della scatola con 𝑋)*+. Covarianza e correlazione La covarianza misura l’intensità e il verso della relazione lineare tra due variabili quantitative (𝑋 e 𝑌). Il termine “covarianza” rimanda all’idea di una misura di quanto due variabili quantitative variano insieme, ossia covariano. ∑" ,.!(𝑋, − 𝜇8 )(𝑌, − 𝜇9 ) 𝑐𝑜𝑣(𝑋, 𝑌) = 𝑁 La covarianza dipende dalla grandezza dei fenomeni considerati e dalle unità di misura. Pertanto, tramite la covarianza non si può determinare la forza del legame. 13 "#! Per esempio, se la dimensione campionaria è 𝑛 = 7, il primo quartile 𝑄! è l’osservazione che occupa il posto = 2, ovvero è il $ secondo dato nella sequenza ordinata. 14 %#! Per esempio, se la dimensione campionaria è 𝑛 = 9, la posizione del primo quartile 𝑄! è uguale a $ = 2.5, ovvero il primo quartile è a metà tra la seconda e la terza osservazione della sequenza ordinata. Quindi il primo quartile sarà la media aritmetica di queste due osservazioni. 15 !&#! Per esempio, se la dimensione campionaria è 𝑛 = 10, la posizione del primo quartile 𝑄! è uguale a $ = 2.75. approssimando tale valore all’intero più vicino 3, si ottiene che il primo quartile sarà la terza osservazione nella sequenza ordinata. 12 Il coefficiente di correlazione misura la forza relativa di un legame lineare tra due variabili quantitative e si ottiene dividendo la covarianza tra 𝑋 e 𝑌 per il prodotto delle deviazioni standard di 𝑋 e 𝑌: 𝑐𝑜𝑣(𝑋, 𝑌) 𝜌= 𝜎8 𝜎9 In questo modo si eliminano sia le due unità di misura delle due variabili, sia le grandezze relative: il numero così ottenuto è privo di unità di misura e normalizzato, ovvero varia tra -1 e 1. La correlazione da sola non dimostra che esiste un effetto di causalità, cioè che la variazione del valore di una variabile ha causato il cambiamento dell’altra. Tale covariazione può essere dovuta, per esempio: § al caso § all’effetto di una terza variabile, non considerata nell’analisi, che le influenza entrambe § a una relazione di causa-effetto Una forte correlazione indica che le due variabili variano congiuntamente e, in modo lineare, in un verso o nell’altro. Si dovrebbero effettuare ulteriori analisi per determinare cosa ha effettivamente prodotto un coefficiente di correlazione elevato. Pertanto, si può dire che il nesso di causalità implica correlazione, ma che la sola correlazione non implica causalità. Stima dei parametri della popolazione Nelle analisi statistiche i dati disponibili rappresentano o l’intera popolazione o un campione opportunamente estratto da una popolazione. Quando ci si vuole basare sul campione per stimare i parametri, incogniti, della popolazione bisogna utilizzare alcune variazioni. § Media campionaria: il simbolo 𝑋a (𝑋 segnata) viene usato per rappresentare la media di un campione. Per un campione con 𝑛 osservazioni, la media campionaria è la somma dei dati divisa per il numero di dati: ∑%,.! 𝑋, a 𝑋= 𝑛 § Varianza campionaria: per un campione di 𝑛 osservazioni, 𝑋! , 𝑋' , … , 𝑋% , la varianza campionaria, 𝑆 ' , è: ∑% (𝑋! − 𝑋a)' 𝑆 ' = ,.! 𝑛−1 Si può dimostrare che la varianza campionaria 𝑆 ' è il miglior stimatore della varianza della popolazione 𝜎 '. Il denominatore 𝑛 − 1 rende la varianza stimata 𝑆 ' maggiore di 𝜎 '. Inoltre, mentre gli scarti (𝑋! − 𝜇) erano calcolati per un valore certo della media, ora gli scarti (𝑋! − 𝑋a ) sono calcati rispetto al valore stimato della media, ovvero la media campionaria 𝑋a. Essi sono pertanto soggetti a incertezza dovuta al processo di campionamento. § Covarianza campionaria: costituisce la miglior stima della covarianza della popolazione: ∑%,.!(𝑋, − 𝑋a)(𝑌, − 𝑌a ) 𝑐𝑜𝑣(𝑋, 𝑌) = 𝑛−1 § Coefficiente di correlazione campionaria: misura verso e forza dell’associazione tra due variabili quantitative. Se la correlazione è vicina a +1 o −1, il legame lineare tra le due variabili è più forte; se la correlazione è vicini a 0, vi è poca o nessuna relazione lineare tra le due variabili. 𝑐𝑜𝑣(𝑋, 𝑌) 𝑟= 𝑆8 𝑆9 ∑% (𝑋, − 𝑋a )' ∑% (𝑌, − 𝑌a)' 𝑆8 = G ,.! ; 𝑆9 = G ,.! 𝑛−1 𝑛−1 Il segno del coefficiente di correlazione indica il verso della relazione: o dati positivamente correlati: i valori più grandi di 𝑋 sono tipicamente assegnati a quelli più grandi di 𝑌 13 o dati negativamente correlati: i valori più grandi di 𝑋 sono tipicamente assegnati ai valori più bassi di 𝑌 L’esistenza di un legame forte non implica un effetto di causalità. Regressione lineare semplice È stato visto che lo studio del legame lineare tra due variabili quantitative può essere effettuato attraverso la correlazione, senza distinguere il ruolo delle due variabili prese in considerazione. Al fine di approfondire l’analisi di tale legame, è necessario introdurre lo studio del modello di regressione. Questo ha lo scopo di stimare i valori di una variabile quantitativa a partire da quelli osservati di un’altra variabile. Mentre nello studio della correlazione le due variabili vengono trattate senza attribuire ad esse ruoli differenti, nell’analisi di regressione la variabile i cui valori sono da stimare viene detta variabile dipendente mentre quella da cui questi valori “dipendono” viene chiamata variabile indipendente (o variabile esplicativa). Il modello di regressione permette anche di identificare il tipo di relazione matematica che intercorre tra la variabile indipendente e quella dipendente. Tra i più semplici modelli di regressione si trova il modello di regressione lineare semplice, in cui una singola variabile indipendente (di tipo quantitativo) 𝑋 è utilizzata per stimare e prevedere i valori della variabile dipendente 𝑌 (anch’essa di tipo quantitativo). Tipologie dei modelli di regressione Per studiare la relazione tra due variabili vengono utilizzate principalmente 2 tecniche: § regressione: costruire un modello attraverso cui prevedere i valori di una variabile dipendente o risposta (quantitativa) a partire dai valori di una o più variabili indipendenti o esplicative o regressione lineare semplice: esiste una sola variabile esplicativa 𝑋 o regressione lineare multipla: esistono diverse variabili esplicative 𝑋! , 𝑋' , … , 𝑋: § correlazione: studio dell’associazione tra variabili quantitative La scelta del modello matematico appropriato è suggerita dal modo in cui si distribuiscono i valori delle due variabili nel diagramma di dispersione, in cui sono riportati i valori della variabile esplicativa 𝑋 sulle ascisse e della variabile dipendente 𝑌 sulle ordinate. Modelli di regressione lineare semplice Il modello di regressione lineare semplice è adatto quando i valori delle variabili 𝑋 e 𝑌 si distribuiscono lungo una retta nel diagramma di dispersione: 𝑌, = 𝛽$ + 𝛽! 𝑋, + 𝜀, dove: 𝛽$ è l’intercetta della retta sull’asse 𝑌 nella popolazione; 𝛽! è la pendenza o coefficiente angolare della retta nella popolazione; 𝜀, è l’errore nel valore della 𝑌 per l’𝑖-esima osservazione; 𝑌, è il valore osservato della variabile dipendente per l’𝑖-esima osservazione; 𝑋, è il valore osservato della variabile indipendente per l’𝑖-esima osservazione. § La pendenza 𝛽! indica come varia 𝑌 in corrispondenza di una variazione unitaria di 𝑋. Il segno di 𝛽! indica se la relazione lineare è positiva o negativa. § L’intercetta 𝛽$ sull’asse 𝑌 corrisponde al valore medio di 𝑌 quando 𝑋 è uguale a 0. § L’ultima componente del modello di regressione, 𝜀, , rappresenta l’errore casuale (o random error) osservato sulla 𝑌 per l’osservazione 𝑖-esima. In altri termini, per l’osservazione 𝑖-esima, 𝜀, è la distanza verticale del valore osservato 𝑌, da quello atteso, che si trova sulla retta di regressione. La componente 𝜀, è detta anche residuo del modello ed è il termine che trasforma il modello di regressione da modello matematico a modello statistico- probabilistico. Determinazione dell’equazione del modello di regressione lineare semplice La regressione ha come obiettivo quello di determinare quale sia la retta, tra le infinite possibili, che meglio si adatta ai dati. 14 Il metodo dei minimi quadrati Sotto opportune ipotesi, è possibile utilizzare l’intercetta, 𝑏$ , calcolata sui dati campionari, e la pendenza, 𝑏! , calcolata sempre sul campione, come stime dei rispettivi parametri della retta della popolazione, 𝛽$ e 𝛽!. Queste stime vengono utilizzate per ottenere il modello di regressione lineare stimato. La retta, che viene descritta da tale equazione, viene detta retta di regressione: 𝑌g, = 𝑏$ + 𝑏! 𝑋, dove: 𝑌g, è il valore stimato di 𝑌 per l’𝑖-esima osservazione; 𝑋, e il valore di 𝑋 per l’𝑖-esima osservazione; 𝑏$ è l’intercetta stimata a partire dal campione; 𝑏! è la pendenza stimata a partire dal campione. L’equazione per essere esplicata richiede la determinazione dei due coefficienti di regressione 𝑏$ e 𝑏!. L’approccio più utilizzato è quello del metodo dei minimi quadrati. Questo metodo consiste nel minimizzare la somma dei quadrati delle differenze tra i valori osservati di 𝑌 (𝑌, ) e quelli stimati dalla retta di regressione h𝑌g, i. La somma dei quadrati degli scarti è data da: % ' j h𝑌, − 𝑌g, i ,.! Dal momento che, in base al modello proposto, 𝑌g, = 𝑏$ + 𝑏! 𝑋, , si tratta di minimizzare la seguente espressione: % j [𝑌, − (𝑏$ + 𝑏! 𝑋, )]' ,.! rispetto alle due incognite 𝑏$ e 𝑏!. Previsioni nell’analisi di regressione La previsione di un valore di 𝑌 in corrispondenza di un certo valore di 𝑋 può essere definita in due modi, in relazione all’intervallo di valori di 𝑋 usati per stimare il modello: § interpolazione: se la previsione di 𝑌 corrisponde ad un valore di 𝑋 interno all’intervallo § estrapolazione: se la previsione di 𝑌 corrisponde ad un valore di 𝑋 che non cade nell’intervallo Calcolo dell’intercetta 𝑏! e della pendenza 𝑏" La pendenza 𝑏! può essere calcolata attraverso la formula: 𝐶𝑂𝑉𝐴𝑅(𝑋, 𝑌) 𝑆𝑆𝑋𝑌 𝑏! = = 𝑉𝐴𝑅𝐼𝐴𝑁𝑍𝐴(𝑋) 𝑆𝑆𝑋 e dato che: 𝐶𝑂𝑉𝐴𝑅(𝑋, 𝑌) 𝐶𝑂𝑅𝑅𝐸𝐿(𝑋, 𝑌) = 𝐷𝐸𝑉. 𝑆𝑇𝐷(𝑋) ∙ 𝐷𝐸𝑉. 𝑆𝑇𝐷(𝑌) si può anche scrivere: 𝐷𝐸𝑉. 𝑆𝑇𝐷(𝑌) 𝑏! = 𝐶𝑂𝑅𝑅𝐸𝐿(𝑋, 𝑌) 𝐷𝐸𝑉. 𝑆𝑇𝐷(𝑋) L’intercetta 𝑏$ può essere calcolata attraverso la formula: 𝑏$ = 𝑌a − 𝑏! 𝑋a dove: 15 ∑%,.! 𝑌, 𝑌a = 𝑛 ∑%,.! 𝑋, 𝑋a = 𝑛 L’equazione per il calcolo della pendenza 𝑏! può essere semplificata: % % (∑%,.! 𝑋, )(∑%,.! 𝑌, ) 𝑆𝑆𝑋𝑌 = j (𝑋, − 𝑋a )(𝑌, − 𝑌a) = j 𝑋, 𝑌, − ,.! ,.! 𝑛 % % (∑%,.! 𝑋, )' 𝑆𝑆𝑋 = j (𝑋, − 𝑋a)' = j 𝑋,' − ,.! ,.! 𝑛 Misure di variabilità nella regressione lineare e l’indice di determinazione 𝑹𝟐 Quando si utilizza il metodo dei minimi quadrati per stimare i coefficienti di regressione è necessario calcolare tre importanti indici di variabilità: § devianza totale (o somma complessiva degli scarti) denotata con 𝑆𝑆𝑇, è una misura della variabilità complessiva delle 𝑌, rispetto alla media generale 𝑌a § devianza spiegata (o somma dei quadrati della regressione) denotata con 𝑆𝑆𝑅, è quella parte di variabilità dovuta alla presenza di una relazione tra le variabili 𝑋 e 𝑌 § devianza residua (o somma dei quadrati degli errori) denotata con 𝑆𝑆𝐸, è la parte casuale del modello Calcolo delle devianze La devianza di regressione (𝑆𝑆𝑅) si ottiene dalla differenza tra 𝑌g, e 𝑌a (ossia tra i valori stimati di 𝑌 e la media della 𝑌). La devianza residua (𝑆𝑆𝐸) rappresenta la parte di variabilità di 𝑌 che non è spiegata dal modello di regressione e si calcola sulla base delle differenze tra 𝑌 e 𝑌g, (ovvero tra il vero valore di 𝑌 e il valore stimato dalla retta di regressione. La devianza totale è uguale alla somma tra devianza di regressione e devianza residua: 𝑆𝑆𝑇 = 𝑆𝑆𝑅 + 𝑆𝑆𝐸 oppure è uguale alla somma dei quadrati degli scarti tra i valori osservati della 𝑌 e il valore medio di 𝑌: % 𝑆𝑆𝑇 = 𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑖𝑡à 𝑡𝑜𝑡𝑎𝑙𝑒 = j (𝑌, − 𝑌a)' ,.! La devianza di regressione è data dalla somma dei quadrati degli scarti tra i valori stimati della 𝑌 e il valore medio di 𝑌: % ' 𝑆𝑆𝑅 = 𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑖𝑡à 𝑠𝑝𝑖𝑒𝑔𝑎𝑡𝑎 = j h𝑌g, − 𝑌ai ,.! La devianza residua è uguale alla somma dei quadrati degli scarti tra i valori osservati e i valori stimati della 𝑌: % ' 𝑆𝑆𝐸 = 𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑖𝑡à 𝑛𝑜𝑛 𝑠𝑝𝑖𝑒𝑔𝑎𝑡𝑎 = j h𝑌, − 𝑌g, i ,.! Il coefficiente di determinazione 𝑅# Al fine di valutare la bontà di adattamento del modello ai dati, si può calcolare il coefficiente di determinazione. Questo è dato dal rapporto tra la devianza di regressione e la devianza totale: 𝑑𝑒𝑣𝑖𝑎𝑛𝑧𝑎 𝑑𝑖 𝑟𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛𝑒 𝑆𝑆𝑅 𝑅' = = = 𝐶𝑂𝑅𝑅𝐸𝐿(𝑋, 𝑌)' 𝑑𝑒𝑣𝑖𝑎𝑛𝑧𝑎 𝑡𝑜𝑡𝑎𝑙𝑒 𝑆𝑆𝑇 Il coefficiente di determinazione misura la proporzione di variabilità della 𝑌 spiegata dalla relazione con la variabile 𝑋 all’interno del modello di regressione, e varia tra 0 e 1. 16 Errore standard delle stime L’errore standard delle stime misura la variabilità dei valori osservati della variabile 𝑌 rispetto ai valori stimati di 𝑌 (ovvero quel valore che si sarebbe dovuto osservare in corrispondenza di una certa 𝑋, se non ci fossero le fluttuazioni casuali: ' 𝑆𝑆𝐸 ∑% h𝑌, − 𝑌g, i 𝑆98 =G = G ,.! 𝑛−2 𝑛−2 Assunzioni del modello di regressione Esistono 4 assunzioni della regressione fondamentali per la validità del modello: § linearità: impone che la relazione tra le variabili oggetto di studio sia di tipo lineare § indipendenza dei residui: richiede che i residui (𝜀, ) siano indipendenti l’uno dall’altro16 § normalità dei residui: richiede che i residui (𝜀, ) siano distribuiti normalmente per ogni valore di 𝑋; il modello di regressione è comunque robusto rispetto a scostamenti dall’ipotesi di normalità: fino a che la distribuzione dei residui, per ogni valore di 𝑋, non si discosti fortemente dalla normalità, si può ritenere che la stima dei parametri 𝛽$ e 𝛽! non sia seriamente compromessa § omoschedasticità: impone che la variabilità dei residui (𝜀, ) sia costante per ciascun valore di 𝑋 Analisi dei residui Per verificare la bontà dell’adattamento di un modello di regressione ai dati, oltre ad analizzare l’indice di determinazione, occorre effettuare l’analisi dei residui. Si tratta di un metodo grafico che permette di valutare le assunzioni alla base del modello e decidere se questo sia appropriato. Il residuo, 𝑒, , o errore stimato, corrisponde alla differenza tra il valore osservato (𝑌, ) e quello stimato (𝑌g, ) della variabile dipendente 𝑌 per un determinato valore della variabile indipendente 𝑋: 𝑒, = 𝑌, − 𝑌g, Graficamente è possibile osservare i residui attraverso un diagramma di dispersione. Verificare la validità delle assunzioni Attraverso l’analisi dei residui è possibile verificare le quattro assunzioni della regressione. § Linearità: per verificare che l’ipotesi di linearità sia soddisfatta occorre rappresentare graficamente i residui (sull’asse verticale) e i corrispondenti valori di 𝑋, della variabile indipendente (sull’asse orizzontale) mediante un diagramma a dispersione. Se il modello lineare è appropriato per i dati, si vedrà che non vi è nessun tipo di relazione o pattern (andamento regolare) tra i residui e la variabile indipendente. Al contrario, se il modello lineare non risulta adatto ai dati oggetto di analisi, si vedrà dal grafico un qualche tipo di pattern. § Indipendenza: può essere verificata realizzando un grafico in cui i residui vengono posti seguendo l’ordine in cui sono stati raccolti i dati. Infatti, se esiste una correlazione tra osservazioni consecutive della 𝑌, esisterà anche una correlazione tra valori consecutivi dei residui. Se esiste un tale tipo di relazione, si osserverà un andamento ciclico dei residui nel grafico costruito con i valori di 𝑒, contro le osservazioni disposte secondo l’ordine di rilevazione. § Normalità: può essere verificata attraverso un istogramma dei residui. Se la numerosità delle osservazioni non consente di costruire un istogramma, è possibile verificare l’assunzione di normalità anche attraverso la costruzione di un grafico che riporti i valori teorici della normale contro quelli osservati dei residui oppure mediante un boxplot. § Omoschedasticità: può essere valutata attraverso un grafico che riporta i residui contro i valori di 𝑋,. Se la variabilità dei residui cresce in maniera molto marcata all’aumentare di 𝑋, allora ci sarà una mancanza di omogeneità della varianza delle 𝑌, al variare della 𝑋. 16 L’assunzione di indipendenza viene violata in due casi tipici: quando i dati sono raccolti in serie storiche o quando si tratta di dati spaziali, ossia dati associati a coordinate geografiche (per esempio province, regioni o stati). 17 Inferenza sulla pendenza e sul coefficiente di correlazione Se attraverso l'analisi dei residui si conclude che le assunzioni del modello di regressione sono rispettate, si può passare ad analizzare la significatività della relazione lineare che sussiste tra le variabili nella popolazione. In altre parole, si vuole stabilire se i risultati trovati nel campione possano essere estesi alla popolazione. Test 𝑡 per la pendenza Per verificare che la relazione lineare tra le variabili 𝑋 e 𝑌 nella popolazione sia significativa è necessario verificare l'ipotesi che il parametro 𝛽! (la pendenza nella popolazione) sia uguale a zero. L'ipotesi nulla e quella alternativa sono le seguenti: § 𝑯𝟎 : 𝛽! = 0 (non c’è relazione lineare, la pendenza è zero) § 𝑯𝟏 : 𝛽! ≠ 0 (c’è relazione lineare, la pendenza è diversa da zero) Nella regressione lineare semplice, l'ipotesi nulla 𝐻$ è che la pendenza, nella popolazione, sia pari a 0. Tale pendenza caratterizzerebbe una retta parallela all'asse delle 𝑋, che quindi non mostrerebbe alcuna relazione tra 𝑌 e 𝑋: per qualsiasi valore della 𝑋 ci aspetteremmo un identico valore per la 𝑌. Se si rifiuta l'ipotesi nulla, allora è possibile concludere che vi è sufficiente evidenza empirica per affermare che nella popolazione esiste una relazione lineare tra 𝑋 e 𝑌, ovvero vi è una variazione significativa della 𝑌 al variare della 𝑋. La statistica test 𝒕𝑺𝑻𝑨𝑻 è uguale alla differenza tra la pendenza campionaria 𝑏! e il suo valore ipotizzato nella popolazione, 𝛽! = 0, diviso per l’errore standard della pendenza, 𝑆@! : 𝑏! − 𝛽! 𝑡ABCB = 𝑆@! dove: 𝑆98 𝑆@! = √𝑆𝑆𝑋 % 𝑆𝑆𝑋 = j (𝑋, − 𝑋a)' ,.! La statistica test 𝑡ABCB si distribuisce come una 𝑡 di Student con 𝑛 − 2 gradi di libertà. Test 𝐹 per la pendenza Come alternativa al test 𝑡 è possibile impiegare anche il test 𝐹 per verificare se la pendenza risulti significativamente diversa da zero. La statistica test 𝑭𝑺𝑻𝑨𝑻 è uguale al rapporto tra la varianza di regressione17 e la varianza residua: 𝑀𝑆𝑅 𝐹ABCB = 𝑀𝑆𝐸 dove: 𝑆𝑆𝑅 𝑀𝑆𝑅 = = 𝑆𝑆𝑅 1 𝑆𝑆𝐸 𝑀𝑆𝐸 = 𝑛−2 17 𝑀𝑆𝑅 è l’acronimo di mean square error of regression ovvero errore quadratico medio di regressione. 18 La statistica test 𝐹ABCB si distribuisce come una 𝐹 di Fisher, rispettivamente, con 1 e 𝑛 − 2 gradi di libertà. Fissando il livello di significatività 𝛼, la regola decisionale del test 𝐹 sarà la seguente: § si rifiuta 𝐻$ se 𝐹ABCB > 𝐹D § altrimenti si accetta 𝐻$ La tabella seguente riporta le quantità necessarie al test 𝐹: Fonte di variabilità Gradi di libertà Devianza Varianza 𝑭 Regressione 1 𝑆𝑆𝑅 𝑆𝑆𝑅 𝑀𝑆𝑅 𝑀𝑆𝑅 = = 𝑆𝑆𝑅 𝐹!"#" = 1 𝑀𝑆𝐸 Residui 𝑛−2 𝑆𝑆𝐸 𝑆𝑆𝐸 𝑀𝑆𝐸 = 𝑛−2 Totale 𝑛−1 𝑆𝑆𝑇 Intervallo di confidenza per la pendenza L’esistenza di una relazione lineare significativa tra le variabili 𝑋 e 𝑌 può essere anche verificata attraverso la costruzione di un intervallo di confidenza per 𝛽!. L’intervallo di confidenza per 𝛽! si ottiene addizionando e sottraendo all’inclinazione campionaria 𝑏! il prodotto tra il valore critico della statistica 𝑡 e l’errore standard dell’inclinazione: 𝑏! ± 𝑡%#' 𝑆@" 𝑏! − 𝑡%#' 𝑆@" ≤ 𝛽! ≤ 𝑏! + 𝑡%#' 𝑆@" Se l’intervallo non contiene lo zero, allora vi è una significativa relazione lineare tra le variabili incluse nel modello. Nei casi in cui l’intervallo di confidenza dovesse invece contenere lo zero si dovrà concludere il contrario, ovvero che non si può rigettare l’ipotesi nulla 𝐻$ , e che la relazione lineare tra la 𝑋 e la 𝑌 non è significativa. Stima dei valori medi e individuali Vengono di seguito elencati i metodi di inferenza sulla media della variabile 𝑌 e sui singoli valori della 𝑌. Intervalli di confidenza Si può definire l’intervallo di confidenza per la media della variabile dipendente 𝒀, dato un certo valore di 𝑿 attraverso la formula: 𝑌g, ± 𝑡%#' 𝑆98 Iℎ, 𝑌g, − 𝑡%#' 𝑆98 Iℎ, ≤ 𝜇9|8.8" ≤ 𝑌g, + 𝑡%#' 𝑆98 Iℎ, dove: 1 (𝑋, − 𝑋a)' ℎ, = + 𝑛 𝑆𝑆𝑋 𝑌g, = 𝑣𝑎𝑙𝑜𝑟𝑒 𝑠𝑡𝑖𝑚𝑎𝑡𝑜 𝑑𝑖 𝑌 = 𝑏$ + 𝑏! 𝑋, 𝑆98 = 𝑒𝑟𝑟𝑜𝑟𝑒 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑 𝑑𝑒𝑙𝑙𝑒 𝑠𝑡𝑖𝑚𝑒 𝑛 = 𝑛𝑢𝑚𝑒𝑟𝑜𝑠𝑖𝑡à 𝑐𝑎𝑚𝑝𝑖𝑜𝑛𝑎𝑟𝑖𝑎 𝜇9|8.8" = 𝑣𝑎𝑙𝑜𝑟𝑒 𝑚𝑒𝑑𝑖𝑜 𝑑𝑖 𝑌 𝑞𝑢𝑎𝑛𝑑𝑜 𝑋 = 𝑋, 19 % 𝑆𝑆𝑋 = j (𝑋, − 𝑋a)' ,.! Intervallo di confidenza per la previsione In numerose applicazioni è utile prevedere il valore che assume la 𝑌 per una certa osservazione. A tale scopo bisogna definire l’intervallo di previsione per un singolo valore della 𝒀: 𝑌g, ± 𝑡%#' 𝑆98 I1 + ℎ, 𝑌g, − 𝑡%#' 𝑆98 I1 + ℎ, ≤ 𝑌8.8# ≤ 𝑌g, + 𝑡%#' 𝑆98 I1 + ℎ, dove: 𝑌8.8" = 𝑣𝑎𝑙𝑜𝑟𝑒 𝑝𝑟𝑒𝑣𝑖𝑠𝑡𝑜 𝑑𝑖 𝑌 𝑞𝑢𝑎𝑛𝑑𝑜 𝑋 = 𝑋, Possibili errori nell’uso del modello di regressione Il modello di regressione è una tecnica statistica molto utilizzata. Spesso però viene impiegata in modo non corretto. Le difficoltà del modello di regressione sono principalmente 4: § scarsa conoscenza delle assunzioni alla base del modello § scarsa conoscenza del modo in cui valutare le assunzioni § scarsa conoscenza dei modelli alternativi a quello di regressione lineare semplice § uso del modello di regressione senza una conoscenza adeguata della teoria sottostante L’analisi grafica molto spesso consente di rilevare eventuali informazioni che le analisi numeriche non evidenziano. Sei passi per evitare errori nell’uso dei modelli di regressione Di seguito si illustrano i passi che consentono di evitare i rischi associati all’utilizzo del modello di regressione. § Iniziare ogni analisi con un diagramma di dispersione per osservare la possibile relazione tra le variabili 𝑋 e 𝑌. § Verificare le assunzioni della regressione (linearità, indipendenza, normalità omoschedasticità) attraverso l'analisi dei residui: o tracciare un grafico dei residui contro la variabile indipendente per verificare se il modello lineare può essere appropriato o per verificare l'assunzione di omoschedasticità; o costruire un istogramma, un diagramma ramo-foglia, un boxplot o un normal probability plot per verificare l'assunzione di normalità; o tracciare un grafico dei residui contro le osservazioni ordinate secondo il tempo per verificare l'ipotesi di indipendenza (questo è necessario solo se i dati sono collezionati in diversi intervalli temporali). § Se alcune delle assunzioni sono violate, utilizzare un metodo alternativo a quello dei minimi quadrati. § Se le assunzioni sono rispettate, oltre a stimare il modello si utilizzino anche i test per verificare la significatività della relazione lineare nella popolazione e gli intervalli di confidenza e gli intervalli di previsione. § Evitare di effettuare previsioni che vadano oltre l'intervallo dei valori osservati della variabile 𝑋. § Tenere presente che la relazione individuata dal modello di regressione potrebbe o non potrebbe esprimere un rapporto di causa-effetto. Si ricordi che, nonostante il rapporto di causa-effetto implichi la correlazione, la correlazione non implica la relazione di causa-effetto. 20 Fondamenti di calcolo delle probabilità Il calcolo delle probabilità funge da ponte tra la statistica descrittiva e la statistica inferenziale. La probabilità è un valore numerico che rappresenta la possibilità che un certo evento si verifichi. È una proporzione, o una frazione, i cui valori variano tra 0 e 1 inclusi18: un evento che non ha nessuna possibilità di verificarsi ha una probabilità pari a 019, un evento che si verifica di sicuro ha una probabilità pari a 1. § Probabilità classica o a priori: la probabilità del successo è basata sulla conoscenza a priori del processo che genera gli eventi possibili. Nel caso più semplice, dove ogni esito ha la stessa probabilità di verificarsi (“equiprobabile”), la probabilità di un evento è definita: 𝑋 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡à 𝑑𝑖 𝑢𝑛 𝑒𝑣𝑒𝑛𝑡𝑜 𝑜 𝑃(𝐴) = 𝑇 dove 𝑋 è il numero dei casi nei quali l’evento si verifica e 𝑇 è il numero totale dei risultati possibili. La probabilità classica si utilizza quando il numero dei casi in cui l’evento si verifica e il totale dei risultati possibili sono noti. § Probabilità frequentista o empirica: si utilizza quando gli eventi che si verificano sono ignoti; infatti, le probabilità sono basate sui dati osservati e non sulla conoscenza a priori del processo. Per calcolare questo tipo di probabilità è spesso necessario ricorrere ad indagini. § Probabilità soggettivista: differisce da quelle precedenti perché cambia da individuo a individuo: è basata sull’esperienza passata dell’individuo o sull’opinione personale. È utile soprattutto nel prendere decisioni quando non è possibile utilizzare le altre forme di probabilità. È necessario definire: § evento: ogni possibile risultato di un esperimento il cui esito è casuale, un evento semplice è descritto da una singola caratteristica § evento congiunto o composto: un evento che ha due o più caratteristiche, la parola chiave nel caso della descrizione di un evento congiunto è “e” § completamento di un evento: il completamento di un evento 𝐴 (denotato con 𝐴′) include tutti gli eventi che non sono parte di 𝐴 La collezione di tutti i possibili eventi è chiamata spazio campionario. Questo viene rappresentato attraverso una tabella di contingenza (detta anche tabella a doppia entrata) o attraverso il diagramma di Venn (che rappresenta graficamente gli eventi come “unioni” e “intersezioni” di cerchi). È anche possibile utilizzare l’albero decisionale (utile a rappresentare e calcolare le probabilità condizionate). Detto ciò, la probabilità semplice è la probabilità che si verifichi un evento semplice 𝑃(𝐴). La probabilità congiunta, invece, è legata al verificarsi di due o più eventi contemporaneamente 𝑃(𝐴 𝑒 𝐵). La probabilità marginale di un evento si può calcolare sulla base di un insieme di probabilità congiunte. Per esempio, se 𝐵 è formato da due eventi 𝐵! e 𝐵' , allora la probabilità dell’evento 𝐴 può ottenersi come somma delle probabilità congiunte dell’evento 𝐴 con l’evento 𝐵! e dell’evento 𝐴 con l’evento 𝐵' : 𝑃(𝐴) = 𝑃(𝐴 𝑒 𝐵! ) + 𝑃(𝐴 𝑒 𝐵' ) + ⋯ + 𝑃(𝐴 𝑒 𝐵F ) dove 𝐵! , 𝐵' , …, 𝐵F sono eventi mutuamente esclusivi (non possono verificarsi contemporaneamente) e collettivamente esaustivi (almeno uno degli eventi deve verificarsi). Per calcolare la probabilità dell’unione di due eventi 𝑃(𝐴 𝑜 𝐵), è necessario prendere in considerazione il verificarsi dell’evento 𝐴 o dell’evento 𝐵 o di entrambi gli eventi 𝐴 𝑒 𝐵. Si utilizza la regola generale dell’unione: 𝑃(𝐴 𝑜 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 𝑒 𝐵) 18 La probabilità non può essere né negativa né maggiore di 1. 19 È più preciso dire che la probabilità tende a 0, ciò vuol dire che non ci si aspetta che un certo evento accada. 21 Probabilità condizionata La probabilità condizionata è la probabilità di un evento 𝐴, data l’informazione sul verificarsi di un altro evento 𝐵. La probabilità condizionata di 𝐴 dato 𝐵 è uguale alla probabilità di 𝐴 𝑒 𝐵 divisa per la probabilità di 𝐵: 𝑃(𝐴 𝑒 𝐵) 𝑃(𝐴|𝐵) = 𝑃 (𝐵) La probabilità di 𝐵 dato 𝐴 è uguale alla probabilità di 𝐴 𝑒 𝐵 diviso la probabilità di 𝐴: 𝑃(𝐴 𝑒 𝐵) 𝑃(𝐵|𝐴) = 𝑃 (𝐴) Con la probabilità condizionata si è in grado di determinare cosa influenza il comportamento negli acquisti. Quando l’esito di un evento non modifica la probabilità di verificarsi di un altro evento, questi sono detti indipendenti. Due eventi, 𝐴 e 𝐵, sono indipendenti se e solo se: 𝑃(𝐴|𝐵) = 𝑃(𝐴) Dalla definizione di probabilità condizionata, per calcolare la probabilità dell’intersezione di due eventi si utilizza la regola generale del prodotto: 𝑃(𝐴 𝑒 𝐵) = 𝑃(𝐴|𝐵) ∙ 𝑃(𝐵) se due eventi sono indipendenti, si ottiene: 𝑃(𝐴 𝑒 𝐵) = 𝑃(𝐴) ∙ 𝑃(𝐵) Pertanto, ci sono due modi per verificare l’indipendenza di due eventi: § 𝐴 e 𝐵 sono indipendenti se e solo se 𝑃(𝐴|𝐵) = 𝑃(𝐴) § 𝐴 e 𝐵 sono indipendenti se e solo se 𝑃(𝐴 𝑒 𝐵) = 𝑃(𝐴) ∙ 𝑃(𝐵) Ora si può riscrivere l’equazione per la probabilità marginale usando la regola generale del prodotto per il calcolo delle probabilità congiunte. Usando la regola del prodotto, si può sostituire a ciascun termine 𝑃(𝐴 𝑒 𝐵, ) = 𝑃(𝐵, ) ∙ 𝑃(𝐴|𝐵, ) e ottenere la formula del teorema delle probabilità totali: 𝑃(𝐴) = 𝑃(𝐴|𝐵! ) ∙ 𝑃(𝐵! ) + 𝑃(𝐴|𝐵' ) ∙ 𝑃(𝐵' ) + ⋯ + 𝑃(𝐴|𝐵F ) ∙ 𝑃(𝐵F ) dove 𝐵! , 𝐵' , …, 𝐵F sono 𝑘 eventi mutuamente esclusivi e collettivamente esaustivi. Teorema di Bayes 20 È utile a modificare e rivedere le probabilità precedentemente calcolate sulla base di nuove informazioni. Sviluppato da Thomas Bayes nel XVIII secolo, il teorema può essere visto come un’estensione di quanto già appreso sulla probabilità condizionata. 20 Applicazione moderna del teorema di Bayes: i filtri per lo spam. Le frequenze delle parole variano in base all’argomento; il fatto che sia più o meno probabile che delle parole appaiano in un testo suggerisce un’applicazione della teoria della probabilità. Ciò è utile a classificare un’e-mail sia come “spam” sia come “legittima” attraverso l’utilizzo di un filtro per la posta indesiderata che riconosce parole frequentemente associate con lo spam mentre l’utente le identifica giorno per giorno. In questo modo il programma aggiorna continuamente le probabilità a priori necessarie al teorema di Bayes. Il filtro si chiede: “qual è la probabilità che un’e-mail possa essere contrassegnata come spam data la presenza di una certa parola?”; moltiplica la probabilità di trovare la parola in un’e-mail indesiderata 𝑃(𝐴|𝐵) per la probabilità che l’e-mail sia spam 𝑃(𝐵) e poi divide il risultato per la probabilità di trovare la parola in un’e-mail. Questo tipo di filtri si concentra su gruppi ridotti di parole che hanno un’alta/bassa probabilità di trovarsi all’interno di un messaggio di spam. Per superare i filtri, i programmi di spam alterano l’ortografia delle parole, senza tenere conto che questi termini alterati hanno una probabilità ancora maggiore di trovarsi in un’e-mail indesiderata. Altri programmi 22 𝑃(𝐴|𝐵, ) ∙ 𝑃(𝐵, ) 𝑇𝑒𝑜𝑟𝑒𝑚𝑎 𝑑𝑖 𝐵𝑎𝑦𝑒𝑠 → 𝑃(𝐵, |𝐴) = 𝑃(𝐴|𝐵! ) ∙ 𝑃 (𝐵! ) + 𝑃(𝐴|𝐵' ) ∙ 𝑃(𝐵' ) + ⋯ + 𝑃(𝐴|𝐵F ) ∙ 𝑃 (𝐵F ) dove 𝐵! , 𝐵' , …, 𝐵F sono 𝑘 eventi mutuamente esclusivi e collettivamente esaustivi. Regole di conteggio 1. Risultati possibili: determina il numero di possibili risultati per un insieme di eventi mutuamente esclusivi e collettivamente esaustivi. Se uno qualunque degli eventi 𝑘 può verificarsi in ognuno degli esperimenti 𝑛, il numero di risultati possibili è uguale a: 𝑘% 2. Eventi possibili: generalizzazione della regola 1 a un numero di eventi possibili differente per ogni esperimento. Se gli eventi della prima prova empirica sono 𝑘! , della seconda 𝑘' , … e della prova 𝑛 sono 𝑘% , allora il numero di risultati possibili è: (𝑘! ) ∙ (𝑘' ) ∙ … ∙ (𝑘% ) 3. Ordinamenti possibili: riguarda il calcolo dei modi in cui un insieme di oggetti può essere ordinato. Il numero dei modi in cui 𝑛 oggetti possono essere ordinati è: 𝑛! = 1 ∙ 2 ∙ 3 ∙ … ∙ (𝑛 − 1) ∙ (𝑛) dove 𝑛! si chiama “𝑛 fattoriale” e 0! è per definizione uguale a 1. 4. Permutazioni: in alcuni casi si vuole sapere il numero di modi in cui un sottoinsieme può essere disposto in ordine. Ogni possibile disposizione è definita “permutazione”. Il numero delle disposizioni possibili di 𝑥 oggetti selezionati da 𝑛 oggetti è: ⬚ 𝑛! %𝑃+ = (𝑛 − 𝑥)! dove 𝑛 è il numero totale e 𝑥 è il numero degli oggetti da disporre. 5. Combinazioni: se non si è interessati all’ordine, ogni selezione possibile è definita “combinazione”. Il numero dei modi in cui è possibile selezionare 𝑥 oggetti da 𝑛 oggetti è: ⬚ 𝑛! %𝐶+ = 𝑥! (𝑛 − 𝑥)! dove 𝑛 è il numero totale e 𝑥 è il numero degli oggetti da disporre. Distribuzioni di probabilità di variabili casuali discrete La distribuzione di probabilità di una variabile casuale discreta è un elenco mutualmente esclusivo di tutti i possibili risultati numerici che la variabile casuale può assumere, unitamente alla probabilità del verificarsi di ciascun risultato. Il valore medio 𝜇 di una distribuzione di probabilità è il valore atteso di una variabile casuale. Questo si calcola moltiplicando ogni possibile risultato 𝑋 per la sua corrispondente probabilità 𝑃(𝑋), e sommando questi prodotti: " 𝜇 = 𝐸(𝑋) = j 𝑋, 𝑃(𝑋, ) ,.! dove 𝑁 è il numero di possibili valori che può assumere la variabile casuale, 𝑋, è l’ 𝑖-esimo valore della variabile casuale discreta 𝑋 e 𝑃(𝑋, ) è la probabilità del verificarsi dell’ 𝑖-esimo valore di 𝑋. La varianza di una variabile casuale discreta si calcola moltiplicando ogni possibile differenza al quadrato [𝑋, − 𝐸(𝑋)]' per la corrispondente probabilità 𝑃(𝑋), e sommando i relativi prodotti: " 𝜎' = j [𝑋, − 𝐸(𝑋)]' 𝑃(𝑋, ) ,.! Di conseguenza, la deviazione standard si calcola: aggiungono parole “buone”, con una bassa probabilità di trovarsi in un messaggio spam, o “rare”, oppure inserendo parole casuali. Tali scelte ignorano il fatto che le probabilità condizionate vengono aggiornate costantemente. 23 " 𝜎 = I𝜎 ' = Gj [𝑋, − 𝐸(𝑋)]' 𝑃(𝑋, ) ,.! La distribuzione binomiale Quando esiste una formula che esprime la distribuzione di probabilità per una variabile casuale, si può calcolare la probabilità esatta per qualsiasi valore della variabile. La distribuzione binomiale è un modello probabilistico molto utile e diffuso. Viene usata quando la variabile casuale discreta rappresenta il numero di eventi di interesse (“successi”) in un campione di 𝑛 osservazioni (“prove”). La variabile casuale binomiale, quindi, serve come modello probabilistico in tutti quei casi in cui si è interessati al numero di volte in cui un certo evento si verifica in 𝑛 prove fra loro indipendenti. Le caratteristiche fondamentali della distribuzione binomiale sono: § il campione ha un numero dato di osservazioni (prove), 𝑛 § ogni osservazione è classificata in una e una sola delle due categorie: successo e insuccesso § la probabilità che si verifichi un successo, 𝜋, è costante in ogni prova21 § il risultato di una qualsiasi prova è indipendente dal risultato di qualsiasi altra prova22 Per trovare il numero delle combinazioni, ovvero il numero di modi in cui è possibile disporre 𝑋 oggetti in 𝑛 prove a prescindere dall’ordine, bisogna utilizzare il coefficiente binomiale. Il numero di combinazioni di 𝑛 elementi presi a 𝑋 a 𝑋 è dato da: ⬚ 𝑛! %𝐶8 = 𝑋! (𝑛 − 𝑋)! dove 𝑛! = (𝑛)(𝑛 − 1) … (1)23. Al crescere di 𝑛, la dimensione del campione, i calcoli necessari diventano difficoltosi. Si può quindi utilizzare la distribuzione binomiale24 per calcolare la probabilità di osservare 𝑋 eventi di interesse (successi), dato il numer

Statistica 2324 PDF

Document Details

Tags

Related

Summary

Full Transcript

Upgrade to continue