DISPENSE DELL’INSEGNAMENTO DI TECNICHE DI RICERCA E ANALISI DEI DATI PDF
Document Details
Uploaded by TopQualityPreRaphaelites5768
Università Cusano
Maria Stefania De Simone
Tags
Summary
These lecture notes cover research and data analysis techniques, with a focus on descriptive and inferential statistics. The document explains various statistical methods, including measures of central tendency (mean, median, mode), variability, and data transformations. It also explores various types of probabily distributions.
Full Transcript
DISPENSE DELL’INSEGNAMENTO DI TECNICHE DI RICERCA E ANALISI DEI DATI Prof. Maria Stefania De Simone RICERCATORE Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone MODULO 2 ELEMENTI DI STATIS...
DISPENSE DELL’INSEGNAMENTO DI TECNICHE DI RICERCA E ANALISI DEI DATI Prof. Maria Stefania De Simone RICERCATORE Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone MODULO 2 ELEMENTI DI STATISTICA DESCRITTIVA E INFERENZIALE 1. INTRODUZIONE ALLA STATISTICA DESCRITTIVA 2. INDICI DI TENDENZA CENTRALE 3. INDICI DI VARIABILITÀ E DISPERSIONE 4. TRASFORMAZIONE DEI DATI GREZZI 5. INTRODUZIONE ALLA STATISTICA INFERENZIALE 6. DISTRIBUZIONI TEORICHE DI PROBABILITÀ 7. LA VERIFICA DELLE IPOTESI 8. LA VERIFICA DELLE IPOTESI SULLA MEDIA DI UNA POPOLAZIONE 1 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone ELEMENTI DI STATISTICA DESCRITTIVA E INFERENZIALE 1. Introduzione alla statistica descrittiva I risultati di una ricerca sono solitamente costituiti da un insieme sostanzioso di numeri corrispondenti alle singole misurazioni, o punteggi, raccolti durante lo studio. Il problema immediato per il ricercatore è organizzare tali punteggi in una forma comprensibile, in modo tale che le caratteristiche dell’intero dataset possano essere facilmente osservabili e comunicate ad altri. Questo è il compito della statistica descrittiva: descrivere in modo chiaro e sintetico grandi quantità di numeri, semplificandone l'organizzazione e la presentazione. Per raggiungere questo obiettivo, sono diverse le tecniche che possono essere utilizzate, ognuna delle quali con una funzione specifica differente. La prima parte di questo secondo modulo sarà dedicata all’approfondimento di alcune procedure che, nell’ambito della statistica descrittiva, consentono di organizzare l’intero dataset di dati raccolti in una forma semplice e chiara. Parleremo in particolare di: - Indici di tendenza centrale - Indici di variabilità e dispersione - Trasformazione dei punteggi grezzi in punteggi standard 2. Indici di tendenza centrale Si definiscono indici di tendenza centrale un insieme di indicatori numerici generalmente impiegati per ricavare un unico punteggio dalla distribuzione in grado di definirne il valore centrale. I principali sono: la moda, la mediana e la media. 2 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone La moda. All’interno di una distribuzione, la moda (o norma) corrisponde all’osservazione o punteggio che si manifesta più frequentemente. In un’ipotetica distribuzione di n = 9 punteggi come la seguente 4 7 6 5 7 4 4 3 9 la moda è 4, perché questo è il punteggio che ricorre più frequentemente nella distribuzione (3 volte). In un grafico a barre o istogramma, la moda corrisponde alla barra più alta. Sebbene questo indice possa essere applicato a tutti i tipi di scala (nominale, ordinale, a intervalli e a rapporti), la moda è un indice piuttosto grezzo e generalmente poco adatto per descrivere dati quantitativi perché ignora gran parte delle informazioni contenute nei dati. D’altra parte, se si utilizzano esclusivamente variabili categoriali, la moda è l’unico indice di tendenza centrale che è possibile calcolare. La mediana. L'obiettivo della mediana è individuare il punto centrale della distribuzione. In termini pratici, ordinando i punteggi di una distribuzione per grandezza, dal più piccolo al più grande, la mediana è il punto centrale dell'elenco, cioè il punto della scala di misurazione al di sotto del quale si trova il 50% dei punteggi. Consideriamo la precedente distribuzione di n = 9 punteggi, elencati qui in ordine crescente: 3 4 4 4 5 6 7 7 9 In questo caso, la mediana è uguale a 5, perché corrisponde all’elemento centrale della distribuzione. Se la distribuzione comprende un numero pari di punteggi, la mediana viene calcolata come la semisomma tra i due punteggi centrali. Questo indice è applicabile a tutti i tipi di scala tranne che a quella nominale. La media. La media, nota anche come media aritmetica, è un indice di tendenza centrale che consente di calcolare un valore singolo in grado di rappresentare o descrivere tutti i valori all’interno di una distribuzione. Si applica ai dati su scala a intervalli e a rapporti ed è calcolata sommando tutti i punteggi nella distribuzione e dividendo il risultato per il numero di punteggi. 𝑆𝑜𝑚𝑚𝑎 𝑑𝑒𝑙𝑙𝑒 𝑜𝑠𝑠𝑒𝑟𝑣𝑎𝑧𝑖𝑜𝑛𝑖 𝑀𝑒𝑑𝑖𝑎 = 𝑁𝑢𝑚𝑒𝑟𝑜 𝑑𝑒𝑙𝑙𝑒 𝑜𝑠𝑠𝑒𝑟𝑣𝑎𝑧𝑖𝑜𝑛𝑖 3 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone La media per una popolazione è identificata dalla lettera greca mu, µ; la media per un campione è identificata dalla lettera X̄. La formula di calcolo della media per la popolazione è: ΣX𝑖 µ= 𝑁 La formula di calcolo della media a livello campionario è: ΣX𝑖 X̄ = 𝑛 µ o X̄ = media di popolazione o campionaria Xi = valore i-esimo della distribuzione X Σ = sommatoria N o n = numerosità della popolazione o del campione Applicando, dunque, la formula alla nostra ipotetica distribuzione di n = 9 punteggi, ∑X 49 otteniamo: 𝑋̅ = 𝑛 𝑖 = = 5.44 9 Per ciascun elemento della distribuzione è possibile calcolare lo scarto dalla media (o deviazione, D), cioè la distanza tra ogni singolo punteggio della distribuzione e la sua media: ̅ 𝐷𝑖 = 𝑋𝑖 – 𝑋 Una proprietà importante è che la somma degli scarti dalla media di tutti i punteggi della distribuzione è sempre uguale a 0. Provate a calcolare lo scarto dalla media di ciascun punteggio della nostra distribuzione e sommarli, vedrete che otterrete un punteggio uguale a 0. Se, da una parte, la media è sicuramente l’indice di tendenza centrale più informativo e, dunque, più utilizzato per descrivere le distribuzioni di dati quantitativi, così come anche in procedure di statistica inferenziale, dall’altra è utile tenere a mente che questo indice numerico è molto sensibile all’effetto degli outliers, cioè dei punteggi estremi che si discostano molto dai valori centrali della distribuzione. Sostituiamo il primo valore della nostra distribuzione (3) con un valore estremo (48) e computiamo nuovamente la media: 48 4 4 4 5 6 7 7 9 4 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone ΣX 94 𝑋̅ = 𝑖 = = 10.44 𝑛 9 Anche se abbiamo modificato un solo valore nella distribuzione, la presenza di un outlier ha modificato notevolmente il valore medio. Questo comporta necessariamente una diversa interpretazione della media come indice di tendenza centrale nelle due distribuzioni. La relazione tra gli indicatori di tendenza centrale e la forma di una distribuzione rappresenta un aspetto importante nella statistica descrittiva. Come si può osservare nella Figura 2.1, se una distribuzione è perfettamente simmetrica e unimodale (immagine a), la media, la mediana e la moda coincidono e sono localizzate esattamente al centro della distribuzione. In una distribuzione simmetrica bimodale (immagine b), media e mediana coincidono e sono localizzate al centro della distribuzione, mentre le mode corrispondono ai due picchi più alti della distribuzione. Figura 2.1. Indici di tendenza centrale in due distribuzioni simmetriche: (a) unimodale e (b) bimodale Fonte: Gravetter et al. Essentials of statistics for the behavioral sciences. Cengage Learning, 2020 Nella Figura 2.2 si può notare che in distribuzioni asimmetriche i tre indici hanno valori diversi. Nello specifico, in una distribuzione asimmetrica positiva (immagine a), la media è 5 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone generalmente maggiore della mediana e della moda; al contrario, in una distribuzione asimmetrica negativa (immagine b), la mediana e la moda sono generalmente maggiori rispetto alla media. Figura 2.2. Indici di tendenza centrale in due distribuzioni asimmetriche: (a) positiva e (b) negativa Fonte: Gravetter et al. Essentials of statistics for the behavioral sciences. Cengage Learning, 2020 3. Indici di variabilità e dispersione I ricercatori sono anche interessati a conoscere quanto i punteggi sono dispersi in una distribuzione, cioè la variabilità dei punteggi all’interno della distribuzione. Possiamo pensare alla variabilità come al grado di dispersione dei punteggi di una distribuzione intorno alla media, cioè quanto i punteggi sono vicini o lontani rispetto al loro valore medio. Quando i punteggi sono vicini alla media, allora la distribuzione ha una variabilità minore rispetto alla situazione in cui i punteggi si discostano notevolmente dal valore medio. E questo è un dato fondamentale, perché distribuzioni con la stessa media possono differire notevolmente in termini di variabilità, cioè per grado di dispersione dei punteggi rispetto al valore medio (Figura 2.3). Nell’ambito della statistica descrittiva, sono definiti indici di variabilità un insieme di indicatori numerici in grado di descrivere quantitativamente la dispersione dei punteggi di una 6 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone distribuzione rispetto al valore medio della stessa. I più importanti sono la varianza e la deviazione standard. Figura 2.3. Esempio di due distribuzioni con media uguale (170) ma grado diverso di dispersione dei punteggi (σ = 8 e σ = 20). La varianza. La varianza è definita come la media dei quadrati degli scarti. La procedura per calcolare questo indice è la seguente: 1. Calcolare lo scarto dalla media. Nel paragrafo precedente, abbiamo visto che lo scarto dalla media (o deviazione, D) è la distanza tra ogni singolo punteggio della distribuzione e la sua media (𝐷𝑖 = 𝑋𝑖 – 𝑋̅). 2. Elevare al quadrato ognuno di questi scarti dalla media (in questo modo otteniamo lo scarto quadratico di ogni punteggio). 3. Sommare tutti gli scarti quadratici (in questo modo otteniamo la somma degli scarti quadratici, o devianza, generalmente indicata come SS, da Sum of Squares). 4. Dividere la somma degli scarti quadratici per il numero di punteggi (in questo modo otteniamo la media dei quadrati degli scarti, cioè la varianza). La varianza viene indicata con il simbolo σ2 quando è riferita a popolazioni. La formula per il calcolo è la seguente: 7 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone ∑(X − µ)2 𝜎2 = 𝑁 Si utilizza, invece, il simbolo s2 quando è riferita a campioni. Di seguito la formula per il calcolo della varianza a livello campionario: 2 ∑(X − X̄ )2 𝑠 = 𝑛−1 La differenza al denominatore tra le due formule deriva dall’assunto che la variabilità del campione è minore della variabilità totale della popolazione. Motivo per cui si applica una correzione (n – 1) per stimare la varianza campionaria: dividendo, infatti, per un numero più piccolo, si otterrà un valore di varianza maggiore. Come vedremo nei prossimi moduli didattici, la varianza è un indice di grande importanza in molte procedure di statistica inferenziale, come nell’analisi della varianza (ANOVA) per citare un esempio. Tuttavia, è raramente utilizzata come misura descrittiva di dispersione, perché, essendo un indice quadratico, è espressa in una unità di misura diversa rispetto ai valori grezzi della distribuzione (non elevati al quadrato), per cui non è direttamente confrontabile. La deviazione standard. La deviazione standard è la radice quadrata della varianza. A livello di popolazione, è indicata dal simbolo σ con la formula: ∑(𝑋 − µ)2 𝜎=√ 𝑁 Quando, invece, si riferisce ad un campione, è indicata dal simbolo s con la formula: ∑(𝑋 − 𝑋̅)2 𝑠=√ 𝑛−1 La deviazione standard ha l’enorme vantaggio di fornire indicazioni sul grado di dispersione dei punteggi attraverso un indice che è direttamente confrontabile con i singoli valori della distribuzione e con la media della stessa. È, infatti, una misura di quanto mediamente i punteggi si discostano dalla media della distribuzione. Inoltre, a differenza della 8 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone varianza, che essendo un indice quadratico non può mai assumere valori al di sotto dello 0, la deviazione standard può assumere valori sia positivi (al di sopra della media) che negativi (al di sotto della media). Se, ad esempio, abbiamo una distribuzione di n = 20 punteggi con media uguale a 100 e deviazione standard uguale a ±10, questo indice ci dice che i punteggi si disperdono su entrambi i lati della distribuzione collocandosi ad una distanza media di 10 unità dalla media aritmetica. 4. Trasformazione dei dati grezzi Nei due paragrafi precedenti, abbiamo introdotto i concetti di media e deviazione standard come metodi per descrivere un'intera distribuzione di punteggi. Ora spostiamo l'attenzione sui punteggi individuali all'interno di una distribuzione e parliamo di una tecnica statistica che utilizza la media e la deviazione standard per trasformare i punteggi grezzi di una distribuzione (valore X) in punteggi standardizzati, anche detti punteggi Z o z-score. In termini generali, standardizzare un punteggio significa prendere una misura espressa in certa scala numerica di origine e renderla in una scala comune, detta appunto scala standard. Nella scala standard, il valore medio della distribuzione è sempre uguale a 0 e la deviazione standard è uguale a 1. Dunque, in una distribuzione di punteggi Z (distribuzione standardizzata), tutti i punteggi sono distribuiti intorno al valore medio, che è sempre uguale a 0, e la deviazione standard, che è uguale a 1, costituisce l’unità di misura della distribuzione stessa. Il processo di trasformazione dei valori X in punteggi Z ha due utili scopi: 1. Descrivere la posizione esatta di un punteggio all'interno di una distribuzione; 2. Rendere possibile il confronto tra distribuzioni basate su scale di misura diverse. La formula per trasformare i punteggi grezzi in punteggi standard è: 𝑋 − 𝑋̅ 𝑧= 𝑠 Il numeratore dell'equazione, X – X̄, è lo scarto, che, come abbiamo visto in precedenza, misura la distanza tra ogni punteggio grezzo X e la media della distribuzione. Il punteggio 9 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone ottenuto viene, quindi, diviso per la deviazione standard, s. Per ogni valore X, il risultato della formula sarà un numero preceduto da un segno (+ o −), dove: 1) il segno indica se il punteggio si trova sopra (+) o sotto (−) la media; 2) il numero indica la distanza tra il punteggio e la media in termini di numero di deviazioni standard. Immaginiamo di aver ottenuto un punteggio X=130 ad un certo test. Di per sé, questo punteggio fornisce poche informazioni per poter giudicare la nostra performance: X = 130 potrebbe essere uno dei punteggi migliori, così come nella media. Sappiamo che la distribuzione ha media X̄=100 e deviazione standard s = 15. Applichiamo, dunque, la formula per trasformare il punteggio grezzo in uno z-score: 𝑋 − 𝑋̅ 130 − 100 𝑧= = = +2.00 𝑠 15 Vediamo che un punteggio grezzo di X = 130 corrisponde ad un punteggio Z = +2.00, che indica che il punteggio all’interno della distribuzione si trova al di sopra della media (+) a una distanza pari a 2 deviazioni standard (30 punti). È inoltre possibile trasformare un’intera distribuzione di punteggi in una distribuzione standard (con media uguale a 0 e deviazione standard uguale a 1), calcolando l’equivalente valore standardizzato di ciascun punteggio X. Il vantaggio di questo processo è che rende possibile confrontare direttamente i dati provenienti da distribuzioni diverse (Figura 2.4). Figura 2.4. Illustrazione schematica del processo di standardizzazione di due diverse distribuzioni. Da notare che, anche se i punteggi grezzi sono espressi su due scale numeriche diverse, la trasformazione in punteggi Z rende le due distribuzioni direttamente confrontabili. 10 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone 5. Introduzione alla statistica inferenziale Nei paragrafi precedenti, abbiamo approfondito alcune delle procedure base della statistica descrittiva, che, come abbiamo visto, consentono di descrivere e sintetizzare i dati raccolti in singoli individui, campioni e popolazioni. Tuttavia, come già introdotto nel primo modulo didattico, la descrizione di un gruppo di individui non è di per sé di grande interesse se i risultati ottenuti a livello campionario non possono essere generalizzati a gruppi più ampi di individui o intere popolazioni. Ricordiamo, infatti, che l’obiettivo del ricercatore è trarre conclusioni su intere popolazioni, troppo numerose per essere studiate, a partire dai dati raccolti in un campione rappresentativo della stessa. A tal proposito, però, quale garanzia possiamo avere che i dati raccolti su una percentuale ristretta dell’intera popolazione riflettano effettivamente quello che succede nella popolazione di provenienza? Ed è a questo punto che entra in gioco la statistica inferenziale, un corpus di concetti, metodi e tecniche induttive il cui ruolo principale è quello di fornire supporto decisionale alle questioni generali che, riferite ad una popolazione, vengono generate a partire dalle informazioni ottenute dai campioni. Come avremo modo di approfondire in seguito, uno degli scopi della statistica inferenziale è calcolare la probabilità di ottenere determinati valori nel campione, date determinate caratteristiche della popolazione. Prima di entrare nel vivo di questo argomento è, però, necessario definire quali sono le relazioni che legano i campioni alle popolazioni di riferimento, in quanto è solamente sulla base di tali conoscenze che è possibile poi intraprendere il percorso dell’inferenza e della decisione statistica. La relazione tra popolazioni e campioni può essere espressa in termini probabilistici. In estrema sintesi, la probabilità corrisponde alla stima del verificarsi di un evento. Possiamo rappresentare graficamente la probabilità come un continuum che vede ai suoi due estremi un evento impossibile da una parte e un evento sicuro dall’altra (Figura 2.5). Si associa il valore 0 all’evento impossibile, appunto perché non potrà mai accadere, e il valore 1 all’evento sicuro, perché, se accade, accade uno e un solo evento. Agli eventi possibili, cioè agli eventi che non sono né impossibili né sicuri ma che, appunto, possono verificarsi, viene attribuito un punteggio 11 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone compreso tra 0 e 1 ed il valore che verrà associato corrisponderà alla loro probabilità di comparsa. Figura 2.5 La probabilità è indicata con la lettera P seguita, tra parentesi, dall’evento a cui la probabilità si riferisce. In tal modo, P(x) = 1 indicherà un evento sicuro e P(x) = 0 indicherà un evento impossibile. Secondo la teoria classica (o matematica), la probabilità di un evento è il rapporto tra il numero dei casi favorevoli all’evento e il numero dei casi possibili. Per cui, la probabilità dell’evento x può essere espressa nel modo seguente: 𝑁𝑢𝑚𝑒𝑟𝑜 𝑑𝑖 𝑒𝑠𝑖𝑡𝑖 𝑢𝑔𝑢𝑎𝑙𝑖 𝑎 𝑋 P(x) = 𝑁𝑢𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙𝑒 𝑑𝑖 𝑡𝑢𝑡𝑡𝑖 𝑖 𝑝𝑜𝑠𝑠𝑖𝑏𝑖𝑙𝑖 𝑒𝑠𝑖𝑡𝑖 Ad esempio, la probabilità che, lanciando un dado, otteniamo come esito 4 è uguale a: 𝑁𝑢𝑚𝑒𝑟𝑜 𝑑𝑖 𝑒𝑠𝑖𝑡𝑖 𝑢𝑔𝑢𝑎𝑙𝑖 𝑎 4 1 P(4) = = = 0.166 𝑁𝑢𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙𝑒 𝑑𝑖 𝑡𝑢𝑡𝑡𝑖 𝑖 𝑝𝑜𝑠𝑠𝑖𝑏𝑖𝑙𝑖 𝑒𝑠𝑖𝑡𝑖 6 Allo stesso modo, la probabilità, nel lancio di un dado, di ottenere un numero diverso da 4 è uguale a: 𝑁𝑢𝑚𝑒𝑟𝑜 𝑑𝑖 𝑒𝑠𝑖𝑡𝑖 𝑑𝑖𝑣𝑒𝑟𝑠𝑖 𝑑𝑎 4 5 P(non_4) = = = 0.833 𝑁𝑢𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙𝑒 𝑑𝑖 𝑡𝑢𝑡𝑡𝑖 𝑖 𝑝𝑜𝑠𝑠𝑖𝑏𝑖𝑙𝑖 𝑒𝑠𝑖𝑡𝑖 6 Ovviamente, più il valore di questo rapporto è alto e maggiore sarà la probabilità di verificarsi dell’evento, dove 1, lo ricordiamo, corrisponde alla probabilità totale, cioè alla probabilità dell’evento certo. 12 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone Alla base della teoria classica della probabilità vi sono alcuni presupposti: - tutti gli eventi possibili hanno la stessa probabilità (equiprobabilità); - esistono diversi eventi possibili, tutti fra di loro mutuamente esclusivi; - il numero totale di casi possibili deve essere un numero intero conosciuto (motivo per cui questa probabilità viene anche detta probabilità a priori) Questi presupposti pongono importanti limiti all’utilizzo della probabilità classica nel campo della ricerca psicologica e delle scienze comportamentali, in cui, tipicamente, il fulcro dello studio sono fenomeni non necessariamente equiprobabili e di cui non si conosce a priori il numero di casi totali. Un approccio sicuramente più adatto a questo contesto è offerto dalla teoria frequentista della probabilità (detta anche statistica, empirica o a posteriori). Essendo una probabilità empirica, a posteriori, questa può essere stimata esclusivamente sulla base dell’osservazione diretta del fenomeno oggetto di studio. Secondo questo approccio, la probabilità di un evento è uguale alla frequenza relativa dell’evento stesso (fr), dove per frequenza relativa si intende il rapporto fra il numero di volte in cui l’evento si verifica (k) e il numero totale di osservazioni condotte nelle medesime condizioni (n). In formula: 𝑘 𝑓𝑟(𝑥) = 𝑛 Utilizziamo la probabilità frequentista per stimare la probabilità, ad esempio, di avere gli occhi azzurri, un evento sicuramente non equiprobabile e di cui non conosciamo il numero totale di casi. Raccogliamo informazioni su un campione di 100 soggetti e otteniamo che, sul totale delle 100 osservazioni del fenomeno, 12 volte osserviamo l’evento x= occhi azzurri. 𝑘 12 Applicando la formula: 𝑓𝑟(𝑥) = = = 0.12. La frequenza relativa dell’evento è, dunque, 𝑛 100 uguale a 0.12. Secondo la teoria, il valore della frequenza relativa arriverà a coincidere con il valore teorico di probabilità aumentando all’infinito il numero di osservazioni (o misurazioni), 𝑘 per cui: 𝑝(𝑥) = 𝑓𝑟(𝑥) = 𝑛→∞ 13 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone 6. Distribuzioni teoriche di probabilità Gli eventi, dunque, possono essere esaminati in funzione della probabilità che essi hanno di manifestarsi. Poiché la somma delle probabilità di tutti gli eventi possibili è sempre pari a 1, allora possiamo considerare tutte queste probabilità come valori di una distribuzione di dati e costruire la distribuzione di probabilità di quel fenomeno. Quando, infatti, si conoscono le probabilità teoriche degli esiti di un evento, è possibile identificare una distribuzione di probabilità che descrive, in linea teorica, tutte le manifestazioni di natura casuale associate all’evento stesso. Esistono delle distribuzioni di probabilità le cui caratteristiche sono conosciute, in quando è nota la formula matematica con cui possono essere rappresentate graficamente e, quindi, la loro forma e le principali informazioni statistiche. Tra le principali distribuzioni di probabilità troviamo la distribuzione binomiale, la distribuzione normale, la distribuzione normale standardizzata, la distribuzione t di Student, la distribuzione chi-quadro (χ2), la distribuzione F di Fisher. Essendo distribuzioni di probabilità note, per ciascuna conosciamo non solo la media e la deviazione standard, ma anche la porzione di area corrispondente ad ogni valore che compone la distribuzione. E, viceversa, conoscendo una porzione di area, possiamo risalire al valore che vi è associato. Pertanto, se una statistica campionaria si distribuisce secondo una di queste curve di probabilità, grazie a specifiche tabelle, possiamo associare al valore della statistica un corrispondente valore di probabilità. La distribuzione normale. Tra le varie disponibili, la distribuzione teorica di probabilità più frequente e di maggiore utilità nella ricerca sperimentale, fondamento della statistica parametrica, è la distribuzione normale o gaussiana. L’importanza di questa distribuzione sta nel fatto che la maggior parte dei dati che derivano dall’osservazione e misurazione di fenomeni naturali si distribuiscono assumendo una forma che si approssima alla curva a campana tipica di questa distribuzione. Dunque, quando si devono descrivere variabili casuali continue, come la gran parte dei fenomeni di interesse per gli psicologi, questa distribuzione è particolarmente utile. La distribuzione normale è una distribuzione teorica (o 14 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone matematica) che consente di stimare il valore di frequenza relativa (indicata dall’altezza della curva) per ogni valore della variabile X ed è descritta dall’equazione: 1 1 (𝑥−𝜇)2 − ⋅ 𝑓(𝑥) = 𝑒 2 𝜎2 𝜎 ⋅ √2𝜋 I parametri principali della funzione normale sono il valore x (la variabile continua che rappresenta la misurazione dell’evento), la media e la deviazione standard. La distribuzione normale con media μ e deviazione standard σ è indicata con N (μ, σ); al variare di questi due parametri, si possono avere infinite curve normali. Nello specifico, il valore della media influisce sulla posizione della curva sull’asse delle ascisse, mentre la deviazione standard determina l’altezza della curva sull’asse delle ordinate. Ne deriva, dunque, che se μ varia e σ rimane costante, si hanno infinite curve normali con la stessa forma e la stessa dimensione, ma con l'asse di simmetria in un punto diverso sull’asse delle ascisse. Se invece μ rimane costante e σ varia, tutte le infinite curve hanno lo stesso asse di simmetria, ma hanno forma più o meno appiattita in funzione del maggiore o minore grado di dispersione dei punteggi (σ) (Figura 2.6). Figura 2.6. Rappresentazione grafica di distribuzioni normali diverse in funzione della media e della deviazione standard 15 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone La distribuzione normale ha delle caratteristiche ben precise. Innanzitutto, è perfettamente simmetrica e unimodale (per cui la media, la moda e la mediana sono coincidenti), e raggiunge il suo punto più alto sull’asse delle ordinate nel punto in cui X è uguale al valore medio della popolazione. La curva normale, inoltre, è asintotica, nel senso che le code della curva si avvicinano all’asse delle ascisse senza mai toccarlo (i valori tendono da –∞ a +∞). Un’altra caratteristica è che la funzione di densità (frequenza) è simmetrica rispetto alla media: cresce da –∞ fino alla media e poi decresce fino a +∞. E ancora, la curva normale ha due flessi, il primo, ascendente, nel punto μ –1σ, il secondo, discendente, nel punto μ +1σ. Come già detto in precedenza, la somma di tutti i valori di una distribuzione teorica di probabilità è sempre uguale a 1. La distribuzione normale non fa eccezione a questa regola: anche l’area di probabilità totale sottesa alla curva normale (–∞ < x < +∞) è sempre uguale a 1. Considerando che la curva normale è perfettamente simmetrica, a ciascuna delle due metà della curva (da –∞ 1 alla media e dalla media a +∞) è associata una probabilità uguale a = 0.5. 2 La distribuzione normale standard. In linea teorica, esiste un valore di probabilità associato a qualsiasi valore assunto da una variabile continua, che può essere stimato attraverso un procedimento matematico basato sul calcolo integrale che fa assumere ai valori della variabile continua dei valori di superficie corrispondenti ad aree delimitate sotto alla curva. Abbiamo detto in precedenza che, in funzione dei valori di media e deviazione standard (μ e σ), si possono avere infinite curve normali. Per quanto, in teoria, si possa usare il calcolo integrale per costruire una tavola delle aree sottese da ogni possibile distribuzione normale, questa non è certamente una soluzione pratica, perché richiederebbe la creazione di un numero infinito di tavole, una per ogni possibile combinazione dei valori di μ e σ. La soluzione a questo problema è lavorare con quella che viene chiamata distribuzione normale standard, una distribuzione di probabilità di forma normale che, in quanto appunto standard, è indipendente dalla natura specifica della variabile continua oggetto di studio. Come abbiamo visto in 16 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone precedenza, la distribuzione normale standard utilizza come valori i punteggi Z, ha una media uguale a 0 e una deviazione standard uguale a 1. I valori di probabilità associati ai valori standardizzati z sono tabulati. In realtà, solo i valori positivi sono effettivamente tabulati, ma, considerando che la curva è simmetrica, la probabilità associata ai valori z negativi risulta identica ai corrispettivi valori di z positivi. I valori all’interno della tabella rappresentano la percentuale di area compresa fra la media e il valore z d’interesse. In termini esemplificativi, nella Figura 2.7 è marcata l’area di probabilità associata a un punteggio z = +1. Figura 2.7 Utilizzando la tabella, possiamo notare che tra la media e un punteggio z = 1 è associata una probabilità P(z=1) = 0.3413 (equivalente al 34.13%). La simmetria della curva fa si che anche all’intervallo tra z = –1 e la meda sia associata una probabilità uguale a 0.3413, per cui la probabilità dell’intervallo compreso fra –1 < z < +1 corrisponde alla somma del valore delle 17 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone due aree di probabilità: 0.3413 + 0.3413 = 0.6826. In base a questo ragionamento, è possibile affermare che il 68.26% dell’area di probabilità totale sottesa dalla curva è associata all’intervallo compreso tra –1 e 1 deviazione standard. In altre parole, il 68% circa dei punteggi di una variabile continua casuale, distribuita normalmente, rientra nell’intervallo delimitato da 1 deviazione standard dalla media. Allo stesso modo, nell’intervallo delimitato da 2 deviazioni standard dalla media, la probabilità delle osservazioni è uguale al 95.45% e nell’intervallo delimitato da 3 deviazioni standard dalla media, la probabilità delle osservazioni è uguale al 99.73%. (Figura 2.8). Figura 2.8 La tavola della distribuzione normale standard può essere applicata a ogni possibile variabile continua distribuita normalmente per identificare i valori di probabilità associati a qualsiasi intervallo numerico delimitato da due valori z. Applicando questo ragionamento, considerando, ad esempio, che l’altezza degli uomini italiani è una variabile continua distribuita normalmente, con una media (µ) ipotizzata di 170 18 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone cm e una deviazione standard (σ) di 10, ci aspettiamo che circa il 68% dei casi abbia un’altezza compresa tra 160cm e 180cm (media ±1σ). Possiamo anche stimare la probabilità che in un campione casuale di 100 soggetti estratti dalla popolazione di riferimento ci siano soggetti la cui altezza è compresa all’interno di un certo intervallo, ad esempio tra 174 cm e 178 cm. Innanzitutto è necessario standardizzare i punteggi dell’intervallo di interesse usando la formula che abbiamo visto in precedenza (paragrafo 5): X− µ 174 − 170 𝑧= = = 0.4 σ 10 X− µ 178 − 170 𝑧= = = 0.8 σ 10 Il passo successivo consiste nell’individuare i valori di probabilità associati ai due punteggi z calcolati. Utilizzando la tabella, otteniamo che tra la media e un valore z = 0.4 è associato un valore di probabilità uguale a 0.1554, e tra la media e un valore z = 0.8 è associato un valore di probabilità uguale a 0.2881. Cosa indicano questi valori? Che nel nostro campione la probabilità di osservare individui con un’altezza compresa tra la media (170 cm) e 174 cm è uguale al 15% circa, mentre la probabilità di osservare individui con un’altezza compresa tra la media (170 cm) e 178 cm è uguale al 29% circa. Poiché siamo interessati a stimare la probabilità associata all’intervallo tra 174 e 178 cm (e non fra questi valori e la media), l’ultimo passaggio consiste nel sottrarre i due valori di probabilità ottenuti. Dunque, la probabilità di osservare un punteggio compreso fra 174 e 178 cm è uguale a: 0.2881 – 0.1554 = 0.1327 (13% circa). Possiamo anche calcolare la probabilità di osservare un punteggio estremo, ad esempio superiore a 190 cm. Trasformando il valore x in punteggio z, otteniamo: X− µ 190 − 170 𝑧= = = +2.00 σ 10 Dalla tabella, vediamo che tra la media e un valore z = +2.00 è associato un valore di probabilità uguale a 0.4772. Deriva da ciò che la probabilità di osservare individui con un’altezza compresa tra la media (170 cm) e 190 cm è uguale al 48% circa. Poiché siamo interessati alla probabilità di osservare punteggi superiori a 190 cm, sottraiamo dalla probabilità 19 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone totale di metà curva (0.5) il valore ottenuto: 0.5 – 0.4772 = 0.0228. La probabilità di osservare individui con un’altezza superiore a 190 cm è, quindi, uguale al 2% circa. Si consiglia di seguire attentamente le video-lezioni per la spiegazione dell’utilizzo delle tavole di probabilità e per altri esempi in merito. La distribuzione campionaria della media. La distribuzione campionaria della media è una distribuzione teorica di primaria importanza nella ricerca psicologica e comportamentale, perché offre la possibilità di eseguire due principali operazioni: descrivere probabilisticamente le caratteristiche di un campione e stimare la probabilità associata ai parametri della popolazione sulla base dei dati raccolti su un campione rappresentativo della stessa. In linea teorica, la distribuzione campionaria della media può essere definita come la distribuzione di tutte le medie ottenibili da k campioni casuali di ampiezza n che possono essere estratti da una popolazione. Si tratta, dunque, di una distribuzione costituita non dai singoli punteggi individuali, bensì dalle medie di tanti campioni, tutti della stessa dimensione, dove ciascun campione è stato estratto in maniera casuale dalla stessa popolazione di individui. La distribuzione campionaria della media si caratterizza per tre principali proprietà, relative rispettivamente alla media, alla dispersione e alla forma della stessa. 1. La media di una distribuzione campionaria della media (µx̄) è uguale alla media della popolazione generale. Espresso in formula: µx̄ = µ. Ricordiamo, infatti, che la distribuzione campionaria della media è costituita dalle medie di un insieme di campioni e che ogni campione è formato da un gruppo di individui selezionati in maniera casuale dalla stessa popolazione. A causa dell’errore di campionamento (Modulo 1), la media di un campione sarà a volte più alta e a volte più bassa rispetto alla media della popolazione di riferimento. Tuttavia, proprio perché il processo di selezione è casuale e estraiamo un numero elevato di campioni per costruire la distribuzione campionaria, alla fine le medie più alte e le medie più basse si bilanceranno tra loro. Ne deriva, dunque, che all’aumentare del numero dei campioni selezionati, la media della distribuzione campionaria si approssima alla media della popolazione generale. È stato, infatti, 20 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone dimostrato matematicamente, che, se selezioniamo un numero infinito di campioni, la media della distribuzione campionaria coincide esattamente con la media della popolazione. 2. La deviazione standard di una distribuzione campionaria della media (σx̄) prende il nome di errore standard e rappresenta una misura standardizzata della distanza fra la media campionaria e la media della popolazione di riferimento. L’errore standard è uguale alla deviazione standard della popolazione generale diviso la radice quadrata del numero di individui presenti in ciascun campione (n). In formula: 𝜎 𝜎x = √𝑛 Il motivo dell’applicazione al denominatore di questo fattore di correzione per la numerosità del campione sta nel fatto che la dispersione dei punteggi in una distribuzione campionaria è minore della dispersione dei punteggi nella popolazione generale di individui. Questo perché, essendo appunto una distribuzione di medie, è meno probabile osservare valori medi estremi. Immaginiamo di estrarre casualmente un campione di individui dalla popolazione: è molto improbabile che tutti o la gran parte degli individui selezionati casualmente presentino punteggi estremi (tutti positivi o tutti negativi), determinando, dunque, un punteggio medio estremo. Dal momento che l’errore standard è una misura standardizzata del grado di distanza fra la media della distribuzione campionaria e la media della popolazione di riferimento, può essere interpretato come una misura della quantità di errore che è presente nella stima della media della popolazione a partire dalla media del campione. A tal proposito, è stato dimostrato che all’aumentare della numerosità dei campioni (n), l’errore standard si riduce. Mentre le prime due osservazioni, relative rispettivamente alla media e alla dispersione (errore standard), sono vere per tutte le distribuzioni campionarie della media, la terza, relativa alla forma, può variare e dipende da alcune condizioni. 3. La forma di una distribuzione campionaria della media è approssimativamente normale quando può essere verificata almeno una delle seguenti condizioni: (a) la 21 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone distribuzione della popolazione generale è normale; (b) ciascun campione ha un’ampiezza uguale o superiore a 30 elementi (n ≥ 30). Quest’ultima condizione è supportata dal teorema del limite centrale. Dunque, se almeno una di queste condizioni è rispettata, è possibile fare riferimento alla distribuzione normale standard in diversi ambiti dell’inferenza statistica per ottenere i valori di probabilità d’interesse. 7. La verifica delle ipotesi I risultati delle indagini campionarie, per quanto “certi” a livello del singolo campione, diventano “incerti” quando si cerca di estenderli al livello delle popolazioni, e questo a causa delle variazioni casuali intrinsecamente determinate dal processo di campionamento. Alla luce di quanto approfondito in questi ultimi paragrafi, possiamo affermare che l’obiettivo principale della statistica inferenziale è quello di fornire un supporto di tipo probabilistico alle decisioni riguardanti la possibilità di generalizzare i risultati campionari a livello delle popolazioni di provenienza. In questo contesto, la verifica delle ipotesi è quel procedimento sistematico che aiuta il ricercatore a decidere se i risultati di una ricerca ottenuti su un campione sostengono un’ipotesi che riguarda la popolazione di riferimento. Approfondiremo, in questo paragrafo, la logica generale alla base della verifica delle ipotesi e i processi sequenziali che ne consentono la messa in pratica nell’ambito della ricerca scientifica. I diversi test di verifica delle ipotesi saranno poi il tema centrale dei successivi moduli didattici di questo corso. In termini generali, la verifica delle ipotesi può essere descritta come una procedura che si articola in una serie passaggi logici ben definiti. Per descrivere questi passaggi, utilizziamo un esempio generico: un ricercatore è interessato a valutare gli eventuali effetti di un nuovo trattamento farmacologico sperimentale sul livello cognitivo generale della popolazione di individui anziani (tra 65 e 75 anni di età). In questo esempio, il trattamento farmacologico sperimentale rappresenta la variabile indipendente, mentre il livello cognitivo, che potremmo misurare attraverso il test del Mini-mental state examination (MMSE), rappresenta la variabile dipendente. Immaginiamo che il ricercatore conosca, sulla base di ricerche precedenti, che il 22 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone livello cognitivo medio, misurato attraverso il test del MMSE, della popolazione italiana anziana dai 65 ai 75 anni non sottoposta al trattamento sia uguale a µ = 26. Quest’ultimo dato è la base di riferimento di ciò che è già noto sulla popolazione generale di individui anziani (non sottoposti al trattamento). Vediamo dunque i passaggi implicati nel processo di verifica delle ipotesi. Il primo consiste nella formulazione delle ipotesi riguardanti i parametri della popolazione. In questa prima fase, sulla base del quesito di ricerca, vengono formulate due ipotesi di ricerca a livello di popolazione, l’ipotesi nulla (H0) e l’ipotesi alternativa (H1). L’ipotesi nulla (H0) predice che, a livello di popolazione, la variabile indipendente (il trattamento sperimentale) non ha effetti sulla variabile dipendente (livello cognitivo) oppure, in caso di effetti, che questi ultimi possono essere attribuiti all’intervento di fattori casuali non controllati e, quindi, diversi dalla variabile indipendente. In formula: H0: 𝜇𝑡𝑟𝑎𝑡𝑡𝑎𝑚𝑒𝑛𝑡𝑜 = 26 (cioè uguale alla media della popolazione generale senza trattamento). L’ipotesi alternativa (H1), al contrario, afferma che, nella popolazione, la variabile indipendente (trattamento) ha effetti significativi sulla variabile dipendente (livello cognitivo). La previsione è, dunque, che la media della popolazione sottoposta a trattamento sia diversa dalla media della popolazione generale (non sottoposta a trattamento). In formula: H1: 𝜇𝑡𝑟𝑎𝑡𝑡𝑎𝑚𝑒𝑛𝑡𝑜 ≠ 26 L’ipotesi nulla (H0) è quella che viene effettivamente sottoposta a verifica. Il processo di verifica delle ipotesi, infatti, consente di calcolare la probabilità di ottenere per caso il valore osservato nel campione (il punteggio medio al test MMSE dopo il trattamento sperimentale), o anche più estremo, se l’ipotesi nulla fosse vera, cioè nella condizione in cui il trattamento non ha effetti (𝜇𝑡𝑟𝑎𝑡𝑡𝑎𝑚𝑒𝑛𝑡𝑜 = 26). Quanto più tale probabilità è piccola, tanto più è improbabile che H0 sia vera. Dal momento che è l’ipotesi nulla ad essere effettivamente sottoposta a verifica, la distribuzione di riferimento è quella della popolazione generale non sottoposta a trattamento (µ0 = 26). 23 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone Ritorniamo al nostro esempio. Per valutare le ipotesi di ricerca, il ricercatore decide di somministrare ad un campione casuale di n = 40 soggetti anziani italiani tra 65 e 75 anni il trattamento farmacologico sperimentale e, successivamente al trattamento, misurerà il livello cognitivo medio del campione tramite il test MMSE, ottenendo una media campionaria di 28. Abbiamo detto che ad essere effettivamente testata è l’ipotesi nulla (H0), che stabilisce che 𝜇𝑡𝑟𝑎𝑡𝑡𝑎𝑚𝑒𝑛𝑡𝑜 = 26. Se l’ipotesi nulla fosse vera, dovremmo assumere che il nostro campione di 40 soggetti, con una media di 28, è solo uno dei tanti possibili campioni casuali estraibili dalla popolazione generale con media 26, per cui la differenza di 2 punti osservata tra campione e popolazione (28 – 26 = 2) è da attribuire all’errore di campionamento e non all’effetto del trattamento farmacologico. Bisogna, dunque, valutare la probabilità di ottenere per caso il valore medio osservato nel campione (x̄ = 28) se l’ipotesi nulla fosse vera. Si procede, in tal senso, al calcolo di una statistica test (ad es. la statistica test Z, la statistica test t, la statistica test F, ecc.), un indice ricavato dai dati osservati nel campione, che può assumere tanti valori quanti sono i possibili campioni estraibili dalla popolazione; da ciò deriva che lo specifico valore calcolato dipende dal campione estratto. La probabilità associata al valore della statistica test consente di decidere se è ragionevole respingere l’ipotesi nulla H0 (ed accettare implicitamente l’ipotesi alternativa H1) oppure se non esistono elementi sufficienti per respingere l’ipotesi nulla (ed accettare H0). Per identificare la probabilità associata al valore della statistica test, è necessario determinare la distribuzione campionaria della statistica test, che, di solito, è una distribuzione nota (ad esempio la statistica test Z ha la distribuzione normale standard, la statistica test t ha la distribuzione t di Student, ecc.). Ricorriamo a queste distribuzioni per sottoporre a verifica l’ipotesi nulla. Nello specifico, ricorrendo alle proprietà della distribuzione campionaria della statistica test, è possibile identificare un intervallo di valori di quella determinata statistica che è improbabile che si presentino se l’ipotesi nulla fosse vera. Questo concetto può essere illustrato graficamente dividendo la distribuzione campionaria della statistica test utilizzata in due regioni specifiche: la regione di accettazione dell’ipotesi nulla e la regione di rifiuto dell’ipotesi nulla. Queste due regioni corrispondono ad aree di 24 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone probabilità sottese alla curva. La regione di rifiuto può essere vista come l’insieme dei valori della statistica test che è improbabile che si verifichino quando l’ipotesi nulla è vera. Pertanto, quando il valore della statistica test, calcolata sul campione, ricade nella regione di rifiuto, si decide di rifiutare l’ipotesi nulla (e di accettare implicitamente l’ipotesi alternativa), appunto perché non è probabile che H0 sia vera in funzione dei risultati ottenuti nel campione. Al contrario, quando il valore della statistica test, calcolata sul campione, ricade nell’area di accettazione, si decide di accettare come valida l’ipotesi nulla. Per convenzione, il grado di probabilità associato alla regione di rifiuto viene chiamato alfa (α) o livello di significatività, mentre il valore di probabilità associato alla regione di accettazione è uguale a 1 – alfa. Il valore della statistica test che separa le due regioni viene chiamato valore critico. Dunque, se il valore della statistica test cade nella regione di rifiuto di H0, si rifiuta l’ipotesi nulla perché è improbabile osservare un valore campionario così estremo se l’ipotesi nulla fosse vera. Improbabile, ma non impossibile. In statistica, si definisce errore di I° tipo la probabilità di rifiutare l’ipotesi nulla (H0) quando è vera. La probabilità di questo errore è uguale al livello di significatività scelto (α). Figura 2.9. Regioni di accettazione e rifiuto dell’ipotesi nulla in una distribuzione normale. Le statistiche test che cadono nella regione di rifiuto di H0 (aree arancioni) hanno una probabilità inferiore al valore critico (p < α). In questo caso, l'ipotesi nulla dovrebbe essere respinta. 25 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone Quindi, nel processo di verifica delle ipotesi, il ricercatore assume il rischio di commettere un errore di I° tipo rifiutando l’ipotesi nulla che è uguale al livello di significatività scelto. La scelta del livello di significatività α implica la definizione del grado di sicurezza con il quale si vuole prendere la decisione sull’ipotesi nulla. Secondo le convenzioni internazionali, si adottano come livelli critici per la decisione: - α = 0.05 → il rischio di commettere un errore di I° tipo (rifiutando H0 quando è vera) è uguale a 5 volte su 100 (la probabilità di trovare nel campione un valore così estremo se l’ipotesi nulla fosse vera è del 5%); - α = 0.01 → il rischio di commettere un errore di I° tipo (rifiutando H0 quando è vera) è uguale a 1 volta su 100 (la probabilità di trovare nel campione un valore così estremo se l’ipotesi nulla fosse vera è del 1%); - α = 0.001 → il rischio di commettere un errore di I° tipo (rifiutando H0 quando è vera) è uguale a 1 volta su 1000 (la probabilità di trovare nel campione un valore così estremo se l’ipotesi nulla fosse vera è del 0.1%). Questi sono definiti valori di significatività convenzionali. La Figura 2.10 mostra i valori di significatività α convenzionali in una distribuzione normale standard, ripartiti sulle due code della curva, e i corrispondenti valori critici espressi in punteggi z. Utilizzando le tavole di probabilità come abbiamo visto nel paragrafo precedente, infatti, è possibile osservare che, nella distribuzione normale standard, la probabilità di osservare un valore più grande di z = +1.96 o più piccolo di z = –1.96 è pari a: 1 – 0.95 = 0.05 (5%). Con la stessa procedura osserviamo che la probabilità di osservare un valore più grande di +2.58 o più piccolo di –2.58 è uguale a: 1 – 0.99 = 0.01 (1%), e la probabilità di osservare un valore più grande di +3.30 o più piccolo di – 3.30 è uguale a: 1 – 0.999 = 0.001 (0.1%). 26 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone Figura 2.10. Livelli di significatività (α) e valori critici in una distribuzione normale standard Modificata da: Gravetter et al. Essentials of statistics for the behavioral sciences. Cengage Learning, 2020 Un metodo per decidere se accettare o rifiutare l’ipotesi nulla consiste nel confrontare il valore della statistica test calcolata sui dati campionari con il valore critico corrispondente al livello di significatività (α) preventivamente prescelto. Quando il valore della statistica è più estremo del valore critico, allora significa che esso ricade nella regione di rifiuto, per cui è possibile respingere l’ipotesi nulla a favore dell’ipotesi alternativa. Un metodo alternativo è quello di calcolare il p-value, cioè la probabilità di osservare un valore della statistica test uguale o più estremo del valore ottenuto dal campione sotto l’ipotesi nulla. In entrambi i casi, quando un valore campionario è così estremo da permettere al ricercatore di rifiutare l’ipotesi nulla, si dice che il risultato è statisticamente significativo. 8. La verifica delle ipotesi sulla media di una popolazione Dopo aver illustrato la logica generale del processo di verifica delle ipotesi, vediamo ora più nel dettaglio come si applica questo schema operativo. Nell’ambito della verifica delle 27 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone ipotesi, la verifica delle ipotesi sulla media di una popolazione consente di valutare probabilisticamente se un campione è stato estratto da una popolazione di riferimento. Questo problema si può presentare con due varianti: (a) la varianza della popolazione di riferimento è nota, (b) la varianza della popolazione di riferimento non è nota. Torniamo, come esempio illustrativo, al problema di stabilire se un trattamento farmacologico sperimentale ha effetti sul livello cognitivo delle persone anziane. Sappiamo che nella popolazione di riferimento (anziani non sottoposti al trattamento), il livello cognitivo medio è uguale a 𝜇0 = 26. I dati raccolti dal ricercatore su un campione di n = 40 soggetti estratti casualmente e sottoposti al trattamento forniscono un valore medio campionario uguale a x̄ = 28. L’obiettivo della ricerca è valutare se la media campionaria (x̄ = 28) e la media della popolazione di riferimento (𝜇0 = 26) risultano significativamente diverse tra loro da concludere, con un certo grado di certezza, che il campione proviene da un’altra popolazione ipotizzata (anziani sottoposti al trattamento) e non dalla popolazione di riferimento (anziani in generale non sottoposti al trattamento). Come abbiamo visto in precedenza, in questo esempio l’ipotesi nulla e l’ipotesi alternativa sono rispettivamente: H0: 𝜇𝑡𝑟𝑎𝑡𝑡𝑎𝑚𝑒𝑛𝑡𝑜 = 26 H1: 𝜇𝑡𝑟𝑎𝑡𝑡𝑎𝑚𝑒𝑛𝑡𝑜 ≠ 26 Stabilito preventivamente un certo livello di significatività (α = 0.05), per decidere se rifiutare o meno l’ipotesi nulla è necessario confrontare il valore di una statistica test con il valore critico corrispondente al valore di α prescelto. Per determinare il test statistico adeguato e la relativa distribuzione campionaria del test, facciamo riferimento a tre possibili casi. Caso A: conosciamo la varianza della popolazione. Se la varianza (o la deviazione standard) della popolazione di riferimento è nota, la verifica delle ipotesi viene condotta utilizzando il cosiddetto test di ipotesi Z, la cui distribuzione di probabilità corrisponde alla distribuzione normale standard. Tale test può essere applicato anche se la distribuzione della popolazione non è normale purché l’ampiezza del campione sia sufficientemente elevata (≥30 28 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone secondo il Teorema del Limite Centrale). La seguente equazione illustra come si calcola la statistica test Z: x − µ0 𝑧=𝜎 𝑝𝑜𝑝𝑜𝑙𝑎𝑧𝑖𝑜𝑛𝑒 √𝑛 Il numeratore dell’equazione misura di quanto la media osservata nel campione (x̄ = 28) si discosta dalla media µ ipotizzata se l’ipotesi nulla fosse vera (µ0 = 26), mentre al denominatore troviamo l’errore standard della media. Pertanto, il punteggio Z ottenuto indica di quanti errori standard x̄ differisce da µ. Assumendo una deviazione standard nota della popolazione di riferimento, pari a σ = 2, applicando la formula alle informazioni disponibili: - Media ipotizzata della popolazione (µ) = 26 - Deviazione standard della popolazione (σ) = 2 - Numerosità del campione (n) = 40 - Media campionaria (x̄) = 28 - Livello di significatività (α) = 0.05 28 − 26 La statistica Z viene calcolata come segue: 𝑧 = = 6.325 2/√40 Come abbiamo visto in precedenza, in una distribuzione normale standard i valori critici che dividono la regione di rifiuto da quella di accettazione con un livello di significatività α = 0.05 sono –1.96 e +1.96. Poiché il valore della statistica Z calcolata (𝑍𝑡𝑒𝑠𝑡 = 6.325) è maggiore del valore critico (𝑍𝑐𝑟𝑖𝑡𝑖𝑐𝑜 = +1.96), si può conclude che l'ipotesi nulla H0 è rifiutata. Pertanto, ci sono prove sufficienti per affermare che la media della popolazione 𝜇𝑡𝑟𝑎𝑡𝑡𝑎𝑚𝑒𝑛𝑡𝑜 è diversa da 26 e che il campione è stato estratto da una popolazione diversa da quella di riferimento. Caso B: non conosciamo la varianza della popolazione. Nella maggior parte delle applicazioni in ambito di ricerca, la varianza (o la deviazione standard) della popolazione di riferimento non è nota. Se il campione è sufficientemente numeroso (≥30 secondo il Teorema del Limite Centrale), possiamo utilizzare comunque la statistica z e la distribuzione normale 29 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone standard, stimando l’errore standard (al denominatore della formula) in base alla deviazione standard del campione. La formula per calcolare l’errore standard stimato nel campione (Sx̄) è: 𝑆𝑐𝑎𝑚𝑝𝑖𝑜𝑛𝑒 𝑆x = √𝑛 − 1 Per cui, la formula per il calcolo della statistica Z diventa: x − µ0 𝑍= 𝑆𝑐𝑎𝑚𝑝𝑖𝑜𝑛𝑒 √𝑛 − 1 Dopo aver applicato questa correzione al denominatore della formula z, la procedura di verifica delle ipotesi segue le stesse modalità illustrate per il Caso A. Caso C: non conosciamo la varianza della popolazione e la numerosità del campione non è sufficiente per garantire la normalità della distribuzione campionaria della media. In questo caso, la verifica delle ipotesi viene condotta utilizzando il cosiddetto test di ipotesi t, la cui distribuzione di probabilità corrisponde alla distribuzione t di Student con (n − 1) gradi di libertà. L’equazione che segue illustra come si calcola la statistica test t: x − µ0 𝑡= 𝑆𝑐𝑎𝑚𝑝𝑖𝑜𝑛𝑒 √𝑛 − 1 Come si può notare, la formula è uguale al calcolo della statistica Z quando la deviazione standard non è nota (Caso B). Quello che cambia è la distribuzione di probabilità a cui fare riferimento. Quando il campione è poco numeroso (< 30 soggetti), il ricercatore può identificare il valore critico del test ricorrendo alla distribuzione t di Student. Questa distribuzione ha forma simile alla distribuzione normale e viene generalmente impiegata per campioni con bassa numerosità (n < 30 unità) e quando la varianza della popolazione non è nota. Riassumiamo di seguito le caratteristiche principali: - La distribuzione t è simmetrica come la distribuzione normale; 30 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone - La distribuzione t ha una media di zero come la distribuzione normale standardizzata; - La distribuzione t ha una forma definita dai gradi di libertà (n – 1), che dipendono dalla dimensione campionaria; - All'aumentare della dimensione campionaria (e, quindi, dei gradi di libertà), la distribuzione t diventa sempre più simile ad una distribuzione normale; - Quando l’ampiezza del campione supera le 30 unità (n > 30), la forma della distribuzione t si approssima a quella della distribuzione normale. Anche per questa distribuzione, ciascun valore campionario di t è associato ad un valore di probabilità e la probabilità totale sottesa all’area della curva è uguale a 1. I valori campionari della distribuzione t sono tabulati. Ritornando al nostro esempio, ma ipotizzando che il nostro ricercatore abbia raccolto un campione più esiguo di 10 soggetti e che la deviazione standard del campione sia pari a s = 1.5, applichiamo la formula della statistica t alle informazioni disponibili: - Media ipotizzata della popolazione (µ) = 26 - Media campionaria (x̄) = 28 - Deviazione standard del campione (s) = 1.5 - Numerosità del campione (n) = 10 - Livello di significatività (α) = 0.05 28− 26 Il risultato è: 𝑡 = = 4.216 1.5/√10−1 In una distribuzione t di Student con 10 – 1 = 9 gradi di libertà e un livello di significatività α = 0.05, i valori critici che dividono la regione di rifiuto da quella di accettazione sono –2.262 e +2.262. Poiché il valore della statistica t calcolata (𝑡𝑡𝑒𝑠𝑡 = 4.216) è maggiore del valore critico (𝑡𝑐𝑟𝑖𝑡𝑖𝑐𝑜 = +2.262), anche in questo caso si può conclude che l'ipotesi nulla H0 è rifiutata. Si consiglia di seguire attentamente le video-lezioni per l’utilizzo della tavola della distribuzione t di Student e per altri esempi. 31 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge