Summary

This document is a medical statistics course summary. It covers various statistical methods and studies in medicine, such as observational, experimental, trial clinical, and epidemiology. It also touches on hypothesis testing techniques and the importance of data analysis.

Full Transcript

Statistica - Trerotoli - 1 INDICE 3-24 STUDI STATISTICI 25-38 PROBABILITA’ 39-60 INTERVALLI DI CONFIDENZA 61-151 VERIFICA DELLE IPOTESI 152-196 LEGAME TRA DUE O PIU’ VARIABILI 197-203 RICERCA DEL TREND IN UNA PERCENTUALE 204-231 EPIDEMIOLOGIA 232-235 TEST DI McNEMAR 236-258 SCREE...

Statistica - Trerotoli - 1 INDICE 3-24 STUDI STATISTICI 25-38 PROBABILITA’ 39-60 INTERVALLI DI CONFIDENZA 61-151 VERIFICA DELLE IPOTESI 152-196 LEGAME TRA DUE O PIU’ VARIABILI 197-203 RICERCA DEL TREND IN UNA PERCENTUALE 204-231 EPIDEMIOLOGIA 232-235 TEST DI McNEMAR 236-258 SCREENING 259-273 ANALISI DELLA SOPRAVVIVENZA 274-279 LE SPERIMENTAZIONI CLINICHE 280-282 LETTURA CRITICA DELLA LETTERATURA SCIENTIFICA 2 STUDI STATISTICI Tutti gli studi, prima di poter essere condotti, devono essere sottoposti al vaglio di un comitato, che, oltre a valutarne la scientificità, ha l'ufficio di mettere in evidenza: - le capacità degli sperimentatori - l'idoneità della struttura, per poter condurre quel tipo di studi - l'avvenuta informazione del paziente, attraverso un'informativa, e quindi l'avvenuta acquisizione del cosiddetto consenso informato del suddetto 1. TIPI DI STUDI Gli studi di tipo osservazionale rappresentano l'osservazione di ciò che accade in una popolazione per valutare se determinati fattori rappresentino fattori di rischio per alcune patologie. L'osservazione interessa i soggetti malati, ma anche i soggetti sani, in quanto bisogna valutare sia l'esposizione sia la non esposizione ai diversi fattori, per valutare se la frequenza delle patologie sia più alta nel gruppo di soggetti esposti rispetto al gruppo di soggetti non esposti e quindi per definire il fattore di rischio per quella determinata patologia. Precisamente, una volta campionata la popolazione rispetto alla presenza/assenza di una certa malattia, si cerca di ricavarne informazioni in maniera retrospettiva (informazioni inerenti il passato). Nell'ambito di questi studi è difficile stabilire realmente un rapporto di causa-effetto. Tuttavia è possibile mettere in evidenza legami tra fattori di esposizione e malattia. Al contrario, seguendo nel tempo una popolazione esposta ed una popolazione non esposta ad un fattore di rischio e quindi valutando quando la malattia si presenta in entrambi i gruppi, è più facile poter definire un rapporto di causa-effetto. Per questo tipo di studi sono disponibili altri strumenti che consentono di quantificare questi fenomeni. Si tratta degli strumenti della cosiddetta regressione. Talvolta però diventa necessario osservare cosa avviene in una popolazione in un determinato momento. Si tratta dei cosiddetti studi trasversali, che in qualche modo consentono di fare delle valutazioni, per poter poi compiere in maniera più corretta studi o eventualmente studi di tipo prospettico. Lo studio prospettico, legato allo studio osservazionale, è anche uno degli strumenti idonei per studiare l'evolversi di patologie croniche degenerative, in termini di sopravvivenza, su gruppi di confronti di pazienti, trattati in 2 modi diversi. Dunque non è detto che la metodologia che si osserva in un ambito non possa essere applicata anche nell'ambito dei cosiddetti studi di tipo sperimentale. Allora, ricapitolando, possiamo affermare che gli studi su cui si basa tutta la letteratura sono: - gli studi di tipo osservazionale - gli studi di tipo sperimentale L'affidabilità dei diversi studi, siano essi di carattere osservazionale o di carattere sperimentale, consiste nel cercare di studiare l'interazione che sussiste tra i fattori e le diverse malattie. L'individuazione dei fattori che influenzano l'evolversi di particolari patologie richiede che, innanzitutto, si descrivano i fenomeni. Successivamente, si procede: 1. classificando tutte le informazioni 2. trovando il legame tra le variabili che si potrebbero determinare 3. analizzando i fenomeni per poter prendere delle decisioni 3 4. facendo delle scelte in termini di tipo terapeutico, laddove la terapia non è necessariamente farmacologica, ma può anche consistere nel modificare le abitudini dei singoli individui La differenza sostanziale sta nel fatto che: - negli studi di tipo osservazionale, il ricercatore può solo osservare cosa avviene, campionando i soggetti o rispetto alla malattia o rispetto al fattore (normalmente, gli studi di tipo osservazione vengono condotti per studiare patologie, tenendo conto dell'inquinamento e di altri fattori simili) - negli studi di tipo sperimentale, il ricercatore può intervenire direttamente nella selezione dei gruppi da sottoporre ai differenti trattamenti, nel rispetto però dell'eticità (normalmente gli studi di tipo sperimentale vengono condotti per effettuare studi di tipo farmacologico oppure per effettuare confronti di terapia) In particolare, uno studio di tipo sperimentale, attraverso la metodologia e la randomizzazione (attribuzione casuale dei soggetti all'uno o all'altro gruppo), consente di rendere i gruppi il più omogenei possibile: i singoli soggetti hanno la stessa probabilità di appartenere all'uno o all'altro gruppo. Non solo, attraverso la programmazione, lo studio di tipo sperimentale consente di individuare e quindi tenere sotto controllo i fattori che possono distorcere l'informazione. A proposito del controllo delle forme di distorsione che possono inficiare la risposta finale e conseguentemente la presa di decisione, nell'ambito delle sperimentazioni cliniche risulta di notevole importanza il concetto di cecità. Precisamente, distinguiamo: - la cecità singola: il soggetto che si sottopone al nuovo tipo di trattamento non conosce cosa sta assumendo - la doppia cecità: oltre al soggetto che si sta sottoponendo al nuovo tipo di trattamento, anche lo sperimentatore non conoscono l'informazione ATTENZIONE: I migliori studi sperimentali, che sono la base per la registrazione di qualunque tipo di trattamento, sono i cosiddetti trial clinici. I trial clinici sono fondati sul concetto di randomizzazione e sulla doppia cecità. - la tripla cecità: oltre al soggetto che si sta sottoponendo al nuovo tipo di trattamento ed allo sperimentatore, anche l'operatore che analizza i dati non conosce l'informazione; solo alla fine di tutte le analisi, si aprono le cosiddette buste della cecità, che consentono di conoscere le associazioni gruppo- trattamento ATTENZIONE: In qualunque tipo di sperimentazione, non è eticamente corretto somministrare ad un gruppo il placebo (sostanza inerte), per mantenere la cecità, quando invece esiste un tratta- mento standard, fino a quel momento, riconosciuto come efficace. Al contrario, il placebo può essere utilizzato in situazioni in cui non è possibile mantenere la cecità, come una sperimentazione, in cui s'intende confrontare tra loro due trattamenti farmacologici, di cui uno è efficace in modo orale e l'altro è efficace in modo parenterale. In tal caso, infatti, si procede somministrando a: - un gruppo di soggetti: la sostanza efficace in modo orale la sostanza inerte in modo parenterale - all'altro gruppo di soggetti: la sostanza inerte in modo orale 4 la sostanza efficacie in modo parenterale Ovviamente in sperimentazioni di tipo chirurgico non è possibile garantire la cecità: il soggetto sa a quale tipo di intervento si deve sottoporre, così come il chirurgo sa quale intervento deve effettuare. Tuttavia, è possibile mantenere sotto controllo tutta un'altra serie di fattori. Ad esempio, è possibile: 1. classificare i soggetti per età 2. attribuire casualmente i soggetti ai gruppi 3. tener conto di fattori di altre variabili, come la variabilità dell'operatore, quando si effettuano le analisi. Gli studi sperimentali possono essere classificati in: - studi di fase 1  Si tratta dei primi studi che vengono effettuati, oltre ai cosiddetti studi preclinici. Possono essere attuati all'interno di un laboratorio o sugli animali. Durante gli studi di fase 1 si cerca di effettuare una valutazione tra dose efficace e dose tossica. - studi di fase 2  Si effettuano quando i soggetti non hanno altra alternativa terapeutica. Non necessariamente sono studi comparativi: può trattarsi anche di studi su singoli gruppi, trattati con un nuovo farmaco. L'intento è quello di valutare la prima risposta, per poi passare a studi comparativi. - studi di fase 3 (trial clinici)  Sono studi comparativi: confrontano un gruppo trattato con il trattamento standard ed un gruppo trattato con il nuovo trattamento. Dunque, si tratta dei cosiddetti studi preregistrativi di un trattamento, che devono necessariamente precedere la registrazione di un nuovo farmaco. Sono alla base della medicina fondata sull'evidenza: la costruzione di linee guida e l'individuazione di protocolli diagnostici vengono effettuate sulla base del confronto dei risultati, derivati da differenti sperimentazioni, realizzate con la metanalisi. In altre parole, la medicina basata sull'evidenza è quantitativa e lo strumento per costruire queste quantità è uno strumento statistico - studi di fase 4  In questi studi il farmaco viene somministrato alla popolazione generale per studiare la mortalità dei soggetti. Nel caso in cui il farmaco si renda responsabile di una serie di eventi collaterali seri, segue il ritiro del farmaco dal mercato. Dopo gli studi di fase 4 si passa allo studio di tipo osservazionale, anche con sperimentazioni farmacologiche eseguite su tutta quanta la popolazione. Tutte le informazioni ricavate mediante indagini ad hoc devono essere rielaborate, per poter effettuare valutazioni in termini economici: un grosso problema è il cosiddetto welfare e quindi tutto l'impatto economico della sanità sul sistema paese. Di contro, studiare le eventuali conseguenze della diffusione delle malattie sul territorio significa migliorare ed intervenire sull'ambiente nel suo complesso. 2. TEST DI VERIFICA DELLE IPOTESI Nella vita quotidiana si incontrano problemi non risolti o comunque si hanno a disposizione soluzioni che soddisfano solo parzialmente. Quando si pensa che un'idea possa rappresentare la soluzione di un problema non risolto o possa rappresentare la nuova soluzione di un problema, comunque ne deve essere 5 dimostrata l'efficacia, l'economicità, l'applicabilità, la sicurezza. Ciò significa che prima di poter avviare una qualsiasi indagine per proporre una nuova soluzione ad un problema bisogna avere una solida base razionale. Pertanto lo studio rappresenta il fondamento di tutta la ricerca. Dal momento che non è possibile lavorare su una popolazione nel suo complesso, occorre estrarne una parte. Esistono diverse tecniche che consentono di estrarre un gruppo di individui da una popolazione, che in qualche modo ne sia rappresentativo. Tuttavia, è necessario comprendere in quale ambito tale gruppo di individui si vada ad inquadrare. Ad esempio, bisogna comprendere se uno studio di tipo sperimentale condotto su un gruppo di individui, estratto da una popolazione, consista in uno studio prospettico (confronto tra due gruppi) oppure in uno studio retrospettivo (misura ripetuta). In altre parole, bisogna stabilire correttamente e programmare in maniera adeguata l'indagine, descrivendo le informazioni acquisite sul campione, con l'obiettivo di trasferirle dal campione alla popolazione. I test di verifica delle ipotesi consentono di prendere delle decisioni sulla popolazione, attraverso delle misure acquisite sul campione. Le misure acquisite sul campione saranno rappresentate dall'insieme delle stime dei parametri, che invece sono i veri valori della popolazione. Precisamente, i test di verifica delle ipotesi si svolgono nelle seguenti fasi: 1. fase di pianificazione  Si compiono anche alcuni passi importanti da un punto di vista statistico, come: - la scelta del campione: è importante scegliere in maniera adeguata il campione sia in termini quantitativi sia in termini di struttura del campione, ossia in termini di rappresentatività qualitativa - la scelta del metodo con cui condurre lo studio: allo stesso tipo di conclusione si può arrivare con differenti organizzazioni del lavoro 2. fase di formulazione delle proposte  È difficile fare delle proposte solide, che abbiano un senso rispetto a quello che già è noto, e ancora più difficile è strutturare correttamente la ricerca. 3. fase di rilevazione  Si passa alla raccolta dei dati: in alcuni casi si tratta di effettuare analisi di laboratorio, in altri casi si tratta di visitare i pazienti. Ad ogni modo, dal momento che sono azioni ripetitive, esse necessitano di essere standardizzate, affinchè vi sia la garanzia che esse vengano condotte sempre nello stesso modo, su tutti i soggetti. Non solo, successivamente, esse devono essere anche informatizzate: i dati rilevati su una persona devono essere trasferiti su un data base. Ovviamente questa fase è molto importante: la correttezza della rilevazione è alla base di una corretta analisi. 4. fase di elaborazione  Consiste nell'applicare almeno una parte dei metodi che studieremo in questo corso. 5. fase di presentazione  Consiste nel selezione i risultati significativi e nel presentarli. 6. fase di interpretazione  Consiste nel passare da una parte piuttosto aritmetica ad una più filosofica, nel tentativo di dare una spiegazione ai riscontri oggettivi che sono stati rilevati nel corso degli studi. 3. FASE DI PIANIFICAZIONE La fase di pianificazione è piuttosto articolata e consiste in: - formulazione degli obiettivi - analisi della letteratura 6 Gli obiettivi devono essere documentati in un protocollo e quindi si deve passare da una fase di pura ideazione ad una fase di documentazione dell'idea. Il documento scritto deve essere facilmente comprensibile. Precisamente, si deve poter evincere: - l'importanza della ricerca - l'evoluzione della problematica che si propone come ricerca L'obiettivo viene indicato con il termine di endpoint e deve essere una misura quantitativa. Dal momento che deve essere un riscontro oggettivo, quando si definisce l'endpoint bisogna essere piuttosto precisi riguardo la misura che oggettivamente deve rappresentare il risultato della ricerca. Nelle schede di rilevazione dei dati degli studi clinici, si rilevano numerose informazioni di: - paziente, inerenti: patologie preanamnestiche, che però è sufficiente semplicemente conoscere la patologia che è sotto studio - terapia: standard sperimentale di controllo, somministrata nel corso dello studio Allora, definito l'obiettivo, bisogna decidere quali informazioni del paziente bisogna rilevare, per poter poi stimare la mortalità nell'intero campione. In altre parole, bisogna stabilire quali variabili consentono di misurare l'endpoint e quindi quali sono le variabili in grado di spiegare l'obiettivo. Questa fase riguarda l'identificazione dei sistemi di rilevazione dei confounding. I confounding sono delle variabili, ossia delle caratteristiche dei pazienti, che interferiscono con l'endpoint e dunque con le variabili che rappresentano l'obiettivo della ricerca, alterando i risultati. Dopo di che, in base al tipo di obiettivo, bisogna scegliere la tipologia di studio più appropriata. Infatti, lo studio può essere: - osservazionale o sperimentale - prospettico o retrospettivo - interventistico o non interventistico Infine vi è una fase più tecnica, la fase del campionamento, in cui bisogna: - definire la popolazione bersaglio (target) - decidere come riuscire a prelevare un numero sufficientemente adeguato di individui da quella popolazione target In alcuni casi l'individuazione del target è facile. Ad esempio, volendo effettuare uno studio sul diabete (mortalità o complicanze), è possibile accedere alle liste di esenzione e stabilire che il target sono i soggetti iscritti alla lista. Ovviamente, per motivi di risorse, non è possibile agire su tutti i soggetti iscritti alla lista e quindi se ne estrae un campione. In altri casi, invece, l'individuazione del target è complessa. Ad esempio, nel caso in cui si voglia dimostrare che un farmaco contro l'ipertensione funziona, non è possibile ricorrere ad una lista di esenzione, in quanto questa non esiste. Non solo, di solito un farmaco nuovo o una nuova associazione va sperimentata su: - pazienti in cui la patologia viene diagnosticata per la prima volta - pazienti in cui la precedente terapia è fallita Pertanto, nel 1° caso sicuramente non si dispone di una lista, mentre nel 2° caso non è detto che i pazienti siano iscritti in qualche lista. Ne consegue una visione solo parziale della popolazione bersaglio, in quanto in 7 tal caso durante la costruzione del campione, per testare l'efficacia dello studio clinico, si è costretti ad estrarre il campione da una finta popolazione bersaglio. Il processo inferenziale quindi è fallace sin dall'ideazione dello studio. È un campionamento di convenienza, che ovviamente non rispetta il massimo della scientificità. Allora, diventa importante sapere come: - prelevare i soggetti da una lista - riuscire ad ottenere un campione adeguatamente rappresentativo della popolazione bersaglio, in termini di struttura, ossia di tipologia di soggetto Un altro problema relativo al campionamento riguarda la numerosità campionaria. Essa dipende da: - l'effetto che si vuole dimostrare in termini quantitativi - il metodo statistico, ossia il calcolo che si effettua per dimostrare l'effetto in questione Pertanto è come se prima ancora di avere i dati se ne dovesse effettuare un'analisi al fine di immaginare quali dati potrebbero dimostrare numericamente la riuscita dello studio (bisogna chiedersi: "quante persone occorre reclutare per dimostrare l'efficacia dello studio?"). Spesso non ci sono dati preliminari per risolvere tale questione e quindi si procede con cosiddetti studi pilota. Le informazioni ottenute con gli studi pilota consentiranno quindi di svolgere lo studio. Dunque, gli studi pilota hanno l'obiettivo di migliorare gli strumenti di rilevazione, che, generalmente, sono dei preliminari, più o meno noti, a seconda della complessità delle questioni. Il principio base su cui è fondato l'uso della statistica sta in questo gioco di trasformazioni: 1. si stabilisce una popolazione target 2. la popolazione target viene analizzata, non nel suo insieme, bensì in un sottogruppo, più o meno piccolo, che prende il nome di campione 3. sul campione vengono effettuate delle stime di misure, che prendono il nome di parametri ATTENZIONE: Qualsiasi misura venga effettuata sull'intera popolazione, prende il nome di parametri, mentre una misura effettuata su un campione prende il nome di stima. 4. si estendono i risultati del campione all'intera popolazione (esempio: prescrizione di un farmaco) Si definisce processo inferenziale quel processo mediante il quale, dopo la presa in considerazione della letteratura, si comprende quale farmaco sia più efficace e quindi lo si prescrive ad un paziente che non ha fatto parte dello studio clinico. Ovviamente nel momento in cui si prescrive un farmaco i risultati dello studio clinico, che hanno portato all'approvazione e quindi all'immissione in commercio del farmaco, vengono estesi all'intera popolazione da cui il campione era stato estratto. Quindi ogni singolo paziente a cui viene prescritto un farmaco sperimentale appena messo in commercio rappresenta uno degli infiniti elementi di una popolazione a cui si applicano i risultati di uno studio. Ovviamente in questo processo c'è un margine di errore. Quindi per poter estendere i risultati del campione all'intera popolazione si devono aggiungere delle informazioni sulle probabilità: - la probabilità di errore nel decidere di ritenere il farmaco efficace o inefficace - la probabilità di attendibilità nel dare risultati di rischio di mortalità La struttura del campione è molto importante affinchè questo processo generi conoscenza sicura. Al contrario, se si seleziona il campione con tale modalità quando non è coerente con l'obiettivo, si ha la generazione di un campione distorto. In tal caso si è soliti parlare di errore o bias di selezione. 8 Per evitare il bias di selezione si utilizza la procedura del campione casuale semplice. Il campione casuale semplice è caratterizzato dal fatto che ogni elemento della popolazione ha la stessa probabilità di far parte del campione. Quindi, una volta stabilita la numerosità campionaria, semplicemente bisogna estrarre dei numeri casuali che riconducono al numero d'ordine della lista. Per generare dei numeri casuali basta ricorrere alle tavole dei numeri casuali o comunque basta usare la funzione "casuale.tra" di Excel, laddove "tra" sta ad indicare il numero iniziale ed il numero finale della lista. In alternativa è possibile far ricorso al cosiddetto campionamento sistemato: una volta stabilita la numerosità campionaria e noto il totale delle osservazioni in una popolazione, si calcola la frazione di campionamento, ossia il rapporto tra il totale della popolazione ed il numero di soggetti da campionare, per poi estrarre un soggetto a caso dalla lista e procedere con l'estrazione di un soggetto ogni frazione campionaria (esempio: elenco telefonico → frazione campionaria di 1000: si estrae una lettera a caso dell'elenco telefonico, si sceglie una persona a caso di quella lettera, da quel punto in poi se ne estrae 1 ogni 1000). In realtà attualmente questo metodo è poco utilizzato negli studi osservazionali in quanto è più facile gestire elenchi molto grandi. Tuttavia il campione sistematico ha le stesse caratteristiche del campione casuale semplice se la lista da cui si effettua l'estrazione sistematica non è ordinata secondo qualche variabile che rappresenta l'obiettivo finale dello studio (target) o se comunque non si riesce a gestirla in maniera informatizzata con elasticità. A volte, proprio per tenere in considerazione in maniera adeguata delle variabili che possono avere una distribuzione particolare all'interno della popolazione, si preferisce procedere con il campione stratificato. Questa modalità ha come base sempre il campione casuale semplice. La differenza sta nel fatto che si estrae un campione casuale semplice in ogni strato della popolazione. Ovviamente, per poter fare questo, bisogna disporre di un elenco della popolazione ordinato in relazione allo strato di interesse. ATTENZIONE: In ambito biomedico questo è possibile, in quanto le variabili rispetto alle quali si stratifica più spesso sono quelle che generano bias più frequentemente, all'interno degli studi clinici. Precisamente si tratta dell'età e del sesso. Essendo informazioni di base, note in qualsiasi anagrafe, l'età ed il sesso rendono la stratificazione estremamente facile, al contrario di altre variabili, come il livello di reddito, che appunto è un'informazione difficile da reperire. Nel campione stratificato si procede innanzitutto mettendo in ordine la lista della popolazione secondo gli strati che interessano. Dopo di che bisogna: 1. conoscere la proporzione di soggetti all'interno di ogni strato 2. applicare la proporzione alla numerosità campionaria 3. estrarre il campione casuale semplice proporzionale alla numerosità dello strato Esempio: Si supponga di avere 12 pupazzi. La metà dei pupazzi è gialla; dei restanti 6 pupazzi, 3 sono rossi e 3 celesti. Al fine di evitare qualsiasi possibile distorsione nella formazione del campione, legata al fatto che i colori dei pupazzi possono avere un'influenza, si effettua un campione casuale. Il campione deve avere una proporzione di gialli, rossi e azzurri, identica a quella della popolazione. In questo modo, se il colore del pupazzo ha un'implicazione sul risultato, lo si è già considerato nella struttura del campione e non vi sarà bisogno di aggiustamenti particolari, dopo la fase di analisi. 9 Quanto appena affermato viene applicato alla fascia di età: l'età rappresenta il primo fattore di rischio della mortalità, che, a sua volta, quasi sempre, rappresenta l'oggetto principale degli studi clinici. Se un campione, che meritava di essere costruito con metodo stratificato, non viene costruito con un metodo stratificato e le età sono differenti, lo studio viene scartato, in quanto, oltre al fatto che nel modello si inserisce la variabile età per aggiustare il rischio di morte, l'errore di struttura del campione risulta tale da far pensare ad un bias di selezione. Stratificando il campione, si fa in modo che quest'ultimo, almeno per i fattori che si possono controllare, sia rappresentativo al meglio possibile della popolazione. In alcuni casi, il campione aumenta un po'. Esempio: Si supponga che uno studio venga condotto su 7 persone. La metà di 7 è 3,5. Dal momento che non si può considerare mezza persone, si considera un campione costituito da 4 persone. Tuttavia, ciò è irrilevante: LA NUMEROSITÀ CAMPIONARIA VIENE COMUNQUE SEMPRE AUMENTATA, PER TENERE CONTO ANCHE DEI SOGGETTI CHE NEL CORSO DELLO STUDIO VENGONO PERDUTI ATTENZIONE: Con l'espressione soggetti perduti non s'intende che i soggetti muoiono: l'obiettivo fonda- mentale della maggior parte degli studi clinici è proprio la morte, per cui la morte di un soggetto non si considera come perdita, bensì un risultato, che si sperava non si verificasse, ma che si stava aspettando. Al contrario, la perdita di un soggetto si ha quando non si hanno più informazioni riguardo l'individuo in questione. Ovviamente ciò non contribuisce più al risultato. Una soluzione a questo problema può essere rappresentata dall'aumento della numerosità campionaria, a seconda del rischio che si ha di perdere pazienti lungo il corso dello studio. Ovviamente ciò garantisce che il risultato di mortalità sia attendibile. Una modalità ancora applicata nell'ambito degli studi osservazionali è il cosiddetto campionamento a stadi. In particolar modo esso viene utilizzato dalle indagini multi-scopo dell'ISTAT, che, così come si evince dal loro stesso nome, hanno come fine quello di valutare diversi obiettivi (esempio: stili di vita, malattie croniche). La popolazione target è rappresentata dai 55 − 57 milioni di abitanti italiani. Ovviamente, si tratta di una lista ordinata, complessa da gestire per qualsiasi elaboratore. Allora, piuttosto che agire sull'intera lista degli abitanti, è possibile procedere per campionamento a tappe: 1. si selezionano le regioni su cui effettuare l'indagine 2. si selezionano le province su cui effettuare l'indagine 3. si selezionano i comuni su cui effettuare l'indagine 4. si seleziona la famiglia su cui effettuare l'indagine In tal caso è possibile parlare anche di campionamento a cluster: il campionamento a cluster è una modalità mediante la quale non si seleziona il singolo soggetto, bensì si seleziona un insieme di individui omogenei per qualche caratteristica. Esempio: Si sceglie una scuola su cui effettuare l'indagine. Si restringe il campo di interesse alle sole 5 classi 10 di 1a elementare. Si sceglie una delle 5 classi, che quindi rappresenterà il cluster. Infatti si tratta di una classe intera i cui alunni sono omogenei. In questo tipo di studi a volte i recensori richiedono la distribuzione dei non campionati, proprio per cercare di valutare l'effetto del bias di selezione sulle conclusioni dello studio. Il senso del campionamento stratificato è quello di fare in modo che le persone che bisogna sottoporre alla sperimentazione siano, dal punto di vista della tipologia di individui, simili alla popolazione. Infatti il rischio è la probabilità di ogni soggetto che appartiene alla popolazione, che però è stato riscontrato attraverso un sottogruppo. Pertanto, se il sottogruppo si discosta dalla popolazione target, la conclusione non è più tanto valida. Ne consegue che il tasso di adesione all'indagine è un altro punto importante. Non solo, sempre per questa ragione, si effettua il cosiddetto sovra-campionamento. Infine bisogna distinguere un'altra modalità di campionamento che è quella tipica degli studi clinici. Si tratta della randomizzazione. Quando si decide di sperimentare un nuovo farmaco oncologico, si utilizzano soggetti a cui la prima diagnosi è stata fatta in stato avanzato. Tuttavia non esiste una lista di tali soggetti e quindi non è possibile costruire un campione casuale semplice. Allora si sfrutta il fatto che i pazienti si rivolgono ai centri e, per la scelta del farmaco da somministrare (tradizionale o sperimentale), si applica la randomizzazione, ossia un processo di assegnazione dei pazienti ad un trattamento, in maniera del tutto casuale. Dunque, il caso governa sia il fatto che un paziente si sia rivolto ad un centro piuttosto che ad un altro sia il fatto che gli venga somministrato un farmaco piuttosto che un altro. Manca assolutamente la sistematicità. Per garantire la ben nota cecità, il trattamento di assegnazione dovrebbe restare ignoto sia al paziente sia al medico. NOTA: La cecità è garantita dal fatto che, quando un paziente si rivolge ad un centro, il ricercatore si con- nette via internet al centro di randomizzazione, il quale comunica al ricercatore il codice della confezione da consegnare al paziente. In questa maniera né il paziente né il medico sanno che cosa stanno maneggiando. Soltanto il centro di randomizzazione sa che farmaco corrisponde al codice della prescrizione. Per questi motivi gli studi clinici si definiscono anche RCT (Randomized Controlled Trial). Di solito gli RCT farmacologici vengono effettuati con il meccanismo della cecità. Sottolineiamo che, se applicata correttamente, la randomizzazione non garantisce un'uguale distribuzione dei fattori prognostici, bensì garantisce che: - l'età media del gruppo di controllo e l'età media del gruppo sperimentale siano uguali - la percentuale di soggetti di sesso maschile e femminile sia simile In altre parole, la randomizzazione garantisce che i gruppi differiscano solo per effetto del caso e che quindi si riescano ad evitare i bias di selezione e l'effetto di confondimento. Molti ritengono che non sia sufficientemente casuale l'assegnazione della medicina da parte del medico: il bias di selezione è insito. Allora, in tal caso, si è soliti ricorre alla cosiddetta pseudorandomizzazione: si somministrano a giorni alterni il farmaco tradizionale ed il farmaco sperimentale. La pseudorandomizzazione non garantisce assolutamente la casualità di assegnazione del trattamento e basta pochissimo perchè una randomizzazione, fondata su questi criteri, non garantisca più niente di casuale nell'assegnazione. Basti pensare che i gruppi devono avere un rapporto di 1: 1, ossia per ogni persona 11 trattata con il farmaco sperimentale, ce ne deve essere almeno un'altra trattata con il farmaco di controllo. Pertanto risulta evidente la ragione per la quale con questa modalità i campioni piccoli corrono il rischio di avere degli sbilanciamenti (sbilanciamento dei gruppi per studi di piccole dimensioni). Un'altra possibilità è quella di ottenere blocchi sequenziali predefiniti. 4. COSTRUZIONE DI UN PICCOLO SET DI DATI L'organizzazione della raccolta dei dati è sempre fondamentale e funzionale all'obiettivo della ricerca: in base ad essa si stabiliscono quali sono le variabili da rilevare sui soggetti e che poi diventeranno l'esame obiettivo sul paziente. Sottolineiamo che quelle che in ambito statistico si definiscono variabili sono le condizioni cliniche che si rilevano sul paziente, come: le analisi di laboratorio, le caratteristiche anagrafiche del paziente, gli stili di vita. NOTA: Dal punto di vista delle analisi, l'espressione stili di vita non significa nulla e, infatti, deve essere tra- dotta in una serie di domande e di riscontri più o meno oggettivi. L'oggettività sta nel fatto che è possibile fornire un riscontro con una misurazione (esempio: misurazione del peso). Al contrario, la soggettività sta nel fatto che si chiede al paziente un'opinione che, chiaramente, non è una cosa oggettiva (esempio: chiedere al paziente come si sente). Le variabili che possono essere rilevate sono le più differenti. Qui di seguito è riportato l'elenco delle variabili di uno studio clinico che è stato condotto per confrontare l'efficacia di farmaci sullo scompenso cardiaco. In questo elenco di variabili, sono riportati: - a destra, i nomi delle variabili utilizzati dai medici - a sinistra, gli acronimi con cui le singole variabili vengono indicate nei software. 12 Precisamente, questo elenco valuta: - il sesso del paziente - l'età del paziente - il tipo di trattamento - alcune caratteristiche cliniche - alcune variabili che sono fondamentali per le conclusioni (esempio: se il farmaco funziona, lo si misurerà attraverso la variabile "deviazione standard della durata media del ciclo cardiaco") Stabilito cosa ci interessa del paziente (età, sesso, durata del ciclo cardiaco, altre caratteristiche cliniche), bisogna inserire i dati in un foglio, che può essere un modulo di Axxess o un modulo a distanza su internet. Si crea così una tabella di dati analizzabile. Ovviamente, dal momento che tale data base può essere interrogato in ogni momento per avere i risultati dell'indagine, è importante che i dati siano identificabili chiaramente e rapidamente. Di solito si fa in modo che ogni riga rappresenti un paziente ed ogni colonna rappresenti una variabile. Le misure che vengono ripetute nel tempo su uno stesso paziente possono costituire un problema: - se l'inserimento dei dati è concentrato, esse possono essere poste in colonne affiancate (esempio: colonna F e G), in maniera tale che si abbia un riscontro univoco sul paziente; dunque misure poste una a fianco all’altra non sono indipendenti in quanto appartengono allo stesso soggetto - se la raccolta informatizzata è diluita nel tempo, ogni riga diventa un episodio, ossia rappresenta un momento-paziente; dunque misure poste in righe che stanno una sopra l'altra sono indipendenti; tuttavia, dal momento che di solito le misure ripetute non vengono trattate come osservazioni indipendenti, in tal caso esse dovranno essere rimaneggiate per poter essere gestite Qui di seguito è rappresentato un altro esempio di foglio dati. Le variabili vengono indicate con gli acronimi sopraccitati, il che ovviamente consente un guadagno in termini di spazio: consente di visualizzare tutti i 13 dati nello spazio più compatto possibile. A sua volta ciò consente di apprezzare istantaneamente le caselle vuote. In uno studio clinico le caselle vuote non sono irrilevanti: rappresentano dati mancanti. Ovviamente ciò è più o meno rilevante a seconda dell'importanza della variabile nell'ambito dell'analisi: se si tratta di una variabile fondamentale per l'aggiustamento, le caselle vuote causano una riduzione di potenza dello studio e, a sua volta, la riduzione della potenza dello studio implica la riduzione della validità del risultato della ricerca. In altre parole, aumenta la probabilità di sbagliare nell'affermare che un trattamento è efficace. NOTA: Sottolineiamo che solo M ed F sono rimasti α-numerici. Gli altri parametri (esempio: AMI) vengono trattati come numeri: si assegnano dei codici numerici (esempio: per indicare presente/assente, si utilizzano, rispettivamente, 0 ed 1 o 1 e 2), in quanto sono sempre più comodi da gestire. In altre parole, alcune variabili vengono trattate in maniera fittizia, attraverso l'attribuzione di un punteggio, anche se realmente non rappresentano delle quantità. 5. VARIABILI Si definisce variabile qualsiasi caratteristica che può assumere un valore differente in una sequenza differente di osservazioni. Le osservazioni possono riguardare differenti soggetti oppure lo stesso soggetto, misurato più volte. Le variabili possono essere di due tipi: - quantitative  Sono misurabili ed espresse con un valore numerico. Esistono due tipi di variabili quantitative: 14 variabili quantitative continue: possono assumere tutti i valori sull'asse reale, da -∞ a +∞; chiaramente, il valore registrato dipende dalla sensibilità dello strumento di misura; ad esempio, il peso è una variabile quantitativa continua, ma molte bilance possono fornire valori interi variabili quantitative discrete: assumono solo valori interi; gli intervalli compresi tra i numeri interi non sono permessi - qualitative  Il valore non è espresso attraverso una quantità e quindi un numero o una misurazione. Al contrario, il loro valore è espresso attraverso: un nome o un aggettivo (esempio: gruppo sanguigno 0 o A o B o AB; sesso M o F): in tal caso si parla di variabili qualitative nominali un criterio di ordinamento (esempio: stadiazione dei tumori → tumore di stadio 0; tumore di stadio 1; tumore di stadio 2; tumore di stadio 3; tumore di stadio 4): in tal caso, si parla di variabili qualitative ordinali Si tratta di categorie fisse, nonchè del frutto di convenzioni. Ovviamente, tale distinzione ha una ricaduta sia in termini descrittivi sia in termini differenziali. 6. DESCRIZIONE DEI RISULTATI VARIABILI QUANTITATIVE Necessitano di essere studiate un po' di più nelle loro proprietà, per decidere come presentarle. Esempio: Si consideri la distribuzione di frequenza dell'alcolemia in soggetti attorno ai 20 anni, rilevata con l'etilometro portatile. Si tratta di una rilevazione effettuata fuori dalle discoteche alle 3 di notte, in un periodo in cui gli incidenti stradali notturni tra i giovani erano particolarmente elevati. Ovviamente l'obiettivo era quello di appurare se l'alcol fosse così diffuso come abitudine da rappresentarne una delle cause principali, come peraltro si sospettava, considerati gli effetti farmacologici che furono riscontrati. Naturalmente il campione di soggetti considerato è del tutto casuale. Dal punto di vista comunicativo la tabella mostrata qui di lato, che riporta la rilevazione effettuata, non risulta efficace al fine di comprenderne il risultato: si evince solo che su 229 soggetti sottoposti al test 161 sono completamente sobri. In altre parole, tale distribuzione di frequenza consente solo di comprendere: - eventuali concentrazioni di soggetti su una qualche tipologia di risultato - che le osservazioni sono molto disperse tra tutti i valori Pertanto occorre trovare un metodo per sintetizzare i risultati, al fine di poter: - studiare le proprietà della variabile: si tratta di un obiettivo funzionale alle analisi successive - usare uno strumento descrittivo adatto a comunicare il messaggio: ad esempio, è possibile categorizzare la variabile alcolemia trasformando la variabile quantitativa continua in una variabile qualitativa, in relazione all'effetto fisiopatologico delle diverse concentrazioni di alcol rilevato da precedenti studi farmacologici, come mostrato qui di seguito: 15 0 non comporta alcuna alterazione fino a 0,25 in soggetti sensibili ci possono essere alterazioni della percezione da 0,25 a 0,5 per quasi tutti i soggetti iniziano a comparire alterazioni della percezione da 0,5 a 0,7 si riduce il campo visivo e cominciano a comparire i primi effetti dell'ebbrezza da 0,7 a 1 lo stato di ebbrezza è conclamato oltre 1 si rischia di andare verso il delirio. Sapendo che per concentrazioni di alcol superiori a 0,5 vi è il ritiro della patente per 3 mesi, vi sono due possibilità: osservare quante persone sono a rischio di ritiro della patente, indipendentemente dalla loro sensazione di sobrietà osservare quante persone sono a rischio di incidente stradale In generale possiamo affermare che, dal momento che per le variabili quantitative e soprattutto per quelle continue i valori possibili sono tantissimi, un metodo che consente di sintetizzare i risultati e dunque studiare le proprietà della variabile è quello di costruire: - una tabella o distribuzione di frequenza - un istogramma Per costruire la tabella o distribuzione di frequenza bisogna: 1. calcolare il numero di categorie ottimale per studiare una distribuzione (𝐾), attraverso la formula di Sturges, rappresentata qui di seguito: 𝐾 = 1 + 3,322(𝐿𝑜𝑔 𝑛) con 𝑛 = numerosità campionaria 2. stabilire l'ampiezza delle classi (𝑊), data da: 𝑅 𝑊= 𝐾 con 𝑅 = range, ossia differenza tra valore massimo e valore minimo Esempio: 𝐾 = 1 + 3,322(𝐿𝑜𝑔 229) = 1 + 3,322(2,36) = 1 + 7,84 = 8,84 e quindi: 1,74 − 0 𝑊= = 0,2 8,84 𝑊 = 0,2 significa che bisogna strutturare delle categorie che vanno di 0,2 in 0,2. Si ottiene così la tabella o distribuzione di frequenza: 16 Dopo di che per ogni categoria bisogna indicare: - la frequenza assoluta, ossia il totale delle osservazioni che hanno un valore compreso in quell'intervallo (conteggio grezzo); la somma delle frequenze assolute di tutte le categorie corrisponde alla numerosità campionaria ATTENZIONE: Spesso i valori mancanti vengono tirati fuori da questa tabella. Quindi il totale deve corrispondere alla numerosità campionaria, eccettuando i valori mancanti. - la frequenza relativa, ossia il rapporto tra la corrispondente frequenza assoluta e la numerosità campionaria; si tratta di una percentuale e risulta importante quando si applica la probabilità in senso frequentista - la frequenza cumulativa assoluta, ossia la sommatoria delle frequenze assolute fino alla ennesima categoria Esempio (vedi sopra): 𝐹𝑟𝑒𝑞𝑢𝑒𝑛𝑧𝑎 𝑐𝑢𝑚𝑢𝑙𝑎𝑡𝑖𝑣𝑎 𝑎𝑠𝑠𝑜𝑙𝑢𝑡𝑎 𝑓𝑖𝑛𝑜 𝑎𝑙𝑙𝑎 4° 𝑐𝑎𝑡𝑒𝑔𝑜𝑟𝑖𝑎 = 177 + 16 + 11 + 14 = 218 Serve per svariate ragioni. La principale è lo studio delle proprietà delle variabili, tra cui risulta di particolare importanza l'adattamento della variabile alla distribuzione di Gauss. - frequenza cumulativa relativa, ossia la sommatoria delle frequenze relative fino alla ennesima categoria Esempio (vedi sopra): 𝐹𝑟𝑒𝑞𝑢𝑒𝑛𝑧𝑎 𝑐𝑢𝑚𝑢𝑙𝑎𝑡𝑖𝑣𝑎 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 𝑓𝑖𝑛𝑜 𝑎𝑙𝑙𝑎 4° 𝑐𝑎𝑡𝑒𝑔𝑜𝑟𝑖𝑎 = 0,773 + 0,070 + 0,048 + +0,061 = 0,952 Serve per svariate ragioni: 1. studiare l'adattamento della variabile alla distribuzione di Gauss Precisamente: a. si osserva il quantile sulla frequenza cumulativa relativa 17 NOTA: In statistica, il quantile di ordine 𝛼 è un valore 𝑞𝛼 che divide la popolazione in due parti, proporzionali ad 𝛼 e 1 − 𝛼 e caratterizzate da valori rispettivamente minori e maggiori di 𝑞𝛼. b. si effettua la differenza tra il quantile della normale ed il quantile di quella osservata c. si studia la probabilità di essersi discostati. 2. studiare una categorizzazione che però non ha più valore di studio della variabile, bensì serve per comunicare un messaggio Esempio: Si supponga di dover scegliere una soglia diagnostica. Osservando la frequenza cumulativa relativa si evince facilmente che l′89% dei soggetti si trova sotto lo 0,6%. Quindi il restante 11% dei soggetti, ricavato tramite la differenza 1 − 89%, si troverà sopra lo 0,6%. 3. comprendere quale percentuale del campione è stata accorpata: se, effettuando un'analisi statistica per categorie con un test 𝑋 2 , alcune categorie portano ad una tabella 𝑟 ∙ 𝑐 con delle celle 0, dal momento che le celle 0 rendono instabile la statistica, si procede accorpando i gruppi, al fine di trovare un criterio che consenta l'analisi di una variabile rispetto ad un'altra. Se la percentuale non risulta ancora congrua, si procede accorpando altre categorie. Per costruire l’istogramma bisogna prestare attenzione al confine di classe: la variabile è una variabile quantitativa continua, per cui sull'asse delle ascisse non vi devono essere intervalli tra le categorie. Esempio (vedi sopra): I risultati della variabile presentano solo due decimali. Allora conviene considerare il terzo decimale 5 come punto di discriminazione tra una categoria e l'altra. Come si può osservare nell'istogramma rappresento qui a lato, il primo intervallo va da 0 a 0,205. 0,205 non è un valore che compare tra le rilevazioni, ma in questa maniera è possibile considerare il valore 0,2 come appartenente alla prima categoria ed il valore 0,21 come appartenente alla 2a categoria. Comunque sia, l'area di ogni singola colonnina è proporzionale alla frequenza relativa. Affinchè le aree delle colonnine siano confrontabili tra loro, la base deve essere identica. Al contrario, se cambia l'ampiezza delle categorie, le aree seguiranno principi di proporzionalità caratteristici per ciascuna colonnina e quindi non saranno più confrontabili tra loro. Per dimostrare l'andamento della frequenza relativa, rispetto al valore della variabile quantitativa, è possibile congiungere con una linea i punti medi di ogni colonnina. Si costruisce così il cosiddetto poligono di frequenza. 18 Tuttavia queste sono comunicazioni scientifiche aventi l'obiettivo di descrivere la popolazione in base ad una determinata problematica: volendo studiare una variabile quantitativa, continua o discreta, in termini più generali, bisogna utilizzare la media. NOTA: Studiare una variabile quantitativa significa vedere se con tale variabile è possibile calcolare degli indici sintetici che possano sintetizzare brevemente i risultati. Ovviamente l'impiego della media richiede che preventivamente si valuti se: - la variabile quantitativa rispetta alcune proprietà, che appunto consentano di calcolarne la media - la media descrive bene il campione - è giusto usare la media di un campione per trarre conclusioni sull'intera popolazione Allora cominciamo col distinguere tra indici di tendenza centrale ed indici di dispersione. Indici di tendenza centrale Indicano il punto in cui si collocherebbe un campione e quindi, teoricamente, la popolazione corrispondente, se lo si posizionasse su un asse. Se i dati sono abbastanza vicini tra loro, in genere si usa la media aritmetica, data da: ∑ 𝑥𝑖 𝑥̅ = 𝑁 Se si osservano dispersioni eccessive (esempi: dati di laboratorio, durata della degenza media dei ricoveri), si utilizza la media geometrica, data da: - media aritmetica del logaritmo naturale: ∑ log 𝑥𝑖 𝑥𝑔 = ̅̅̅ 𝑁 - radice ennesima della produttoria del valore, laddove per produttoria s'intende moltiplicazione di tutti i singoli valori: 𝑛 𝑚𝑔 = √∏ 𝑥𝑖 Infine, se vi sono valori che tendono sempre più verso numeri grandi (esempio: sopravvivenza), per cui la distribuzione risulta asimmetrica, si utilizza la media armonica: 𝑁 𝑥 ̅̅̅ 𝑎 = 1 ∑ 𝑥𝑖 L'altro indice sintetico che conviene conoscere è la mediana. La mediana non si calcola sui dati, bensì è un valore che viene individuato sulla distribuzione ordinata, osservando dove si ferma la frequenza cumulativa relativa al 50%. In altre parole, la mediana è un valore della variabile che appartiene all'osservazione e che divide esattamente a metà una distribuzione ordinata. Per trovare la mediana, bisogna: 1. disporre in ordine crescente i valori 19 2. contare quanti sono i valori (esempio: 50 valori); il numero totale dei valori viene indicato con 𝑁 3. calcolare la metà del numero totale dei valori (esempio: 25); la metà del numero totale dei valori viene indicata con 𝑁/2 4. osservare il valore che corrisponde a 𝑁/2 (esempio: valore in posizione venticinquesima) Per moda, invece, s'intende il valore più frequente. Indici di dispersione Si definisce varianza lo scarto quadratico medio, dato da: 2 (∑ 𝑥𝑖 )2 ∑(𝑥𝑖 − 𝑥̅ ) 2 ∑ 𝑥𝑖 − 𝑆2 = = 𝑁 𝑁−1 𝑁−1 con (𝑥𝑖 − 𝑥̅ ) = scostamento di ciascuna osservazione (𝑥𝑖 ) dalla media (𝑥̅ ); 𝑁 = numerosità campionaria e 𝑁 − 1 = gradi di libertà NOTA 1: Dal momento che la media rappresenta un punto centrale, preceduto e seguito da uno stesso numero di valori, la somma dei valori con segno negativo è necessariamente uguale alla somma dei valori con segno positivo. Ne consegue che, se gli scostamenti di ciascuna osservazione non fossero elevati al quadrato, il risultato sarebbe pari a zero. NOTA 2: Nelle analisi campionarie, in cui interviene la variabilità casuale, non tutti i valori 𝑥𝑖 sono completamente liberi di variare. Innanzitutto bisogna considerare che, sebbene il valore della media dipenda da tutti i valori, i valori in questione costituiscono solo uno degli infiniti possibili campioni. Pertanto, data la media, per quanto possano cambiare i valori di ciascuna osservazione, una sola osservazione comunque deve garantire il valore di media rispetto al quale si sta calcolando la varianza. In altre parole, se si ricostruisce il campione in maniera tale però che risulti caratterizzato dalla stessa media, il valore di un'osservazione non potrà essere scelto arbitrariamente, bensì sarà predeterminato dal valore di tutte le altre osservazione e dal valore della media. Tuttavia il vero vincolo non è la media, bensì il fatto che la somma degli spostamenti dev'essere pari a zero. D'altro canto, non essendo libero di variare, tale valore predeterminato non parteciperà alla varianza e quindi verrà sottratto alla numerosità campionaria (𝑁 − 1). In realtà la varianza non ha interesse dal punto di vista descrittivo in quanto è una misura al quadrato. Allora per recuperare il senso della variabile e dell'unità di misura si utilizza la cosiddetta deviazione standard data da: √S 2 Per coefficiente di variazione, invece, s'intende il rapporto tra deviazione standard e media: √𝑆 2 𝐶. 𝑉. = ∙ 100 𝑥̅ NOTA: In realtà il coefficiente di variazione è un numero puro, ossia privo di unità di misura. Tuttavia dal momento che, per comodità di lettura, il rapporto viene moltiplicato per 100, esso appare come una percentuale. 20 Quanto più alto sarà questo rapporto, tanto più dispersa risulterà la distribuzione. Il coefficiente di variazione viene utilizzato per studiare la variabilità delle indagini di laboratorio, giacchè consente di studiare la variabilità del metodo, al di là dell'unità di misura: esso consente di confrontare tra loro due apparecchi che rilevano la stessa misura, ma con modalità diverse (esempio: colorimetro e spettrofotometro), allo scopo di valutare quale dei due si discosta di più dal valore che dovevano misurare, senza tener conto della reale unità di misura sulla quale viene fatta la misurazione. In altre parole, il coefficiente di variazione è molto utile per poter effettuare confronti sulla variabilità delle misure quando l'unità di misura è differente. Infine si definisce range il campo di variazione totale. Esso si ottiene sottraendo il valore più basso della serie al valore più alto della stessa serie. Molto spesso per definire se un soggetto appartiene o meno ad una popolazione, piuttosto che confrontarlo con la media e la deviazione standard, che comunque sono influenzati dai valori estremi, lo si confronta con i valori che appartengono a determinati punti della distribuzione e che prendono il nome di percentili. La distribuzione cumulativa relativa serve a valutare i percentili, che, precisamente, rappresentano il valore della variabile che appartiene all'osservazione e che blocca la distribuzione ordinata a quel percento di osservazione. Esempio: Si consideri il seguente nomogramma, che serve per valutare il BMI (peso \ altezza2) dei bambini in crescita dai 2 ai 20 anni. Sull'asse delle ascisse è riportata l'età, sull'asse delle ordinate è riportato il BMI. 21 Seguendo la prima linea curva che si osserva partendo dal basso e che corrisponde al quinto percentile, si osserva come in corrispondenza dell'età 6 anni il valore di BMI sia pari 13,8. Allora possiamo affermare che il 5% dei bambini studiati ha un BMI minore o uguale a 13,8. Di solito per valutare la variabilità dei fenomeni si usano il 25° percentile ed il 75° percentile. Infatti il 25° percentile, la mediana ed il 75° percentile rappresentano, rispettivamente, il 1°, il 2° ed il 3° quartile della distribuzione. Box-plot (Diagramma a scatola e baffi) Strumento descrittivo, semplice ed intuitivo, utile per studiare la distribuzione o dispersione dei valori. Viene spesso utilizzato nelle pubblicazioni per il confronto tra gruppi. Infatti nel box-plot è rappresentato tutto ciò che serve per descrivere la variabile in maniera sintetica, ossia: - il valore massimo del diagramma (𝑚𝑎𝑥) - il secondo quartile della distribuzione (mediana; indicata con 𝑄2) - il valore minimo del diagramma (𝑚𝑖𝑛). La dimensione del box è limitata da: - il 1° quartile della distribuzione (25° percentile; indicato con 𝑄1 ) - il 3° quartile della distribuzione (75° percentile; indicato con 𝑄3). In alcuni lavori viene disegnata anche una crocetta rappresentativa della media. Se la barra, rappresentativa della mediana, e la crocetta, rappresentativa della media, non coincidono, è possibile arguire che la distribuzione non è propriamente una distribuzione di Gauss. ATTENZIONE: I punti minimo e massimo del grafico non sempre rappresentano il minimo ed il massimo del- le osservazioni: al fine di ottenere una rappresentazione compatta della distribuzione, bisogna escludere i fuori-soglia e quindi bisogna porre: - min = 𝑄1 − 1,5(𝑄3 − 𝑄1) - max = 𝑄3 + 1,5(𝑄3 − 𝑄1) con 𝑄3 − 𝑄1 = differenza interquartile e 1,5 scelto su basi probabilistiche. I fuori-soglia o vengono disegnati come punti separati, indicati da crocette. Di solito si rappresentano solo i 2 o 3 più estremi, giusto per indicare qual è la parte compatta della distribuzione e, al tempo stesso, per comunicare che vi sono valori che tendono ad assumere 22 quantità progressivamente più alte o più basse, molto al di fuori di una volta e mezzo (1,5) il range interquantile. NOTA: Se, sottraendo una volta e mezzo (1,5) il range interquartile (𝑄3 − 𝑄1) al 1° quartile della distribuzione (𝑄1), si scende al di sotto di un valore che abbia senso (esempio: nel caso della concentrazione ematica non ha senso un valore negativo), bisogna sostituire il minimo calcolato con il minimo osservato. Ovviamente in tal caso non si osserveranno valori fuori- soglia il minimo. Rappresentazioni con grafici Altre possibilità di rappresentazione dei dati sono: - i diagrammi a torta Esempi: - lo scatter plot Esempio: Ciascun punto rappresenta un soggetto incluso nello studio e si colloca nel piano in relazione ai valori delle 2 variabili. Serve per immaginare quale possa essere la forma funzionale, qualora sia giusto pensare ad una dipendenza tra le 2 variabili quantitative, che spieghi la relazione che sussiste tra quest'ultime. Ad esempio nel caso in questione osservando i punti si comprende che in un soggetto sano, all'aumentare della frequenza cardiaca, il ciclo cardiaco diminuisce di tempo. In tal caso si è soliti parlare di regressione. Tuttavia lo scatter plot può essere impiegato anche quando non c'è un rapporto di causa-effetto, ma semplicemente si vuole osservare come variano tra loro le due variabili. Allora in tal caso si è soliti parlare di correlazione. 23 - i cartogrammi Esempio: VARIABILI QUALITATIVE Si sintetizzano molto rapidamente contando gli individui per ogni categoria della variabile e quindi poi mostrando la percentuale o la frequenza relativa. Quando vi sono troppe categorie l'analisi di una variabile qualitativa necessita di essere rimaneggiata, nel senso che conviene ridurre le categorie. Successivamente, in fase di analisi, avere categorie esigue comporta avere: - denominatori piccoli contro numeratori grandi - denominatori nulli e quindi frazioni non risolvibili; le frazioni non risolvibili implicano problemi nella gestione del calcolo della probabilità Comunque sia, in generale, con una variabile qualitativa la tabella di frequenza è facile da gestire: non richiede tantissimo lavoro. 24 PROBABILITÀ Tutti i fenomeni casuali sono governati dalle leggi della probabilità. In ambito medico il calcolo delle probabilità trova applicazione in: - vari processi diagnostici e prognostici - studi inerenti la sopravvivenza - studi inerenti confronti di: trattamenti terapeutici trattamenti chirurgici Rispetto ad ogni tipo di esperimento è possibile distinguere: - eventi possibili  Si tratta di eventi che rappresentano tutti i possibili risultati dell'esperimento e che costituiscono il cosiddetto spazio campione. Esso può essere costituito: solo da 2 possibili risultati: eventi semplici da molti possibili risultati (esempio: 100 nascite): eventi composti La probabilità che si verifichi uno qualsiasi dei possibili risultati di un esperimento dipende dal numero totale dei risultati possibili. - eventi impossibili  Si tratta di eventi che non rientrano tra i possibili risultati dell'esperimento. Esempio di evento semplice: lancio di una moneta - EVENTI POSSIBILI Testa Croce Il numero totale di risultati possibili è 2. La possibilità che esca testa o croce è pari a 1/2. - EVENTI IMPOSSIBILI Ottenimento contemporaneo di testa e croce. Esempio di evento composto: lancio di un dado - EVENTI POSSIBILI Numero 1 Numero 2 Numero 3 Numero 4 Numero 5 Numero 6 Il numero totale di risultati possibili è 6. Ognuna delle 6 facce ha la stessa probabilità di rappresentare il risultato finale, che precisamente è pari a 1/6. - EVENTI IMPOSSIBILI Risultato nullo. I criteri con i quali è possibile attribuire un numero al realizzarsi di un risultato di un esperimento sono sostanzialmente 3: 25 - la probabilità oggettiva o classica  Viene calcolata in seguito ad un ragionamento astratto. Se un evento può verificarsi in 𝑁 modi, ugualmente possibili e mutuamente esclusivi, e se 𝑚 di questi modi possiede una caratteristica 𝐴, la probabilità che si verifichi l’evento 𝐴 è dato da 𝑚⁄𝑁. Esempio: Si supponga di lanciare una moneta. Con quale probabilità il risultato sarà testa? - 𝑁 = 2, in quanto il risultato del lancio di una moneta può essere testa o croce - 𝑐𝑎𝑟𝑎𝑡𝑡𝑒𝑟𝑖𝑠𝑡𝑖𝑐𝑎 𝐴 = testa - 𝑚 = 1, in quanto il risultato testa si può ottenere in un solo modo - la probabilità che il risultato sia testa è dato da 1⁄2 - la probabilità come frequenza relativa  È basata sulla possibilità di contare il numero delle ripetizioni. Se un processo si ripete un gran numero di volte 𝑛 e se un certo evento con caratteristica 𝐴 si verifica 𝑚 volte la probabilità di 𝐴 sarà approssimativamente uguale ad 𝑚⁄𝑛. Esempio: Si supponga che in un ospedale si sia verificata un'epidemia di tossinfezione alimentare, e pre- cisamente che 99 dei 158 pazienti che avevano consumato il pranzo abbiamo manifestato la malattia. La probabilità di ammalarsi, per una persona che ha consumato quel pranzo, è: 𝑛𝑟. 𝑒𝑣𝑒𝑛𝑡𝑖 𝑓𝑎𝑣𝑜𝑟𝑒𝑣𝑜𝑙𝑖 99 𝑃(𝑚𝑎𝑙𝑡𝑡𝑖𝑎) = = = 0,63 = 63% 𝑛𝑟. 𝑒𝑣𝑒𝑛𝑡𝑖 𝑝𝑜𝑠𝑠𝑖𝑏𝑖𝑙𝑖 158 - la probabilità soggettiva  Misura il grado di fiducia che un dato individuo ripone nel verificarsi di determinati eventi in base alle proprie conoscenze. Esempio: Probabilità che uno studente superi un esame. Teoricamente la probabilità che uno studente superi un esame è pari alla probabilità che lo stesso studente non superi l'esame in questione (50%). Tuttavia, se lo studente è un individuo coerente, valutando il proprio grado di preparazione è in grado di affermare che la probabilità di superare l'esame è minore o eventualmente maggiore del 50%. ATTENZIONE: Nel caso del lancio della moneta, non vi sono altre informazioni affinché si possa affermare che la probabilità che esca testa o croce non sia del 50%. Invece, nel caso della tossinfezione alimentare, se, ad esempio, è noto che la ditta da cui si rifornisce l'ospedale non è mai stata associata a reali casi di malattia, è possibile affermare che la probabilità con cui i soggetti possono ammalarsi potrebbe essere inferiore al 63%. 1. PROPRIETÀ ELEMENTARI DELLE PROBABILITÀ La probabilità di un evento 𝐴, che si indica con 𝑃(𝐴): 1. è un numero sempre positivo. In simboli: 𝑃(𝐴) ≥ 0 2. è un numero compreso tra 0 ed 1. In simboli: 0 ≤ 𝑃(𝐴) ≤ 1 26 Precisamente: - 𝑃(𝐴) = 0, se 𝐴 è un evento impossibile NOTA: Può rappresentare anche un risultato in termini frequentisti. Ad esempio, nel caso della tossinfezione alimentare l'evento "nessuno dei pazienti a cui era stato somministrato il pranzo si ammala" potrebbe rappresentare un evento possibile, ma effettivamente è associato ad una probabilità nulla. - 𝑃(𝐴) = 1, se 𝐴 è un evento certo NOTA: Può rappresentare anche un risultato in termini frequentisti. Ad esempio, nel caso della tossinfezione alimentare l'evento "tutti i pazienti a cui è stato somministrato il pranzo si sono ammalati" potrebbe rappresentare un evento certo e quindi potrebbe essere associato ad una probabilità unitaria. Se gli eventi possibili sono mutuamente esclusivi (due eventi, 𝐴 e 𝐵, sono mutuamente esclusivi se l'occorrenza dell'uno esclude l'altro; esempio: acidosi respiratoria e alcalosi respiratoria), la somma delle probabilità di tutti gli eventi possibili è uguale a 1. Ne consegue che, volendo conoscere la probabilità di un evento, basta sottrarre ad 1 la somma delle probabilità di tutti gli altri eventi complementari al primo. La quantificazione del fenomeno si ottiene attraverso la cosiddetta legge della somma, data da: 𝑃(𝐵 ∪ 𝐴) = 𝑃(𝐴) + 𝑃(𝐵) con ∪ = simbolo di unione di insiemi Invece, se gli eventi possibili non sono mutamente esclusivi (esempio: malattia cardiaca e reflusso gastro- esofageo), la quantificazione del fenomeno si ottiene attraverso la seguente legge di probabilità: 𝑃(𝐵 ∪ 𝐴) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐵 ∩ 𝐴) con ∩ = simbolo di intersezione di insiemi Esempio di intersezione di insiemi: soggetti affetti contemporaneamente da malattia cardiaca e da reflusso gastro-esofageo Un evento, il cui verificarsi è condizionato dal verificarsi di altri eventi, prende il nome di evento condizionato. Dal punto di vista matematico, la probabilità di un evento condizionato è dato da: 𝐵 𝑃(𝐵 ∩ 𝐴) 𝑃( ) = 𝐴 𝑃(𝐴) ATTENZIONE: Il condizionamento determina una modifica dello spazio campione. Infine, se si considerano eventi indipendenti tra di loro, è possibile affermare che: - la probabilità che essi si verifichino contemporaneamente (entrambi) è data dalla cosiddetta legge del prodotto: 𝑃(𝐵 ∩ 𝐴) = 𝑃(𝐴) ∙ 𝑃(𝐵) 27 - la probabilità che si verifichi o uno o l'altro (almeno uno) è data da: 𝑃(𝐵 ∪ 𝐴) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐵 ∩ 𝐴) Ora, ricordiamo che le variabili quantitative possono essere continue o discrete. A differenza delle distribuzioni discrete, per le quali bisogna semplicemente attribuire una probabilità al realizzarsi di ogni risultato possibile, le distribuzioni continue richiedono un esame più complesso: teoricamente sono possibili infiniti valori, con l'unico vincolo che la somma di tutte le probabilità sia sempre pari ad 1. Esempio: Si supponga di dover misurare la probabilità del consumo dei farmaci all'interno di una struttura. Gli eventi (consumo dei farmaci) vanno da 0 a 12. La frequenza relativa, finora considerata solo come misura descrittiva, trova quindi anche un approccio in termini di probabilità: la somma delle frequenze relative di tutti gli eventi possibili è pari ad 1 e quindi, se si ha una curva, l'area da essa sottesa (area che sta sotto la curva) deve essere sempre pari all'unità. I risultati di una distribuzione di probabilità possono essere riassunti anche in un grafico, al fine di apprezzarne l'andamento. 28 Descrivere lo spazio campionario significa riportare tutte le possibili combinazioni con cui i risultati possono in qualche modo avvenire. Tuttavia, se non è possibile descrivere facilmente la probabilità di ogni evento, diventa necessario trovare un sistema che consenta di descrivere ogni fenomeno, rivelando un legame tra spazio e possibilità di evento. D'altro canto vi sono variabili che possono assumere infiniti risultati. Allora, per attribuire la probabilità ad ogni possibile evento, distinguiamo due tipologie di distribuzioni: - le distribuzioni che sono legate a variabili casuali discrete - le distribuzioni che sono legate a variabili casuali continue 2. DISTRIBUZIONI DELLE PROBABILITÀ A) DISTRIBUZIONE DISCRETA o BINOMIALE (B) Il nome di tale distribuzione deriva dal fatto che si avvale del coefficiente binomiale. Precisamente, un fenomeno può essere descritto da una distribuzione binomiale quando si verificano tutte le seguenti condizioni: - OGNI PROVA ASSUME UNO DI DUE POSSIBILI RISULTATI MUTUAMENTE ESCLUSIVI (esempio: lancio della moneta), DI CUI UNO È DEFINITO ARBITRARIAMENTE SUCCESSO (esempio: testa) L'ALTRO FALLIMENTO (esempio: croce). - LA PROBABILITÀ DI SUCCESSO (𝒑) RIMANE COSTANTE IN OGNI PROVA (esempio: ogni volta che lancio la moneta, la probabilità che esca testa è sempre pari ad 1/2). DI CONTRO, LA PROBABILITÀ DI FALLIMENTO (𝒒) SARÀ DATA DA 𝟏 − 𝒑. - LE PROVE SONO TRA LORO INDIPENDENTI, OSSIA IL RISULTATO DI UNA NON INFLUENZA IL RISULTATO DELLA SUCCESSIVA Esempio: Nascita non gemellare. I risultati possibili sono due e sono mutuamente esclusivi: - nascita di un neonato di sesso femminile (𝐹) - nascita di un neonato di sesso maschile (𝑀) Arbitrariamente si definisce successo la nascita di un neonato di sesso femminile (𝐹), per cui si ha che 𝑃(𝐹) = 𝑝. Di conseguenza, la nascita di un neonato di sesso maschile (𝑀) si definirà fallimento e quindi si avrà che 𝑃(𝑀) = 𝑞 = 1 − 𝑝. La probabilità di successo (1/2) rimane costante in ogni prova. Ovviamente il sesso di un neonato non influenzerà il sesso del neonato che nascerà nel parto successivo a quello in cui è nato il primo. Pertanto possiamo definire le prove come indipendenti tra loro. Dunque se ne conclude che il fenomeno può essere descritto da una distribuzione binomiale. La probabilità che una determinata sequenza si verifichi è indicata con: 𝑝 𝑥 ∙ 𝑞 𝑛−𝑥 Esempio: Si vuole conoscere la probabilità con cui si verifica la sequenza "nascita di 5 neonati di sesso fem- 29 minile su 8 nascite". Indichiamo con 𝑛 il numero delle nascite e con 𝑥 il numero di neonati di sesso femminile. Ovviamente il numero di neonati di sesso maschile sarà pari a 𝑛 − 𝑥 = 8 − 5 = 3. Le prove sono tra loro indipendenti. Allora, ricordando che la probabilità che eventi indipendenti tra di loro si verifichino contemporaneamente è data dalla legge del prodotto, possiamo affermare che la probabilità con cui si verifica tale sequenza è data da: 𝑃(𝐹) ∙ 𝑃(𝐹) ∙ 𝑃(𝐹) ∙ 𝑃(𝐹) ∙ 𝑃(𝐹) ∙ 𝑃(𝑀) ∙ 𝑃(𝑀) ∙ 𝑃(𝑀) = 𝑃(𝐹)5 ∙ 𝑃(𝑀)3 = 𝑝5 ∙ 𝑞 3 = 𝑝5 ∙ 𝑞 8−3 Tutte le varie restanti possibili sequenze hanno la stessa probabilità di realizzarsi e sono tra di loro mutuamente esclusive. Ovviamente, volendo sommare le probabilità di tutte queste sequenze, prima bisogna determinarne il numero. Ebbene, il numero di tutte le varie possibili sequenze di un fenomeno è dato dal coefficiente binomiale: 𝑛 𝑛! ( )= 𝑥 𝑥! (𝑛 − 𝑥)! con 𝑛 = numero di prove e 𝑥 = numero di successi sulle 𝑛 prove NOTA: 𝑛! e 𝑥! si leggono rispettivamente come n fattoriale e x fattoriale. In generale, si definisce n fattoriale e si indica con il simbolo 𝑛! il prodotto dei primi n numeri interi positivi minori o uguali a quel numero (per comprendere meglio il concetto si vedano i calcoli qui di seguito). Allora, la formula della distribuzione binomiale che consente di misurare la probabilità di tutti i risultati possibili di un evento è: 𝑛 𝑓(𝑥) = ( ) ∙ 𝑝 𝑥 𝑞𝑛−𝑥 𝑥 con 0 ≤ 𝑥 ≤ 𝑛𝑟 𝑑𝑖 𝑠𝑢𝑐𝑐𝑒𝑠𝑠𝑖. Ovviamente, 𝑥 = 0 significa nessun successo Esempio: Nel caso in questione, sostituendo i simboli con i valori, si ha che: 8 8! 8! 40320 40320 ( )= = = = = 56 5 5! (8 − 5)! 5! ∙ 3! 120 ∙ 6 720 NOTA: Di solito, la calcolatrice dispone di un tasto 𝑛! o 𝑥!, per effettuare rapidamente il calcolo. Nel caso in cui non lo troviate o la vostra calcolatrice non lo possieda, basta effettuare i seguenti calcoli: 8 8! 1∙2∙3∙4∙5∙6∙7∙8 6∙7∙8 336 ( )= = = = = 56 5 5! ∙ 3! (1 ∙ 2 ∙ 3 ∙ 4 ∙ 5)(1 ∙ 2 ∙ 3) 1∙2∙3 6 Quindi: 𝑓(𝑥) = 56 ∙ 𝑝5 𝑞3 Per descrivere ogni fenomeno e quindi per descrivere i dati campionari, bisogna disporre di misure che sintetizzino l'informazione o che valutino la dispersione del fenomeno. Tutte le distribuzioni di probabilità hanno per propri parametri: 30 - la media o valore attesto o speranza matematica (misura di tendenza centrale descrittiva) - la varianza (scostamento delle osservazioni al quadrato, che fornisce la dispersone di un fenomeno). Per una distribuzione binomiale, in cui: - 𝑛 è il numero di prove - 𝑝 è la probabilità di successo - 𝑞 = 1 − 𝑝 è la probabilità di fallimento si ha: MEDIA (𝜇) = 𝑛𝑝 VARIANZA (𝑆 2 ) = 𝑛𝑝𝑞 = 𝑛𝑝(1 − 𝑝) b) DISTRIBUZIONE DI POISSON Un fenomeno può essere descritto da una distribuzione di Poisson (leggi “puassòn”) quando si verificano tutte le seguenti condizioni: - IN UN DETERMINATO INTERVALLO GLI EVENTI DEVONO ACCADERE IN MODO INDIPENDENTE: IL VERIFICARSI DI UN EVENTO, IN UN DETERMINATO INTERVALLO DI TEMPO O DI SPAZIO, NON DEVE INFLUENZARE LA PROBABILITÀ DEL VERIFICARSI DI UN SECONDO EVENTO, NELLO STESSO INTERVALLO DI TEMPO O SPAZIO - LA PROBABILITÀ DI UN EVENTO, IN UN INTERVALLO DI TEMPO ∆𝒕 INFINITAMENTE PICCOLO, È DIRETTAMENTE PROPORZIONALE ALLA LUNGHEZZA DELL’INTERVALLO STESSO E DUNQUE MOLTO PICCOLA - IN UNA PARTE INFINITAMENTE PICCOLA DELL’INTERVALLO LA PROBABILITÀ CHE PIÙ DI UN EVENTO SI VERIFICHI È TRASCURABILE Se 𝑥 è la variabile casuale che segue la distribuzione di Poisson, la sua funzione di distribuzione di probabilità è: 𝑒 −𝜆 ∙ 𝜆𝑥 𝑓(𝑥) = 𝑥! con 𝑥 = numero di eventi che si realizzano in un intervallo di tempo e di spazio ↔ 𝑥 = variabile discreta e 0 ≤ 𝑥 ≤ +∞ (𝑥 ≤ 0 non ha senso!); 𝑒 = 2,7183; 𝜆 = parametro della distribuzione di Poisson, che corrisponde alla media ATTENZIONE: Una proprietà importante della distribuzione di Poisson è che media e varianza coincidono, per cui si ha che 𝜆 = 𝜇 = 𝑆 2 Dunque, così come la distribuzione binomiale, anche la distribuzione di Poisson è una distribuzione discreta. Tuttavia, a differenza della distribuzione binomiale, che è finita, la distribuzione di Poisson è infinita, giacchè, teoricamente, il numero di eventi possibili può essere infinito (𝑥 → ∞). In campo medico, nasce per la conta dei globuli su un vetrino, ma successivamente è stata applicata anche per la conta dei batteri sulle piastre. ATTENZIONE: Considerata una distribuzione binomiale 𝐵(𝑛, 𝑝), se: 𝑛 (numero delle prove) → ∞ e 𝑝 (𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡à 𝑑𝑖 𝑠𝑢𝑐𝑐𝑒𝑠𝑠𝑜) → 0 31 la media (𝑛 ∙ 𝑝) può essere approssimata al parametro della distribuzione di Poisson (𝜆) e quindi è possibile approssimare la distribuzione binomiale ad una distribuzione di Poisson. In simboli, quanto appena affermato può essere rappresentato come mostrato qui di seguito: 𝑛∙𝑝 =𝜆 → 𝐵(𝑛, 𝑝) ≈ 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆) Il fatto che, in generale, esista un tipo di approssimazione tra le varie distribuzioni rappresenta un vantaggio, se si considera che alla base della maggior parte dei test di verifica delle ipotesi, che consentono di trarre conclusioni sulla popolazione partendo dal campione, vi è una distribuzione di tipo continuo. c) DISTRIBUZIONE NORMALE o DI GAUSS Quando si esegue un esperimento e si descrivono i risultati si costruisce spesso un grafico (istogramma) per mostrare l’andamento del fenomeno in esame. In un istogramma: - sull’asse delle ascisse (x) poniamo i valori della variabile - sull’asse delle ordinate (y) poniamo le frequenze con le quali un determinato valore, un intervallo di valori in caso di variabili continue, si presenta In un istogramma congiungendo con una linea i punti medi di ogni colonnina si ottiene una curva spezzata, il poligono di frequenza, che dimostra l'andamento della frequenza relativa rispetto al valore della variabile quantitativa. Diminuendo l'ampiezza delle categorie le colonnine dell'istogramma si restringono e, di conseguenza, il poligono di frequenza tende ad assumere sempre di più l'andamento di una curva continua. Solo disegnando i singoli punti è possibile approssimare il tutto realmente ad una curva continua, che presenta un caratteristico andamento a campana. Si tratta della cosiddetta curva normale o gaussiana, che, in generale, possiamo definire come la curva di distribuzione di probabilità di una variabile continua. In quanto tale, essa sottende un'area. Quest'ultima rappresenta il 100% delle osservazioni e quindi deve essere sempre pari a 1. La distribuzione normale o distribuzione di Gauss è la distribuzione continua per eccellenza, che, peraltro, si trova alla base di moltissimi test di verifica delle ipotesi. La sua espressione matematica è: 1 1 𝑥−𝜇 2 [−2( 𝜎 ) ] 𝑓(𝑥) = ∙ 𝑒 𝜎√2𝜋 con 𝑥 = variabile continua ↔ −∞ ≤ 𝑥 ≤ +∞; 𝑒 = funzione esponenziale e 𝜋 = 3,14 32 Come tutte le distribuzione, la distribuzione normale o gaussiana viene definita da due parametri: - la media della popolazione 𝝁, che è data dalla media aritmetica La curva normale o gaussiana è simmetrica rispetto al valore della media. Pertanto differenti valori di 𝜇 spostano la posizione della curva lungo l'asse delle ascisse. Nel grafico mostrato qui a lato le curve hanno diverse medie ma stessa varianza. - la deviazione standard 𝝈, che corrisponde agli scostamenti al quadrato Differenti valori di 𝜎 modificano l'altezza della curva. Nel grafico mostrato qui a lato le tre curve hanno la stessa media ma diverse varianze. Ora, ricordiamo che, oltre alla media aritmetica, esistono altri due indici di tendenza centrale, ossia: - la mediana: valore che divide esattamente a metà un insieme di dati - la moda: categoria di massima frequenza I DATI POSSONO ESSERE APPROSSIMATI AD UNA DISTRIBUZIONE GAUSSIANA SOLO SE LA DISTRIBUZIONE È SIMMETRICA E MEDIA, MEDIANA E MODA COINCIDONO Allora, per misurare la normalità della curva di Gauss, bisogna considerare anche: - l'indice di asimmetria  Consente di apprezzare se, rispetto al valore medio, la distribuzione dei dati è asimmetrica. Precisamente: se 𝑖𝑛𝑑𝑖𝑐𝑒 𝑑𝑖 𝑎𝑠𝑖𝑚𝑚𝑒𝑡𝑟𝑖𝑎 = 0, possiamo affermare che la curva è simmetrica e quindi si tratta di una curva normale o gaussiana se 𝑖𝑛𝑑𝑖𝑐𝑒 𝑑𝑖 𝑎𝑠𝑖𝑚𝑚𝑒𝑡𝑟𝑖𝑎 < 0, possiamo affermare che:  la curva è asimmetrica  la coda sinistra è più lunga se 𝑖𝑛𝑑𝑖𝑐𝑒 𝑑𝑖 𝑎𝑠𝑖𝑚𝑚𝑒𝑡𝑟𝑖𝑎 > 0, possiamo affermare che:  la curva è asimmetrica  la coda destra più lunga 33 Ovviamente, se la distribuzione è asimmetrica, tutte le caratteristiche legate ai test di distribuzione di Gauss non sono applicabili. - l'indice di curtosi  Consente di apprezzare curve molto appuntite o molto piatte, che ovviamente non sono indicative di una distribuzione gaussiana. Precisamente: se 𝑖𝑛𝑑𝑖𝑐𝑒 𝑑𝑖 𝑐𝑢𝑟𝑡𝑜𝑠𝑖 = 3, possiamo affermare che la curva è normale o gaussiana se 𝑖𝑛𝑑𝑖𝑐𝑒 𝑑𝑖 𝑐𝑢𝑟𝑡𝑜𝑠𝑖 < 3, possiamo affermare che la curva è molto appuntita e quindi caratterizzate da:  una variabilità molto stretta e molto concentrata  code leggere, ossia con meno dati Pertanto, in tal caso, si è soliti parlare di curva ipernormale o leptocurtica se 𝑖𝑛𝑑𝑖𝑐𝑒 𝑑𝑖 𝑐𝑢𝑟𝑡𝑜𝑠𝑖 > 3, possiamo affermare che la curva è molto piatta e quindi caratterizzate da:  valori molto dispersi  code pesanti, ossia con molti dati Pertanto in tal caso si è soliti parlare di curva iponormale o platicurtica. Un'altra possibilità, per osservare se dei dati seguono la distribuzione di Gauss, è quella di disegnare i punti della funzione cumulativa. Precisamente: È POSSIBILE PENSARE CHE DEI DATI SEGUANO LA DISTRIBUZIONE DI GAUSS CUMULATIVA TEORICA, SE I PUNTI DELLA DISTRIBUZIONE CUMULATIVA OSSERVATA SI DISTRIBUISCONO IN MANIERA TALE DA PRESENTARE UN ANDAMENTO A SIGMOIDE E TENDONO ALL'UNITÀ Considerata l’ultima caratteristica enunciata, se ne arguisce che: - esiste una famiglia di distribuzioni gaussiane - ogni membro è distinto in base ai valori di 𝜇 e 𝜎 Tra le varie curve di Gauss la più importante è la distribuzione di Gauss standard, che ha 𝝁 = 𝟎 e 𝝈 = 𝟏. Su di essa sono state costruite delle tavole che consentono di trovare le aree. L’espressione matematica della distribuzione di Gauss Standard è: 1 𝑧2 (− ) 𝑓(𝑧) = ∙ 𝑒 2 √2𝜋 34 SE IL CAMPIONE È SUFFICIENTEMENTE GRANDE, OGNI VARIABILE 𝒙 PUÒ ESSERE STANDARDIZZATA 𝒙−𝝁 (trasferita nella distribuzione di Gauss standard), MEDIANTE LA TRASFORMAZIONE 𝒛 = 𝝈 Teorema centrale del limite 1. Una distribuzione binomiale 𝐵(𝑛, 𝑝) può essere approssimata ad una distribuzione di Gauss 𝑁(𝜇, 𝜎), se 𝑛 → ∞ e 𝑝 (𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡à 𝑑𝑖 𝑠𝑢𝑐𝑐𝑒𝑠𝑠𝑜) = 0,5 2. Una distribuzione di Poisson 𝑃(𝜆) può essere approssimata ad una distribuzione di Gauss 𝑁(𝜇, 𝜎), se 𝑛 → ∞ e 𝜆 = sufficientemente piccolo 3. La distribuzione delle medie di un certo numero di campioni tende ad avere un andamento paragonabile a quello di una distribuzione a campana 35 ESERCIZIO 1 Qual è la probabilità di trovare soggetti con capacità cranica minore di 1350 𝑐𝑐, sapendo che la media della popolazione è pari a 1400 𝑐𝑐 e la deviazione standard è pari 125 𝑐𝑐? SVOLGIMENTO Considerata una funzione di distribuzione, la probabilità è data dall'area sottesa dalla curva. L'area sotto una curva si calcola con l'integrale, per cui, in tal caso, bisogna calcolare: 1350 ∫ 𝑓(𝑥) −∞ Tuttavia, ciò non rappresenta la soluzione più comoda. Allora, è possibile ricorrere alla distribuzione di Gauss standard. Ricordiamo che ogni variabile 𝑥 può essere standardizzata, mediante la trasformazione: 𝑥−𝜇 𝑧= 𝜎 Nel caso in questione: - 𝑥 = 1350 𝑐𝑐 - 𝜇 = 1400 𝑐𝑐 𝑒 𝜎 = 125 𝑐𝑐 per cui, sostituendo i simboli con i valori, si ha che: 1350 cc − 1400 cc z= = −0,4 125 cc A questo punto bisogna cercare nella tavola della distribuzione di Gauss standard il valore dell’area nella coda 𝛼 corrispondente al valore assoluto di z calcolato. Nel caso in questione: z = −0,4 → |𝑧| = 0,4 NOTA: Il segno z calcolato non ha alcuna importanza, in quanto la distribuzione di Gauss Standard è simmetrica rispetto alla media. Quindi, 𝑧𝑡𝑎𝑏 = 0,3446 = 34, 46%. SOLUZIONE La probabilità di trovare soggetti con capacità cranica minore di 1350 𝑐𝑐 è pari al 34, 46%. 36 ESERCIZIO 2 Qual è la probabilità di trovare soggetti con capacità cranica compresa tra 1300 𝑐𝑐 e 1450 𝑐𝑐, sapendo che la media della popolazione è pari a 1400 𝑐𝑐 e la deviazione standard è pari a 125 𝑐𝑐? SVOLGIMENTO Considerata una funzione di distribuzione, la probabilità è data dall'area sottesa dalla curva. L'area sotto una curva si calcola con l'integrale, per cui, in tal caso, bisogna calcolare: 1450 ∫ 𝑓(𝑥) 1300 Tuttavia, ciò non rappresenta la soluzione più comoda. Allora, è possibile ricorrere alla distribuzione di Gauss standard. Ricordiamo che ogni variabile 𝑥 può essere standardizzata, mediante la trasformazione: 𝑥−𝜇 𝑧= 𝜎 Nel caso in questione: - 𝑥1 = 1300 𝑐𝑐 𝑒 𝑥2 = 1450 𝑐𝑐 - 𝜇 = 1400 𝑐𝑐 𝑒 𝜎 = 125 𝑐𝑐 per cui, sostituendo i simboli con i valori, si ha che: 1300 𝑐𝑐 − 1400 𝑐𝑐 1450 𝑐𝑐 − 1400 𝑐𝑐 𝑧1 = = −0,8 𝑒 𝑧2 = = +0,4 125 𝑐𝑐 125 𝑐𝑐 A questo punto, bisogna cercare, nella tavola della distribuzione di Gauss standard, il valore dell’area nella coda 𝛼, corrispondente sia al valore assoluto di 𝑧1 𝑐𝑎𝑙𝑐𝑜𝑙𝑎𝑡𝑜 sia al valore assoluto di 𝑧2 𝑐𝑎𝑙𝑐𝑜𝑙𝑎𝑡𝑜. Nel caso in questione: 𝑧1 = −0,8 → |𝑧1 | = 0,8 𝑒 𝑧2 = −0,4 → |𝑧2 | = 0,4 Quindi, 𝑧1 𝑡𝑎𝑏 = 0,2119 𝑒 𝑧2 𝑡𝑎𝑏 = 0,3446. Dopo di che bisogna sottrarre al valore dell'area sottesa da tutta la curva, che è pari a 1, la somma delle aree nelle due code: 1 − (0,2119 + 0,3446) = 1 − 0,5565 = 0,4435 = 44,35%. SOLUZIONE La probabilità di trovare soggetti con capacità compresa tra 1300 𝑐𝑐 e 1450 𝑐𝑐 è pari al 44,35%. 37 ESERCIZIO 3 Qual è la probabilità di trovare soggetti con capacità cranica maggiore di 1450 𝑐𝑐, sapendo che la media è pari a 1400 𝑐𝑐 e che la deviazione standard è pari a 125 cc? SVOLGIMENTO Considerata una funzione di distribuzione, la probabilità è data dall'area sottesa dalla curva. L'area sotto una curva si calcola con l'integrale, per cui, in tal caso, bisogna calcolare: +∞ ∫ 𝑓(𝑥) 1450 Tuttavia, ciò non rappresenta la soluzione più comoda. Allora, è possibile ricorrere alla distribuzione di Gauss standard. Ricordiamo che ogni variabile 𝑥 può essere standardizzata, mediante la trasformazione: 𝑥−𝜇 𝑧= 𝜎 Nel caso in questione: - 𝑥 = 1450 𝑐𝑐 - 𝜇 = 1400 𝑐𝑐 𝑒 𝜎 = 125 𝑐𝑐 per cui, sostituendo i simboli con i valori, si ha che: 1450 cc − 1400 cc z= = +0,4 125 cc A questo punto, bisogna cercare, nella tavola della distribuzione di Gauss standard, il valore dell’area nella coda 𝛼, corrispondente al valore assoluto di z calcolato. Nel caso in questione: z = +0,4 → |𝑧| = 0,4 Quindi, 𝑧𝑡𝑎𝑏 = 0,3446 = 34, 46%. SOLUZIONE La probabilità di trovare soggetti con capacità cranica maggiore di 1450 𝑐𝑐 è pari al 34, 46%. 38 INTERVALLI DI CONFIDENZA Il parametro (esempi: BMI, valore di glicemia) è un elemento matematico che deve essere trasformato in qualcosa di pratico (esempio: identificazione del gruppo degli obesi, identificazione del gruppo dei diabetici). Tuttavia, considerato qualsiasi parametro, non è possibile conoscerne la reale situazione, ossia non è possibile: - studiare il vero valore del parametro di tutti i componenti di un gruppo di soggetti, costruito rispetto a quel parametro - calcolare la media del parametro dell’intero universo Allora si procede: 1. studiando un campione di individui 2. utilizzando le rilevazioni fatte sul campione per prendere decisioni sull’intero universo di soggetti Esempio: Si supponga di voler determinare gli intervalli di riferimento della glicemia dei soggetti diabetici: 1. si costruisce un campione di soggetti diabetici 2. se ne studia il valore di glicemia. In questa maniera è possibile: 1. confrontare il valore di glicemia di qualsiasi soggetto con quello che è derivato dal campione 2. classificare il soggetto in questione come diabetico oppure non diabetico. L'inferenza è quella branca della statistica che, sfruttando il calcolo della probabilità, consente di estendere i risultati ottenuti su un campione all'intera popolazione, da cui quel campione è stato estratto. Tuttavia, nel momento in cui si lavora su un campione, piuttosto che sull’intero universo, c’è la possibilità di non riuscire a cogliere in maniera precisa il valore del parametro. Infatti, propriamente, sul campione si effettuano le cosiddette stime. Allora, ricapitolando: - SI DEFINISCE PARAMETRO UNA MISURA CALCOLATA SULL'INTERA POPOLAZIONE. IN QUANTO RIFERITI ALL’INTERO UNIVERSO DI OSSERVAZIONI, I PARAMETRI RESTANO IGNOTI. I parametri vengono indicati con lettere greche (esempio: 𝜇 e 𝜎). - SI DEFINISCE STIMA DI UN PARAMETRO UNA MISURA CALCOLATA SU UN CAMPIONE, CARATTERIZZATA DA UN INTRINSECO GRADO DI IMPRECISIONE. DAL MOMENTO CHE RIASSUME IN MANIERA QUANTITATIVA UN CONCETTO ALL’INTERNO DI UN CAMPIONE, LA STIMA DI UN PARAMETRO RAPPRESENTA UNA MEDIA (esempio: la percentuale di morti in seguito ad un nuovo cocktail di chemioterapici è una stima, in quanto non si è sottoposto a quel ciclo di chemioterapici l'intero universo dei pazienti, bensì solo un campione). Le stime dei parametri vengono indicate con una lettera greca con il trattino sopra o una lettera italica con il circonflesso (esempio: 𝜇̅ o 𝑝̂ ). Dal momento che la stima è un numero singolo, è più corretto parlare di stima puntuale. In realtà, per poter estendere all’intera popolazione il risultato ottenuto su un campione, oltre alle stime puntuali, bisogna calcolare le stime di intervallo, ossia bisogna calcolare un intervallo di valori, noto come intervallo di confidenza, che, con un certo grado di probabilità, contenga il parametro da stimare. Dunque, il 39 vantaggio dell'utilizzo della stima di intervallo sta nel fatto che, insieme ai valori numerici della stima, è possibile associare il grado di attendibilità di quella stima rispetto alla popolazione. Il grado di attendibilità lo si fornisce sfruttando le proprietà delle distribuzioni di probabilità. D'altronde, ricordando che la probabilità rappresenta l'area sottesa da una curva, risulta evidente la ragione per la quale: - non è consentito calcolare l'area sotto un punto - è consentito calcolare l'area sotto un intervallo Esempio: Supponiamo che la media della glicemia dei soggetti diabetici sia 200. Considerato un gruppo qualsiasi di soggetti diabetici: - non è possibile conoscere quale sia la probabilità con la quale la media della glicemia di questo gruppo sia pari a 200 - è verosimile conoscere la probabilità con la quale la media della glicemia di questo gruppo sia compresa tra 180 e 200. Secondo il cosiddetto approccio frequentista della probabilità che considera la probabilità come frequenza relativa in una serie successiva di esperimenti: - ESTRAENDO TUTTI I POSSIBILI CAMPIONI DA UNA POPOLAZIONE DISTRIBUITA NORMALMENTE (popolazione in cui la variabile segue la distribuzione di Gauss), LA MEDIA DELLA POPOLAZIONE 𝝁 CADRÀ (𝟏 − 𝜶) VOLTE SU 100 NELL'INTERVALLO DI CONFIDENZA oppure - EFFETTUANDO IL CAMPIONAMENTO DI UNA POPOLAZIONE DISTRIBUITA NORMALMENTE (popolazione in cui la variabile segue la distribuzione di Gauss), LA PROBABILITÀ CHE L'INTERVALLO CONTENGA LA MEDIA DELLA POPOLAZIONE 𝝁 È PARI A (𝟏 − 𝜶) ∙ 𝟏𝟎𝟎% 1 − 𝛼 rappresenta il livello di confidenza, ossia la probabilità con la quale si ritiene che lo studio, che si sta effettuando, rifletterà il vero valore della popolazione. Pertanto: IL LIVELLO DI CONFIDENZA VIENE SCELTO ARBITRARIAMENTE Ovviamente deve trattarsi di un valore abbastanza alto cosicchè rappresenti in maniera efficiente il valore della popolazione. In generale possiamo definire il livello di confidenza come la probabilità con la quale un generico parametro 𝜃 è contenuto fra un limite inferiore 𝐿1 ed un limite superiore 𝐿2. In simboli: 1 − 𝛼 = 𝑃(𝐿1 ≤ 𝜃 ≤ 𝐿2) con 0 ≤ 𝛼 ≤ 1 1. INTERVALLO DI CONFIDENZA DELLA MEDIA a) VARIANZA NOTA Nota la deviazione standard ?

Use Quizgecko on...
Browser
Browser