Statistica PDF
Document Details
Uploaded by UsefulGauss
Sapienza Università di Roma
Tags
Summary
Questo documento presenta un'introduzione alla statistica, descrivendo i concetti fondamentali di statistica descrittiva e inferenziale. Vengono spiegati i casi particolari e le caratteristiche dei campioni, e l'utilizzo della probabilità per studiare fenomeni collettivi. L'importanza di questi concetti è particolarmente evidente nella medicina.
Full Transcript
INTRODUZIONE E DEFINIZIONE DELLA STATISTICA La statistica studia fenomeni collettivi, ovvero il fatto che bisogna basarsi si più misurazioni e non su una singola. Esistono 2 modi diversi di fare statistica: -STATISTICA DESCRITTIVA: dedita alla elaborazione e classificazione dei dati, descrivo il col...
INTRODUZIONE E DEFINIZIONE DELLA STATISTICA La statistica studia fenomeni collettivi, ovvero il fatto che bisogna basarsi si più misurazioni e non su una singola. Esistono 2 modi diversi di fare statistica: -STATISTICA DESCRITTIVA: dedita alla elaborazione e classificazione dei dati, descrivo il collettivo difronte a me (es: data di nascita degli alunni in aula) -STATISTICA INFERENZIALE: ovvero la statistica che si occupa di descrivere fenomeni di maggior grandezza. Si parte da una situazione particolare per fare un’inferenza, ovvero esportare quelle informazioni su un campione più grande. Bisogna però stare attenti ai casi particolari e soprattutto alle caratteristiche del campione piccolo con il quale intendo fare l’inferenza. Come faccio quindi ad eliminare dei confondimenti che possano falsificare i miei risultati? Utilizzo la probabilità, ovvero l’insieme di tutti i possibili casi, che ci mette davanti al limite della nostra conoscenza (probabilità epistemica). Se fossimo in grado di conoscere tutti i possibili casi potremmo, ad esempio, trattare un paziente con un farmaco che sappiamo essere più efficace rispetto ad un altro, oppure non sottoporlo a nessun trattamento se questo consente di evitare dei rischi elevati (ad esempio non vaccinando le 14 persone decedute per trombosi dopo il vaccino per covid19). La probabilità è quindi un operatore che trasforma il caso in numeri. Anche nelle patologie più infauste non si ha una certezza di morte, ma ci si basa sempre sulla probabilità la quale può variare da caso a caso. Quando noi parliamo di causa spesso non ci riferiamo ad una causa unica, bensì alla somma di più fattori. Si parla a tal proposito di “componenti insufficienti non ridondanti di un complesso sufficiente non necessario”. Se prendiamo l’esempio del perché una casa brucia; una casa brucia perché ci sono innumerevoli componenti che possono determinare un incendio. Es: il vento passa dal camino, fa rotolare un tizzone che finisce vicino alla tenda, questa inizia a bruciare e provoca l’incendio della casa. Ciascuno di questi componenti, se preso singolarmente, non sarebbe però in grado di determinare l’incendio (non ridondante insufficiente), ma è l’unione dei singoli che causa l’effetto finale (complesso sufficiente non necessario). Non necessario perché lo stesso fenomeno potrebbe essere causato anche dalla concomitanza di più fenomeni diversi da quelli descritti ma che ,se messi insieme, hanno uno stesso risultato (es: incendio). Questo stesso identico ragionamento si può adottare in medicina, poiché una singola causa difficilmente porta all’insorgenza di una patologia, ma è l’unione di più condizioni che porta alla malattia (es: età, sesso, fattori genetici, esposizione a determinati fattori di rischio, abitudini alimentari). In medicina è fondamentale basarsi su prove concrete e accertate. Dunque è necessario mettere in atto studi che possano scongiurare eventuali errori. Si parla a tal proposito di EBM (evidence-based-medicine) che si basa proprio sulla migliore evidenza disponibile. CONSORT= riguarda la sperimentazione clinica. STARD= riguarda i metodi per dimostrare l’utilità di un nuovo test diagnostico. STROBE= studi osservazionali. TRIPOD= prognosi e diagnosi sulla base di modelli con cause (cause probabilistiche) multiple. Sulla base di quanto detto, la statistica è quindi fondamentale alla comprensione dei fenomeni e soprattutto al fine di considerare tutte le possibili variabili per effettuare delle previsioni e per poter attuare approcci terapeutici efficaci. Facendo un esempio: io ho un determinato trattamento con un successo terapeutico del 50%, il mio obiettivo è andare a cercare di alzare questa probabilità di successo il più possibile. Come si confrontano i trattamenti? 1. Il trattamento che io vado a proporre deve avere un razionale Avere un razionale significa avere una motivazione del perché io stia proponendo un nuovo trattamento e avere dei dati già raccolti ( in vivo o in vitro) da persone terze, dati che possano andare a dimostrare che è possibile avere un migliore tasso di risposta di un trattamento già conosciuto. Facendo un esempio: se scopro un farmaco che ha come base un principio attivo di cui è stato già dimostrato in vivo o in vitro che il suo funzionamento possa contrastare una patologia, allora potrò proporre quel trattamento. In alternativa, se io non possiedo alcun dato che dimostra una base biologica o scientifica, non sono autorizzato a proporre questo trattamento sperimentale. 2. Proporre questo nuovo trattamento a dei nuovi pazienti Dopo che sono sicuro di avere una base razionale sul mio trattamento sperimentale e dopo quindi aver svolto questo trattamento, bisogna confrontare i dati ottenuti con quelli che risultano “di controllo”, cioè su pazienti storici. I pazienti trattati sono quelli di oggi, cioè quelli che fanno parte di questo nuovo trattamento sperimentale, mentre i pazienti controllo sono quelli del passato. È importante che un confronto si faccia sempre tra due soggetti (in questo caso tra i nuovi trattati e quelli controllo). Sono molto importanti entrambe le parti, perché per capire i dati dei pazienti trattati bisogna avere anche quelli di controllo su cui fare una misura di paragone e confronto. Senza confronto non si può sapere se quel risultato si sarebbe potuto ottenere in un’altra maniera. Il confronto è essenziale da svolgere altrimenti io non so cosa sarebbe successo se i pazienti trattati non avessero ricevuto il trattamento. Ci possono essere tuttavia delle differenze tra i pazienti trattati e quelli di controllo che non dipendono dal trattamento, differenze che quindi possono andare a disturbare i dati ottenuti. I pazienti trattati di oggi, per motivi storici, possono essere diversi da quelli del passato. I pazienti di oggi possono essere diagnosticati con criteri diversi e più efficaci rispetto a quelli del passato, le cui diagnosi potevano essere più incerte. Queste differenze possono quindi andare a contaminare seppur in misura minima, ma non trascurabile, i dati ottenuti. Dunque, c’è un Byas, cioè che i due pazienti (trattati e controllo) non sono paralleli, non sono trattati nello stesso periodo di tempo e in contesti uguali. 3. Trattamento sperimentale in un ospedale e trattamento di controllo in un altro ospedale. Quì le differenze sono ancora più evidenti. I pazienti sperimentali possono venir trattati in un ospedale A, quelli controllo in un ospedale B. Dunque, io non so se alla fine del mio esperimento la parte diversa tra i dati ottenuti rispetto a quelli passati sia dovuta al nuovo trattamento (che è quello che voglio venire a scoprire) o a una differenza già presente tra gli ospedali e quindi non dovuta al mio trattamento. Questo paragone tra due ospedali diversi quindi non si deve fare perché contaminiamo la misura dell’effetto del trattamento con quello che è denominato effetto confondente, cioè un fenomeno che va a contaminare e distorcere il confronto che alla fine si svolge tra il gruppo sperimentale e quello di controllo. In questo caso l’effetto confondente è proprio aver svolto il trattamento sperimentale e il confronto dei dati tra due ospedali diversi. 4. Il trattamento sperimentale essendo un nuovo esperimento avrà qualcosa di nuovo che non si conosce in partenza, ed è proprio questo che si vuole scoprire e analizzare. Bisogna tenere ben presente che nei trattamenti sperimentali, trovandosi ancora in una fase di conoscenza parziale e non totale, non si conoscono subito tutte le informazioni possibili, sennò sarebbe inutile fare la fase di sperimentazione. Proprio per questo, non tutti i pazienti desiderano sottoporsi al trattamento sperimentale e scelgono quello standard, andando anche in questo caso a contaminare i dati che si otterranno. L’effetto confondente qui è che i pazienti più tendenti ad accettare volontariamente il trattamento sperimentale sono di base persone che hanno fiducia nella scienza e che amano il rischio. Se un paziente avesse una preferenza verso un trattamento A rispetto a un trattamento B, potrebbe essere un problema nella mia ricerca perché si possono andare a contaminare i dati che si ottengono dato che l’allocazione non è stata propriamente casuale. È importante che le sperimentazioni si svolgano nel rispetto di alcuni criteri. Il primo è che le sperimentazioni siano rispettose delle scelte delle persone perché ci possono essere persone che amano il rischio e sottoporsi a trattamenti nuovi e persone prudenti che desiderano sottoporsi solo a quelli standard. Non si somministra mai un trattamento che abbia un rischio maggiore rispetto a quello del beneficio, ma solo trattamenti che hanno un rischio molto minore rispetto al beneficio essenziale. 5. L’allocazione casuale Durante i trattamenti bisogna allocare in qualche modo i pazienti sperimentali e controllo, e il modo migliore è allocare in maniera casuale. L’allocazione si può svolgere sia col lancio della moneta sia attraverso tavole di numeri casuali. Un altro modo è anche attraverso software (come Excel) che possono generare fenomeni in maniera casuale. Tipologie di processi di randomizzazione 1 Randomizzazione semplice Partiamo con un esempio, ho un campo di terra e devo testare un trattamento sperimentale di un nuovo concime; quindi, dobbiamo concimare questo campo e vedere come reagisce a questo trattamento e se permette di ottenere un prodotto migliore. Come possiamo procedere? Innanzitutto, non diamo a tutte le zolle lo stesso prodotto sperimentale perché bisogna sempre confrontare, come detto precedentemente, con dei dati di trattamenti standard. Divido quindi per esempio a metà il campo, ciascuna metà prende un trattamento diverso, uno sperimentale che chiameremo A e l’altro che chiameremo B. Ho fatto bene a fare metà e metà? Non si ha una risposta univoca, perché può succedere per esempio che la metà di destra sia più esposta al sole e quella sinistra meno. In questo modo, i risultati non sono stati dipesi solo dal trattamento sperimentale ma sono in parte contaminati da questo fattore di confondimento che è esterno al trattamento. Quale può essere un altro modo dunque? Posso dividere la parte al sole e la parte in ombra in due parti ciascuna con un trattamento diverso. In questo modo si ottiene il campo diviso in 4 parti, 2 esposte al sole con un concime standard e sperimentale, e due parti non esposte al sole con concime standard e sperimentale. Facendo così posso eliminare il fattore di confondimento esposizione solare. Però, cosa può succedere a questo punto? Possiamo anche aver eliminato i fattori disturbanti che si conoscono, ma ci possono essere sempre fattori di confondimento che risultano difficilmente riconoscibili, come per esempio una parte specifica di terreno che potrebbe essere esposta a più umidità. Quindi esistono anche fattori di confondimento esterni al mio trattamento che non si conoscono che potrebbero alla fine distorcere i dati registrati. Come posso quindi minimizzare questi fattori di confondimento che non conosco? Mi affido alla casualità e la casualità la decide un software di randomizzazione. Questo perché il caso alla lunga pareggia questi fattori che non conosco. Come agisce il caso e quindi il software? Il caso a differenza mia non assegna i trattamenti in base a una mia scelta perché la mia scelta potrebbe influenzare la risposta ed essere un elemento di distorsione. Io potrei mettere (inconsapevolmente o meno) il concime sperimentale in una zona di terreno che secondo me potrebbe rispondere meglio al trattamento e quindi potrei star distorcendo i dati che alla fine otterrò. Il caso, dunque, ha la capacità di distribuire i trattamenti in modo bilanciato con una procedura casuale. Il caso permette di minimizzare di molto tutti i possibili fattori di confondimento che non conosco. Quello che bisogna fare quindi è stratificare quello che so e randomizzare quello che non so. Può succedere a questo punto che la procedura di randomizzazione semplice mi distribuisca gli eventi in maniera sbilanciata. Che vuol dire in maniera sbilanciata? Se divido il campo di prima in 36 zolle e mi affido al random semplice per chi deve prendere il trattamento A e chi il trattamento B, proprio per il fatto che non decidiamo noi ma ci affidiamo al caso non è detto che escano sempre 18 zolle di tipo A e 18 di tipo B. Posso anche avere a fine processo di randomizzazione semplice 24 zolle A e 14 B, teoricamente possibile anche se improbabile 36 e 0. Quindi, ho fatto bene che mi sono affidato alla randomizzazione semplice per la distribuzione dei trattamenti, però alla fine ho più misure su un tipo di trattamento e meno misure sull’altro. Si presenta quindi il problema che ho una media che è più precisa sul trattamento di cui ho più misure e l’altra media che sarà meno precisa su quello che ho meno misure. 2 Randomizzazione ristretta Nella randomizzazione ristretta invece si possono stabilire dei limiti alla mia randomizzazione, per esempio imponendo che 18 zolle debbano essere di un tipo e le restanti 18 dell’altro tipo. Questa volta non trattandosi di una randomizzazione pura o semplice, non si presenterà il problema di avere un trattamento sbilanciato con una media più precisa e l’altro trattamento con una media meno precisa. Il problema della randomizzazione ristretta è che questa è leggermente meno casuale di quella semplice. Per esempio, quando arrivo a un punto in cui tutte le zolle col trattamento A sono state assegnate perché ho imposto al software di randomizzare e suddividere massimo in 18 zolle per tipologia, le zolle successive non sono più casuali nella scelta del trattamento A o B, sono per forza col trattamento B perché ho finito le A. La randomizzazione ristretta è vincolante per questo motivo: sapere quello che verrà dopo potrebbe alterare in qualche modo la stima dell’effetto del trattamento e quindi contaminare i dati ottenuti. 3 Randomizzazione strati a blocchi Un esempio può essere la stratificazione in base al sesso. Questo tipo di stratificazione a volte può occorrere perché i pazienti possono rispondere diversamente in base al sesso. Ad alcuni trattamenti possono rispondere meglio le donne come ad altri possono rispondere meglio gli uomini e peggio le donne. Esempi di danni dovuti ad allocazione non casuale L'esperimento del Latte di Lanarkshire è stato uno studio nutrizionale condotto nel 1930 che mirava a valutare l’effetto del latte sulla crescita dei bambini. Vennero presi 10000 bambini a cui ogni mattina a scuola veniva somministrato un bicchiere di latte e altri 10000 bambini presi come studenti controllo. L’allocazione era stata fatta per ordine alfabetico ( in teoria non è propriamente casuale dato che alcune lettere possono essere associate a famiglie più ricche o più povere, però qui poniamo che l’ordine alfabetico sia casuale). Le maestre però decidono di assegnare il latte al gruppo di bambini più magri ignorando l'ordine alfabetico. Dal punto di vista scientifico rappresenta un problema, perché abbiamo contaminato e confuso i dati sugli effetti del latte sui bambini. Si è verificato quindi che il peso medio era maggiore nel gruppo di controllo proprio per via degli insegnanti che andavano a correggere questi sbilanciamenti.