Statistica Medica Notes - PDF
Document Details
Uploaded by Deleted User
2022
Tags
Summary
These lecture notes cover the fundamentals of medical statistics, including its importance in modern medicine, the scientific method, and different research methodologies like controlled and observational studies. The document also explains the process of statistical research, encompassing descriptive and inferential statistics, and the importance of reproducibility in scientific findings.
Full Transcript
STATISTICA MEDICA 13/10/2022 Lezione 1 Sbobinatore: Cassano Teresa Revisore: Mazzilli Teresa INTRODUZIONE Perché s...
STATISTICA MEDICA 13/10/2022 Lezione 1 Sbobinatore: Cassano Teresa Revisore: Mazzilli Teresa INTRODUZIONE Perché studiare la statistica? La statistica è una delle scienze matematiche che ci aiuta a mettere insieme e sintetizzare i dati per trasformarli in informazioni. Si badi bene che le informazioni non bastano mai da sole a costruire un quadro complessivo, ma devono sempre essere accompagnate da un insieme di diverse informazioni supplementari confrontate tra loro e con l’ambiente esterno.(es. per dire se un piatto piace o non piace, non basta dire che sa di mela perché questa non è un’informazione sufficiente). Nella medicina moderna la scelta di un farmaco o di un metodo diagnostico si basa su un’indagine diagnostica, su un metodo scientifico e in particolare su quella che viene chiamata MEDICINA BASATA SULLE PROVE. La statistica è uno strumento che permette di legare ad un evento (il consumo di un farmaco) un altro evento (guarigione o peggioramento di una malattia) e ci permette di descrivere questo fenomeno in maniera quantitativa (quante persone guariscono dalla malattia e quante non guariscono prendendo lo stesso farmaco). Lo studio scientifico di queste informazioni permette di descrivere delle leggi universali e valide. Nell’ambito delle scienze mediche la statistica occupa un ruolo cardine nella ricerca clinica in due momenti: - Quello dell’impostazione della ricerca - Quello dell’analisi dei dati La ricerca statistica si basa sulla costruzione di un metodo che risponde a quei requisiti di scientificità che consentono di giungere a delle risposte concrete, seguendo delle fasi ben precise. Il principio fondamentale della ricerca scientifica è quello di individuare le regole tramite la riproducibilità degli esperimenti da parte di tutti. METODO SCIENTIFICO - Formulazione di un’ipotesi (avere un’idea di come un fenomeno si sviluppa, avere una causa) - Test dell’ipotesi - Risultato dell’ipotesi Il risultato da solo non può dare la risposta all’ipotesi. FASI DELLA RICERCA e ARTICOLO SCIENTIFICO Nella stesura di un articolo scientifico bisogna seguire delle fasi ben precise: - introduzione - Contesto entro cui si muove la ricerca - Ipotesi con l’obiettivo (quello che voglio dimostrare) - Metodi che utilizzo - Risultati - Discussione e interpretazione dei risultati = è un processo speculativo in cui si confrontano i risultati raccolti con quelli presi in esame da altri all’interno delle stesso ambito, tali risultati raramente saranno gli stessi, questa divergenza permette di trarre delle conclusioni sulla validità di tale risultati e permette di comprendere l’errore, se invece l’errore è assente bisogna trovare delle motivazioni valide che accertino quel risultato. La discussione è il cuore di ogni lavoro scientifico perché mette in evidenza l’universalità e riproducibilità di tale lavoro. Le scienze statistiche sono una parte del metodo scientifico che ha lo scopo di valutare da un punto di vista qualitativo l’ipotesi (ad esempio, si sta studiando un farmaco su 1000 pazienti per controllare la pressione arteriosa, alla fine grazie alla ricerca statistica si nota che su 500 pazienti il farmaco A abbassa la pressione del 10% e su 500 pazienti il farmaco B abbassa la pressione del 15%, ma da un punto di vista clinico se la pressione del paziente scende da 180 a 160 non vi è un miglioramento significativo. La statistica, quindi, consente di dire con ragionevole precisione quale è il vantaggio di un farmaco rispetto ad un altro, ma da un punto di vista clinico la ricerca non può limitarsi a quella sola informazione, ma bisogna contestualizzarla con molti altri fattori, altrimenti non è possibile capire la divergenza tra i risultati ottenuti e quindi da un pinto di vista clinico i due farmaci hanno lo stesso risultato) Lo scopo di una ricerca scientifica deve essere la riproducibilità, chiunque deve essere in grado di poter ripetere esattamente quell’esperimento e di arrivare a quei medesimi risultati. La Pubblicazione dei risultati deve essere in linguaggio che sia comprensibile per tutti e consenta ad altri di utilizzare le informazioni prodotte per creare nuove informazioni. Pensiamo che i vaccini mRNA anti-Covid sono messi in commercio in modo celere grazie ai numerosissimi paper prodotti da diversi ricercatori Quanto/ quando si usa la statisica? La statistica si usa per impostare una ricerca scientifica per produrre una prova e la si usa nell’analisi dei dati, ma la statistica intesa come metodo è qualcosa che ci accompagna nel processo di creazione delle prove. Grazie alla statistica vengono fuori i limiti di una ricerca e i punti di forza. Come si studia un fenomeno? Un fenomeno si può studiare in 2 modi: - Controllata (sperimentale) - Non controllata (osservazionale) Nella ricerca controllata chi conduce la ricerca è al di fuori della ricerca stessa e si limita ad osservare. Lo sperimentatore decide di controllare i fattori che possono influenzare la ricerca, e sceglie come procedere e a chi somministrare un dato farmaco, l’obiettivo di questo controllo è quello di commettere il minor errore possibile, senza limitarsi ad osservare. Gli studi migliori potrebbero essere gli studi controllati, che però devono sempre essere accompagnati dagli studi non controllati. Lo studio controllato ha un limite, ovvero l’aver creato le condizioni ideali per distribuire un dato farmaco, quindi si va ad annullare la realtà. Infatti, è ciò che esce dalle osservazioni rappresentanti la realtà che permette di prendere le decisioni migliori. Lo studio osservazionale è quello che ci consente di validare un’informazione, può essere effettuato o sull’insieme delle popolazioni o con gruppi ristretti (questo studio è stato usato per il vaccino anti-Covid). Attraverso gli studi trasversali si possono fare delle valutazioni che misurano i fenomeni in un dato momento e in modo preciso legato a quel momento ma non consente di fare ipotesi su quello che è venuto prima o dopo, richiedono quindi una prospettiva temporale. Gli studi retrospettivi (longitudinali) studiano eventi precedenti al momento dello studio. Quando si fa un trial clinico gli studi controllati e quelli osservazionali vanno sempre insieme, perché le esigenze della realtà non possono mai essere trascurate. Gli studi sperimentali constano molto. Quando si fa un trial clinico si fanno sempre delle misure precise perché c’è una raccolta attiva delle informazioni, invece gli studi osservazionali possono essere meno precisi perché non uso delle informazioni raccolte ad hoc e la stessa natura dello studio rende meno rigida la raccolta delle informazioni. Tendenzialmente si possono usare anche fonti di dati che non nascono appositamente per lo studio statistico, come ad esempio possono essere i quesntionari, ma possono usare dati economici (ad esempio quelli di un ospedale) e usarli per la mia esigenza conoscitiva, questo consente di risparmaire tempo e denaro senza ricercare appositamente delle informazioni. Dunque si possono utilizzare dati che sono già in mio possesso , ma questo va a limitare l’affidabilità delle conclusioni finali. Statistica, prof. Martinelli, lezione 2 18/10/2022 Sbobinatore: Tatjana Barbieri Trimarchi Revisore: Teresa Scalera STATISTICA Il processo statistico per definizione prevede due fasi: DESCRITTIVA: si occupa della presentazione e della sintesi dei dati (da un punto di vista numerico) inerenti a delle informazioni, mediante l’utilizzo di una serie di strumenti, al fine di descriverle descrivere i fenomeni attraverso le informazioni. La statistica descrittiva è l'elemento fondamentale da cui parte qualunque tipo di valutazione statistica, cioè se non descrivo correttamente le informazioni in mio possesso difficilmente avrà senso quello che viene dopo, ovvero la parte inferenziale. INFERENZIALE: insieme di regole matematiche che permette di trasferire le informazioni ottenute su un campione all’intera popolazione la statistica inferenziale consente di fare il passaggio dall'osservazione più in senso generale, cioè quello che io osservo e descrivo, alla generalizzazione del fenomeno: ho osservato che l'efficacia del farmaco A è maggiore dell'efficacia del farmaco B perché il numero di persone che guariscono è maggiore con A rispetto che con B ci consente di dire se questa differenza che si legge nel campione o nella popolazione di fatto è una regola generalizzabile con una certa probabilità (esiste sempre un margine di incertezza nelle scienze positive (scienze che si basano sul metodo galileiano) che può essere più o meno maggiore la certezza assoluta è solo fideistica). In conclusione, l'inferenza è la scienza della generalizzazione. FONTI DI DATI EPIDEMIOLOGICI E STATISTICI Abbiamo detto che la statistica è la scienza dell'informazione cioè la scienza che ci consente di trasformare dei fenomeni che sono visibili all'osservazione in maniera individuale in delle informazioni che hanno un valore per un collettivo (insieme di individui o di cose). Da dove tiriamo fuori queste/i informazioni/dati? Possono venir fuori da una miriade di strumenti o modalità di raccolta attraverso le quali noi raccogliamo dati da mettere insieme per tirare fuori un fenomeno. In ambito medico-sanitario, esistono diverse fonti di informazioni, la più intuitiva riguarda quella che io raccolgo quando mi servono delle informazioni e che, quindi, le vado a chiedere alle persone, ad investigare con degli esami strumentali o di laboratorio per esempio. Questa fonte, di solito, è quella che viene utilizzata quando si mettono in piedi degli studi specifici. In realtà esistono degli altri strumenti di natura differente da cui poter trarre dei dati che per il 90% delle volte non sono generati per raccogliere informazioni di natura sanitaria o, se lo sono, non per scopi statistico-epidemiologici. La raccolta dei dati avviene a livello locale, regionale e nazionale con modalità e frequenza di rilevazione specifiche in base alle quali si possono distinguere: FONTI UNIVERSALI E CONTINUE: quelle che raccolgono tutte le informazioni in modo continuo. - Schede di morte: una delle più importanti per studiare i fenomeni sanitari all'interno delle popolazioni. Quando muore una persona, un medico deve accertarne il decesso e deve compilare una scheda Istat (prodotta dell'istituto nazionale di statistica (istat)) e inoltre vi è anche una parte propriamente sanitaria che sono i registri di mortalità. In questa il medico deve riportare alcune informazioni che sono in parte di natura demografico-anamnestica (anni del defunto, sesso, codice fiscale, ecc.), poi la descrizione delle cause che hanno portato al decesso (la causa iniziale, le cause accessorie e poi quella che viene considerata la causa finale). Inoltre, è presente una sezione della scheda dedicata alla morte violenza perché questa va descritta con modalità specifiche (bisogna raccogliere alcune informazioni accessorie). Questa fonte di dati non è una raccolta specifica, ma routinaria ogni volta che muore una persona si produce una scheda. Nasce non con l'intento propriamente sanitario, anche se impareremo poi con l'epidemiologia che le prime forme di studi epidemiologici (frequenza delle malattie nella popolazione e quelle che hanno l'impatto maggiore su di essa) si sono fatte proprio attraverso lo studio delle cause di morte lo studio della mortalità nella popolazione è la maniera migliore per studiare i fenomeni sanitari all'interno della stessa. L'elemento negativo della mortalità è che legge un fenomeno quando questo si è già verificato fonte tardiva. - Infortuni sul lavoro - Schede di dimissione ospedaliera (SDO): fonte che non nasce con scopi propriamente statistico- epidemiologici, ma per poter monetizzare i ricoveri (ragione economica). Alla fine di ogni ricovero la cartella clinica del paziente viene sintetizzata in una scheda dove si attribuiscono dei codici alla malattia che ha portato il paziente in ospedale a sottoporsi a determinate procedure durante il ricovero che corrisponde a una tariffa che poi viene rimborsata all'ospedale alla fine dell'anno. Questo processo, quindi, è uno strumento amministrativo, siccome, però, raccoglie dei dati sanitari può essere utilizzato quando io devo fare delle valutazioni generali all'interno della popolazione. Non posso fare delle misure precise ma posso avere un'idea di cosa sta interessando maggiormente la mia popolazione. FONTI UNIVERSALI E SPORADICHE: - Censimenti: forse la più importante di queste fonti. Sono obbligatori, si fanno ogni 10 anni e permettono di raccogliere alcune informazioni di natura socio-demografica su tutta la popolazione, molto utili per profilarla e avere un’idea di quello che succede. FONTI CAMPIONARIE E CONTINUE: - Registri di patologia: sono degli strumenti pensati per raccogliere le informazioni in un ambito specifico, per esempio, su casi di malattia che hanno le stesse caratteristiche o casi della stessa malattia che magari hanno caratteristiche differenti. Sono molto utili per monitorare l'andamento di una malattia all'interno del tempo e dello spazio. FONTI CAMPIONARIE E SPORADICHE: - Indagini osservazionali, sperimentali ALCUNE DEFINIZIONI La statistica, sostanzialmente, è una lingua e come tale dobbiamo impararla con le regole con cui impariamo le lingue dobbiamo attribuire dei significati a delle parole. POPOLAZIONE DI RIFERMENTO: collettivo (insieme di persone o cose) di cui si intende analizzare una o più caratteristiche. - Non necessariamente esseri viventi - Finita/Infinita Es: se io voglio studiare il colore degli occhi della popolazione degli studenti in medicina evidentemente devo raccogliere un unico carattere, “il colore degli occhi”, se invece, voglio studiare la bellezza della medesima popolazione dovrò studiare sicuramente più di un carattere (il colore degli occhi, l’altezza, la forma del viso, il colore dei capelli, la lunghezza dei capelli, ecc.) questi sono in caratteri che io devo mettere nel computo delle informazioni che devo raccogliere nel mio studio. UNITÀ STATISTICA: unità elementare della popolazione su cui si acquisiscono informazioni. - Definizione rigorosa: è l'elemento critico nel processo di analisi quando studio un fenomeno la prima cosa che devo dichiarare è chi sto studiando e poi cosa sto studiando. Il motivo per cui sto studiando una cosa o un’altra non interessa. Es: nel caso del colore degli occhi/ bellezza degli studenti di medicina, ho come unità statistica “lo studente di medicina”. Posso anche dire che sto studiando la bellezza, ma devo immediatamente completare la frase con “negli studenti in medicina” è quello che fa la differenza. CARATTERE: - Espressione del fenomeno in studio POPOLAZIONE: insieme degli elementi oggetto di studio in un determinato momento - Non è sempre possibile esaminare l’intera popolazione problemi di tempo, economici e organizzativi CAMPIONE: Insieme degli elementi estratto dalla popolazione e considerato rappresentativo di essa - Vantaggi: Costi ridotti Maggiore rapidità di acquisizione dei dati Maggiore possibilità di azione Maggiore accuratezza Il fenomeno lo posso studiare nell'ambito di una popolazione, quindi nell'intero collettivo in esame (intero insieme degli studenti di medicina), oppure attraverso un processo di campionamento che consente di evitare di misurare le caratteristiche prese in esame in tutti gli elementi che fanno parte di questo collettivo. Correttamente costruito il campione, è possibile fare delle considerazioni che possano valere con una buona probabilità per tutto il collettivo, anche se mai al 100%. Il processo del campionamento è tra i più importanti in statistica e deve essere fatto in maniera rigorosissima, altrimenti il campione non funziona e, quindi, non funziona tutto quello che sta poi a valle di questo le mie conclusioni possono essere sbagliate perché ho sbagliato a fare il campionamento ed è più probabile che queste siano sbagliate perché c'è stato errore nel campionamento piuttosto che vi sia un errore di calcolo, in quanto i calcoli sono svolti da un calcolatore. È ovvio che se io voglio avere la precisione massima di un fenomeno studio l’intera popolazione, però questo è uno sforzo che richiede un'enormità di tempo e un grande dispendio economico. Es: immaginiamo di dover fare un'operazione come misurare l'altezza di tutti gli studenti di medicina per stabilire se questi sono, per esempio, alti più di 1,70 m o sono più alti degli studenti agraria. Si può procedere in due modi: fare una valutazione di natura puntuale: tutti gli studenti di medicina si devono presentare da me, si devono mettere vicino al muro dove ho il metro regolatore e vado a misurare l'altezza di ciascuno processo estremamente lungo e costoso. Questo processo probabilmente per farlo, ammesso che tutti gli studenti siano disponibili a venire lo stesso giorno, mi ci vuole un'intera giornata. scegliere correttamente il campione all'interno della mia popolazione con delle tecniche campionarie risparmio di tempo e denaro. Va da sé che la certezza della mia conclusione viene meno, quindi dire che il mio risultato è vero al 100% non è corretto, invece dovrò dire che 95 svolte su 100 si verifica quello che io ho misurato. Ciò va benissimo in realtà perché immagino che venga meno anche un solo studente di medicina nella nostra valutazione di popolazione, succede che quella certezza assoluta non sussiste più, quindi se ci rinuncio in partenza, mettendo in atto il sistema di campionamento assolutamente corretto, il risultato è altrettanto buono. Paradossalmente è più accurato il risultato che è costruito su di un campione rispetto a uno che prevede lo studio di tutta la popolazione, in quanto nel campione sono io che scelgo la quantità di persone e come devo sceglierle tengo sotto controllo tutto il processo di scelta nella popolazione. Se nella popolazione si assenta un individuo e mettiamo il caso che quello era la persona più alta o più bassa in assoluto, sicuramente la mia analisi statistica conterrà un errore. CAMPIONAMENTO Come si procede alla estrazione di un campione? Questo processo, in realtà, non è complicato perché si deve basare su due rigorosi criteri: la rappresentatività e la casualità. Devo essere sicuro che il mio campione rappresenti la realtà che voglio studiare. La maniera più semplice per garantire ciò è affidarsi al caso sembra un ossimoro ma non lo è. Bisogna considerare, in ambito statistico, il caso come il gioco dell'otto: bisogna dare ad ogni elemento della popolazione oggetto la stessa probabilità di venire estratto a far parte del campione come se fosse contenuto in un’urna massima espressione della casualità. Non c'è nessuna abilità dell'uomo che può modificare la probabilità di pescare un elemento piuttosto che un altro, a parte truccare l’urna. Metodologie di estrazione: - Campionamento casuale semplice - Campionamento sistematico - Campionamento stratificato - Campionamento a grappoli - Campionamento a stadi - Campionamento con il metodo delle quote CAMPIONAMENTO CASUALE SEMPLICE Es: se volessi studiare gli studenti di medicina per la loro altezza, adoperando un campione, dovrei mettere i nomi di tutti gli studenti all'interno di palline tutte uguali, in quanto la probabilità di estrarle deve essere la stessa, in un’urna e farla ruotare fino a quando non si sono ben mescolate. Questa probabilità, ovviamente, si modifica man mano che io vado a estrarre i nomi da dentro l'urna (prima è 1/90, poi 1/89, 1/88 e così via), però, nel momento in cui io faccio l'estrazione tutte le unità statistiche del collettivo hanno la stessa probabilità di essere estratte garanzia massima della maggiore rappresentatività possibile. Questo metodo di campionamento descritto si definisce casuale semplice ed è la maniera più efficace di fare il campionamento. È basato sulla randomizzazione: algoritmo che mi consente di attribuire un numero casuale a ciascuna unità statistica. Ogni individuo della popolazione ha la stessa probabilità di essere scelto e campioni della stessa dimensione hanno tutti la stessa probabilità di essere selezionati Un altro modo per farlo è la tecnica basata sulle tavole dei numeri casuali: prima dei computer vi erano delle tavole che riportavano un elenco di numeri messi in ordine completamente casuale che andavano da 1 fino ad un determinato numero a seconda del tipo di campione preso in considerazione. Si faceva un elenco (elemento fondamentale) delle possibili unità statistiche, le si numerava e poi si andava a pescarne una. Il presupposto indispensabile è avere la lista completa delle unità statistiche in modo da dare ad ognuna la stessa probabilità. Non sempre è possibile averla perché in alcuni casi le popolazioni non sono numerabili nonostante il suo numero sia finito: immaginate di voler fare il campione della sabbia del mare, sulla base di questi requisiti non lo posso fare perché, nonostante sia un numero finito, non è un numero che io posso immaginare di mettere uno dietro l'altro. Questo ragionamento vale molto in biologia, in microbiologia e in fisiologia, in quanto ci sono delle cose che per forza non riusciamo a numerare seppure sappiamo più o meno quante siano. Questo problema si supera adottando altre tecniche di campionamento. CAMPIONAMENTO SISTEMATICO Tecnica di campionamento che ci consente di fare di superare questo problema funziona bene quando ho un insieme non numerabile, per cui faccio un campionamento fino a quando non raggiungo il numero di elementi che mi interessa campionare indipendentemente dalla numerosità (potrei campionare un granello di sabbia ogni 7 fino a quando decido che mi basta indipendentemente dalla quantità dei granelli e dall’avere una lista ordinata che serve ma non necessariamente ne devo disporre. Si sceglie ciascun elemento che andrà a costituire il campione in base ad una regola prefissata (es: regola del passo di campionamento), cioè definisco ogni quanto devo andare a pescare un elemento che mi interessa Es: metto in ordine gli studenti di medicina e decido di campionare sempre con un passo di 7 (cioè sempre il settimo soggetto) per cui all’interno di una lista prendo il primo e sommo sette, prendo la persona che mi interessa sommo sette e prendo la terza, sommo altri sette e prendo la quarta secondo la regola del passo di campionamento - Rischio insito in questa procedura: incorrere in periodicità nascoste (regole intrinseche nell’ordine secondo cui ho ordinato l'unica statistica, es: ordinare le persone per sesso o età) negli elementi della popolazione potrei avere, alla fine del ragionamento, un campione che non mi consente di avere una reale rappresentazione viene meno la rappresentazione casuale del fenomeno. CAMPIONAMENTO STRATIFICATO Dividere le unità della popolazione in sottopopolazioni (o strati) sulla base di una caratteristica comune. Es: se studio l’altezza è importante la distribuzione per etnia, cioè avere esattamente nel mio campione la stessa proporzione di soggetti di origine caucasica, afro, indiana e così via questo elemento potrebbe essere di confondimento all'interno del mio risultato, in quanto questo può influenzare sull'altezza. Come si procede? Prendo la popolazione, né studio la caratteristica che mi interessa, definisco la numerosità di ogni strato e estraggo un campione casuale semplice da ogni strato in modo indipendente. Es: ho 100 persone, devo fare un campionamento di 10 che posso scegliere casualmente oppure, se voglio essere sicuro che siano rappresentate tutte le etnie all'interno di questa popolazione (so che l’80% sono caucasici, 10% afro e il restante 10% indiani), seleziono per strati, cioè devo andare a selezionare una quota (8 di etnia caucasica, 1 afro e 1 indiano). Poi si uniscono i risultati dei singoli campionamenti per ottenere un campione dell’ampiezza richiesta. Le unità sono ben rappresentate nel campione. Il limite di questo sistema è che si presuppone una certa conoscenza della popolazione per intero per effettuare la suddivisione in strati. Questo tipo di approccio è complesso e viene applicato affidato a dei bravi statisti che prima compiono uno studio della popolazione e poi selezionano per strati. CAMPIONAMENTO A GRAPPOLI Metodo definito anche a cluster. Quando sono impossibilitato a estrarre il campione dall’intera popolazione perché non conosco né le sue dimensioni né l'elenco dei suoi elementi, devo ricorrere a quest’altro metodo che è più impreciso, però più semplice. Viene usato tantissimo nei paesi a basso reddito, dove non vi sono le anagrafi, quindi quando, per esempio, dobbiamo calcolare la copertura vaccinale per il morbillo non abbiamo l'elenco dei bambini (adesso in Italia noi abbiamo uno strumento che si chiama anagrafe vaccinale che ci permette di sapere esattamente ogni bambino che vaccinazioni ha fatto). Questa rilevazione, allora, viene svolta attraverso indagini icona dall’OMS basate sul campionamento a grappoli: La popolazione viene vista come un insieme di grappoli Sono i grappoli ad essere scelti in modo casuale per poi costituire il campione mediante le singole unità costituenti i grappoli prescelti NB: se i grappoli non sono composti di un ugual numero di unità, la numerosità del campione è nota solamente al termine del campionamento Quindi, si apre la mappa e si sorteggia i villaggi, dopodiché gli addetti dell'OMS vi si recavano, bussavano casa per casa e andavano a vedere il numero dei bambini e quanti di questi erano vaccinati per il morbillo quello che viene campionato è il grappolo, si prendono poi tutti gli acini del grappolo indipendentemente dalla loro grandezza. Il problema è che non si riesce a fare un campionamento casuale, in quanto il campionamento a cluster si porta dietro tutti gli errori possibili legati al grappolo, quindi se quel villaggio, per esempio, c’è un capo sensibile alle vaccinazioni magari quel villaggio è tutto più vaccinato, però se quel villaggio consta di 100 bambini e poi gli altri di 80, la copertura vaccinale viene influenzata da questa differenza, in quanto non si conosce il numero finito della popolazione. CAMPIONAMENTO CON IL METODO DELLE QUOTE Si divide la popolazione in gruppi sulla base della caratteristica (oggetto dello studio) per i quali sono noti i pesi percentuali di ciascuno nei confronti della popolazione. A questo punto vengono definite le quote, cioè il numero di elementi da prelevare da ciascun gruppo e si procede con un’estrazione casuale delle unità da ciascun gruppo. Il campione sarà l’insieme costituito da tutte le unità estratte. VARIABILI Quando io analizzo un fenomeno abbiamo detto che io studio una o più caratteristiche di questo, ma, in realtà, la parola “caratteristica” è imprecisa il termine corretto è variabile = caratteristica in studio. Essa viene definita casuale, aleatoria, random o stocastica in quanto può assumere valori diversi in dipendenza di un qualche evento casuale (non determinato), quindi un numero casuale di opzioni. Es: la variabile “colore degli occhi” ha un numero di opzioni finite, ma la probabilità che ognuno di noi abbia un colore è più o meno casuale, se studio questa variabile all'interno dell'insieme delle persone. Se poi la studio, invece, all’interno delle famiglie, questa risponde a delle regole diverse. La variabile può essere di due categorie: QUALITATIVA: viene attribuito un aggettivo, una caratteristica, e quindi è espressa in forma verbale. Nella notazione statistica uso le lettere dell’alfabeto ABC per intenderla: – a1, a2, a3,... ak QUANTITATIVA: espressa in modo numerico. Nella notazione statistica uso le lettere dell’alfabeto XYZ per intenderla: – x1, x2, x3,... xk Il processo di misura, che si fa quando la valutazione è sia di tipo qualitativo sia quantitativo, consiste nel fare un confronto con uno standard definito da un sistema di riferimento internazionale che è il Sistema metrico decimale che si basa su dei multipli di 10 (in Inghilterra o in America hanno il sistema imperiale in cui variano nomi, unità di rifermento e multipli (inoltre, cambia anche lo standard delle prese)). Anche la valutazione di tipo qualitativo è basata su uno standard di riferimento: per decidere il colore di un oggetto devo confrontalo con la tavola dei colori (standard di riferimento). VARIABILI QUALITATIVE Possono essere: NOMINALI: non ammettono alcun tipo di ordinamento. Es.: il nome delle nazioni, regioni e città (al netto dell’ordine alfabetico). ORDINALI: ammettono all’interno della declinazione della variabile stessa una possibilità di ordinamento deve esserci un ordine naturale (intrinseco) e non un ordine artificiale. - Consente di stabilire se esiste una differenza tra due valori e il segno di tale differenza. - Non permette di definire quanto un valore della variabile sia > o < di un altro. Es: il colore lo posso ordinare in riferimento allo spettro dei colori; piccolo-medio-grande (medio sarà sempre tra piccolo e grande, grande sarà sempre tra medio e grandissimo); caldo-freddo; poco- abbastanza-molto; il livello di istruzione. Non si può sapere quanto dista un attributo di una variabile da un altro caratteristica propria delle variabili ordinali, in quanto sono dettate dall’ordine. Es: non si sa quanto dista molto da abbastanza e abbastanza da poco, cioè i primi potrebbe anche distare due volte da quanto distano i secondi. L'utilizzo delle variabili qualitative è molto complesso in statistiche: la cosa più semplice da studiare è il livello di soddisfacimento delle persone, la famosa Customer Satisfaction, però questa ha una variabilità intrinseca enorme in quanto quello che per un individuo è abbastanza per un altro può essere poco e viceversa. Un altro problema subentra se io do 3 gradi di variabili qualitative o ne do 5 cambia completamente la percezione di chi partecipa all’analisi. DICOTOMICHE: ammettono solo due valori. Es: si/no; vero/falso; acceso/spento; 1/0. N.B. Bello/brutto non è variabile dicotomica perché presenta un margine di soggettività e vi sono degli intermedi. I canoni del bello sono definiti dal confronto con uno standard di riferimento che cambia costantemente, per questo la bellezza ha una quota di oggettività. La dicotomia, purtroppo, è un modo attraverso cui passano concetti sbagliati: nelle ultime indagini statistiche è stato possibile dare l’opzione a tutti di dire quello che si sente di essere, senza fermarsi alla dicotomia, che era tipicamente negli statistici, di maschio e femmina. Intervento di un ragazzo: “Adesso stanno creando attraverso l’intelligenza artificiale un modo oggettivo per descrivere la bellezza su una scala da 1 a 10”. Risposta del prof: “La differenza sta nel fatto che l'intelligenza artificiale è un sistema di calcolo che permette di acquisire una quantità di dati che consente di modificare anche lo stesso algoritmo apprende anche da sé stesso, però il parametro di riferimento su cui si fonda glielo devi dare ugualmente. La bellezza assoluta probabilmente esiste, ma non è una variabile completamente soggettiva, c'è una quota di oggettività”. VARIABILI QUANTITATIVE Si dividono in: DISCRETE: possono assumere un numero finito oppure un’infinità numerabile di valori. Es: il livello di istruzione inteso come primo, secondo, terzo, quarto grado differenza tra un grado e un altro è sempre la stessa. CONTINUE: possono assumere un'infinità più che numerabile di valori, cioè posso avere un numero infinito di valori sono tutte quelle variabili che vengono misurate con i sistemi di riferimento standard (metro, chilo, litro, ecc.). Es: posso dire che l'altezza può variare tra 0 cm e 240 cm, però all'interno di questo range le possibilità sono teoricamente infinite. MISURAZIONE È definita come l'assegnazione di valori a osservazioni (variabili) secondo un insieme di regole, come, per esempio, il confronto. Ha lo scopo di stabilire una corrispondenza tra un ‘sistema relazionale empirico’ e un ‘sistema relazionale numerico’ che conservi le proprietà fondamentali del primo. Il confronto può essere costruito sulla base di una relazione. RELAZIONE SCALA DI MISURA D’equivalenza: una cosa è uguale a un'altra Nominale o una cosa è diversa da un'altra. Es: per poter dire che quello è il colore rosso-arancio devo prendere il pantone del rosso-arancio e deve corrispondere (uguaglianza), mentre deve essere diverso da quello rosso-amaranto. D’ordine: una viene prima e l’altra dopo Ordinale Di distanza: quello che io ho vicino o più Ad intervallo lontano Di rapporto: quante volte si ripete una cosa Di rapporto in un'altra. Es: la mia altezza è fatta di 178 cm, questo vuol dire che il centimetro nella mia unità di misura standard si ripete 178 volte nella mia altezza. A = 30 Kg; B = 60 Kg; C = 120 Kg Tutto questo ha a che fare con la medicina, in quanto è tutto un insieme di misure dall'inizio alla fine, solo che tendenzialmente ce ne dimentichiamo. SCALE DI MISURA Sono lo strumento con cui si ordinano i valori delle variabili. SCALA NOMINALE: consiste solamente nel classificare le osservazioni in varie categorie mutualmente esclusive ed esaustive. Es: valori posti in ordine alfabetico. SCALA ORDINALE: si ordinano le osservazioni secondo un criterio definito. Es: il grado d'istruzione è un ordine definito. SCALA AD INTERVALLI: permette di quantificare la distanza tra due misure qualsiasi. È necessario definire una misura unitaria (unità di misura) e un punto zero, entrambi arbitrari. Es: ci permettono di misurare quanto disto da un determinato punto, da un determinato peso o da una determinata altezza. SCALA DI RAPPORTI: il sistema più semplice di fare la misura rispetto a uno standard, cioè l'unità di riferimento. Caratterizzata dal fatto che può essere determinata sia l’uguaglianza di intervalli che quella di rapporti. CONCETTO DI RANGO Posizione che un particolare valore assume in una scala di misurazione. - Per attribuire i ranghi alle osservazioni è necessario disporre in ordine crescente i valori che la variabile assume in ciascuna delle osservazioni effettuate - Assegnare al valore più piccolo rango 1, al successivo rango 2 e così via - In caso di valori uguali, assegnare lo stesso rango, pari alla media aritmetica dei loro ranghi naturali Parleremo di ranghi, per esempio, quando non potremo applicare alcuni test statistici perché non vengono soddisfatte alcune condizioni. PROPRIETÀ PRINCIPALI DI UNA MISURA Quando faccio una misurazione devo essere sicuro di tre cose: che sia valida, accurata e precisa. VALIDITÀ: capacità di un procedimento di misurare effettivamente ciò che si intende misurare e per valutarla ci si rifà a un GOLD STANDARD, cioè una maniera univoca di misurare. Es: misurare l'altezza in medicina è un'operazione che richiede che le persone si tolgano le scarpe e che poi si usi una bilancia con un particolare metro che si applica chiedendo al soggetto di stare seduto dritto e appoggiato con le spalle e il coccige alla barra questa è la misura valida. Se, invece, rilevo l’altezza sul muro non è una misura valida. La validità parla del metodo. ACCURATEZZA: vicinanza di un valore misurato al valore vero, sempre calcolato con il Gold standard (misurazioni ripetute sulla stessa caratteristica dallo stesso operatore o da operatori diversi converge verso il valore vero). Es: una bilancia può essere più o meno accurata se mi riporta i grammi oltre che i chili o i microgrammi oltre che i grammi. PRECISIONE: vicinanza di misure ripetute ad un unico valore (misurazioni ripetute sulla stessa caratteristica dallo stesso operatore o da operatori diversi deve convergere verso un unico valore) ATTENZIONE! Una misura può essere precisa ma non accurata perché io posso ripetere l'osservazione e avere sempre lo stesso risultato, ma quello può non essere il risultato reale, in quanto potrebbe esserci un problema con lo strumento di misurazione. LEZIONE DI STATISTICA N° 3 20/10/22 SBOBINATORE: GISSI TOMMASO REVISORE: FORTUNATO VITTORIA Entriamo nel merito di quelli che sono i principali temi della sta3s3ca descri4va. Che cosa significa descrivere in sta3s3ca? Sostanzialmente la prima cosa che facciamo in sta3s3ca è contare, ovvero il punto di partenza per qualunque 3po di valutazione. Il contare, in questo ambito, ha un significato ben preciso, ovvero “aCribuire la frequenza assoluta ad un determinato caraCere” presente in un colle4vo, cioè contare quante volte quel caraCere si presenta all’interno di un colle4vo. Ad esempio il colore delle sedie, il sesso ecc. sono dei caraCeri che si possono contare e l’espressione di quante volte, nel colle4vo classe 2° anno di Medicina e Chirurgia dell’università di Foggia è presente un determinato caraCere indica la FREQUENZA ASSOLUTA. La somma dei caraCeri all’interno del colle4vo, se i caraCeri sono mutuamente esclusivi, è pari al numero del colle4vo ovvero l’intera popolazione. Che cos’è invece la FREQUENZA RELATIVA e qual è il mo3vo per cui è necessaria in questo ambito? Sapere quante volte si verifica un evento ci dice l’informazione essenziale ma non ci consente di capire quasi nulla rispeCo al fenomeno che s3amo studiando. Se dovessimo considerare 10 casi di morbillo in una classe non si potrebbe nell’immediato considerare se questa situazione risul3 essere grave o meno però ,considerato il periodo aCuale, 10 casi di morbillo in una classe sono un’enormità mentre, ad esempio, 20 anni fa non erano così tan3. La cosa importante, quindi, è la mancanza del termine di paragone che lo si esprime meglio quando si costruisce la FREQUENZA RELATIVA, ovvero si rapporta la frequenza assoluta all’insieme della colle4vità/popolazione. La frequenza rela3va la posso calcolare sia nella colle4vità campione sia nella colle4vità popolazione ma, di solito, si esprime come un valore tra 0 e 1 ( per definizione ) e la somma delle diverse frequenze assolute deve dare 1; di solito si esprime in percentuale e K è il faCore per cui si mol3plica *100. C’è un altro modo di rappresentare le frequenze, ovvero quello di accorpare uno o più caraCeri in una valutazione cumula3va dell’insieme di ques3 caraCeri, ad esempio: “le poltrone blu e le poltrone rosse ammontano ad un determinato numero all’interno del colle4vo di questa classe”,evidentemente vengono escluse altre poltrone ( nere, bianche… ). Quindi la somma delle frequenze assolute dei caraCeri blu e rosso dà la FREQUENZA CUMULATIVA del caraCere blu e rosso. Quando si studia un colle4vo (quindi un campione o una popolazione rispeCo ad una determinata caraCeris3ca o variabile, di solito si studia la frequenza con cui si presentano tu4 i caraCeri della variabile. Di solito, quando si riporta l’informazione al leCore di un report, bisogna essere esaus3vi rispeCo al riportare tu4 i caraCeri che sono presen3. ESEMPIO : se in questa classe si censisce 4 caraCeri colore sedie, nella descrizione si dovrà riportare la frequenza di tu4 i colori. Molto spesso si riporta sia la FREQUENZA ASSOLUTA sia la FREQUENZA RELATIVA e , successivamente, si può aggiungere anche la FREQUENZA CUMULATIVA ( in par3colare quando i caraCeri si ordinano i caraCeri per frequenza); difa4 esistono due modalità per riordinare i caraCeri all’interno di una tabella : 1) In base all’ordine naturale del caraCere (se esiste); infa4 ci sono anche delle variabili che possono essere ordinate anche se sono di 3po qualita3vo come ad esempio il livello di istruzione che può essere espressa come una variabile ordinale in due modi: Ordinandolo in una tabella dall’ordine più basso a quello più alto = elementari, medie, superiori, università e successivamente , accanto ad ogni valore riporto la frequenza assoluta , frequenza rela3va e ,eventualmente, la frequenza cumula3va se mi interessa, per esempio, per livelli più bassi e livelli più al3. 2) Ordinare i caraCeri per frequenza, ovvero in base al caraCere che si presenta di più nello studio sta3s3co; ad esempio “il caraCere arancione e celeste rappresentano la frequenza cumula3va pari al 50% del mio campione”; ciò significa che i due colori, da soli, sono frequen3 nella metà dei casi. Sostanzialmente questo ci descrive come, nel nostro campione, è molto probabile che si trovi una sedia che è rossa o è blu; magari saranno presen3 anche altre sedie di altri colori ma hanno valori molto bassi quindi poco rilevan3 per lo studio sta3s3co. Questa è la maniera classica di una rappresentazione tabellare. ACenzione però : non devono esserci ambiguità, ovvero i caraCeri devono essere mutuamente esclusivi se inseri3 nella stessa tabella perché la somma , nella costruzione della frequenza assoluta, deve essere uguale al totale delle osservazioni possibili. Cioè, se ci dovessero essere 100 sedie , la somma delle frequenze non può essere 102 , rispeCo al colore, perché esso risulta essere un caraCere mutuamente esclusivo. Evidentemente, se questo succede, o c’è un errore nel esecuzione del conteggio o c’è un problema di natura interpreta3va ovvero “due sedie sono state contate due volte per ambiguità di colore”. Bisogna sempre fare la somma per ricondursi al totale altrimen3, può accadere, che la tabella risul3 ambigua. Anche variabili con3nue si possono trasformare in tabelle che riassumono il dato su una frequenza assoluta; la variabile con3nua ,per definizione, è un valore con3nuo, come ad esempio l’altezza, si dovrebbe meCere ogni valore di altezza ,a meno che non si abbia persone alte uguali, e quindi andrebbero contate come 2 o 3 ecc... In realtà quello che si dovrebbe fare è quello di creare una categorizzazione ovvero creare un passo per cui si può dividere l’altezza in mul3pli di 10 ; ESEMPIO :179-170 CM /169-160 CM / 159 -150 CM ecc… ATTENZIONE : non si meCe ogni 10 ( quindi 60-70 oppure 70-80) perché se si dovesse fare con questa modalità e considerare un individuo con una h di 160 cm nella migliore delle ipotesi è difficile collocarlo mentre , nella peggiore delle ipotesi, verrebbe contato 2 volte. Questo vi consente di trasformare un valore con3nuo in qualcosa che possa permeCer3 di costruire una frequenza. Questa è la 3pica rappresentazione di una tabella. Qui c’è il caraCere x ovvero la nostra caraCeris3ca ( il colore nel caso delle sedie), successivamente c’è la frequenza assoluta seguita sempre da quella rela3va. Ci può anche essere la frequenza cumula3va assoluta o rela3va ma la loro presenza dipende da quello che si vuole far emergere dal mio studio in quanto , vengono considera3, come parametri accessori. Bisogna puntualizzare come le frequenze cumulaOve assolute e relaOve vengono maggiormente u3lizzate per la descrizione narraOva del fenomeno. ESEMPIO DI TABELLA A proposito della necessità nel fare delle categorizzazioni il professore so3olinea che a lui interessa rela6vamente poco ciò, in quanto, non è importante l’u6lizzo di una formula (cita quella di Sturges) oppure altre formule proprio perché, nella maggior parte dei casi, il criterio di studio viene definito “a priori” cioè definito dal ricercatore/osservatore. Per cui l’importante, all’interno di uno studio, si trovi una sezione in cui venga spiegato come sia stata reda3a la suddivisioni in classi , ovvero il criterio ado3ato ( esempio età =in 5 in 5 ). InfaK la rappresentazione più semplice , in sta6s6ca, è una tabella ed è sempre quella da preferire per poi, successivamente, avere delle basi per costruire i grafici. L’u3lizzo dei grafici, in sta3s3ca, si limita a 2 ragioni: 1) Quella di rappresentare un’informazione complessa rispeCo ad una maniera che può essere graficamente maggiormente intellegibile; ad esempio, se si vuole mostrare un andamento temporale di un fenomeno, è immediatamente evidente in un grafico rispeCo ad una tabella che ha soltanto numeri. 2) La rappresentazione grafica permeCe di avere una possibile idea di quali test bisognerebbe u3lizzare, durante una differenza sta3s3ca, per la valutazione dello studio in ques3one. La distribuzione grafica è uno dei criteri di indirizzo rispeCo al test anche se la scelta non la si fa in funzione di questo. Quindi la rappresentazione grafica non si fa mai a meno che non serva, in maniera funzionale, alla valutazione e alla semplificazione dei risulta3. Un discorso a parte si fa quando bisogna, ad esempio, mostrare la propria ricerca al pubblico ma fino ad un certo punto: ad esempio il professore descrive le rappresentazioni grafiche delle tesi di laurea ritenendole, a suo dire, “ un coacerbo di inu3lità grafiche che fanno perdere il punto agli astan3 e molto tempo a chi le crea” Un classico esempio è un grafico a torta rappresentante il sesso che, nelle peggiori delle ipotesi, è formata da 3 o 4 informazioni. Ma nel momento in cui io rilevo che il 70% del mio campione sono donne evidentemente poco interessa del resto perché una parte risulterà essere transgender e un’altra parte formata generalmente da uomini. Mentre una distribuzione temporale se non visualizzata al livello di un grafico sarà difficile cogliere alcune periodicità che possono essere intrinseche nella rappresentazione temporale e che sono molto ben visibili mediante questa rappresentazione grafica. Oppure una distribuzione di frequenza graficata può far scorgere ,se graficata correCamente, la distribuzione della probabilità all’interno del mio campione per far si che io possa applicare un determinato test oppure un altro. Un famoso matema3co del 1700 diceva appunto questo. Il senso è che le informazioni grafiche ci consentono di cogliere, quando ci sono, gli elemen3 essenziali ma di per sé non provano nulla. Ci suggeriscono quali test dovrebbero essere u3lizza3 ma possono essere un buon modo per supportare determinate conclusioni. Ci sono delle regole riguardo l’u3lizzo dei da3 in quanto ogni 3po di dato necessità di un determinato grafico; quando si hanno dei da3 di 3po quan3ta3vo, si devono costruire degli ISTOGRAMMI, ovvero dei grafici a barre in cui sull’asse delle x la classe di riferimento del dato quan3ta3vo ( la classe 60 , che va 60 a 69 anni ecc…). Nelle ordinate, invece, si trova la frequenza di quel fenomeno all’interno del nostro campione; questo approccio rappresenta l’interrelazione tra un dato quan3ta3vo e uno qualita3vo. L’area del grafico con3ene il numero delle osservazioni; Se si dovesse guardare la linea 120, avrò 12 osservazioni. C’è un modo più complesso di usare i grafici quando le classi sono diverse ma il professore ri3ene che sia estremamente confondente ed per lui è importante solamente conoscerne l’esistenza. Quello da u3lizzare è quello che si trova sulla sinistra nella frequenza dei da3 quan3ta3vi. Nella pra3ca è un grafico di 3po areale, cioè del grafico ci interessa soltanto l’area soCesa la spezzata che cos3tuisce il grafico più che le barreCe ad una ad una; tuCo questo avviene perché soCo l’area dell’istogramma vengono rappresentate tuCe le opzioni possibili della caraCeris3ca d’esame, si avrà quindi il 100% della probabilità di trovare una delle osservazioni del campione. Questa rappresentazione è importan3ssima in sta3s3ca perché vedremo che il grafico soCointenda una probabilità è un elemento fondamentale per i ragionamen3 che faremo sia sulle probabilità, sulle distribuzioni di probabilità e sui test sta3s3ci. Domanda di uno studente :” Ci sono degli esempi rispeCo ciò?” Il prof risponde dicendo di immaginare di lanciare una moneta 100 volte e chiede “quante opzioni puoi avere con il lancio di una moneta?” e la risposta è ovvia in quanto si hanno solo due risulta3 : o testa o croce. Come si rappresenterebbe, quindi, l’istogramma di queste due opzioni? Con due reCangoli; e come si costruisce la frequenza? In base al numero di volte in cui è uscito testa o croce. Esempio del prof molto discu3bile :” A quan3 puzzano i piedi di formaggio?” “A quan3 puzzano di boccamorta?” “A quan3 profumano di fiori di campo?” “A quan3 non emeCono nessun odore?” Queste sono le varie opzioni. Mediante rappresentazione grafica si riesce a disegnare le opzioni raccolte precedentemente. Il prof soColinea come il grafico rappresentato non sia un vero e proprio istogramma perché l’istogramma presuppone che anzituCo la variabile sia di 3po quan3ta3vo e in secondo luogo che tuCe le opzioni possibili possano essere rappresentate a livello della spezzata. Altro esempio : diagramma areolare ovvero colui che riporta la frequenza rela3va e per variabili quan3ta3ve e nominali. RAPPRESENTAZIONE GRAFICO AREOLARE PRIMO ESEMPIO Anche per le variabili dicotomiali ovvero per il SI o NO; però questo grafico non 3 dice nulla e non permeCe di fare alcuna ipotesi riguardo lo studio che si sta facendo. RAPPRESENTAZIONE GRAFICO AREOLARE ESEMPIO SUCCESSIVO Per il prof i grafici più importan3 sono gli istogrammi oppure quello rappresentato nell’immagine soCostante dove abbiamo sull’asse delle x il tempo mentre su quello delle y abbiamo la frequenza (il grafico curvilineo rappresentato qui soCo). Si visualizza periodicità all’interno del grafico e si avverte una certa differenza tra quando effe4vamente ci si trova al picco (indicato con la frecceCa) e nella parte più bassa. Mediante questo grafico si può comprendere al meglio il decorso nel tempo, la diminuzione delle frequenze, quindi avere un quadro generale dell’andamento del fenomeno che s3amo analizzando. Fino ad ora abbiamo ragionato sui da3 che vengono espressi aCraverso l’u3lizzo della numerazione, quindi la capacità di saper contare le cose. In realtà però quando abbiamo davan3 delle variabili di 3po quan3ta3ve, in par3colari le variabili con3nue, questo 3po di rappresentazione non sempre ci permeCe di trarre conclusioni sufficientemente sinte3che per dare risposte alle nostre domande di ricerca. Se si dovesse studiare l’altezza all’interno di una popolazione si cercherebbe subito di rispondere sopraCuCo a due domande: 1)Quanto è alta una popolazione? 2) Quanto è più alta la popolazione degli studen3 del 2° o del 3° anno? Queste sono le due domande che ci si pone quando si studia un fenomeno con una variabile con3nua. Se si dovesse u3lizzare una descrizione aCraverso una frequenza assoluta, si può definire quante persone fanno parte di un determinato range e quante di un altro; verosimilmente la popolazione in cui si ritroveranno più persone in un determinato range sarà quella più grande, ma non ho un numero che mi permeCe di fare questa sintesi aCraverso la frequenza delle classi delle variabili con3nue. Questo numero, invece, lo si costruisce mediante delle misure definite di TENDENZA CENTRALE. Queste misure che sono la MEDIA, MODA e MEDIANA sono la base di qualunque modalità di espressione di una variabile con3nua in modo sinte3co; queste misure sono dei valori singoli ovvero un valore che mi res3tuisce un’informazione (quanto è alta la mia popolazione?). Ovviamente è un valore che comunque res3tuisce qualcosa di sinte3co, ma rappresenta sempre l’insieme. Queste sono misure dimensionali cioè che consentono di dire che, “ in quest’aula la media dell’altezza è di 178 cm” comunicando così già una misura di sintesi e vi dice già le dimensioni del fenomeno in quanto “178 cm” rappresenta, per gli standard generali , una misura medio-alta. In aggiunta, permeCe di rispondere ad un’altra domanda rispeCo a quella che possa essere l’altezza di un’altra classe; se questo valore lo si confronta con quello del 3° anno e si denota che, nel 3° anno la media dell’altezza risulta essere di circa 170cm, allora si può concludere che in media ciascun alunno della classe del 2° anno risulta più alto di circa 8 cm rispeCo a quelli del 3° anno. Però, questa osservazione, non si può u3lizzare come una regola generale ma risulterà comunque incontrover3bile quello verificato dallo studio sta3s3co delle altezze citato precedentemente. La misura più comunemente u3lizzata è la media aritmeOca semplice, ovvero la somma dei valori per ogni unità sta3s3ca diviso il numero complessivo delle unità sta3s3che. Questo, da un punto di vista matema3co è facile da capire ma è molto importante la sua implicazione; intui3vamente la media è una misura di bilanciamento , ovvero rappresenta la sintesi proprio perché è il “baricentro” dell’osservazione. Una parte molto importante della media è il grafico soCo riportato che permeCe di comprendere il potenziale della misura e le regole intrinseche di essa. Il valore medio è sostanzialmente “il bilanciamento di tuCe le osservazioni” perché rappresenta, matema3camente parlando, il valore per il quale “ la somma degli scar3 tra la media e tu4 valori è =0”.Guardiamo il grafico: se dovessi fare 10,9- 12.58 viene fuori un valore ma se quest’ul3mo, dovessi sommarlo agli altri scar3, oCerrei come risultato di questa operazione 0. Questo avviene perché alcuni valori si trovano a destra o a sinistra della media ( una sorta di + o – rispeCo al valore della media) e quando si visualizza il valore della media a livello grafico non si notano i valori < o > in quanto essa rappresenta una sintesi; ciò permeCe di sancire come chi studia il fenomeno non sia a conoscenza se ci sono persone estremamente alte o basse. La media ponderata è l’applicazione della media alla frequenza rela3va. La media geometrica, invece, risulta essere uguale alla radice ennesima del prodoCo di tuCe le osservazioni. Essa si u3lizza perché se delle osservazioni presentano dei valori nega3vi o misure non lineari (volumi) allora non si può u3lizzare la media aritme3ca. Matema3camente, non posso sommare un numero nega3vo in quanto risulta essere un problema per la compressione del significato intrinseco del dato. La media geometrica è molto u3lizzata in ambito medico specialmente ,ad esempio, per le valutazioni dei dosaggi an3corpali in quanto rappresentano un espressione volumetrica ovvero di riduzione. Il logaritmo della media geometrica è uguale alla media aritme3ca dei logaritmi dei da3. La media armonica è uguale al rapporto tra il numero di osservazioni e il reciproco delle osservazioni stesse. Questa è una misura poco u3lizzata ed è maggiormente u3lizzata per trasformare le informazioni che non sono di 3po lineare. Invece, una misura molto importante è la mediana ovvero è un valore differente dalla media ed è molto importante in quanto, mentre la media risulta essere un numero calcolato sempre “ex-novo” cioè da 0; mentre la mediana è su una delle osservazioni. Infa4 questa osservazione lascia un numero di esse simmetrico da una parte e dall’altra sempre se, le stesse osservazioni, siano collocate in maniera coerente, rispeCo al rango, nel campione. Ovviamente il valore delle osservazioni è dispari in quanto, se risulta essere pari, questo numero rappresenterà la media delle due osservazioni centrali della distribuzione dei valori. Quando, non si hanno variabili con3nue ma si presentano variabili sempre quan3ta3ve ma ordinali, l’unico valore che posso u3lizzare è la mediana perché non è possibile sommare i ranghi. Graficamente, la mediana, è rappresentabile esaCamente come il punto in cui si dividono le osservazioni da una parte e dall’altra nel campione. A differenza della media non è un punto di equilibrio in quanto, se si dovesse fare la somma degli scar3, non risulterebbe 0 quindi non rappresenta il baricentro del grafico. La moda è una misura meno rilevante in quanto semplicemente iden3fica il valore più frequente all’interno di una popolazione; in termini generali interessa comunque poco come valore, se non come elemento caraCerizzante del campione ma comunque nei limi3 perché poi se la moda interessa solo il 30 % delle osservazioni significa che la maggior parte delle osservazioni si trova in un'altra parte. Queste tre misure ci res3tuiscono la sintesi ma non ci forniscono nulla su come i da3 siano distribui3 al loro interno; per questa ragione, in sta3s3ca descri4va, vengono u3lizzate altre misure che invece ci res3tuiscono, insieme alle misure di tendenza centrale, l’idea di quanto sia disperso il dato all’interno del campione di riferimento. La modalità più semplice per poter rappresentare la dispersione è quella dell’intervallo di variazione o range in cui sostanzialmente si pone un valore max e un valore min delle osservazioni ,riportandole insieme al valore medio; ad esempio “ se in questa classe l’altezza media è di 178 cm significa che sarà compresa in un range tra 195 e 150 cm”. E’ sicuramente un buon modo per rappresentare la variabilità ma risulta essere, anch’esso , molto limitato in quanto non si ha l’idea precisa di quante persone “ siano alte 178 cm o quante siano alte 150 cm” Se ce ne dovesse essere una e una la variabilità sarebbe rappresentata ma risulterebbe essere una variabilità che non si interessa di tuCa l’osservazione nei confron3 del campione, ma interessa due persone. Si può rappresentare questa variabilità mediante la differenza interquarOle o, ancor meglio, l’u3lizzo dei quarOli. I quarOli sono i valori che lasciano, al di sopra e al di soCo della popolazione, una quota di osservazioni pari ad una determinata proporzione. In maniera più semplice: che cos’è il primo quar3le? È quel valore delle osservazioni per cui soCo il quale restano il 25% delle osservazioni mentre al di sopra restano il 75% delle osservazioni. Il secondo quar3le presenta il 50% e il 50% (ovvero la mediana). Infine, il terzo quar3le è quel valore che lascia soCo di sé il75% delle osservazioni e sopra di sé il 25%. Quando si u3lizza il 1° quar3le e il 3° quar3le e res3tuisco il range interquar3le, in realtà s3amo sostenendo una cosa precisa ovvero “entro i quali limi3 rimane il 50% delle osservazioni”. Quindi se questo valore è molto ampio ciò vuol dire che c’è una variabilità molto alta nella popolazione altrimen3 , se il valore risulta essere molto piccolo, c’è una bassa variabilità nella popolazione. Un’altra misura, definita di dispersione sinteOca, (quindi con un unico valore) è la varianza o quadrato medio ovvero la media dei quadra3 degli scostamen3 dalla media. Se sommiamo gli scostamen3 di ogni singolo valore alla media il risultato è pari a 0 perciò per avere, in media, un’idea di quanto ogni singolo dato si allontana bisogna elevare al quadrato la differenza (così anche le differenze nega3ve diventano posi3ve) e , successivamente, si calcola la media. Però questo valore non è lineare ma quadra3co; quindi si fa la radice quadrata della media e, per avere lo scarto medio, calcolo la deviazione standard, ovvero la radice quadrata della media degli scar3 quadra3ci (anche definita come la radice quadrata della varianza). In una popolazione la formula della varianza sarà uguale alla somma dei quadra3 degli scar3 diviso il numero di osservazioni. Nel campione la varianza, e quindi di conseguenza la deviazione standard, non sarà uguale alla somma dei quadra3 degli scar3 diviso il n (numero di osservazioni) ma diviso n-1. La mo3vazione di ciò è che la variabilità campionaria è minore della variabilità all’interno dell’intera popolazione. Questa correzione fu introdoCa da Student da cui ne prese il nome ; essa serve a tener conto di una cosa importante ovvero data una determinata media e un determinato numero osservazioni la variabilità delle osservazioni in un campione non è legata a tuCe le osservazioni ma è legata alle osservazioni meno una. Cioè, se abbiamo un valore medio e cinque osservazioni, che hanno determinato questa media , di esse ne possono soltanto variare quaCro perché la quinta è un valore definito in base alla media e agli altri quaCro valori. ESEMPIO: prendiamo un valore medio:180; 1° valore=30 2° valore= 23 3°valore= 82 4°valore= 15 Si potrebbe dare un ulteriore valore a caso per raggiungere il valore medio? No, in quanto, ci può essere soltanto un valore che possa permeCerci di raggiungere il valore medio. Questo conceCo, in sta3s3ca, prende il nome di grado di libertà ovvero n-1 sono i gradi di libertà nei limi3 dei quali può variare questa informazione, in par3colare nella deviazione standard di un campione possono variare con n-1 gradi di libertà perché l’n-esimo valore sarà fornito data quella media e sarà un unico valore. Un’altra cosa molto importante è stabilire, nella frequenza dei da3, se esse si distribuiscono in maniera simmetrica o asimmetrica cioè, dato un punto, rimane lo stesso numero di osservazioni da una parte e lo stesso numero dall’altra e la distribuzione di queste osservazioni è la stessa da una parte e dall’altra. Quando si ha una distribuzione simmetrica i valori media, moda e mediana coincidono il grafico sarà come quello soCo riportato. Quando si presenta il caso di più mode ovvero più valori frequen3 , allora la distribuzione può essere comunque simmetrica ma , i valori coinciden3 saranno soltanto 2 ovvero media e mediana. Questo grafico, invece , è la rappresentazione di un’asimmetria a destra ovvero i valori che si allontanano maggiormente dalla media sono i più eleva3 e colloca3 a destra dei valori centrali. Mentre questo grafico, invece, rappresenta un’asimmetria a sinistra ovvero che i valori che si allontanano dalla media sono quelli più eleva3 e sono colloca3 alla sinistra dei valori centrali. Quando si traCa di un’asimmetria, o a destra o a sinistra, di solito avviene che: 1) Se l’asimmetria si trova a destra, allora il primo valore che verrà visualizzato è la moda poi la mediana e infine la media. La media è a destra della mediana e quest’ul3ma, successivamente, è collocata a destra della moda. 2) Se l’asimmetria si trova a sinistra, allora troverò media poi la mediana e infine la moda; rispeCo alla moda la mediana è collocata a sinistra e la media si trova a sinistra della mediana. Esiste poi una misura , chiamata Curtosi, ovvero è una misura della simmetria ed degli eventuali eccessi di frequenza da un lato o dall’altro ( quindi asimmetria a destra o a sinistra).In realtà la Curtosi è una misura di dispersione ovvero “quel valore di deviazione standard +/- la media”. Quando l’asimmetria è completa si ha lo stesso numero di osservazioni a destra e a sinistra del rispeCo al valore di Curtosi. Una curva viene definita leptocurOca se ha un eccesso di frequenza nelle classi centrali, ovvero significa che la campana (grafico) risulta essere molto streCa e alta. ESEMPIO DI LEPTOCURTOSI Di contro plaOcurOca è esaCamente il contrario, ovvero bassa e schiacciata. ESEMPIO DI PLATICURTOSI N.B.: non sono riuscito a fare le foto di queste rappresentazioni grafiche reda3e dal prof sui grafici leptocur6ca e pla6cur6ca; perciò, ho preso delle immagini su internet. Statistica,25/10/22 Sbobinatore: Tricarico Michela Revisore: Maffia Vincenzo CENNI DI CALCOLO DELLE PROBABILITA’ Esiste una parte della statistica che si basa sul calcolo delle probabilità e avere nozioni su tale argomento risulta quindi importante per lo studio della statistica inferenziale e descrittiva. In particolare tutta la parte che riguarda la descrizione di fenomeni è legata alla capacità di vedere tali fenomeni non come un dato certo ma come concetti incerti. DEFINIZIONI Cos’è una prova (esperimento aleatorio)? E’ per l’appunto un esperimento di cui non si conosce il risultato a priori, vi è un grado di incertezza nel risultato ed è diverso dall’esperimento scientifico, che è invece per definizione ripetibile e porterà sempre allo stesso risultato. Il lancio dei dadi ad esempio è un esperimento aleatorio perché il risultato di tale lancio non può essere definito a priori ma dipende dal caso. La misura della glicemia invece non è un esperimento aleatorio dato che nel fare tale test non si può ottenere qualsiasi risultato, ma esiste un range di patologia e uno di normalità (anche se il test ideale che ci permette di identificare in maniera univoca i malati e i sani non esiste di fatto). Altra caratteristica della prova è che contiene l’insieme di tutti i risultati possibili e sono noti a priori. Tirando due dadi a sei facce i risultati possibili a priori sono 11 (2 dato da 1+1,3,4,5,6,7,8,9,10,11,12), dove per risultato si intende il numero ottenuto dalla somma dei numeri usciti sui due dadi. L’evento è uno dei possibili risultati della prova. La percentuale che venga fuori uno dei possibili risultati della prova si esprime con un valore compreso tra 0 e 1, esprimibile in termini di percentuale. La probabilità di un evento casuale si calcola come il rapporto fra il numero delle volte con cui si verifica un evento e il numero delle volte in cui la prova è stata effettuata. Esempio: il numero di volte che esce 7 rispetto al numero di volte in cui sono stati lanciati i dadi. La probabilità richiede che tutti gli eventi siano equiprobabili, quindi l’evento deve avere un valore di probabilità rappresentabile con un valore fra 1 e 0. In ambito scientifico ci interessa la probabilità calcolata a posteriori. Eseguita una prova un certo numero di volte, si conta poi quante volte si è ottenuto un dato risultato A e quante invece ne ho ottenuto un altro B e la probabilità di avere come risultato A corrisponde al rapporto fra il numero di volte in cui si è verificato l’evento A rispetto al numero di prove effettuate (lo stesso vale per B). Si deve però fare in modo che la prova sia sempre uguale a sé stessa e se sono possibili più risultati si calcola probabilità di ottenere ogni singolo risultato. E’ importante che ci siano condizioni uniformi nel condurre l’esperimento (esempio: i dadi non devono essere truccati) e il controllo va fatto poi a posteriori. Invece la probabilità a priori non si usa in ambito scientifico dato che per calcolare la probabilità di un evento è necessario conoscere preventivamente le diverse probabilità di tutti gli eventi possibili. 26.25 ALGEBRA DEGLI EVENTI Ω è lo spazio campione, cioè l’insieme costituito da tutti i possibili risultati di una prova. Questo è sempre un numero discreto (numero finito di eventi campione) o un numero infinito numerabile. ll raggruppamento di eventi è denominato come evento (E), mentre un evento singolo viene denominato evento elementare – punto campione (e). NEGAZIONE Si definisce negazione di un evento A quell’evento A (Ā negato) che si realizza quando non si realizza A. UNIONE A ∪ B Si definisce unione tra due eventi A e B quell’evento C che si realizza quando si realizza l’evento A o l’evento B, o entrambi. Dati due eventi A e B esclusivi, l’unione di A e B è data dalla somma dei due eventi; dati invece due eventi non mutualmente esclusivi, ma per cui vi sono delle aree di sovrapposizione tra questi due insiemi, l’evento unione non sarà dato dalla semplice somma di A e B ma dalla somma di A+B meno l’intersezione di A e B. INTERSEZIONE A∩ B Si definisce intersezione tra due eventi quell’evento C che si realizza quando si realizzano entrambi gli eventi A e B. INCLUSIONE A B Se un evento A è incluso in un evento B, tutte le volte che si realizza A si realizza certamente B ma non è vero il contrario, ovvero che non tutte le volte in cui si verifica B si verifica anche A. Nell’ambito delle probabilità vi sono delle regole a priori, dei postulati. Postulato di non negatività: la probabilità associata ad un evento è un numero reale e positivo, quindi mai negativo. Postulato di normalizzazione: la probabilità di un evento certo è pari a 1 Postulato di numerabile additività: la probabilità dell’unione di una serie di eventi mutuamente esclusivi è pari alla somma delle singole probabilità. Se si lancia una moneta il risultato non è mutuamente esclusivo e quindi dalla somma dei singoli risultati mi darà 1. Ma cosa sono di fatto due eventi mutuamente esclusivi? Due eventi A e B sono mutuamente esclusivi se l’occorrenza dell’uno esclude l’altro. Ad esempio l’acidosi respiratoria e l’alcalosi respiratoria sono due eventi mutuamente esclusivi tant’è che se ci si trova in una delle due condizioni patologiche non si può simultaneamente avere anche l’altra. Una malattia cardiaca e il reflusso gastro-esofageo non sono eventi mutuamente esclusivi. Se un soggetto presenta dolore al torace e l’ECG conferma la presenza di un infarto, non significa necessariamente che il soggetto non possa essere affetto anche da reflusso esofageo. LEGGE DELLA SOMMA Se due eventi A e B sono mutuamente esclusivi allora: P(A ∪ B) = P(A) + P(B) Dati due eventi A e B non mutuamente esclusivi la probabilità che si verifichi l’evento A o l’evento B è: P (A ∪ B) = P(A) + P(B) – P(A∩B) PROBABILITA’ CONDIZIONATA Due eventi A e B si definiscono condizionati se il verificarsi di A dipende dal verificarsi B o viceversa. Esempio: La probabilità che una persona possa vivere più di 80 anni è una probabilità condizionata da molti fattori: sesso, anno di nascita, fumo di sigaretta, eventuali malattie… l’evento B è condizionato da A e la probabilità che si verifichi l’evento B è condizionata dalla probabilità dell’evento A. si deve verificare innanzitutto che vi sia A e che si verifichi B quando si verifica A (intersezione tra A e B). Questa probabilità condizionata può essere espressa come il rapporto tra l’intersezione di B con A fratto la probabilità di A. Si tratta ovviamente di una probabilità inferiore rispetto a quella del semplice verificarsi di A. ESEMPIO: In ospedale si è verificata una epidemia da tossinfezione alimentare. Totale pazienti= 158 Casi di malattia= 99 Pazienti che hanno consumato del pollo= 133 Pazienti che hanno consumato il pollo tra i casi= 97 Qual è la probabilità di ammalarsi (B) tra chi ha consumato il pollo (A)? Si tratta di un gruppo chiuso di persone (coorte) e una lista chiusa di alimenti, trattasi quindi di uno studio semplice e si andrà a calcolare la probabilità di essere malato condizionata dall’ingestione di un alimento. P(B/A) = P(B∩A) /P(A) = (97/158)/(133/158) = 97/133 =0,73 = 73% P(B=malattia) = 99/158 = 0,63 = 63% Si nota che la probabilità condizionata di essere malati avendo mangiato il pollo è più alta della probabilità di essere semplicemente malato. Immaginando di avere un valore di ad esempio 0,43 al posto di 0,73 riguardo la probabilità di ammalarsi mangiando pollo questo significherebbe che la probabilità di ammalarsi dopo l’ingestione del pollo è più bassa della probabilità di ammalarsi in generale e quindi lo si potrebbe intendere come fattore protettivo nei confronti della malattia. Ritornando al nostro esempio precedente si nota inoltre che 2 persone non hanno mangiato pollo e si sono comunque ammalate e che tanti di coloro che hanno mangiato pollo non si sono ammalate. LEGGE DEL PRODOTTO Se due eventi sono indipendenti allora la probabilità di intersezione di B con A è data dal prodotto della probabilità di A per la probabilità di B: P(B∩A) = P(A) * P(B) ESEMPIO 1: Supponiamo che sia noto che un farmaco produca effetti collaterali nel 10% dei pazienti che lo assumono. Un medico ha somministrato il farmaco a 2 pazienti. Qual è la probabilità che entrambi presentino l’effetto collaterale? A= paziente 1 presenta l’effetto collaterale B= paziente 2 presenta l’effetto collaterale P(B∩A) = P(A) * P(B) = 0.1*0.1= 0.01 = 1% ESEMPIO 2: Supponiamo che sia noto che un farmaco produca effetti collaterali nel 10% dei pazienti che lo assumono. Un medico ha somministrato il farmaco a 2 pazienti. Qual è la probabilità che solo uno dei pazienti presenti l’effetto collaterale? A= paziente 1 che presenta l’effetto collaterale B= paziente 2 che presenta l’effetto collaterale P(B U A) = P(A) + P(B) - P(B*A) = 0.1 + 0.1 – 0.01 = 0.19 = 19% TEOREMA DI BAYES Si tratta di un teorema molto usato in medicina che si basa sul concetto di probabilità condizionata di una data malattia all’interno di una popolazione. Supponiamo di avere una serie di eventi mutuamente esclusivi A1, A2,…, An, la cui unione è uno spazio campionario S e uno di questi eventi si deve necessariamente verificare almeno una volta. Se A è un generico evento, si definisce la probabilità a posteriori che l’evento generico si realizzi dato un altro evento Ak, come la probabilità di Ak per la probabilità condizionata di A (condizionata da Ak) fratto la verosimiglianza che l’evento A sia stato generato dalla causa Ak. Tale teorema ci consente di calcolare la predittività di un test positivo conoscendo la sensibilità di tale test e la frequenza della malattia. TEST IDEALE Il valore di cut-off (valore che mi dice chi è malato e chi no) in un test ideale divide la popolazione in due parti, i sani da una parte e i malati dall’altra. TEST REALE Un test ideale non esiste ma comunque esistono test che per un dato valore di cut-off lasciano da una parte la maggior parte dei sani e dall’altra la maggior parte dei malati; vi sono poi due piccole quote di sani con un risultato positivo al test e soggetti malati con un test negativo come i sani→ si potrebbe quindi idealmente dividere i pazienti in quattro gruppi: i veri negativi (sani e negativi al test), i veri positivi (malati e positivi al test), falsi negativi (malati con risultati come quelli sani) e falsi positivi (che però rifacendosi all’esempio dei tamponi i falsi positivi facevano comunque valore e venivano considerati nonostante ciò come malati). Sono proprio queste quattro possibilità che definiscono l’algebra del teorema di Bayes. La sensibilità e la specificità di un test sono caratteristiche intrinseche al test stesso, cioè legate alla natura di esso e non sono modificabili. La sensibilità del test (SE) è data dal rapporto fra veri positivi e tutti i malati (compresi i falsi negativi) ed indica la probabilità che il test sia positivo se un individuo è malato, quindi la capacità di classificare correttamente i malati. La specificità (SP) è data dal rapporto fra i veri negativi e tutti i soggetti sani ovvero i veri negativi e i falsi positivi. Indica la probabilità che il test sia negativo se un individuo è sano, quindi la capacità di classificare correttamente i soggetti sani. Quindi tali valori si rifanno al concetto di probabilità condizionata ma non ci permettono però di capire quanto siano predittivi i test e quindi di capire quanti soggetti sono realmente malati essendo positivi al test o quanti soggetti sono veramente negativi avendo un test negativo. Questi valori, il predittivo positivo e negativo, sono espressi come probabilità condizionate. Sono probabilità a posteriori. Se un malato è positivo posso verificarlo solo successivamente all’aver fatto un test. Invece la sensibilità e la specificità sono valori a priori→ sono negativo se sono sano (a priori) Come faccio a stabilire se una persona è malata o è sana avendo a disposizione un solo test? Si effettua il test due volte (sensibilità e specificità restano invariate) così da cambiare la probabilità di essere malato o sano. Nel fare il primo test si va a dividere la popolazione in malati e sani, per essere sicuro della predittività negativa e che quindi un soggetto sia veramente sano, si ripete il test nei sani in modo da aumentare la probabilità di essere sani nel campione (aumenta la probabilità a posteriori di essere sano), quindi se il soggetto viene due volte negativo la previsione su quel soggetto è una previsione a posteriori certa (o quasi). quando si scoprì il virus dell’HIV si usavano test che misuravano gli anticorpi e si ripeteva il test su soggetti positivi. Il primo test modificava la frequenza di malattia nella popolazione che saliva e se risultava positivo anche il secondo test si era malati sicuramente. Lo stesso si fa con i tamponi per il covid a fine malattia in cui si va a ripetere il test due volte e alla seconda negatività si ha la certezza che il soggetto non sia più malato. Statistica, prof. Martinelli, lezione 5. 27/10/2022 Sbobinatore: Vanessa Cagnetta Revisore: Michele D’Errico PROBABILITA’ A PRIORI E A POSTERIORI La probabilità a priori è quella probabilità che definiamo prima di compiere l’esperimento. Essa non è da intendersi come “una prova” ma come il calcolo di un valore che ci dice con quale probabilità può verificarsi l’esito di un esperimento. Questo calcolo va fatto prima di dare avvio all’esperimento e viene fatto sulla base di assunzioni (ovvero si stabiliscono delle regole) che ci consentono di fare questo calcolo. Quello che facciamo, dunque, è costruire delle relazioni tra diversi elementi (diciamo per esempio “questo elemento viene modificato da quest’altro elemento”, “questa probabilità viene modificata da quest’altra probabilità” “se si verifica questa condizione, succede quest’evento, se si verifica un’altra condizione succede quest’altro”). Da un punto di vista scientifico è ciò che noi facciamo con i modelli matematici (i modelli matematici sono degli algoritmi di calcolo o regole di calcolo attraverso i quali, immettendo una serie di informazioni io posso predire un dato risultato). Esiste però un limite intrinseco: essa è una previsione. Alla conferma dei fatti possono avvenire eventi che non avevo preso in considerazione o che si muovono con modalità diverse. Esempio pratico: 1. La probabilità a priori è quella probabilità che si stimava all’inizio della pandemia quando si cercava di capire come si sarebbe mossa la pandemia partendo dal valore R0 (che avevamo stimato all’inizio della pandemia e che corrispondeva ad un valore tra 2 e 4). Le previsioni si basavano sul fatto che si sarebbe affrontata la pandemia mettendo in atto alcuni interventi di tipo farmacologico e non. Le assunzioni erano difficili da fare a causa della portata del lockdown ed era difficile prevedere quanto sarebbe cambiata la malattia cambiando il parametro delle varianti (non sapevamo che infettività avesse la singola variante). L’R0 era dunque un valore non corretto perché con ogni variante si guadagnava circa 2 punti di R0. 2. Previsioni meteorologiche. Dire che ci sarà l’80% di pioggia è parlare di un valore (80%) riassuntivo di una serie di parametri che all’interno di un algoritmo finale hanno sviluppato quel parametro finale (80%). La probabilità a posteriori è la probabilità che calcolo dopo aver compiuto l’esperimento. Essa è l’effettivo calcolo che io faccio rispetto a degli eventi che si verificano data una prova ripetuta. Esempio pratico: 1. Lancio la monetina e calcolo quante volte è uscita testa e quante volte è uscita croce. DISTRIBUZIONE DI PROBABILITA’ La probabilità è un dato interessante nello studio dei fenomeni. Quando io studio i fenomeni la probabilità rispetto agli esiti degli eventi, si distribuisce secondo delle regole che sono più o meno costanti. Cioè, quando io studio un fenomeno, la modalità con cui si verifica l’insieme degli eventi (1), di solito, si distribuisce secondo delle regole predefinite che sono molto dipendenti dal tipo di variabile che io sto studiando (la variabile è il tipo di evento che io sto studiando) e sono riconducibili a delle formule matematiche che hanno una chiara rappresentazione cartesiana. Dall’analisi matematica, sappiamo che a ogni equazione matematica è possibile associare una curva cartesiana che ha delle caratteristiche specifiche che sono funzione di quella regola. Ciò che succede in natura è che i fenomeni, in base alla tipologia di variabile, non hanno N infinite possibili funzioni matematiche, ma si raggruppano attorno ad una serie di famiglie che sono delle famiglie abbastanza riconoscibili già dalla forma stessa che la distribuzione di probabilità assume. La distribuzione di probabilità non è altro che l’insieme di tutti i risultati della prova, ovvero l’insieme delle probabilità di tutti gli eventi. C’è poi una regola, che è il TEOREMA DEL LIMITE CENTRALE, che ci dirà che tutti i fenomeni, se le prove sono sufficientemente ripetute, convergono verso un’unica modalità di distribuzione della probabilità, che è sempre la stessa ed è la distribuzione NORMALE. Il concetto fondamentale è dunque che, ad un esperimento corrisponde una distribuzione di probabilità. Cioè, tutti gli eventi di quell’esperimento si distribuiscono secondo una determinata probabilità. Le distribuzioni di probabilità non sono N infinite, ma possono essere raggruppate in delle famiglie. Le famiglie, all’aumentare della numerosità campionaria (cioè numerosità delle osservazioni), però, convergono verso un’unica grande famiglia. Nelle variabili discrete, il concetto è semplificato, perché io ho un numero limitato di opzioni possibili ed è più facile immaginare la costruzione di una curva di probabilità: io devo andare a fare l’esperimento, ripeterlo un certo numero di volte, prendere i numeri di volte in cui si ripete l’esperimento, calcolare la probabilità a posteriori di quell’esperimento per ogni risultato della variabile e graficare la variabile: a quel punto avrò la distribuzione di probabilità. (1) Gli eventi (SINGOLARMENTE, E NON L’INSIEME DEGLI EVENTI) si verificano in maniera casuale perché sono variabili aleatorie. Esempio: 1. La probabilità del lancio di una moneta. Se io ripeto l’esperimento un certo n di volte, nel tempo, avrò questa distribuzione di probabilità. Cioè più o meno capita un certo numero di volte testa e un certo numero di volte croce. La variabilità della variabile solitamente va nell’asse delle x mentre il risultato della probabilità va nell’asse delle y 2. La probabilità del lancio dei dadi. La probabilità che esca 2 e la probabilità che esca 12 è la stessa (ovvero 1/36). La funzione di probabilità è data da una rappresentazione matematica dove il risultato di x è uguale alla probabilità quando x è uguale ad X, sostanzialmente è una variabile discreta quindi il valore è un numero di valori definito. La probabilità si distribuisce in maniera diversa per le varie X, fino ad arrivare al valore 7 che ha la probabilità più alta (perché è il maggior numero di combinazioni possibili). Notate che la somma dei valori raggiunti dall’istogramma (0,03 , 0,05… ) è uguale a 1. La stessa distribuzione può essere graficata in questa maniera: Nella rappresentazione di variabili di tipo continuo non possiamo utilizzare gli istogrammi perché dovremmo rappresentare l’infinitesimo. Allora usiamo una rappresentazione lineare che ha sull’asse delle x tutti i possibili risultati della variabile e sull’asse delle Y la probabilità. In questo esempio abbiamo il reddito della popolazione e questo grafico ci dice che la maggior parte della popolazione ha un reddito che è intorno a 1300 euro, una quota più piccola ha redditi molto bassi. Si noti il grafico a campana ha una simmetria a destra per cui sui redditi più alti ci si distribuisce in maniera meno netta (si passa in maniera meno rapida ai redditi più alti). Quando le variabili sono di tipo binomiale, io ricavo frequentemente una distribuzione binomiale che ha una forma grossomodo a campana (molto stretta e molto alta). All’interno della popolazione le distribuzioni più frequenti sono la distribuzione binomiale, la distribuzione di Poisson (distribuzione di variabili discrete che misurano fenomeni di tipo temporale o spaziale, molto comune in campo biologico e in campo medico). La distribuzione di Poisson si realizza quando gli eventi sono indipendenti e in un determinato intervallo. La forma della distribuzione di Poisson è molto simile alla distribuzione del reddito (ultima immagine della pagina precedente). In alcune condizioni, in particolare quando la numerosità delle prove si approssima ad infinito, la distribuzione binomiale può essere assimilata ad una distribuzione di Poisson. Questo perché in natura la maggior parte dei fenomeni si distribuisce secondo questa modalità, ovvero la distribuzione normale. La distribuzione normale (o di Gauss) ha solitamente una forma campanulare ma la campana ha delle regole precise che sono definite da due parametri: il valore della media e il valore della deviazione standard. La distribuzione normale viene definita “normale” perché è la distribuzione più comune e più facilmente riscontrabile quando effettuo una prova in natura e anche perché per tutte le prove, aumentando il numero delle prove stesse, ricadono all’interno di questa stessa distribuzione. Nella funzione normale la probabilità varia in funzione della deviazione standard e della media. Quindi la forma di questa distribuzione è definita da questi due elementi: dalla variabilità interna e dal valore della media. Ciò significa che al variare della media e della deviazione standard avrò delle curve che avranno delle forme diverse ma che mantengono sempre questa relazione fissa definita da quella funzione matematica. nds. Nella slide è scritto erroneamente “sigma = scarto quadratico medio della popolazione”, in realtà è sigma = deviazione standard Altre proprietà, oltre alla forma campanulare simmetrica attorno alla media (che coincide con la mediana e la moda), ha due punti di flesso che sono uguali al valore della media + o – il valore della deviazione standard (cambia la concavità), è asintotica da un lato e dall’altro (sull’asse orizzontale). Un’altra importante conseguenza della funzione matematica che in questo caso attiene all’integrazione della funzione è il fatto che io posso calcolare in ogni punto la probabilità e posso calcolare, secondo le leggi degli integrali, quanta probabilità è racchiusa tra due punti della curva. In particolare, se io prendo come riferimento il punto della media + o – la deviazione standard, quell’intervallo di valori, in una curva di tipo normale o Gaussiano racchiude il 60% della probabilità degli eventi. Ancora più importante, se io mi sposto di due deviazioni standard, verso destra o verso sinistra rispetto alla media, io ho il 95% delle osservazioni. Se mi sposto ancora oltre ho il 99% delle osservazioni. Questo concetto è molto importante perché quando io ho un fenomeno assimilabile ad una funzione normale, mi basta calcolare in quella popolazione la media e la deviazione standard per stabilire qual è l’intervallo di valori all’interno del quale cade il 95% delle osservazioni. Esempio: 1. Osservo l’altezza di un gruppo. Calcolo la media e la deviazione standard. Se ho un numero sufficientemente grande di osservazioni, la curva si distribuisce in maniera Gaussiana. Tra le infinite possibili curve Gaussiane c’è la curva Gaussiana standard in cui la media= 0 e la deviazione standard= 1. La distribuzione standardizzata è comoda perché io posso costruire i valori di probabilità in funzione dei possibili valori che osservo nella distribuzione di opzioni nell’asse delle x e asse delle y. Posso, cioè, costruire delle tabelle che mi restituiscono il valore di probabilità. Questo è molto comodo perché se io riporto i miei valori ai valori della distribuzione normale, con processi matematici, io posso fare un lavoro di calcolo delle probabilità automaticamente. Se io traslo i miei valori in un valore standardizzato io posso automaticamente avere il valore della probabilità. Tutto questo era molto importante prima che si diffondessero i calcolatori, quando queste procedure si facevano a mano. Il teorema della convergenza stocastica dice che la distribuzione binomiale tende alla legge normale quando N tende ad infinito, la distribuzione Poissoniana tende alla distribuzione Gaussiana quando la media è elevata e in particolare quando è >6. Quando N è sufficientemente grande, la distribuzione è di tipo normale. In maniera più rigorosa possiamo dire che qualunque forma sia la distribuzione di N variabili casuali indipendenti, la loro somma è normale con una media che è uguale alla somma delle singole medie e una varianza che è uguale alla somma delle singole varianze. Nella pratica tutte le distribuzioni sono ben assimilabili a distribuzioni normali quando i camp