Corso di Statistica Medica ed Epidemiologia per FISIOTERAPISTI PDF
Document Details
Università degli Studi di Padova
2024
Livio Dal Cin - Alessandra Piccin
Tags
Summary
These lecture notes from the University of Padua cover topics in medical statistics and epidemiology, specifically targeted at physical therapists. The material discusses different types of data distributions and the concept of statistical dependence between variables.
Full Transcript
Corso di Statistica Medica ed Epidemiologia per FISIOTERAPISTI (Lezione 7) a.a. 2024^2025 Livio DAL CIN - Alessandra PICCIN [email protected] - [email protected] 347 L’ANALISI...
Corso di Statistica Medica ed Epidemiologia per FISIOTERAPISTI (Lezione 7) a.a. 2024^2025 Livio DAL CIN - Alessandra PICCIN [email protected] - [email protected] 347 L’ANALISI DEI DATI: LE RELAZIONI STATISTICHE 348 LE DISTRIBUZIONI DOPPIE: LA TABELLA A DOPPIA ENTRATA Si costruisce operando uno spoglio congiunto di due variabili. Le modalità della prima variabile vengono riportate a intestazione delle righe; le modalità della seconda variabile vengono riportate a intestazione delle colonne: variabile Y variabile X y1 y2 y3 … yc x1 x2 x3 …. xr 349 LE FREQUENZE CONGIUNTE Nelle celle che rappresentano l’incrocio tra le modalità delle due variabili si riportano le frequenze congiunte, ovvero il numero di unità statistiche che ha presentato quella particolare combinazione di modalità: variabile Y variabile X y1 y2 y3 … yc x1 f11 f12 f13 … f1c x2 f21 f22 f23 … f2c x3 f31 f32 f33 … f3c …... … … … … xr fr1 fr2 fr3 … frc 350 DISTRIBUZIONI CONDIZIONATE E MARGINALI Alla tabella vengono aggiunte una riga e una colonna che riportano le frequenze marginali (rispettivamente di riga e di colonna), che corrispondono alla distribuzione di frequenze dello spoglio univariato: DISTRIBUZIONI CONDIZIONATE variabile Y variabile X y1 y2 y3 … yc totale x1 f11 f12 f13 … f1c f1. DISTRIBUZIONE x2 f21 f22 f23 … f2c f2. MARGINALE DI COLONNA x3 f31 f32 f33 … f3c f3. Distribuzione di …... … … … ….. una variabile quando si ignora xr fr1 fr2 fr3 … frc fr. l'altra totale f.1 f.2 f.3 f.c n DISTRIBUZIONE MARGINALE DI RIGA 351 RELAZIONI STATISTICHE Dato che sulla stessa unità statistica è possibile rilevare due o più caratteri (quantitativi e/o qualitativi) contempora- neamente, questi caratteri possono poi essere analizzati e valutati singolarmente o in relazione tra loro: è possibile cioè studiare la relazione che esiste tra i caratteri rilevati 352 Cerchiamo di rispondere a quesiti come questi Che relazione c’è tra il comportamento informativo del fisioterapista e il gradimento per l’assistenza ricevuta? Il livello di gradimento per il servizio dipende dal tipo di prestazione sanitaria erogata? All’aumentare dell’età del paziente aumenta la creatininemia (diminuisce la capacità di filtrazione renale)? 353 RELAZIONI STATISTICHE TRA COPPIE DI VARIABILI: L’INDIPENDENZA Due caratteri sono tra loro indipendenti quando al variare delle modalità di un carattere non cambiano le distribuzioni relative parziali dell’altro. Se invece in qualche modo cambiano si dice che i caratteri sono tra loro connessi, statisticamente dipendenti 354 INDIPENDENZA IN UNA TABELLA A DOPPIA ENTRATA Una variabile Y è indipendente, in senso matematico, da una variabile X quando rimane costante al variare dei valori assunti dalla X; si dice anche che Y non è in funzione della X. Quindi nel caso di una tabella a doppia entrata si dice che vi è indipendenza statistica tra X e Y se, per tutte le frequenze delle tabelle sussiste la relazione: frc/f.c= fr./n Condizione di f = f * f /nrc r..c fattorizzazione variabile Y variabile X y1 y2 y3 … yc totale x1 f11 f12 f13 … f1c f1. Nelle applicazioni reali si x2 f21 f22 f23 … f2c f2. riscontrano raramente x3 f31 f32 f33 … f3c f3. situazioni di completa …... … … indipendenza statistica in f… ij ….. xr fr1 fr2 fr3 … frc fr. una tabella a doppia totale f.1 f.2 f.3 f.c n entrata Pertanto esiste indipendenza tra due caratteri se le frequenze relative delle distribuzioni condizionate sono uguali tra loro e sono uguali alle frequenze marginali relative 355 RELAZIONI STATISTICHE TRA COPPIE DI VARIABILI: LA DIPENDENZA Se al variare delle modalità/intensità di un carattere si modificano le distribuzioni condizionate di un altro, i caratteri si dicono STATISTICAMENTE DIPENDENTI. La scelta dell’indice di dipendenza da applicare dipende dal tipo di variabili per le quali si vuole studiare l’eventuale associazione. 356 DUE IMPORTANTI TIPI DI DIPENDENZA In senso assoluto o in distribuzione DIPENDENZA In media (di tipo lineare) 357 INDIPENDENZA e DIPENDENZA A) INDIPENDENZA ASSOLUTA o IN DISTRIBUZIONE (VALE PER CARATTERI SU SCALA DI QUALUNQUE TIPO) La studio con: * INDICE CHI QUADRATO * INDICE QUADRATICO DI CONTINGENZA Q E’ IL GRADO PIU’ FORTE DI INDIPENDENZA B) INDICE DI DIPENDENZA IN MEDIA (ALMENO UN CARATTERE E’ QUANTITATIVO) La studio con: * RAPPORTO di CORRELAZIONE ETA C) INDICE di DIPENDENZA IN MEDIA di TIPO LINEARE (ENTRAMBI I CARATTERI DEVONO ESSERE QUANTITATIVI) La studio con: * COEFFICIENTE DI REGRESSIONE p * INDICE di DETERMINAZIONE LINEARE r2 * COEFFICIENTE DI CORRELAZIONE r D) INDICE di COGRADUAZIONE rho di SPEARMAN (ENTRAMBI I CARATTERI DEVONO ESSERE QUALITATIVI ORDINALI) La studio con: * COEFFICIENTE rho di SPEARMAN 358 A) INDIPENDENZA ASSOLUTA O IN DISTRIBUZIONE Esempio: connessione tra due caratteri su scala nominale Distribuzione di 500 pazienti secondo il sesso e l’abitudine al fumo Dati assoluti N. siga re tte Sesso Tota le pro-die M F nessuna 60 90 150 1-10 90 60 150 oltre 10 150 50 200 Tota le 300 200 500 Dati relativi parziali distribuzioni % per sesso N. siga re tte Sesso Tota le pro-die M F nessuna 20 45 30 1-10 30 30 30 oltre 10 50 25 40 359 Tota le 100 100 100 La trasformazione da frequenze assolute in relative parziali consente di verificare l’esistenza di connessione tra i due caratteri. Se i due caratteri non fossero connessi la tabella delle frequenze relative parziali dovrebbe essere uguale alla totale. Cioè: N. siga re tte Se sso Tota le pro-die M F nessuna 30 30 30 1-10 30 30 30 oltre 10 40 40 40 Tota le 100 100 100 La tabella di frequenze assolute diventa: N. siga re tte Se sso Tota le pro-die M F nessuna 90 60 150 1-10 90 60 150 oltre 10 120 80 200 Tota le 300 200 500 360 Cioè dalla tabella delle frequenze assolute si esegue il prodotto dei totali marginali di riga e della colonna corrispondente, dividendo per il totale: Es.: (300 * 150) / 500 = 90 x \ y y1 … yj … tot x1 f11 … f1j … f1. … … … … … … xi fi1 … fij … fi. … … … … … … tot f. 1 … f. j … f.. = n Fij = f. j * fi. f.. Le Fij sono le frequenze teoriche nell’ipotesi di assenza di connessione o associazione. cij = fij – Fij sono chiamate contingenze 361 La tabella delle contingenze dell’esempio è: N. sigarette Sesso Totale pro-die M F nessuna -30 30 0 1-10 0 0 0 oltre 10 30 -30 0 Totale 0 0 0 362 MISURA DELLA DIPENDENZA IN SENSO ASSOLUTO TRA I DUE CARATTERI: CHI QUADRATO I J cij2 χ2 = Σ Σ i=1 j=1 Fij χ2 = (-30)2/90 + 302/60 + 0 + 0 + 302/120 + (-30)2/80 = 42,75 L’indice χ 2 assume valori tra 0 e + infinito. 0 corrisponde alla indipendenza assoluta. 363 IN SINTESI: Per accertare l’esistenza di una relazione tra due caratteri si confrontano le frequenze osservate con quelle attese in caso di indipendenza. La differenza tra la frequenza osservata e quella attesa (teorica) è denominata contingenza. Gli indici statistici in grado di evidenziare l’indipendenza di un carattere statistico da un altro sono basati sulle frequenze osservate e teoriche e sono denominati indici di connessione: essi assumono valori tanto più piccoli quanto più esiste indipendenza tra i caratteri investigati. 364 Indice χ di Pearson 2 r n χ= ∑ Cij2 2 ∑ i=1 j=1 Impossibile v isualizzare l'immagine. Fij L’indice di Pearson ha le dimensioni di una frequenza assoluta. Si deve calcolare sulle frequenze assolute e non su quelle relative. Ammette valore minimo 0 nel caso di indipendenza tra le due variabili, ma il massimo dipende da n. L’indice preso da solo non ha molto significato se non viene riportato al valore massimo che l’indice può assumere o a differenti situazioni temporali o spaziali. L’indice pone a denominatore le frequenze teoriche; se le frequenze teoriche sono molto piccole in alcune celle, l’indice può presentare valori molto grandi dovuti all’influenza di queste celle. Ecco perché le frequenze teoriche delle celle devono essere pari ad almeno 5 (se sono inferiori si possono raggruppare le unità). 365 Indici normalizzati Il Chi-quadrato dipende dalla numerosità del collettivo e dal numero di modalità dei due caratteri. E’ opportuno eliminare tale influenza e ricorrere agli indici normalizzati. 366 Indice di Contingenza Quadratica Media Per eliminare l’influenza del numero delle unità, spesso si considera l’INDICE DI CONTINGENZA QUADRATICA MEDIA: che è un INDICE NORMALIZZATO (non dipende dalla numerosità del collettivo) e consente il confronto tra situazioni con diverse numerosità della popolazione. Assume il suo valore minimo, 0, in caso di perfetta indipendenza ossia quando le frequenze osservate e teoriche coincidono. Il valore massimo è pari a 1 nel caso di tabelle quadrate 2x2, o tabelle rettangolari con una dimensione pari a 2, altrimenti è maggiore di 1. 367 Indice V di Cramer Per stabilire il grado della connessione riscontrata occorre passare dalla misura grezza ad una normalizzata, riferita al suo massimo e definita nell’intervallo 0-1. Il valore massimo del χ 2 dipende dalle dimensioni della tabella (numero di righe e di colonne che la compongono) e dal numero di casi considerati Si ottiene dal rapporto tra la contingenza quadratica media e il valore min tra (righe-1) e (colonne-1). L’indice varia tra 0 (indipendenza) e 1 (dipendenza massima). 2 Φ V= min(righe−1; colonne−1) Indice Quadratico di Contingenza di Pearson 2 2 χ Φ Q= 2 Q= 2 χ +N Φ +1 Varia tra 0 e 1. L’indice assume valore 0 nel caso di indipendenza tra i due caratteri. 368 Nell’esempio: indice quadratico di contingenza E’ funzione del χ2. χ2 Q= χ2 + N Assume valori tra 0 ed un massimo inferiore all’unità. (K-1) dove K = n. righe MaxQ = K Nel nostro esempio: 42,75 Q= = 0,28 542,75 3-1 MaxQ = = 0,81 3 369 B) DIPENDENZA IN MEDIA Esaminiamo ora i diversi aspetti della dipendenza. Il carattere considerato come dipendente (Y) è su scala quantitativa, quello esplicativo (X) su scala qualunque Y = var. quantitativa X = var. qualunque Possono esaminati aspetti di dipendenza in media. Esempio: Consideriamo la distribuzione di 20 soggetti classificati secondo i caratteri SESSO e PESO. X: sesso dello studente Y: peso in chilogrammi Progr. Studente SESSO (X) PESO ( Y) 1 M 77 2 M 81 3 F 64 … …… ….. 19 F 54 20 F 50 370 Se calcoliamo la media generale dei pesi - indipendentemente dai sessi - essa è pari a My= 65,3 kg. Notiamo però che oltre ad una media generale esistono altre due medie, una per i maschi 1My =72,9 e una per le femmine 2My=57,7. La rappresentazione in un grafico a bastoncini è la seguente: si vede che le medie parziali sono diverse tra loro quindi esiste una differenza dei pesi dovuta ai sessi, cioè esiste una qualche dipendenza tra SESSO e PESO. In grafico:. 80... PESO 70.............. 60 50................. Maschi Femmine Totale MMy=72,4 FMy=57,7 TMy=65,3 371 Per studiare la dipendenza andiamo a lavorare sulla variabilità nei pesi: si dimostra che solo una parte della variabilità del peso è dovuta alla diversità dei due sessi (M e F). Infatti si può scrivere che: σ2 T = iσ2My + σ2y/Res Var. Totale = Var. Medie + Var. Residua (attorno alle medie) dei pesi Parziali dei pesi σ2 T σ 2 i My σ2y/Res σ2 T σ2 T σ2 T Quindi: σ2 σ2y/Res i My 1 σ2 T σ2 T Da cui: σ2 i My σ2y/Res 2 Rapporto di σ2 T 1 σ2 T η y/x Correlazione Eta2 misura la frazione di varianza del carattere dipend. Y (peso) 372 imputabile al legame in media aritm. con il carattere X (sesso) In questo caso gli indici sono sensibili alle variazioni delle medie delle distribuzioni parziali del carattere dipendente al variare di quello esplicativo. Per misurare tale relazione si usa detto rapporto di correlazione che viene per comodità calcolato nel seguente modo: σ2tra medie η2 y/x = σ2 y dove: Σj(jMy-My)2f.j σ2tra medie= Σi Σj fij 10*(72,4-65,3)2 + 10*(57,7-65,3)2 58,0 20 mentre: Σ Σ (y -M ) 2f j i i y ij σ2y= Σj Σi fij (77-65,3)2+(81-65,3)2+…+(50-65,3)2 87,3 373 20 Nel nostro esempio: 87,3 = 58 + 29,3 Var. Totale = Var. Medie + Var. Residua dei pesi Parziali dei pesi (attorno alle medie) η2 y/x = 1 _ ____ 29,3 = 0,67 = 67 % 87,3 Conclusione: Quindi, in questo collettivo, il 67% della variabilità dei pesi è spiegato dalla diversità dei sessi, mentre il 33% è imputabile ad altri motivi Cioè: Il sesso “spiega” il 67% della variabilità dei pesi corporei dei soggetti indagati, mentre il restante 33% è imputabile ad altre circostanze. 374 0