Regressione e Statistica Multivariata PDF
Document Details
Uploaded by ReverentCarnelian4567
Università degli Studi 'G. d'Annunzio' Chieti-Pescara
Tags
Summary
These are lecture notes on regression and multivariate statistics. The notes cover various types of regression, including linear and logistic regression. It details the formulas, interpretation of coefficients, and when to use different types.
Full Transcript
Regressione e Statistica multivariata Regressione Che cosa è? È una tecnica utilizzata per capire la forma della relazione che intercorre Può avere un’unica variabile di esposizione (regressione semplice) o può avere più variabili di esposizione (regressione multipla) → questa te...
Regressione e Statistica multivariata Regressione Che cosa è? È una tecnica utilizzata per capire la forma della relazione che intercorre Può avere un’unica variabile di esposizione (regressione semplice) o può avere più variabili di esposizione (regressione multipla) → questa tecnica è la tecnica principale della statistica multivariata Regressione Perché viene utilizzata? Per stimare e prevedere il valore che assume la variabile di outcome in corrispondenza di una combinazione di valori assunti dalla/dalle variabili exposure Capire se e quanto ciascuna variabile influisce sull’outcome Controllare per i fattori di confondimento e valutare l’interazione Regressione Le variabili di exposure vengono dette «variabili esplicative» o «variabili predittive» o «regressori» (sono l’insieme delle variabili indipendenti) La variabile di outcome è la variabile dipendente e spesso viene chiamata anche «variabile risposta» Regressione In base alla tipologia della variabile dipendente esistono vari tipi di regressione: Regressione lineare (la variabile è quantitativa continua) Regressione logistica (la variabile è dicotomica) Regressione logistica multinomiale (la variabile di outcome è policotomica) Regressione logistica ordinale (la variabile è ordinale) Regressione di Poisson (la variabile è quantitativa discreta) Regressione di Cox (time-to-event, variabile dicotomica+tempo) Regressione lineare La formula della retta di regressione lineare è data da: 𝑌 = 𝛽 + 𝛽 𝑋 + 𝛽 𝑋 +⋯+ 𝛽 𝑋 + 𝜀 Y→VARIABILE DIPENDENTE 𝑋 … 𝑋 →VARIABILI INDIPENDENTI 𝛽 →INTERCETTA 𝛽 … 𝛽 →COEFFICIENTE DI REGRESSIONE 𝜀 →ERRORE Regressione lineare Ci sono dei casi in cui non è opportuno stimare un modello di regressione lineare: 1. Quando attraverso lo scatterplot costruito con la variabile dipendente e quella indipendente osserviamo questa distribuzione a imbuto Regressione lineare Ci sono dei casi in cui non è opportuno stimare un modello di regressione lineare: I punti nella parte sinistra del grafico sono piuttosto vicini alla retta Più ci spostiamo verso destra più si scostano Regressione lineare Ci sono dei casi in cui non è opportuno stimare un modello di regressione lineare: 2. Quando la distribuzione dei dati non ha un andamento lineare Regressione lineare 90,0 85,0 y = 0,4075x + 4,9953 80,0 75,0 La retta verde è detta retta di Peso 70,0 65,0 regressione 60,0 𝛽 55,0 50,0 150,0 160,0 170,0 180,0 190,0 200,0 (in particolare questa è una retta di Altezza regressione lineare semplice) Regressione lineare 𝛽 intercetta (4,9953) 90,0 85,0 y = 0,4075x + 4,9953 80,0 è il valore in ordinata del punto di 75,0 intersezione tra la retta e l’asse Peso 70,0 65,0 delle ordinate 60,0 𝛽 55,0 50,0 150,0 160,0 170,0 180,0 190,0 200,0 Altezza Regressione lineare L’intercetta è un valore che tendenzialmente sarà sempre positivo L’intercetta però può essere tolta e possiamo decidere quindi di stimare un modello che ha inizio dal punto di origine (0,0) → 𝑌 = 𝛽 +𝛽 𝑋 + 𝛽 𝑋 + ⋯+𝛽 𝑋 + 𝜀 → 𝑌 = 𝛽 𝑋 + 𝛽 𝑋 + ⋯+ 𝛽 𝑋 + 𝜀 Regressione lineare 𝛽 coefficiente di regressione 90,0 (0,4075) 85,0 y = 0,4075x + 4,9953 80,0 misura il cambiamento medio nella 75,0 𝛽 variabile dipendente per una unità Peso 70,0 65,0 di incremento nella variabile 60,0 dipendente 55,0 50,0 150,0 160,0 170,0 180,0 190,0 200,0 All’aumentare dell’altezza di 1 Altezza centimetro il peso aumenta in media di 0,4075kg Regressione lineare I coefficienti di regressione possono assumere valori: Positivi: all’aumento unitario del regressore corrisponde un aumento della variabile dipendente Negativi: all’aumento unitario del regressore corrisponde una diminuzione della variabile dipendente Regressione lineare Interpretazione del coefficiente di regressione quando il regressore è una variabile dicotomica: Il coefficiente di regressione misura la differenza media della variabile dipendente tra i due gruppi Regressione lineare Esempio: Peso=75.0+4.7*Sesso Prima di tutto dobbiamo aver stabilito un livello di riferimento per la variabile qualitativa (per esempio il sesso Femminile) prima di stimare il modello 4.7 significa che in media gli uomini pesano 4.7kg in più delle donne Regressione lineare Quando il regressore è di tipo qualitativo policotomico o ordinale dobbiamo trasformarlo in tante variabili dicotomiche quante sono il numero-1 delle categorie della variabile qualitativa N-1 perché una categoria è utilizzata come riferimento Un’unica variabile sarà trasformata in N-1 variabili e avremo N-1 coefficienti Regressione lineare Esempio: Peso – mangiare frutta (mai, saltuariamente, tutti i giorni) Mangiare frutta: Mai→ livello di riferimento (non ha coefficiente) Saltuariamente→ se si 1 altrimenti 0 Tutti i giorni→ se si 1 altrimenti 0 Peso=75.0-1.5*Saltuariamente-2.7*TuttiIGiorni Regressione lineare Peso=75.0-1.5*Saltuariamente-2.7*TuttiIGiorni Se un soggetto mangia frutta saltuariamente peserà in media 1.5 kg in meno rispetto a chi non la mangia mai Se un soggetto mangia frutta tutti i giorni peserà in media 2.7 kg in meno rispetto a chi non la mangia mai Regressione lineare Peso=5.0-1.5*Saltuariamente- Mai 2.7*TuttiIGiorni+0.45*Altezza Saltuariamente 5 Tutti i Le variabili qualitative traslano 5-1.5=3.5 giorni solamente la retta verso l’alto o 5-2.7=2.3 verso il basso I coefficienti vanno a sommarsi/sottrarsi all’intercetta Regressione lineare Esempio: Modello stimato utilizzato per scopo predittivo Peso=5.0 +0.45*Altezza -2.3*MangiareDolci- 0.3*MangiareFruttaSaltuariamente -1.0*MangiareFruttaSempre Per ogni nuovo soggetto posso dire quanto dovrebbe pesare, con un certo grado di errore, senza farlo realmente basta che io sappia la sua altezza e le abitudini alimentari Regressione lineare Esempio: Modello stimato utilizzato per scopo predittivo Peso=5.0 +0.45*Altezza -2.3*MangiareDolci- 0.3*MangiareFruttaSaltuariamente -1.0*MangiareFruttaSempre Il nuovo pz è alto 167.3cm non mangia mai dolci ma mangia frutta tutti i giorni →il suo peso è P=5.0+0.45*167.3-2.3*0-0.3*0-1.0*1=79,3kg Regressione lineare 𝜀 errore È la distanza tra i punti osservati e la retta (questa distanza è detta anche scarto o residuo) I coefficienti di regressione vengono stimati in modo che sia minimizzata la somma di questi errori Regressione lineare Una volta stimato il modello questo parametro non è più presente (non è un valore stimato) Ma è dato dalla differenza tra il valore di Y osservato e Y predetto (𝑌) Regressione lineare Quando stimiamo l’intercetta e i coefficienti di regressione dobbiamo fare un test di ipotesi per capire se il coefficiente è significativo oppure no Ipotesi nulla: 𝛽 = 0 Ipotesi alternativa: 𝛽 ≠ 0 Regressione lineare Se non rifiutiamo l’ipotesi nulla dovremmo scartare quella data variabile dal set dei regressori Con i dati da noi ottenuti non siamo in grado di ottenere come significativa la relazione tra quella variabile e l’outcome Regressione lineare intercetta e regressori Stime dei coefficienti p-value del test Non significativi Regressione lineare Come selezioniamo le variabili da inserire nel modello? Nella pratica clinica selezioniamo le variabili da inserire nel modello secondo i seguenti criteri: Variabili che risultano associate/differenti/correlate all’analisi univariata Regressione lineare Come selezioniamo le variabili da inserire nel modello? Nella pratica clinica selezioniamo le variabili da inserire nel modello secondo i seguenti criteri: Variabili che non risultano significative rispetto all’α stabilito ma che comunque non lo superano di molto Es. α=0.05 →prendo tutte quelle con p