Lezione 11: La Regressione Lineare Multipla PDF
Document Details
Uploaded by GlowingDrums
Tags
Summary
Questi appunti coprono gli impieghi dei modelli di regressione, in particolare la regressione lineare multipla. Vengono descritti tre diversi approcci: la verifica di relazioni di dipendenza, utilizzo esplorativo e previsionale. Infine, vengono introdotte le scelte chiave per definire un modello di regressione.
Full Transcript
LEZIONE 11: LA REGRESSIOINE LINEARE MULTIPLA Impieghi modelli di regressione: A. Controllare una relazione di dipendenza tra una variabile antecedente e una variabile susseguente, per testare delle ipotesi derivate da una teoria in merito all’influenza che una v.i.esplicativa ha sulla...
LEZIONE 11: LA REGRESSIOINE LINEARE MULTIPLA Impieghi modelli di regressione: A. Controllare una relazione di dipendenza tra una variabile antecedente e una variabile susseguente, per testare delle ipotesi derivate da una teoria in merito all’influenza che una v.i.esplicativa ha sulla v.d. Qualunque sia l’impostazione epistemologica a monte, una relazione di dipendenza è tale se le variabili sono misurate in modo indipendente, se sono in relazione asimmetrica (temporale o logica) e se non è interamente dovuta all’influenza di variabili terze. Pertanto, quando si vuole dimostrare che tra X e Y c’è una genuina relazione di dipendenza, occorre prevenire la possibile “confusione” che potrebbero portare altre variabili, dette infatti variabili confondenti. (Impostazione theory-driven) B. Uso esplorativo: individuare in un set molto ampio di variabili presenti nella matrice dati un sottogruppo di variabili che hanno impatti significativi sulla variabile dipendente. Molto spesso, questo approccio è scarsamente, o per nulla, guidato da una teoria, ma solo da alcune intuizioni generali (da cui il suo nome). La selezione delle variabili indipendenti che impattano sulla dipendente avviene perlopiù mediante procedure automatizzate che mantengono o escludono le variabili in base a criteri statistici prefissati; perciò, si parla anche di regressione “statistica” → Alto il rischio dei falsi positivi e delle stime significative ma irrilevanti. Un esempio è costituito dalla cosiddetta stepwise regression, etichetta generale che indica numerosi algoritmi. Detto in modo molto approssimativo, consiste nella seguente procedura: o si parte da una v.d. e da un set di potenziali regressori, individuati dal ricercatore; o si applica un algoritmo che prima stima il modello con la sola intercetta e poi aggiunge una v.i. alla volta se soddisfa il criterio inferenziale (di solito il p-value significativo secondo una soglia specificata dall’analista); o ad ogni passaggio successivo, oltre all’aggiunta di nuove variabili vengono anche eliminate le eventuali variabili che prima erano state inserite perché significative e che ora non lo sono più. Ciò che non va fatto è scambiare il contesto della scoperta con quello della giustificazione: una stima di un modello di regressione con finalità esplorative è un punto di inizio, con esso non si dimostrano relazioni di dipendenza; se lo si fa, si rischia fortemente di formulare spiegazioni ad hoc che potrebbero ben presto essere smentite da ulteriori ricerche. C. Impiego previsionale/diagnostico: si cerca di individuare un modello al contempo altamente predittivo, parsimonioso e stabile: predittivo perché nel complesso le variabili indipendenti devono permettere di prevedere il più possibile la v.d, parsimonioso, perché a parità di capacità predittiva trai vari modelli stimati si sceglie quello con minor numero di variabili indipendenti, quello cosiddette “strutturali”, le restanti, dette “contingenti”, essendo probabilmente connesse solo accidentalmente con la dipendente. La specificazione del modello richiede scelte ponderate circa i seguenti elementi: ◼ la variabile dipendente; ◼ la variabile esplicativa di interesse X; ◼ le variabili di controllo rilevanti, antecedenti o concomitanti, W k (le vv.ii. estranee e susseguenti vanno omesse); ◼ l’inserimento delle variabili intervenienti; ◼ l’inserimento di termini di interazione tra vv.ii; -l’inserimento di vv.ii. al quadrato. Nei due ultimi casi si aggiungono termini che producono effetti non lineari nelle relazioni tra vv.ii. e v.d. ma il modello è ancora lineare nei parametri (che si stimano con OLS). Rappresentazione grafico modello reg lineare con due vv indipendenti Geometricamente, con due vv.ii. abbiamo un piano (non una retta) di regressione che interpola la nube dei punti. I segmenti rossi indicano la distanza dei punti dal piano. L’equazione di RLM assume la seguente forma: - Y è la variabile dipendente che vogliamo prevedere - 0 è l’intercetta, cioè il valore di Y quando tutte le vv indipendenti sono uguali a zero - Ogni parametro j – coefficiente di regressione parziale – misura la variazione prodotta su Y dalla crescita di un’unità di Xj tenendo costanti le altre J-1 vv.ii. (di quanto ogni variabile indipendente influisce sul valore Y) - Xj sono le variabili indipendenti, che usiamo per prevedere Y - Errore rappresenta differenza tra il valore effettivo di Y e il valore previsto dal modello Nella regressione lineare multipla la linearità delle relazioni tra vv.ii. e v.d. comporta, oltre alla proporzionalità (cfr. quanto detto per la RLS), l’additività: la variazione apportata in Y dal cambiamento di una v.i non dipende dal valore che assumono le altre vv.ii. MODELLO DI REGRESSIONE NON LINEARE NEI PARAMETRI Per comodità indichiamo il membro a destra dell’equazione precedente con una sola lettera, (eta), e lo chiamiamo predittore lineare. In genere si definisce Modello di regressione lineare il modello Yi= i anche se vi sono termini che rappresentano vv.ii. con esponente diverso da 1 o interazioni tra vv.ii.; si può usare OLS per le stime dei . Si definisce, invece, Modello di regressione non lineare un modello in cui la relazione funzionale tra Y e il membro di destra dell’equazione è non lineare nei parametri; non si può stimare il modello con OLS. Esempio, la nota «legge di Moore»1 Più in generale, si parla di regressione non lineare quando la funzione che lega la v.d. al predittore lineare è diversa dalla funzione identità e la variabile aleatoria da cui sono estratte le osservazioni della v.d. ha una distribuzione diversa da quella normale. È comunque possibile raggruppare tutti i modelli di regressione, compreso il modello lineare, in un’unica famiglia, GLM - Generalized Linear Model (Nelder, Wedderburn 1972). Nella slide seguente scriviamo la regressione lineare nella notazione GLM. REGRESSIONE LINEARE IN NOTAZIONE GLM dove i β sono i parametri del modello relativo a una popolazione, che in genere non possiamo conoscere direttamente. Assumendo di avere a disposizione un campione probabilistico, come avviene nell’indagine survey, i parametri ignoti β sono stimati mediante statistiche campionarie, che indichiamo con “b” ES di RLM con 2 regressori Se si è scelto =0.05 la stima di b1 non è statisticamente significativa (non possiamo respingere H0: =0). Lo è invece se abbiamo fissato =0.1. Si osservi comunque che l’impatto di X1, al netto del livello di conoscenze pregresse (approssimate con il conseguimento della maturità scientifica), è molto più basso di quanto appariva con la regressione semplice: per ogni ora di studio aggiuntiva il voto aumenta in media solo di 0.032 punti 1La legge di Moore, che descrive la crescita esponenziale del numero di transistor sui chip di computer, è un esempio di modello di regressione non lineare. La relazione tra il numero di transistor e l'anno non è lineare, ma piuttosto esponenziale. Pertanto, la legge di Moore non può essere stimata utilizzando il metodo OLS. I beta standardizzati: La regressione come abbiamo detto può essere impiegata a scopi esplorativi (par. 3.3). In tal caso, oltre a individuare i parametri significativi, si vuole fare la comparazione della forza di impatto di ciascuna variabile indipendente inserita nel modello o, in altri termini, valutarne l’importanza relativa per la spiegazione della variabile dipendente. Il confronto diretto tra i b di regressione stimati è possibile solo se l’unità di misura è la stessa per tutte le variabili indipendenti. Spesso accade invece di avere indicatori dicotomici, variabili continue illimitate o limitate, variabili di conteggio ecc. quindi con unità di misura e range di variazione molto diversi. In tal caso, per una comparazione che abbia senso, occorre usare i coefficienti b standardizzati, nella letteratura anglo-sassone indicati anche come beta weights. Se le vv.ii. hanno scale diverse i b non sono direttamente confrontabili. Invece di standardizzare le vv.ii. conviene standardizzare solo i b: I b* – beta weights – indicano di quanti punti standard cambia la v.dipendente, all’aumentare di un punto standard di una v.indipendente. Si noti che i b* oltre a esprimere l’influenza della v.i. sulla v.d. incorporano anche informazioni sulle distribuzioni di X e Y. Quando è possibile, è meglio confrontare i b piuttosto che i b* PROBLEMA DELLA MULTICOLLINEARITA’ Oltre agli assunti già visti per la regressione lineare semplice, per la corretta applicazione di OLS a quella multipla si aggiunge il seguente: 6. assenza di multicollinearità (collinearità) tra le variabili indipendenti. Occorre distinguere due situazioni: ◼ perfetta collinearità: almeno una v.i. è un’esatta combinazione lineare di altre vv.ii. nel modello; in altri termini, le vv.ii. non sono tutte linearmente indipendenti Se l’assunto non è rispettato, le stime dei parametri sono indeterminate, si danno cioè infinite soluzioni. La violazione dell’assunto è di facile accertamento: semplicemente l’applicazione della tecnica non fornisce quindi alcun risultato. Si può intuire che si tratta di una situazione illogica anche senza dimostrazioni matematiche. Supponiamo di avere due vv.ii. X1 e X2 in matrice dati: la seconda, per un errore, è la copia della prima nella matrice, a cui è stato dato però un nome diversi. Stimare l’impatto della variazione unitaria di X1 su Y tenendo ferma X2 (la stessa variabile è fatta variare e tenuta costante allo stesso tempo!) semplicemente sarebbe un nonsense. (→AUDIOSLIDES algebra delle matrici II) ◼ elevata collinearità/collinearità imperfetta: le vv.ii. sono linearmente indipendenti ma la correlazione tra due o più vv.ii. è così elevata da rendere scarsa l’informazione apportata da una v.i. rispetto alle altre, risultati incerti e instabili, cioè può essere molto alta la loro varianza. Inoltre, gli errori standard in condizioni di quasi-collinearità tendono a essere molto elevati e ne consegue maggior probabilità di conservare H0 e avere intervalli di confidenza molto ampi (incertezza). Rappresentazione di perfetta multicollinearità I punti distribuiti verticalmente rispetto alla bisettrice del piano (ossia la retta X1 =a + bX 2) sono ben interpolati non solo dal piano qui rappresentato ma dagli infiniti piani che contengono quella bisettrice. X 2 non aggiunge alcuna informazione per predire Y rispetto a quella contenuta in X1. Controllo multicollinearità : il rischio di quasi-collinearità va sempre monitorato mediante appositi indici diagnostici. Tra i più usati nella pratica della ricerca troviamo: →Indice di tolleranza: indica la quota di varianza di una v.i. X k non spiegata dagli altri regressori (1 – R2-k). Nella situazione ideale, di perfetta indipendenza tra i regressori, l’indice tende a 1 per ciascuno di essi. Se la tolleranza è bassa (es. 0.15) siamo in una situazione di elevata collinearità e occorre valutare possibili rimedi. →Variance inflaction index: è il reciproco della tolleranza 1/(1 – R2-k). Il valore soglia di attenzione è variabile a seconda del numero di casi, di variabili e altri fattori; Esso quindi non aggiunge informazione rispetto al primo: se usare il primo o il secondo è una questione di abitudine. Nella pratica, si considerano buoni valori del VIF al di sotto della soglia “5”; valori compresi tra 5 e 10 sono da considerarsi sintomo di moderata collinearità a cui prestare attenzione; con valori superiori a 10 si consiglia di intervenire sicuramente. Conseguenze multicollinearità ➔ Perfetta collinearità: le stime dei parametri sono indeterminate (ci sono infinite soluzioni); la RLM non fornisce quindi un risultato. Infatti, ricordando che b = ( X′X )-1 X′y , se la matrice X non è di rango pieno, cioè se le variabili non sono tutte linearmente indipendenti, il prodotto X′X non è invertibile. → rimedio: rimuovere una della variabili linearmente dipendente dalle altre. Se ad es. abbiamo inserito tutti i regressor i indicatori di una v.i. categoriale ne togliamo uno che diventa categoria di riferimento. (testo trappola vv dummy2) ➔ Elevata collinearità: inserire in un modello di regressione una v.i. che genera elevata collinearità significa chiedere la stima di un parametro in più senza aggiungere sufficiente informazione. Le stime in questo caso sono determinate, ma sono caratterizzate da elevata incertezza e instabilità. La bontà del modello invece non ne risente. Rimedi: - rimuovere una o più vv.ii.; - sintetizzare in un indice due o più variabili che possono essere viste come indicatori di un concetto comune; - assegnare la varianza comune a una v.i. e rimuoverla dalle altre; a tal fine è possibile usare la regressione oppure l’analisi in componenti principali (che descrive un set di K variabili correlate mediante M componenti tra loro ortogonali, M K). 2 Multicollinearità perfetta sorge quando si usano delle variabili dummy ottenute da codifica disgiuntiva completa di variabili categoriali (regressori indicatori). Date k modalità della variabile categoriali, in una sola delle quali ricade ciascuna osservazione, se vengono inserite nel modello K variabili dummy corrispondenti (indicanti a quale modalità appartiene ciascuna osservazione) e se nel modello è inserita anche l’intercetta (come convenzionalmente si fa), allora la regressione fallirà a causa di collinearità perfetta. Questa situazione è nota come “trappola delle variabili dummy”. Per ovviare al problema si deve togliere o l’intercetta o una dummy. Convenzionalmente si lascia il termine intercetta e si toglie un regressore indicatore: la modalità omessa diventa categoria di riferimento; il valore medio su Y delle osservazioni appartenenti alla categoria di riferimento è costituto dall’intercetta, b0. Se poi togliamo l’intercetta e reinseriamo il regressore indicatore precedentemente omesso, il coefficiente di quest’ultimo avrà lo stesso valore che prima era di b0. RLM CON V.I. QUALITATIVA POLITOMICA Come anticipato, anche una v.i. qualitativa politomica può essere inserita in un modello di regressione lineare. Riprendiamo l’esempio del reddito e consideriamo l’impatto esercitato dallo status occupazionale (v2), variabile categoriale a tre modalità che ricodifichiamo in tre regressori indicatori. Scegliamo XPUB (dipendenti pubblici) come categoria di riferimento e inseriamo nel modello XPRIV e XAUT. Scriviamo l’equazione: Ŷ = b0 + b1 XPRIV + b XAUT - b0 si interpreta come il valore Ŷ dei casi appartenenti alla categoria di riferimento ‘dip.pubblici’, - b1 esprime la differenza tra il valore Ŷ della categoria ‘dip.privati’ e quello della categoria ‘dip.pubblici’; - b2 è la differenza tra ‘lav.autonomi’ e ‘dip.pubblici’. Si possono confrontare anche i due gruppi ‘lav.autonomi’ e ‘dip.privati’. Ricapitolando: b 0= ŶPUB(RIF) (reddito medio dip.pubblici) b1= ŶPRIV - ŶPUB(RIF) b2= ŶAUT - ŶPUB(RIF) b2-b1= ŶAUT - ŶPRIV Applicando il modello ai dati otteniamo le seguenti stime dei parametri di regressione lineare: Y =2377 + 531 · Xpriv + 980 · Xaut b0=2377 stima il valore medio di y nella categoria di riferimento, costituita dai ‘dipendenti pubblici’. b1=531 stima quanto guadagnano in media i dip. privati più di quelli pubblici. b2=980 stima quanto guadagnano in media gli autonomi in più dei dip. pubblici. b2-b1 = 980-531 = 449 stima quanto guadagnano in media gli autonomi in più dei dip. privati. Modello con un regressore continuo uno dicotomico Modello additivo vs Modello moltiplicativo