REGRESSIONE SEMPLICE E OLS PDF

LEZIONE 10: LA REGRESSIONE Con il termine regressione indichiamo, in generale, una famiglia di tecniche finalizzate a spiegare o predire una o più variabili dipendenti(variabile effetto) sulla base di una o più variabili indipendenti (o variabili esplicative). Non tratteremo la regressione multivariata, ossia con due o più vv.dd. (ad es. come gli studenti hanno risposto a due test – vv.dd. – a seconda di quanto hanno studiato, delle conoscenze pregresse ecc. – vv.ii.). Esamineremo alcuni modelli di regressione univariata, sia semplice (con una sola v.i. X) dove y=f(x) sia multipla (con K vv.ii. Xk) dove y = f(x1, x2, x3, xk). Distribuzione di - Y= pratica sport con continuità (dip) - X= sesso (ind) La regressione mostra come la distribuzione di Y varia fra due o più sottogruppi, individuati dalle modalità di una o più vv.ii. Ad esempio: si suppone di aver rilevato in un campione di persone la variabile Y “praticare sport continuativamente”. Incrociando la v.d. ‘pratica sportiva continuativa’ con la v.i. ‘sesso’, entrambe dummy, otteniamo due distribuzioni di frequenze condizionate di Y, che indichiamo con le espressioni: freq(Y | X = 0), freq(Y | X = 1). → frequenza di Y (si sottintende la modalità 1) quando X=0” e “frequenza di Y quando X=1 Se il campione è casuale parliamo di distribuzioni di probabilità condizionate di Y e scriviamo: Pr(Y | X = 0) , Pr(Y | X = 1) → “probabilità che Y accada quando X=0” e “probabilità che Y accada quando X=1”. Il grafico mostra che tra le due variabili c’è una associazione statistica che possiamo quantificare in modo preciso. Un semplice indice di associazione per variabili dicotomiche è d, la differenza tra frequenze relative: d = 0,323-0,221 = 0,102. d varia tra -1 (perfetta relazione inversa) e +1 (perfetta relazione diretta), assume valore 0 quando le variabili sono del tutto indipendenti. Possiamo interpretare d come coefficiente di regressione di Y su X, cioè come dipendenza statistica della pratica sportiva dal sesso. Il coefficiente di regressione ci dice allora quanto varia in media la propensione a praticare sport regolarmente quando si passa a considerare un soggetto dell’altro sesso: nel nostro esempio, la probabilità di un maschio a praticare sport regolarmente è mediamente più alta, precisamente di 0,102 rispetto a una donna. Funzione di regressione: Descrive il modo in cui la distribuzione di Y (di frequenza o di probabilità), o la sua media se è cardinale, varia fra due o più sottopopolazioni individuate combinando i valori assunti da una o più variabili indipendenti X. È una rappresentazione dell’insieme dei valori ai quali siamo effettivamente interessati - K il numero di vv.ii, - X la lista ordinata di vv ii (X1, X2, … XK) - x la lista ordinata dei valori delle vv ii (es J valori per X1, H per X2 ecc.), Questa è la forma più completa di funzione di regressione, ma di solito portiamo l’attenzione su un indice sintetico della distribuzione di probabilità di Y. In particolare, quando Y è cardinale siamo più interessati al suo valore medio(valore atteso) per ciascuna combinazione di vv.ii.: E(Y | X = x ). Più spesso si ricorre a modelli di regressione che sono rappresentazioni semplificate delle funzioni di regressione (sono cioè meta-funzioni). Il modello è una rappresentazione stilizzata dell’impatto delle variabili indipendenti sulla dipendente. Quando i sottogruppi individuati dalle combinazioni delle modalità delle vv.ii. sono troppi ricorriamo a modelli, ossia rappresentazioni matematiche astratte delle funzioni di regressione Esempio: Funzione di regressione: E(Y | X1 = xj , X2 = x h ) dove: - X1 è l’età da 20 a 79 anni compiuti - X2 sono le 5 macro regioni Il grafico suggerisce di esprimere la relazione tra la Y e le vv.ii. con una funzione polinomiale di II grado dell’età, con intercetta variabile a seconda della macroregione di residenza. In pratica, in questo caso si specifica un modello comprendente 7 parametri ignoti che, una volta stimati, si usano per riprodurre i valori medi di Y per ciascuno dei 300 gruppi (età × regioni). Combinando i valori osservati delle variabili X1 e X2 con i sette parametri del modello di regressione prescelto si generano E(Ŷ| X1 = xj , X2 = x h), cioè le stime dei 300 possibili valori medi della funzione di regressione. Le stime risultano simili ai corrispondenti valori osservati e offrono una descrizione nitida e parsimoniosa del fenomeno di interesse. Criteri di scelta tra modelli e significato di linearità La scelta del modello di regressione più appropriato per approssimare la funzione segue i criteri classici della ricerca scientifica: considerazioni teoriche esperienza maturata in ricerche precedenti esplorazione mediante test, rappresentazioni grafiche ecc. In genere si parte dai modelli più semplici, quelli lineari; se risultano inadeguati a rappresentare i dati si passa a modelli più complessi. Se c’è una sola v.i. il concetto di linearità si traduce in proporzionalità del variare di Y al variare di X; con più vv.ii. la linearità comporta inoltre l’additività degli impatti delle vv.ii. su Y. LA REGRESSIONE LINEARE NORMALE Y: voto esame matematica (dip) X: ore di studio aggiuntive alle lezioni (ind) Ogni osservazione i-esima è quindi caratterizzata da due valori, uno sulla variabile X e l’altra sulla variabile Y. In un piano cartesiano le coppie di valori xi e yi sono le coordinate di un punto. Occorre individuare i valori dei parametri della retta che interpola al meglio i punti rappresentati nel diagramma di dispersione (scatterplot). L’effetto esercitato in media da X su Y si assume proporzionale, con intensità e segno costanti per tutto il campo di variazione di X: Y/ X = costante. Si parla in questo caso di regressione lineare semplice, e il modello è rappresentato dalla seguente equazione: Dove b0 e b1 sono i parametri della retta che rappresenta al meglio nel complesso i punti rappresentati nel diagramma di dispersione. In questo es l’intercetta b0 rappresenta la stima del valore medio del voto all’esame di matematica per coloro che non hanno dedicato alcuna ora di studio; il coefficiente b1 invece è la stima di quanto cresce in media il voto all’esame, andando ad aggiungersi a b0 per ogni ora di studio in più In particolare: - ŷi indica il valore predetto dal modello per ciascun caso, di norma non coincide con il valore effettivamente osservato yi, perché un modello è una rappresentazione stilizzata della realtà, con la quale rinunciamo ai dettagli per dare una rappresentazione di insieme - b0: intercetta (y-intercept), stima del valore costante β0 - b1: coefficiente di inclinazione (slope), pendenza della retta, stima del coefficiente angolare β1 La retta può essere positiva, o anche negativa, ma in ogni caso è costante per tutti i livelli di X: la definizione di relazione lineare implica cioè il concetto di proporzionalità. Ciò non avviene per esempio quando il lato sinistro dell’equazione è un polinomio di grado due (relazione parabolica) o superiore. Il valore predetto dal modello (ŷi) e quello osservato(yi) non coincidono mai. La differenza tra i due valori è detta scarto o residuo. Il residuo (scarto) ei, cioè la distanza verticale del caso dalla retta, indica quanto la retta di regressione di Y su X sbaglia nello stimare il caso i-esimo. Anche in questo caso e(minuscolo) indica la stima dell’errore (entità ignota che si indica con la lettera ε1) Anche l’errore è una variabile aleatoria, di cui si assume una distribuzione normale con valore atteso pari a zero Pertanto, possiamo anche scrivere il modello stimato così: +ei 1A cosa è dovuto? Errore di misurazione (sistematico/accidentale), regressione=semplificazione realtà, quindi ad es numerosi fattori presenti nella realtà non sono esplicitati nel modello es in questo caso del voto (motivazione, benessere psico fisico, partecipazione gruppo di studio ecc) ej= 0 è lo scarto uguale a 0 (caso di coincidenza di stessi valori tra osservato e atteso) ek 0=scarto positivo dove il valore osservato superiore a quello predetto (pallino sopra la retta) Riassumendo yi = 0 + 1 xi + i ; E(i)=0 ; E(Yi) = 0 + 1Xi Esempio: E(votoEsame) = B0 + B1 * oreStudio - Yi  Yi dove Y è una variabile aleatoria normale. Essa è una realizzazione di una vv casuale Yi, continua o discreta, la cui distribuzione di probabilità viene definita da parametri. La v.d. y è un vettore formato dai valori di n osservazioni indipendenti della stessa variabile aleatoria Y - X è cardinale, discreta o continua, oppure dummy; nei disegni sperimentali può essere una variabile fissa (livelli scelti a priori), senza errore. - 0 e 1 sono i parametri ignoti della retta di regressione nella popolazione. Vanno stimati con formule dette stimatori (variabili aleatorie). Denotiamo con le lettere b0 e b1 le stime dei parametri b0 , b1 (in minuscolo) cioè i valori numerici ottenuti applicando gli stimatori al campione estratto. - Ɛ è l'errore o disturbo; è una variabile casuale di media 0 e varianza 2 per ciascuna i-esima osservazione. IL METODO OLS(ORDINARY LEAST SQUARES) Si pone il problema di come individuare, tra le infinte rette che interpolano una nube di punti quella migliore, la più rappresentativo. Il metodo più usato è quello dei minimi quadrati ordinari, cioè minimizzare la somma delle distanze al quadrato tra i valori osservati e quelli predetti dal modello. La miglior retta interpolatrice della nube di punti (scatterplot) è quella più vicina ai punti nel loro complesso. Sintetizziamo la grandezza dei residui attraverso la sommatoria dei loro quadrati (Residual Sum of Squares). Le stime ai minimi quadrati b0 e b1 sono quei valori che individuano la retta ai minimi quadrati, ossia quella che rende minima la RSS. FORUMULA: L’input minimo per stimare i parametri della R.L.S. è costituito dalla matrice S (Varianze Covarianze) e (salvo che i dati siano centrati rispetto alla media) dai valori medi di Y e X. Se è usata come tecnica ibrida (ad es. per salvare i residui di regressione) l’input minimo è la matrice CxV (o CxM). Applicando OLS, otteniamo le seguenti stime 2dei parametri (la formula di ricostituzione è l’equazione della retta): 2ES b0=19.6 e b1=0.09, si può dire che gli studenti che non hanno aggiunto alcuna ora di studio in più al valore minimo del campione (40h) hanno preso in media un voto pari a 19.6 su 30, invece per ogni ora di studio in più si guadagnano in media 0.09 punti (ad es 10h di studio in più= 0.09*10= 0.9+ 19.6= 20.5 voto finale) Var(Y) è la matrice bersaglio da approssimare con Var(Ŷ). Gli altri dati servono a stimare i parametri ma non sono parte del bersaglio, costituiscono il supporto. ***ES EXCEL MINIMIZZAZIONE OLS Applichiamo la formula per minimizzare RSS facendo le derivate parziali e ottenendo le stime dei parametri b0 e b1 Più aumento b0/b1→ più aumenta RSS RLS: Tecnica di Analisi dei Dati con supporto Consideriamo il caso più completo, in cui usiamo la RLS come tecnica ibrida: RLS in notazione matriciale: Riprendiamo l’equazione di base yi = b 0 + b1xi + ei e consideriamo per semplicità solo tre ipotetiche osservazioni. La soluzione ai minimi quadrati ordinari si ottiene mediante la seguente operazione matriciale: b = ( X′X )-1 X′y che applicata ai nostri dati fornisce le seguenti stime: b 0=0.67 e b1=2.00 (***EXCEL CALCOLO MATRICIALE) ASSUNTI PER UNA CORRETTA APPLICAZIONE DI OLS 1. X e Y sono variabili casuali identicamente e indipendentemente distribuite (i.i.d.); 3(ciò è vero se si attua una campionamento casuale semplice con reinserimento da un’unica, ampia e invariata popolazione, nel caso della survey si procede senza reinserimento). Ciò significa che le modalità osservate su ciascun caso sono realizzazioni indipendenti di due vv aleatorie la cui distribuzione congiunta è invariata 2. Il regressore è indipendente dall’errore →E(i|X i) = 0 , ossia per csc. livello di X l’errore ha media nulla(il valore atteso dell’errore per ciascun livello della variabile X è pari a 0); Xi, e Yi di cui xi e yi sono realizzazioni, sono variabili i.i.d. identicamente e indipendentemente distribuite. Ciò significa che le modalità osservate su ciascun caso sono realizzazioni indipendenti di due variabili aleatorie la cui distribuzione congiunta è invariata. La verifica non è necessaria solo se la v.i. è misurata con una quantità di errore minima: ciò accade nelle scienze naturali o negli esperimenti di laboratorio in cui lo sperimentatore sceglie accuratamente i livelli della variabile-trattamento (v.i.). Le variabili misurate con la survey, in particolare quelle relative alle proprietà soggettive, sono cariche di errore (dovuto allo strumento, all’incertezza intrinseca ecc.). La tenuta/violazione dell’assunto può essere esaminata attraverso il grafico “residuals vs fitted values” dove i casi sono collocati in un piano cartesiano (ascisse= stime della v.i Y e sulle ordinate=i residui e) in caso di indipendenza i punti si distribuiscono sopra e sotto la linea orizzontale che rappresenta il valore 0 dei residui. Se tale assunto non è soddisfatto la stima dei parametri b1 è distorta; occorre allora apportare modifiche al modello della R.L. Le soluzioni possono essere varie, anche se non sempre tutte praticabili: - inserire nel modello altre vv.ii. rilevanti presenti in matrice dati; - inserire, se disponibile, una IV – Instrumental Variable, rilevante (correlata a X) ed esogena (non correlata all’errore) che serve solo a catturare la covarianza tra la X e l’errore, depurando così la variazione di X; al posto di OLS si userà il metodo dei Minimi quadrati a due stadi - usare i Minimi quadrati ortogonali al posto di OLS; -usare tecniche di analisi con cui si «modella» tale covarianza (es. Structural Equation Models) 3. Xi e Yi hanno curtosi finita→ Gli outliers sono improbabili , ovvero osservare valori estremamente lontani dalla media delle loro distribuzioni (ciò non accade ad es. in presenza di accentuata leptocurtosi, curva più schiacciata vs il centro rispetto a una normale). La tenuta/violazione dell’assunto può essere valutata mediante uno specifico grafico ma è meglio, soprattutto se i casi sono molti, a indici specifici di cui sono dati in letteratura i valori soglia. Uno dei più usati è il “Residuals vs leverage” che misura la Distanza di Cook. I casi che presentano un valore su questo indice superiore a 4/(n-2) =0.5, hanno una forte influenza sulle stime dei parametri. Se presenti, compaiono nell’angolo in alto o in basso a destra, aldilà di una o due linee curve tratteggiate rosse.. È necessario in tal caso ricorrere a scelte diverse nel modello Interventi in caso di outliers influenti: - Correggere gli eventuali dati immessi in modo erroneo (wild code check) - Togliere gli outliers e ristimare il modello; se vi sono variazioni significative nella pendenza e nella bontà del modello, ometterli definitivamente dal modello ed esaminarli a parte - Usare una «regressione robusta» (assegnando pesi minori ai casi influenti) - Riformulare il modello lineare introducendo più variabili indipendenti (se queste sono presenti nel dataframe ) - Passare a un modello non lineare 3 Quando X e Y non sono iid? Può essere sul campionamento a grappoli, ci sono diverse posizioni. Oppure nel campionamento sistematico, quando per es abbiamo una lista di campionamento, individuiamo un passo di campionamento (es 6 individui) e iniziamo a campionare. Qui non abbiamo indipendenza, perché dopo aver estratto il primo individuo, gli altri hanno probabilità 0 essere estratti. È intuitivo che le osservazioni svolte in tal modo non hanno tutte lo stesso grado di indipendenza come nell’estrazione casuale da un’unica lista. → teorema limite centrale: la media delle osservazioni di una vv iid tende asintoticamente alla distribuzione normale (requisito per applicazione procedure inferenziali) Gli outliers possono essere: - Anomalia (Discrepancy) di yi|Xi: l’osservazione yi ha un valore atipico dato il livello di X - Eccentricità (Leverage) di xi: valore atipico di X, distante da E(X); - Influenza (Influence): Leverage & Discrepancy; può portare a una stima fortemente distorta di 1 Indici per l’individuazione degli outliers (*)Alcuni testi indicano questa soglia (oppure ≥ 4/n) che però, con campioni ampi, segnala troppi casi come outliers; altri indicano soglie diverse, perlopiù fisse. Nei grafici Residual vs. Leverage prodotti da molti software (tra cui R), si indica ad esempio Di>0.5 o, più restrittivamente, Di>1. Grafico Residuals vs Leverage Nel Case 1 non sono segnalati casi influenti (non compaiono linee tratteggiate rosse); nel Case 2 c’è un outlier, l’osservazione n. 49, che ha un valore elevato, Di >> 1. Sotto questi tre assunti, gli stimatori OLS sono corretti (unbiased); inoltre, in grandi campioni (n>30), hanno distribuzioni campionarie asintoticamente normali per cui è possibile effettuare i classici test di ipotesi e stime intervallari sui parametri. La tenuta degli assunti si controlla con l’esame di grafici dei residui e test statistici →test di specificazione del modello. 4. Gli errori sono distribuiti normalmente: In ogni caso la violazione di questo assunto non ha particolari conseguenze se il campione è grande (come spesso capita nell’indagine survey). Il grafico Normal Q-Q consente di valutare questo assunto, che mette infatti a confronto i quantili della distribuzione empirica dei residui standardizzati (in ordinata) con i quantili della distribuzione normale (in ascissa). Se è confermato l’assunto, la distribuzione empirica presenta valori simili a quella teorica e i punti, come accade nel nostro esempio, sono allineati lungo la linea tratteggiata. 5. Var(i|Xi)=𝛔2: omoschedasticità. Se vale questo assunto gli stimatori OLS sono efficienti. La varianza degli errori è costante per qualunque livello Xi. Questo assunto è detto dell’omoschedasticità. La tenuta/violazione dell’assunto può essere esaminata attraverso il grafico “squared standard residuals vs fitted values” (o “spread location plot”). Questo diagramma mostra se i residui, espressi in valori assoluti standardizzati e sotto radice, si distribuiscono con eguale ampiezza ai vari livelli del regressore. Più i residui sono piccoli, più si collocano in prossimità dell’asse delle ascisse; ciò che però conta per verificare la tenuta dell’assunto di omoschedasticità è che in massima parte si distribuiscano casualmente in una “fascia” verticale di ampiezza fissa e la linea che li interpola sia perciò il più prossima possibile a una retta orizzontale (fig. 9a – omoschedasticità- linea retta); quanto più la retta è inclinata (positivamente o negativamente) tanto più ci si allontana dalla condizione ideale (fig. 9b - eteroschedasticità). In caso di eteroschedasticità(ossia quando al varianza degli errori è variabile) si dovrebbe ricorrere ai Weighted Least Squares. Si può utilizzare anche il grafico scale-location. Tuttavia, poiché i principali software statistici calcolano errori standard degli stimatori robusti alla eteroschedasticità, si tende a usare comunque OLS. Quando valgono i precedenti assunti, OLS produce i migliori stimatori non distorti, i cosiddetti stimatori BLUE(Best Linear Unbiased Estimators): - Lineari, perchè sono funzioni lineari delle osservazioni - Non distorti, perché il loro valore atteso coincide con il parametro da stimare - Migliori, perchè rispetto a ogni altro stimatore lineare corretto sono più efficenti INCERTEZZA DELLA STIMA DI BETA Nell’inferenza «classica» ci sono due modi per affrontare l’incertezza della stima del coefficiente di regressione: a) si valuta la significatività statistica di b con un test statistico; questo consiste in una procedura che porta a scegliere tra due ipotesi mutuamente esclusive: l’ipotesi nulla (H0: =0) e l’ipotesi alternativa (H1: 0) b) intorno alla stima puntuale b si costruisce un intervallo di confidenza(limite superiore, limite inferiore), nel quale poniamo un’elevata fiducia che contenga il vero valore . In altre parole, nel primo approccio una statistica test confrontata con una distribuzione teorica è usata per valutare in modo dicotomico (sì/no) la significatività della stima puntuale del parametro; nell’approccio della stima intervallare l’informazione fornita è maggiore in quanto si specifica una regione di valori, un continuum limitato da due estremi, contenente la stima puntuale. a)Test di significatività dell’ipotesi nulla (NHST):Il test di significatività di ipotesi statistiche dei parametri stimati, è una procedura che dal punto operativo si può riassumere nelle seguenti fasi: I. si sceglie a priori, prima di guardare i risultati, il livello di significatività critico, che indichiamo con α: questo valore rappresenta la probabilità teorica di commettere l’errore di I specie, ossia di rifiutare l’ipotesi nulla quando essa è vera. Spesso, salvo esigenze diverse, si fissa α=0.05: in tal caso, la probabilità di commettere l’errore di I specie è pari al 5%; II. si calcola sui dati campionari la statistica-test t di cui è nota la distribuzione campionaria T assumendo che H0 sia vera (T|H0); es. di ipotesi nulla nella regressione lineare semplice: H0 : β1=0. III. calcolo del livello di significatività osservato, o p-value: P(T≥t|H0); se ad esempio otteniamo un valore z=2.58 e facciamo un test bidirezionale con α=0.05, il p-value sarà pari a 0.01; la probabilità che z assuma il valore osservato (in modulo, escludendo il segno) o uno superiore quando H0 è vera è 0.01; IV. regola decisionale: se p-value < α si rifiuta H0 e si conserva H1 ; altrimenti se se p-value > α si conserva H0 e si rifiuta H1. Nell’esempio del punto 3 l’ipotesi H0 è rifiutata, perché il p-value=0.01, cioè minore di α(0.05). Usi impropri dei test di significatività - Impiego in violazione degli assunti dei «test parametrici» (esempio: non tenuta dell’assunto di normalità della distribuzione campionaria dello stimatore) - Scelta ex post del livello di significatività critico - Sopravvalutazione della capacità probante del p-value - Interpretazione del p-value come indice di forza di una relazione - Eccessiva enfasi sulla significatività statistica rispetto alla rilevanza sostanziale (teorica e/o pratica) del parametro stimato La probabilità di commettere errori di I tipo («falsi positivi») aumenta al crescere del n° di test effettuati. L’uso di dati secondari, la diffusione di calcolatori e software user-friendly, la quantofrenia del «publish or perish», incentivano la ricerca di relazioni tra variabili (fishing expedition); cresce di conseguenza la comunicazione di risultati sostantivamente irrilevanti o non confermati nelle repliche. b)Intervallo di confidenza: L’IC 4si trova combinando la stima puntuale b1 con il suo errore standard (e.s.) e un coefficiente scelto a seconda del livello di fiducia desiderato (ad es. 1.96 per 1- = 0.95 ; 1.645 per 1- = 0.90). Ad esempio, un intervallo di fiducia attorno a b1 di livello 0.95, o al 95% di probabilità è costruito in modo da contenere il vero valore di β1 nel 95% di tutti i campioni possibili. Assumendo che la distribuzione di b1 sia normale l’intervallo desiderato sarà: P(b1 – 1.96·e.s.(b 1 ) 1 b 1 + 1.96·e.s.(b 1))=0.95. Se l’intervallo comprende il valore 0 la stima puntuale non è significativa (equivale alla conservazione di H0 nel test statistico). Se l’intervallo non comprende il valore 0 la stima puntuale è significativa (equivale al rifiuto di H 0 nel test statistico). Rispetto alla logica dicotomica dei test di ipotesi, centrata sulla sola significatività, l’esame degli IC permette una valutazione più completa dei parametri stimati (vediamo quanti valori sostantivamente irrilevanti contiene l’intervallo). Domandiamoci: qual è la probabilità che il parametro β1 coincida con la nostra stima b1? Se desideriamo costruire intervalli più ristretti, con lo stesso grado di fiducia, occorre aumentare la dimensione del campione 4Es ore di studio: b1=0.09 aggiungiamo errore standard= 0.03. Livello di fiducia=0.95 → 0.09 – 1.96·0.03 ≤ β1 ≤ 0.09 + 1.96·0.03, pertanto stimiamo che il vero valore di B1 si trovi nell’intervallo 0.03, 0.15 BONTÀ DI ADATTAMENTO DEL MODELLO: R QUADRO Assumendo che X ed e siano indipendenti: Var Y = Var(Y) + Var(e). Da tale scomposizione ricaviamo una misura di bontà di adattamento (o potere predittivo) della retta di regressione stimata. Il modello più efficace è il coefficiente di determinazione R2. La bontà di adattamento del modello ai dati non va confusa con la pendenza della retta: sono chiaramente due concetti distinti, come si può vedere anche graficamente. Nella figura, osserviamo due casi in cui, a parità di inclinazione delle rette, vi è chiaramente un loro diverso potere predittivo. Assumendo che la v i e l’errore siano indipendenti possiamo scomporre la varianza osservata di y in varianza spiegata dal modello e varianza residua. La bontà del modello è tanto maggiore quanto più è elevata la quota di varianza spiegata sul totale. Quindi R2 è il rapporto tra varianza spiegata e varianza totale (o semplificando per n tra devianza spiegata e totale) L’indice R2 varia tra 0 e 1; quanto più i valori sono prossimi a uno, tanto più è elevata la bontà del modello. Un R2 pari a 0.5, per esempio, si interpreta così: il modello spiega il 50% della varianza di Y. R2 corretto si usa con la regressione multipla; la formula premia la parsimonia del modello. Mentre R2 può solo crescere all’aumentare dei parametri da stimare, R2 corretto diminuisce se si aggiunge una v.i. irrilevante. Un’alternativa è l’ errore standard della regressione, che misura l’errore medio nel predire Y; è espresso nell’unità di misura di Y. Nel nostro esempio del voto conseguito all'esame (in 30esimi), un e.s.(e) pari a 2.99 indicherebbe che in media il modello commette un errore di predizione dei veri valori del voto pari a 2.99. Perciò, quanto è più grande e.s.(e), tanto minore è il potere predittivo della retta. REGRESSIONE LINEARE SEMPLICE CON V.I. DICOTOMICA In molti casi occorre analizzare il modo con cui una v.d. cardinale è influenzata da una v.i. categoriale. Quest’ultima può essere inserita in un modello di regressione lineare dopo aver effettuato una codifica disgiuntiva completa. Il caso più semplice è quello di una v.i. dicotomica. Ad es. possiamo studiare quanto il reddito (Y) dipende dalla v.i. Sesso. Le dummy risultanti sono dette regressori indicatori; un regressore indicatore funge da categoria di riferimento: se è presente l’intercetta, va escluso dal modello (altrimenti le stime dei parametri sono indeterminate). Assumendo la modalità «XM : maschio» come categoria riferimento il modello è: b0 è perciò il valore che Ŷ assume se i soggetti sono maschi; b1 è una quantità, positiva o negativa, che indica di quanto varia Ŷ quando il valore di X F assume valore 1 rispetto alla categoria di riferimento (è quindi la differenza media di reddito tra M e F). Talvolta conviene trasformare la v.i. cardinale in una variabile binaria, ad es. quando Ŷ varia in relazione a X solo al superamento di un valore soglia xs Ricerche condotte sul rapporto tra indice di massa corporea (BMI) e reddito percepito negli USA mostrano una relazione inversa non lineare ma «a scalino», come quella rappresentata nella figura. Dopo aver ricodificato la v.i. ‘income’ in una variabile binaria usando x s come cut off point, si sostituisce la dicotomia alla variabile originaria. REGRESSIONE LINEARE CON V.I. QUALITATIVA POLITOMICA Anche una v.i. qualitativa politomica in forma disgiuntiva completa può essere inserita in un modello di regressione lineare. Sia ad es. v2 la variabile ‘status occupazionale’ con tre modalità: v2=1 ‘dipendente pubblico’; v2=2 ‘dip. privato’; v3=3 ‘lavoratore autonomo’. La ricodifichiamo in tre regressori indicatori, tre dummies (0/1): XPUB=‘dip.pubblico’; XPRIV=‘dip.privato’; XAUT=‘autonomo’ Ciascun regressore indica se il caso appartiene o no alla modalità. Anche in questo caso omettiamo uno dei regressori che poi funge da categoria di riferimento (in alternativa, togliamo l’intercetta). Questo modello rientra nella regressione lineare multipla per cui tratteremo successivamente l’interpretazione dei parametri. Limiti dell’analisi bivariata: Anche quando si circoscrive il campo di analisi, gran parte dei fenomeni sociali si presentano come multidimensionali e dipendenti da vari fattori. La regressione semplice risulta perciò, come tutta l’analisi bivariata e quella monovariata, un passo utile ma non definitivo. Possiamo usare la regressione lineare multipla per studiare le variabili che influenzano una variabile dipendente. La dipendenza statistica di Y dalle X k non necessariamente implica un rapporto causale con quelle. Parlare di «dipendenza statistica» implica dare soltanto un ordine asimmetrico, logico o temporale, alle variabili. Per parlare di causalità nella ricerca osservazionale occorre che siano rispettati almeno i seguenti requisiti: - vi sia covarazione tra X e Y; - X sia temporalmente antecedente rispetto a Y; - si possa affermare che l’associazione statistica tra X e Y non è dovuta a una terza variabile Z. Nella ricerca sperimentale i criteri per definire «causale» una relazione sono più restrittivi (in particolare, la v.i. che rappresenta la causa, ossia il trattamento, deve essere manipolabile). Se ipotizziamo che nella relazione osservata tra X e Y giochi un ruolo la variabile Z, per chiarire in che modo possiamo ricorrere a tre modelli. Modelli di relazione spuria (→file excel) 1. Relazione apparente: Introducendo e tenendo ferma la terza variabile, extraneous, la relazione si attenua o scompare 2. Relazione soppressa: Relazione inizialmente assente o debole; appare o si rafforza quando introduciamo la terza variabile, suppressor 3. Relazione rovesciata: Introducendo la terza variabile, distorter, la relazione cambia segno Stima dell’impatto netto di una v.i. Riprendiamo la relazione tra ‘ore di studio’ e ‘voto all’esame di matematica’. Se vogliamo studiare a fondo l’impatto della prima variabile sulla seconda, occorre tener conto che entrambe sono probabilmente influenzate dalle ‘conoscenze pregresse’ degli studenti. Per stimare l’impatto netto che le ore di studio hanno sul voto all’esame, occorre perciò depurare 1 dall’impatto spurio dovuto a una variabile confondente quale può essere ‘conoscenze pregresse’.  1 =  +  Classificazione delle variabili secondo il loro ordine logico-temporale rispetto a X e Y Distinguiamo un impatto indiretto di X su Y, mediato da variabili intervenienti, e un impatto diretto, non mediato. La loro somma è detta impatto totale di X su Y. Variabile antecedente: è un fattore o una condizione che precede e influenza una variabile dipendente. È una variabile che si verifica prima e causa o contribuisce al risultato di interesse. Variabile concomitante: presente contemporaneamente alle variabili indipendente e dipendente e può influenzare la relazione tra di esse. È una variabile che esiste accanto ad altre variabili e potrebbe potenzialmente influenzare il risultato. Variabile interveniente: si interpone tra le variabili indipendente e dipendente e ne influenza la relazione. È una variabile che funge da mediatore o moderatore, influenzando il modo in cui la variabile indipendente influenza la variabile dipendente. Variabile susseguente: influenzata dalla variabile dipendente Variabile estranea: non correlata alle variabili indipendente o dipendente e non influenza la relazione tra di esse. È una variabile che non è pertinente allo studio e dovrebbe essere controllata o eliminata. *Per stimare l’impatto totale (diretto +indiretto) di X su Y non dobbiamo inserire variabili intervenienti. Le inseriamo per stimare il solo impatto diretto (altre tecniche di analisi permettono di stimare contemporaneamente impatti diretti e indiretti)

REGRESSIONE SEMPLICE E OLS PDF

Document Details

Tags

Related

Summary

Full Transcript