Riassunto Statistiche Complesse PDF
Document Details
Tags
Summary
Questo documento presenta un riassunto completo di statistica, concentrandosi sulla regressione lineare semplice. Vengono definite le variabili dipendente e indipendente, la funzione lineare e il metodo dei minimi quadrati per la stima della retta di regressione. Vengono inoltre discussi concetti come la devianza, l'errore e il coefficiente di determinazione.
Full Transcript
Regressione Lineare Semplice La regressione lineare semplice analizza la relazione tra due variabili quantitative: una dipendente (Y) e una indipendente (X). Lo scopo è capire come la variabile Y è influenzata dalla variabile X. Modello di Regressione Lineare Semplice Il modello di regressione line...
Regressione Lineare Semplice La regressione lineare semplice analizza la relazione tra due variabili quantitative: una dipendente (Y) e una indipendente (X). Lo scopo è capire come la variabile Y è influenzata dalla variabile X. Modello di Regressione Lineare Semplice Il modello di regressione lineare semplice considera solo due variabili quantitative: una variabile dipendente e un’altra indipendente (o esplicativa). La relazione tra X e Y è descritta da una funzione lineare (equazione di regressione lineare semplice). Tale equazione fornisce una stima della retta di regressione della popolazione. Y=β0+ β1X “β0“e “β1“sono quantità costanti, dove: β0: intercetta à ossia il valore medio stimato di Y quando X=0 β1: coefficiente angolare della retta di regressione che indica quanto varia Y per una variazione unitaria di X. Nella realtà, Y è influenzata non solo da X, ma anche da altri fattori non osservati. La relazione diventa: Y= f(X)+ε Dove: o f(X) è la funzione di regressione ed esprime come il valore medio di Y varia al variare di X. o ε è l'errore, che rappresenta il contributo di tutti gli altri fattori non considerati, ma in grado di influenzare il valore. E’ una variabile casuale. L’analisi della regressione ha lo scopo di stimare la funzione di regressione e la grandezza della variabile casuale ε (errore). Yi= β0 + β1Xi + εi NB: β0 + β1Xi nella formula corrisponde ad 𝒀 ̂ teorico mentre Yi è quello empirico, cioè il valore osservato (poichè include εi) Nel modello di regressione lineare semplice β0 e β1 (chiamati coefficienti di regressione) sono incogniti e da stimare. METODO DEI MINIMI QUADRATI L'obiettivo è stabilire la retta di regressione (retta blu) che meglio approssima la relazione tra due variabili quantitative Y ed X. La distanza tra i valori osservati di Y (pallini viola nel grafico) e i valori predetti dalla retta di regressione (retta blu) rappresenta l'errore o residuo. L'obiettivo è minimizzare la somma dei quadrati di questi residui, cioè le differenze tra i valori osservati (Y) e quelli predetti (𝒀̂ ). Bisogna individuare i coefficienti di regressione “β0“e “β1” che minimizzano la somma dei quadrati dei residui tra Y e 𝒀 ̂. Questo processo determina la retta che meglio approssima la "nuvola dei punti". 𝑥̅ 𝑒 𝑦̅ sono β1 = 𝑪𝑶𝑫𝑬𝑽𝑰𝑨𝑵𝒁𝑨 𝒅𝒊 𝑿,𝒀 rispettivamente le medie 𝑫𝑬𝑽𝑰𝑨𝑵𝒁𝑨 𝑿 campionarie di X e Y β1 può assumere valori da - ∞ a + ∞ Se: β1 > 0: retta crescente à y aumenta all’aumentare di x. Relazione diretta (concordanza tra i due caratteri) β1 < 0: retta decrescente à y diminuisce all’aumentare di x e viceversa. Relazione inversa (discordanza tra i due caratteri) β1 = 0: assenza di dipendenza lineare tra x ed y à y è indipendente da x. Il coefficiente di regressione “β1” dipende da quello di correlazione lineare ρ di Pearson. Se quest’ultimo è positivo lo sarà anche quello di regressione. QUALITA’ DELLA REGRESSIONE Per capire la Qualità della Regressione, cioè la qualità dell’adattamento del nostro modello ai dati, si va a costruire l’Indice r2 che nasce dalla scomposizione della Devianza di Y (devianza di regressione e devianza dell’errore). DECOMPOSIZIONE DELLA VARIANZA TOTALE La decomposizione della varianza totale della variabile Y è una proprietà delle stime dei minimi quadrati nei modelli di regressione lineare. Questa proprietà ci permette di suddividere la varianza totale dei dati nella varianza spiegata dal modello di regressione e nella varianza non spiegata (residuale). La relazione fondamentale è: SST=SSR+SSE SST = somma totale dei quadrati (variazione totale). Si calcola come la somma dei quadrati delle differenze tra i valori osservati “Yi“ dalla loro media "𝑦̅“. SSR = somma dei quadrati di regressione (variazione spiegata). Rappresenta la somma dei quadrati delle differenze tra i valori stimati dal modello di regressione 𝑦̂𝑖 e la media "𝑦̅“. SSE = somma dei quadrati dell’errore (variazione non spiegata). Rappresenta la somma dei quadrati delle differenze tra i valori osservati yi e i valori teorici stimati 𝑦̂𝑖 Quanto maggiore è SSR tanto migliore sarà il nostro modello. COEFFICIENTE DI DETERMINAZIONE (r2) Il coefficiente di determinazione, indicato con r2, è una misura che indica quanto bene i valori osservati si accostano ai valori teorici (ossia quelli previsti dal modello di regressione lineare). In altre parole r2, ci dice quanto della variabilità totale dei dati è spiegata dal modello di regressione. 𝑺𝑺𝑹 r2=𝑺𝑺𝑻 cioè il coefficiente di determinazione è dato dal rapporto tra la somma dei quadrati di regressione (cioè la parte di devianza totale che viene spiegata dal modello di regressione lineare) e la somma dei quadrati (cioè la devianza totale dei dati osservati). Il coefficiente di determinazione varia tra 0 e 1. 1) r2 =1 indica che c’è relazione lineare perfetta tra X e Y, cioè il modello spiega perfettamente la variabilità dei dati (il 100% della variazione di Y è spiegata dalla variazione di X). 2) 0< r2 Fα, si rigetta H0 e si conclude che il modello di regressione è significativamente migliore del modello nullo, indicando una relazione significativa tra X e Y. Se FSTAT ≤ Fα, non si rigetta H0, suggerendo che il modello potrebbe non spiegare in modo significativo la variazione in Y, e quindi non c’è relazione lineare tra le variabili. P-Value (Valore p) Il p-value è una misura statistica che ci aiuta a valutare quanto i nostri dati supportino o meno un'ipotesi. In sostanza, misura quanto i dati sono in disaccordo con l'ipotesi nulla. Più piccolo è il p-value, più forte è l'evidenza contro l'ipotesi nulla. Il p-value è confrontato con un livello di significatività (α) predefinito (comunemente 0.05 o 0.01) che usiamo per decidere se il p-value è abbastanza piccolo da considerare le nostre evidenze contro l'ipotesi nulla significative. Rappresenta la massima probabilità con cui siamo disposti a commettere un errore di tipo I, ovvero rigettare erroneamente l'ipotesi nulla quando in realtà è vera. Se il p-value è inferiore al livello di significatività (p