Regressione Lineare Semplice

Podcast

Play an AI-generated podcast conversation about this lesson

Download our mobile app to listen on the go

Get App

Questions and Answers

Qual è il significato di β0 nell'equazione di regressione lineare semplice?

La pendenza della retta di regressione
La variabile indipendente della regressione
L'errore casuale nella previsione
Il valore medio stimato di Y quando X=0 (correct)

Qual è l'obiettivo principale del metodo dei minimi quadrati nella regressione lineare?

Stabilire il valore massimo di Y
Calcolare la pendenza della retta di regressione
Minimizzare la somma dei quadrati dei valori predetti
Minimizzare la somma dei quadrati dei residui (correct)

Cosa indica il coefficiente angolare β1 nella regressione lineare semplice?

L'errore totale nelle previsioni
La relazione inversa tra Y e X
La variazione di Y per unità di variazione di X (correct)
Il valore medio di ε

Nell'equazione Y = f(X) + ε, cosa rappresenta ε?

L'errore casuale (C) Signup and view all the answers

Quale delle seguenti affermazioni è corretta riguardo la variabile Y nella regressione lineare?

Y è una funzione di X e di altri fattori non osservati (C) Signup and view all the answers

Cosa rappresenta Yi nella formula Yi = β0 + β1Xi + εi?

Il valore osservato di Y (C) Signup and view all the answers

Cosa indica la retta di regressione nel contesto della regressione lineare semplice?

La migliore stima della relazione tra X e Y (C) Signup and view all the answers

Quale delle seguenti equazioni rappresenta la relazione nella regressione lineare semplice?

Y = β0 + β1X (D) Signup and view all the answers

Quale affermazione è corretta riguardo al coefficiente di regressione β1?

β1 = 0 indica un'assenza di dipendenza lineare tra x ed y. (C) Signup and view all the answers

Cosa rappresenta la somma dei quadrati di regressione (SSR)?

La variazione spiegata dal modello di regressione. (B) Signup and view all the answers

Qual è la relazione fondamentale della decomposizione della varianza totale?

SST = SSR + SSE. (D) Signup and view all the answers

Qual è la funzione del coefficiente di determinazione r2?

Misura quanto della variabilità totale è spiegata dal modello di regressione. (C) Signup and view all the answers

Cosa accade al modello se SSR aumenta?

Il modello è considerato migliore. (D) Signup and view all the answers

Se β1 < 0, quale tipo di relazione esiste tra x ed y?

Relazione inversa. (A) Signup and view all the answers

Cosa descrive la devianza di errore (SSE)?

La somma dei quadrati delle differenze tra i valori osservati e le stime del modello. (C) Signup and view all the answers

Qual è la conseguenza di un r2 pari a 0?

Non c'è correlazione tra le variabili analizzate. (C) Signup and view all the answers

Cosa indica un valore di $r^2 = 1$?

Il modello di regressione spiega interamente la variabilità di Y. (B) Signup and view all the answers

Cosa implica un p-value inferiore al livello di significatività?

Si rigetta l'ipotesi nulla. (A) Signup and view all the answers

Quando si rigetta l'ipotesi nulla (H0)?

Quando FSTAT è maggiore di Fα. (D) Signup and view all the answers

Qual è il significato del coefficiente di determinazione (r2)?

Rappresenta la proporzione della varianza di Y spiegata da X. (D) Signup and view all the answers

Cosa rappresenta un p-value conforme a un livello di significatività di 0.01?

La massima probabilità di errore di tipo I. (C) Signup and view all the answers

Flashcards are hidden until you start studying

Study Notes

Regressione Lineare Semplice

La regressione lineare semplice analizza la relazione tra due variabili quantitative: una dipendente (Y) e una indipendente (X).
L'obiettivo è comprendere come la variabile Y è influenzata dalla variabile X.

Modello di Regressione Lineare Semplice

Il modello considera solo due variabili quantitative : una dipendente e una indipendente (o esplicativa).
La relazione tra X e Y è descritta da una funzione lineare (equazione di regressione lineare semplice).
L'equazione fornisce una stima della retta di regressione della popolazione: Y=β0+ β1X
β0: intercetta, ossia il valore medio stimato di Y quando X=0
β1: coefficiente angolare della retta che indica quanto varia Y per una variazione unitaria di X.
Nella realtà, Y è influenzata non solo da X, ma anche da altri fattori non osservati.
La relazione diventa: Y= f(X)+ε
f(X) è la funzione di regressione ed esprime come il valore medio di Y varia al variare di X.
ε è l'errore, che rappresenta il contributo di tutti gli altri fattori non considerati, ma in grado di influenzare il valore. È una variabile casuale.
L'analisi della regressione ha lo scopo di stimare la funzione di regressione e la grandezza della variabile casuale ε (errore).
Yi= β0 + β1Xi + εi
β0 + β1Xi nella formula corrisponde a 𝒀 ̂ teorico mentre Yi è quello empirico, cioè il valore osservato (poiché include εi)
Nel modello di regressione lineare semplice β0 e β1 (chiamati coefficienti di regressione) sono incogniti e da stimare.

Metodo dei Minimi Quadrati

L'obiettivo è stabilire la retta di regressione (retta blu) che meglio approssima la relazione tra due variabili quantitative Y ed X.
La distanza tra i valori osservati di Y (pallini viola nel grafico) e i valori predetti dalla retta di regressione (retta blu) rappresenta l'errore o residuo.
L'obiettivo è minimizzare la somma dei quadrati di questi residui, cioè le differenze tra i valori osservati (Y) e quelli predetti (𝒀̂ ).
Bisogna individuare i coefficienti di regressione “β0“e “β1” che minimizzano la somma dei quadrati dei residui tra Y e 𝒀 ̂.
Questo processo determina la retta che meglio approssima la "nuvola dei punti".
𝑥̅ 𝑒 𝑦̅ sono rispettivamente le medie campionarie di X e Y
β1 = 𝑪𝑶𝑫𝑬𝑽𝑰𝑨𝑵𝒁𝑨 𝒅𝒊 𝑿,𝒀 / 𝑫𝑬𝑽𝑰𝑨𝑵𝒁𝑨 𝑿
β1 può assumere valori da - ∞ a + ∞

Relazione tra β1 e la Correlazione lineare

Se β1 > 0: retta crescente à y aumenta all’aumentare di x. Relazione diretta (concordanza tra i due caratteri)
Se β1 < 0: retta decrescente à y diminuisce all’aumentare di x e viceversa. Relazione inversa (discordanza tra i due caratteri)
Se β1 = 0: assenza di dipendenza lineare tra x ed y à y è indipendente da x.
Il coefficiente di regressione “β1” dipende da quello di correlazione lineare ρ di Pearson. Se quest’ultimo è positivo lo sarà anche quello di regressione.

Qualità della Regressione

Per capire la Qualità della Regressione, cioè la qualità dell’adattamento del nostro modello ai dati, si va a costruire l’Indice r2 che nasce dalla scomposizione della Devianza di Y (devianza di regressione e devianza dell’errore).

Decomposizione della Varianza Totale

La decomposizione della varianza totale della variabile Y è una proprietà delle stime dei minimi quadrati nei modelli di regressione lineare.
Questa proprietà ci permette di suddividere la varianza totale dei dati nella varianza spiegata dal modello di regressione e nella varianza non spiegata (residuale).
La relazione fondamentale è: SST=SSR+SSE
SST = somma totale dei quadrati (variazione totale). Si calcola come la somma dei quadrati delle differenze tra i valori osservati “Yi“ dalla loro media "𝑦̅“.
SSR = somma dei quadrati di regressione (variazione spiegata). Rappresenta la somma dei quadrati delle differenze tra i valori stimati dal modello di regressione 𝑦̂𝑖 e la media "𝑦̅“.
SSE = somma dei quadrati dell’errore (variazione non spiegata). Rappresenta la somma dei quadrati delle differenze tra i valori osservati yi e i valori teorici stimati 𝑦̂𝑖
Quanto maggiore è SSR tanto migliore sarà il nostro modello.

Coefficiente di Determinazione (r2)

Il coefficiente di determinazione, indicato con r2, è una misura che indica quanto bene i valori osservati si accostano ai valori teorici (ossia quelli previsti dal modello di regressione lineare).
In altre parole r2, ci dice quanto della variabilità totale dei dati è spiegata dal modello di regressione.
r2=𝑺𝑺𝑹 / 𝑺𝑺𝑻
Il coefficiente di determinazione varia tra 0 e 1.
r2 =1 indica che c’è relazione lineare perfetta tra X e Y, cioè il modello spiega perfettamente la variabilità dei dati (il 100% della variazione di Y è spiegata dalla variazione di X).
0< r2 < 1 indica che esiste una relazione lineare, ma non perfetta.
r2 = 0 indica assenza di relazione lineare tra X e Y, il modello non spiega la variabilità dei dati.

Test di Significatività del Modello

Si testa l'ipotesi nulla H0: β1 = 0 contro l'ipotesi alternativa H1: β1 ≠ 0.
Si utilizza lo stimatore FSTAT (statistica test F) per valutare la significatività del modello di regressione.
Si confronta FSTAT con il valore critico Fα (con α livello di significatività).
Se FSTAT > Fα, si rigetta H0 e si conclude che il modello di regressione è significativamente migliore del modello nullo, indicando una relazione significativa tra X e Y.
Se FSTAT ≤ Fα, non si rigetta H0, suggerendo che il modello potrebbe non spiegare in modo significativo la variazione in Y, e quindi non c’è relazione lineare tra le variabili.

P-Value (Valore p)

Il p-value è una misura statistica che ci aiuta a valutare quanto i nostri dati supportino o meno un'ipotesi.
In sostanza, misura quanto i dati sono in disaccordo con l'ipotesi nulla.
Più piccolo è il p-value, più forte è l'evidenza contro l'ipotesi nulla.
Il p-value è confrontato con un livello di significatività (α) predefinito (comunemente 0.05 o 0.01) che usiamo per decidere se il p-value è abbastanza piccolo da considerare le nostre evidenze contro l'ipotesi nulla significative.
Rappresenta la massima probabilità con cui siamo disposti a commettere un errore di tipo I, ovvero rigettare erroneamente l'ipotesi nulla quando in realtà è vera.
Se il p-value è inferiore al livello di significatività (p < α), si rigetta l'ipotesi nulla, altrimenti non si rigetta.