Modello di Regressione Lineare Binomiale

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Cosa indica un odds maggiore di 1?

  • Situazione di parità tra successi e insuccessi
  • Maggiore numero di insuccessi
  • Più successi che insuccessi (correct)
  • Nessun studente è stato promosso

Che cosa rappresenta l'odds ratio (OR)?

  • Un logaritmo della probabilità
  • La frequenza di studenti promossi
  • Un rapporto di probabilità condizionate (correct)
  • Il rapporto tra insuccessi

Qual è il campo di variazione dell’odds?

  • [0, 1]
  • [-∞, +∞]
  • [0, +∞] (correct)
  • [1, +∞]

Cosa rappresenta un logit?

<p>Il logaritmo naturale dell'odds (B)</p> Signup and view all the answers

Che cosa implica un odds di 0.7 per gli studenti con meno ore di studio?

<p>Ogni 7 studenti promossi, 10 vengono respinti (D)</p> Signup and view all the answers

Cosa indica un odds ratio di 1 in analisi di regressione logistica?

<p>Indica una totale indipendenza da X (B)</p> Signup and view all the answers

Qual è la formula per calcolare l'η per un occupato?

<p>η1 = b0 + b1 (D)</p> Signup and view all the answers

Qual è l'interpretazione di un coefficiente b standardizzato in regressione logistica?

<p>Un valore non intuitivo che rappresenta un logit (A)</p> Signup and view all the answers

Cosa significa standardizzare i parametri in un modello di regressione?

<p>Rendendo i parametri comparabili (D)</p> Signup and view all the answers

In un modello logit, come variano gli odds ratio?

<p>Tra 0 e +infinito (C)</p> Signup and view all the answers

Quale affermazione è corretta riguardo all'effetto marginale di X su Pr(Y=1)?

<p>L'effetto marginale dipende dal livello della X e dalle combinazioni delle altre variabili. (A)</p> Signup and view all the answers

Qual è il metodo utilizzato per la stima dei parametri β nel caso di non linearità della relazione?

<p>Metodo della massima verosimiglianza. (D)</p> Signup and view all the answers

Cosa non fornisce il metodo della massima verosimiglianza?

<p>Formula analitica per calcolare le stime. (C)</p> Signup and view all the answers

Qual è una conseguenza della specificazione lineare quando Y è dicotomica?

<p>Alcuni valori predetti possono essere 'out of range' (C)</p> Signup and view all the answers

Che cosa indica l'eteroschedasticità nel modello di regressione lineare binomiale?

<p>La varianza degli errori dipende dai valori di X (A)</p> Signup and view all the answers

Quale delle seguenti affermazioni è vera riguardo alla funzione di log-verosimiglianza?

<p>Individua i valori che più probabilmente hanno generato i dati osservati. (D)</p> Signup and view all the answers

Cosa implica una variabile dipendente dicotomica nel modello descritto?

<p>La variabile può prendere solo due valori, come successo o fallimento. (C)</p> Signup and view all the answers

Qual è la principale limitazione della regressione lineare quando si tratta di variabili dicotomiche?

<p>Le stime intervallari e i test parametrici sono meno affidabili (A)</p> Signup and view all the answers

Come si può descrivere l'incremento di $p_{ii}$ in un modello di regressione lineare binomiale?

<p>Varia in base ai valori delle variabili indipendenti (C)</p> Signup and view all the answers

Qual è una condizione necessaria per ottenere stime corrette utilizzando il metodo di massima verosimiglianza?

<p>Utilizzare campioni sufficientemente ampi, come 100 casi più 10 per ogni parametro. (C)</p> Signup and view all the answers

Quale rappresenta meglio la relazione tra le ore di studio e l'esito dell'esame nel modello descritto?

<p>Una curva sigmoidale che rappresenta il successo in base alle ore di studio. (B)</p> Signup and view all the answers

Nel modello di Regressione Lineare Binomiale, cosa indica il termine 'Linear Probability Model'?

<p>Un approccio per stimare la probabilità in un contesto binomiale (B)</p> Signup and view all the answers

Se Y rappresenta la condizione abitativa e v2 la condizione occupazionale, cosa è necessario fare per stimare l'impatto della condizione occupazionale su Y?

<p>Controllare altre variabili antecedenti e concomitanti (C)</p> Signup and view all the answers

Qual è il range di variazione degli odds ratio per i valori negativi del logit?

<p>[0, 1] (C)</p> Signup and view all the answers

Quale indice è utilizzato per valutare la bontà di adattamento del modello in regressione logistica?

<p>G2 o chi-quadrato (B)</p> Signup and view all the answers

Perché le misure di varianza spiegata per la regressione logistica sono diverse da quelle della regressione lineare normale?

<p>Perché una variabile è dicotomica e l'altra è continua. (A)</p> Signup and view all the answers

Qual è la formula per calcolare l'indice R2 di McFadden?

<p>log(M1 / M0) (C)</p> Signup and view all the answers

Quando l'indice di bontà di adattamento R2 di McFadden assume valore 0?

<p>Quando il modello pieno è equivalente al modello nullo. (A)</p> Signup and view all the answers

Qual è una caratteristica dei modelli di regressione logistica rispetto alla regressione lineare?

<p>La variabile dipendente è dicotomica. (C)</p> Signup and view all the answers

Cosa rappresenta il chi-quadrato nella valutazione della bontà di adattamento?

<p>Il confronto tra modello nullo e modello con regressori. (C)</p> Signup and view all the answers

Qual è il rapporto tra i costi di FN e FP dato k?

<p>$c= rac{1}{1 + k}$ (A)</p> Signup and view all the answers

Perché non sarebbe appropriato valutare il modello semplicemente basandosi sulla percentuale di studenti promossi nel caso analizzato?

<p>Perché non si considerano i casi concordanti. (D)</p> Signup and view all the answers

Qual è un vantaggio del LPM rispetto alla regressione logistica?

<p>I suoi parametri sono più facilmente interpretabili. (B)</p> Signup and view all the answers

Quale condizione deve essere soddisfatta quando si commentano i parametri del LPM?

<p>I segni e l'ordine dei parametri devono corrispondere a quelli della regressione logistica. (D)</p> Signup and view all the answers

Cosa distingue la regressione logistica multinomiale dalla logistica binaria?

<p>Confronta la probabilità di più risultati. (B)</p> Signup and view all the answers

Nel caso di tre modalità nella regressione logistica multinomiale, quante equazioni sono necessarie?

<p>2 equazioni (A)</p> Signup and view all the answers

Qual è un esempio di un regressore nella regressione logistica multinomiale?

<p>Età (C)</p> Signup and view all the answers

Cosa implica una probabilità predetta 'out of range' nel LPM?

<p>Deve essere &lt; 5%. (C)</p> Signup and view all the answers

Flashcards

Regressione Lineare Binomiale (LPM)

La regressione lineare binomiale, nota anche come Linear Probability Model (LPM), è un modello di regressione lineare utilizzato per analizzare l'influenza di una o più variabili indipendenti (v.i.) su una variabile dipendente (v.d.) binaria (dummy). La v.d. può assumere solo due valori, generalmente 0 (no) e 1 (sì).

Equazione di Regressione Binomiale

L'equazione della regressione lineare binomiale è simile a quella della regressione lineare standard, ma la variabile dipendente è una dummy. La probabilità di ottenere 1 nella v.d. è rappresentata da pigrecoi, che è una funzione lineare delle v.i.

Interpretazione dei Coefficienti nel LPM

Nel LPM, i coefficienti della regressione rappresentano l'effetto marginale delle v.i. sulla probabilità di ottenere 1 nella v.d. Ad esempio, il coefficiente di una v.i. indica la variazione nella probabilità che la v.d. sia 1 per un'unità di aumento della v.i., tenendo costanti le altre v.i.

Relazione non lineare tra πi e X

La probabilità di ottenere 1 nella variabile dipendente (πi) non è una funzione lineare delle variabili indipendenti (X).

Signup and view all the flashcards

Modello logistico

Il modello logistico, anche detto logit, è un modello di regressione utilizzato quando la variabile dipendente (v.d.) è binaria (0 o 1).

Signup and view all the flashcards

Funzione Logistica

La funzione logistica (o sigmoide) trasforma il predittore lineare ηi in una probabilità compresa tra 0 e 1.

Signup and view all the flashcards

Effetto marginale non costante

L'effetto di una variazione unitaria di X sulla probabilità Pr(Y=1) dipende dal valore di X e dalle altre variabili indipendenti nel modello.

Signup and view all the flashcards

Stima dei parametri β

Il metodo della massima verosimiglianza (ML) è utilizzato per stimare i parametri β nel modello logistico. Trova i valori che massimizzano la probabilità di ottenere i dati osservati.

Signup and view all the flashcards

Funzione di log-verosimiglianza (LL)

La funzione di log-verosimiglianza (LL) misura la probabilità di ottenere i dati osservati per un dato insieme di parametri.

Signup and view all the flashcards

Proprietà delle stime ML

Per campioni grandi, il metodo ML produce stime dei parametri accurate, con distribuzione normale e alta efficienza.

Signup and view all the flashcards

Curva sigmoidale nel diagramma

Nel diagramma, la curva sigmoidale rappresenta la funzione logistica, che stima la probabilità di successo (esame superato) in base alle ore di studio.

Signup and view all the flashcards

Probabilità di successo

La probabilità di successo all'esame, calcolata come la percentuale di studenti promossi su un campione. Es: se 108 studenti su 200 sono promossi, la probabilità di successo è il 54%.

Signup and view all the flashcards

Probabilità di fallimento

La probabilità di fallimento all'esame, calcolata come complemento a 1 della probabilità di successo. Se la probabilità di successo è 0.54, la probabilità di fallimento è 0.46.

Signup and view all the flashcards

Odds

Un modo per esprimere la probabilità di successo, calcolato come il rapporto tra la probabilità di successo e la probabilità di fallimento. Se la probabilità di successo è 0.54 e la probabilità di fallimento è 0.46, l'odds è 1.17.

Signup and view all the flashcards

Odds Ratio (OR)

Un indice che misura l'associazione tra due variabili, calcolato come il rapporto tra gli odds di successo in due gruppi diversi.

Signup and view all the flashcards

Logit

Un altro modo per esprimere la probabilità di successo, dato dal logaritmo naturale dell'odds. Se l'odds è 1.17, il logit è 0.15.

Signup and view all the flashcards

Odds interpretati

Il numero di studenti che hanno superato l'esame, calcolato per ogni 10 studenti che hanno fallito. È un modo per esprimere l'odds in forma più intuitiva.

Signup and view all the flashcards

Probabilità di successo (più di 60 ore)

La probabilità di successo calcolata in base al gruppo di studenti che hanno dedicato più di 60 ore allo studio.

Signup and view all the flashcards

Probabilità di successo (meno di 60 ore)

La probabilità di successo calcolata in base al gruppo di studenti che hanno dedicato meno di 60 ore allo studio.

Signup and view all the flashcards

Logit e Odds Ratio

Il logit è una trasformazione della probabilità che va da -∞ a +∞. I valori negativi del logit, una volta trasformati in odds ratio (OR), variano nell'intervallo [0, 1] mentre quelli positivi variano nell'intervallo [1, +∞].

Signup and view all the flashcards

Rapporto di Verosimiglianza (G2)

Rapporto di verosimiglianza (G2) è un indice che misura la bontà di adattamento del modello di regressione logistica ai dati. Si basa sul confronto di due equazioni: una con solo l'intercetta (M0) e un'altra che include i regressori (M1).

Signup and view all the flashcards

Pseudo-R2

Gli indici Pseudo-R2 sono misure simili al coefficiente di determinazione (R2) nella regressione lineare. Misurano la variabilità della variabile dipendente spiegata dai regressori.

Signup and view all the flashcards

R2 di McFadden

L'R2 di McFadden è una misura di adattamento del modello che usa la funzione di log-verosimiglianza (LL). Confronta il modello pieno (M1) con quello di intercetta (M0).

Signup and view all the flashcards

Propensione Relativa

La propensione relativa indica la probabilità di un evento per un gruppo rispetto a un altro gruppo. In questo caso, la propensione relativa dei lavoratori a uscire dalla FO (anziché rimanervi) è 1,5 volte quella dei non lavoratori.

Signup and view all the flashcards

Interpretazione degli OR

Per facilitare il confronto di OR compresi tra 0 e 1 (relazione inversa) con OR > 1 (relazione diretta) si calcolano i reciproci dei primi e si aggiunge il segno meno.

Signup and view all the flashcards

Validazione del Modello Logistico

Nel caso della regressione logistica, la validazione del modello comporta la valutazione di come il modello si adatta ai dati reali, considerata la natura dicotomica della variabile dipendente.

Signup and view all the flashcards

Logit(πi)

Il termine logit(πi) rappresenta il logaritmo naturale dell'odds, ovvero il rapporto tra la probabilità di successo (Y=1) e la probabilità di insuccesso (Y=0). È una trasformazione della probabilità che rende la variabile dipendente (v.d.) lineare rispetto alle variabili indipendenti (v.i.) nel modello di regressione logistica.

Signup and view all the flashcards

Odds Ratio (exp(b))

L'odds ratio è il rapporto tra le odds di un evento quando una variabile indipendente (v.i.) è presente rispetto alle odds quando la v.i. è assente. Misura l'effetto di una variazione unitaria della v.i. sulle odds dell'evento in questione.

Signup and view all the flashcards

Coefficiente b (Regressione Logistica)

Nell'analisi di regressione logistica, il coefficiente b di una variabile indipendente (v.i.) rappresenta l'effetto del cambiamento di una unità di tale v.i. sul logaritmo naturale dell'odds. Più grande è il valore di b, maggiore è l'effetto della v.i. sulle odds dell'evento in questione.

Signup and view all the flashcards

Valori Predetti (Regressione Logistica)

Il calcolo dei valori predetti in un modello di regressione logistica prevede l'inserimento dei valori delle variabili esogene nel modello stimato per ottenere un'aspettativa del valore della variabile dipendente (v.d.).

Signup and view all the flashcards

Indipendenza Abitativa (in relazione a 'Occupato')

L'indipendenza abitativa in relazione alla variabile 'Occupato' è definita come la probabilità di vivere separati dai genitori, condizionata dalla condizione lavorativa (occupato).

Signup and view all the flashcards

Probabilità di Indipendenza Abitativa

La probabilità di indipendenza abitativa per un individuo è data dalla funzione logistica, che è una curva a S che trasforma un valore lineare (logit) in una probabilità compresa tra 0 e 1.

Signup and view all the flashcards

Intercetta (Regressione Logistica)

Nel modello di regressione logistica, l'intercetta (b0) rappresenta il logaritmo naturale dell'odds quando tutte le variabili indipendenti (v.i.) sono uguali a zero. In pratica, è l'effetto sul logaritmo naturale dell'odds quando tutte le v.i. sono al loro valore di riferimento o di base.

Signup and view all the flashcards

Regressione Logistica

Il modello di regressione logistica è utilizzato per prevedere la probabilità di un evento binario (es: 'sì' o 'no') in relazione a una serie di variabili indipendenti (v.i.). Il modello è basato sulla funzione logistica, che trasforma un valore lineare (logit) in una probabilità compresa tra 0 e 1.

Signup and view all the flashcards

Rapporto tra costi di FP e FN

In generale, dato k, il rapporto tra i costi di FN e FP è dato da c=1/(1+k). Questo ci dice quanto è importante minimizzare gli errori di tipo FN (falso negativo) rispetto agli errori di tipo FP (falso positivo).

Signup and view all the flashcards

Probabilità 'Insensate' nel LPM

Un problema comune del LPM è che può predire probabilità 'insensate', ovvero al di fuori dell'intervallo 0-1. Questo accade quando l'equazione del modello predice valori troppo alti o troppo bassi.

Signup and view all the flashcards

Interpretazione dei parametri nel LPM

Quando usi il LPM per analisi esplorative, puoi commentare i suoi parametri se e solo se i segni, le significatività e l'importanza dei coefficienti corrispondono a quelli ottenuti con la regressione logistica, e la percentuale di valori 'out of range' è inferiore al 5%.

Signup and view all the flashcards

Regressione Logistica Multinomiale

La regressione logistica multinomiale è un'estensione della regressione logistica che può essere utilizzata per predire la probabilità di un evento con più di due possibili risultati. Per ogni risultato, viene creata una funzione logistica separata che predice la probabilità.

Signup and view all the flashcards

Logit e Equazioni nella Regressione Logistica Multinomiale

Per una variabile dipendente con j modalità, la regressione logistica multinomiale crea j-1 logit ed equazioni prendendo una modalità come riferimento. Ad esempio, se Y ha 3 modalità, creiamo 2 logit per confrontare le probabilità con la modalità di riferimento.

Signup and view all the flashcards

Confronto di Probabilità nella Regressione Logistica Multinomiale

La regressione logistica multinomiale permette di confrontare la probabilità di aderire a diverse modalità di una variabile dipendente, ad esempio, differenti orientamenti religiosi. Questo consente di analizzare l'influenza delle variabili indipendenti su ogni modalità.

Signup and view all the flashcards

Applicazioni della Regressione Logistica Multinomiale

La regressione logistica multinomiale è un modello versatile che può essere applicato a molti contesti di ricerca, ad esempio, per studiare l'influenza di variabili socio-demografiche sulla scelta di un partito politico o sull'opzione per un particolare servizio sanitario.

Signup and view all the flashcards

Study Notes

Modello di Regressione Lineare Binomiale

  • Questo modello analizza l'influenza di una o più variabili indipendenti (vv.ii.) su una variabile dipendente binaria (0/1).
  • La variabile dipendente indica la frequenza relativa di valori "1" rispetto a "0".
  • Un esempio di dati Istat 2009 ha evidenziato una media (E(Y)) di 0.511 per la variabile "vive fuori dalla famiglia di origine".
  • Questa media rappresenta la probabilità di giovani 20-39enni residenti fuori dalla famiglia di origine.
  • L'equazione di regressione può essere riscritta come π₁= β₀+ Σ βⱼXᵢⱼ (dove π₁ è la probabilità e βᵢⱼ i coefficienti di regressione).
  • Il modello è noto anche come Linear Probability Model (LPM).

Esempio Pr(v1=1)

  • Un esempio con i primi 20 casi di una matrice mostra la probabilità Pr(v1=1) e Pr(v1=0), dimostrando una distribuzione di probabilità.
  • Nel campione considerato, 11 su 20 persone vivevano fuori dalla famiglia di origine (v1=1), e 9 no (v1=0).

Considerazioni sul Modello

  • La frequenza relativa E(Y) o π₁ può essere interpretata come probabilità.
  • Il modello LPM presuppone una relazione lineare tra le variabili.
  • Questo modello presenta tuttavia delle limitazioni, come l'impossibilità di ottenere probabilità al di fuori dell'intervallo [0,1].
  • Per ovviare a queste limitazioni, si ricorre alla regressione logistica.
  • La relazione tra probabilità e variabili indipendenti non è lineare ma si sfrutta una funzione logistica (link function).

Regressione Logistica Binomiale

  • Questa tecnica si applica quando la variabile dipendente è dicotomica (0/1).
  • In questo caso, la relazione tra variabili è non lineare.
  • Usa una link function (es. logit) per collegare le variabili indipendenti con la probabilità.
  • La probabilità è compresa tra 0 e 1.
  • Il predittore lineare (ηi) è calcolato come ηᵢ= β₀+ Σ βᵢⱼXᵢⱼ.
  • La probabilità (πᵢ) è data dalla funzione logistica πᵢ = e^ηi/(1 + e^ηi) .

Stima dei parametri

  • I parametri della regressione logistica non sono calcolabili tramite i minimi quadrati, bensì con il metodo della massima verosimiglianza.
  • Questo comporta l'uso di metodi iterativi per trovare i coefficienti che massimizzano la probabilità osservata.

Capacità predittiva

  • Matrice di confusione: usata per valutare la capacità predittiva, identificando veri positivi, veri negativi, falsi positivi e falsi negativi.
  • Indici come accuratezza, sensibilità, specificità, possono essere utilizzati per misurare il potere predittivo (accuratezza = (veri positivi + veri negativi) / numero totale).
  • Il punto di taglio (cut-off) c è importante per la discretizzazione delle probabilità predette.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

More Like This

Use Quizgecko on...
Browser
Browser