Appunti di Psicometria - Lezione 1
Document Details
![SkilledTinWhistle7447](https://quizgecko.com/images/avatars/avatar-8.webp)
Uploaded by SkilledTinWhistle7447
Università degli Studi di Urbino Carlo Bo
2022
Tags
Summary
Questi appunti riguardano la prima lezione di psicometria, fornendo un riepilogo di metodologie della ricerca e modelli statistici per le scienze sociali. Vengono spiegati concetti come media, moda, mediana, varianza e deviazione standard, con particolare attenzione alla statistica descrittiva e inferenziale.
Full Transcript
Psicometria Lezione 1 04/10/2022 Argomento delle lezioni: - ripasso delle nozioni di metodologie della ricerca Riferimenti al testo: Berlingeri, modelli statistici per le scienze sociali Le indagini nelle scienze e sociali vertono allo stu...
Psicometria Lezione 1 04/10/2022 Argomento delle lezioni: - ripasso delle nozioni di metodologie della ricerca Riferimenti al testo: Berlingeri, modelli statistici per le scienze sociali Le indagini nelle scienze e sociali vertono allo studio delle relazioni tra le variabili. Il modello statistico è una rappresentazione sintetica di una variabile o di una relazione tra variabili, che rappresentano quello che varia: il cambiamento permette di capire come diverse caratteristiche di un fenomeno siano in relazione tra loro —> se non muta, il fenomeno non può essere compreso Il modello di misurazione è una rappresentazione delle variabilità dalle variabili misurate e permette di capire quando bene queste variabili svolgono il ruolo di rappresentanti delle caratteristiche del fenomeno. La media è pari al rapporto tra la somma di tutti i valori di una variabile divisi per il numero di casi N: ∑y y= N La media rappresenta anche la stima del rendimento, ovvero il valore che nelle nostre previsioni dovrebbe descrivere al meglio il fenomeno che vogliamo analizzare. modello e corrisponde alla di erenza tra il valore e ettivamente osservato (ei = yi − yi ̂) —> questa Il modello previsto, a volte, può non essere sempre corretto, quindi si parla anche di errore associato al formula va elevata al quadrato per termini assoluti Quando si parla di statistica, si parla di un qualcosa di tipo etereo, con tante sfaccettature. Ci sono due importanti approcci della statica: - Statistica descrittiva —> programma di metodologia - Statistica inferenziale —> insieme di tecniche statistiche che permettono di generalizzare i risultati ottenuti dai dati raccolti su un campione alla popolazione da cui è stati estratto Lo scopo della statistica descrittiva è quello di sintetizzare una massa di dati grezzi usando degli strumenti gra ci (es.gra co a torta) o numerici (es. moda) che spesso vanno di pari passo. Si lavora su caratteristiche del modo che possono avere dei valori diversi in una certa popolazione. Nell’ambito psicologico le variabili variano di molto, non ci sono delle costanti perché è un o’intrinseco nell’’oggetto di studio della psicologia questo, ma questo non signi ca che questi fenomeni non possano essere misurati. Operazionalizzazione dei costrutti latenti => rendere visibile un contratto che non è direttamente osservabile. Si lavora su singoli individui o caratteristica in relazione al campione sperimentale (o campione bernoulliano) Come si fa a dire che una variabile è “buona”: - Adeguata all’obbiettivo (es. misurare l’altezza se voglio sapere l’altezza media) - Operativamente de nita = devono essere espresse in modo chiaro le regole e procedure per misurare la variabile - De nita prima dell’inizio dello studio (es. devo decidere prima di iniziare la raccolta dati che strumento usare) - Misurabile in tutti i soggetti che ne fanno parte, in modo oggettivo (non deve risentire di chi sta osservando), riproducibile (deve essere riproducibile nel tempo) e accurato (si devono valutare errori e deve essere centrato sulla caratteristica) Ci sono variabili di natura diversa Natura categorica —> es. colore dei capelli => si misura su una scala nominale 1 fi fi fi fi ff ff fi ↪︎ si può vedere se due soggetti hanno lo stesso colore dei capelli, operazioni di conteggio per calcolare le frequenze (assolute, relative, percentuali) ↳ ne fanno parti anche numeri che de niscono una categoria come l’anno di corso che si frequenta Natura quantitativa —> esprime delle quantità Le scale di intervalli —> scala Likert (scale ad intervalli, si possono calcolare delle di erenze) ↪︎ ottenere un punteggio è pari a 0 (frutto di una convinzione) => a 0º l’acqua si ghiaccia Le scale a rapporti —> variabili in cui lo zero è l’assenza di quella caratteristica (es. bambino di 0 anni) INDICI DI TENDENZA CENTRALE O DI POSIZIONE Sono degli indicatori numerici (che descrivono insieme di dati con numeri ) che ci permettono di identi care l’elemento centrale all’interno dei miei dati - moda —> caratteristica che si presenta più frequentemente (ci sono casi che hanno più mode) = bimodale - mediana —> valore che sta nella posizione centrale della distribuzione dei dati (dopo averla ordinata in modo crescente) ↪︎ può essere calcolata solo su dati ordinabili Se è dispari => numero al centro Se è pari => numeri al centro e poi si prende numero che si trova tra quei numeri - media aritmetica —> è la somma di tutti i valori e tutti i punteggi raccolti nel campione per una variabile, fratto la numerosità campionaria (con un solo numero si occupa di un ammasso di dati) ↪︎ risente molto dei dati estremi (outlier) => la media è sensibile a tutti gli elementi della distribuzione I quantili (o percentili) sono indicatori numerici che assumono una o certe posizioni all’interno di una distribuzione dei dati: Quartili (pezzi da 4) di ordine 0.25, 0.50, 0.75 …=> I, II e III quartile ↪︎ la di erenza tra il primo ed il terzo quartile è pari alla metà dei valori nella mediana Decili (pezzi da 10) di ordine 0.1, 0.2, 0.3 … Centili (pezzi da 100) di ordine 0.01, 0.02 … INDICI DI VARIABILITÀ Gli indici di variabilità (o indici di dispersione) permettono di capire quanto la mia caratteristica sia variabile intorno ad un punto di riferimento e ce ne sono di diversi tipologie: - Assoluti —> sono espressi nella stessa unità di misura del fenomeno che si sta studiando Ne fanno parte: campo di variazione = di erenza tra il valore massimo (MAX) ed il valore minimo (min) della distribuzione dei dati => range = xMAX - xmin di erenza interquartile = di erenza tra il terzo ed il primo quartile di una distribuzione (è compreso il 50% delle osservazioni => Dq = Q3 − Q1 Gli indici di variabilità assoluti rispetto alla media sono: - devianza = somma degli scarti dalla media aritmetica al quadrato (per eliminare il valore negativo) - varianza campionaria = devianza diviso il numero totale degli individui -1 ↳ maggiore è il suo valore —> maggiore è l’errore associato al modello basato sulla media —> peggiore sarà il modello - scarto quadratico medio = è la radice quadrata della varianza => è la DEVIAZIONE STANDARD ↪︎ sono l’una la trasformazione dell’altra - Relativi —> fanno riferimento ad un punto preciso = coe ciente di variazione e la variazione rispetto al massimo Gli indici di variabilità relativi sono: Coe ciente di variazione = rapporto tra lo scarto quadratico medio e la media aritmetica —> indice di variabilità a cui viene tolta l’unità di misura Variazione rispetto al massimo = ha lo stesso principio del coe ciente di variazione, tra scarto quadratico medio e numero massimo 2 ff ffi ff ff ff fi ffi ffi ff fi INDICI DI FORMA In una distribuzione normale dei dati (curva a campana) la media, la moda e la mediana hanno lo stesso valore ed è simmetrica rispetto al punto centrale —> sono indici di forma ↳ spesso le distribuzioni non sono perfette e possono avere delle asimmetrie (Skewness), il coe ciente è detto curtosi (da Kurtosis): - Asimmetria negativa (platicurtica, curva più piatta) —> coda lunga a sinistra (media < mediana) => curva minore di 0 - Asimmetria positiva (leptocurtica, curva meno piatta)—> coda lunga a destra (media > mediana) => curva maggiore di 0 - Simmetria (normocurtica)—> curva = 0 (media = mediana = moda) Strumenti gra ci Box-plot (gra co a scatola e ba ) = è una gura in cui si può identi care gran parte degli identi catori numerici detti no ad ora (bordo inferiore = I quartile, bordo superiore = III quartile, la linea in mezzo è il II quartile che corrisponde alla mediana) ↳ ba o in basso più lungo è Skewness negativa (outlier sotto al ba o), ba o in basso più corto Skewness positiva (outlier sopra al ba o) Box-plot permette di identi care il valore massimo e il valore minimo perché devono essere rappresentati solo se sono degli outlier. Q-Q PLOT (gra co di normalità quantile - quantile) è un gra co che permette di identi care se la nostra distribuzione dei dati è conforme o meno ad una distribuzione di dati normale di riferimento. Traccia una retta che è la distribuzione dei dati che io mi aspetterei di trovare se la ia distribuzione fosse una normale, i punti sono i quantici che io ho trovato nella mia distribuzione empirica dei dati, se questi punti si avvicinano alla retta, ho una distribuzione normale che è conforme alla normale (moda, media e mediana coincidono). Se si creano delle code sugli estremi, è asimmetrica. Istogramma = riporta su asse delle x le modalità della variabile e i valori, mentre sull’asse delle y riporta le frequenze. Gli outlier sono valori molto estremi e si discostano dalla distribuzione dei dati creando una coda, anche la media aritmetica risente della loro presenza. Il trattamento degli outlier vuol dire applicare una trasformazione ai dati per rendere la distribuzione più normale e, questo, può avvenire in diversi modi: Trasformazione lineare Trasformazione logaritmica (applicabile solo se x > 0) Trasformazione potenza Trasformazione logit (applicata a osservazioni percentuali) Utilizzare un indicatore di tendenza centrale che risente meno dei valori estremi, esempio la mediana Trimming = eliminazione di una percentuale ssa di valori estremi Eliminare il singolo outlier dal campione 3 fi fi ff fi fi fi fi fi ffi ffi ff fi fi fi fi ff ff Lezione 2 05/10/2022 Argomento delle lezioni: - Verifica di ipotesi - Inferenza Riferimenti al testo: Berlingeri, modelli statistici per le scienze sociali La statistica inferenziale permette di fare la veri ca delle ipotesi. L’inferenza fa capire le caratteristiche della popolazione a partire dai dati campionari estratti da una popolazione più ampia, permette di farci capire delle informazioni della popolazione intera e poi si tende a generalizzare tramite la veri ca (o controllo) di ipotesi. ↳ processo di generalizzazione avviene solo se vengono mantenute le regole metodologiche Ipotesi = supposizione di fatti non realizzata ma si prevede come possibile, viene descritta anche come una spiegazione logica fondata su indizi e congetture oppure è la prima formulazione di una legge non ancora sperimentata o sperimentabile attraverso dei fatti sperimentali o sperimentati. 1) Osservazione del fenomeno 2) Formulazione ipotesi 3) Impostare un piano sperimentale selezionando il campione in modo randomizzato 4) Raccolta dei dati campionari (insieme de nito) 5) Veri ca di ipotesi 6) Generalizzazione dell’ipotesi all’intera popolazione (insieme dei valori) Fare veri ca di ipotesi signi ca prendere un problema reale in un ipotesi statistica, utilizzare le informazioni campionarie per prendere decisioni sull’accettazione o il ri uto dell’ipotesi formulate e calcolare probabilisticamente il rischio di aver preso delle decisioni sbagliate. ↪︎ il processo si compone in vari step: Step 1: formulare un’ipotesi ed il suo sistema di ipotesi Ipotesi: bambini che mangiano prevalentemente frutta e verdura hanno abilità intellettive maggiori rispetto alla popolazione generale? X = valore del QI y = frequenza Quanto la curva è spanciata si trova con la deviazione standard. L’ipotesi sperimentale va riformulata in maniera formale dentro sistema di ipotesi (insieme di ipotesi legate in uno stesso sistema) e ce ne sono 2 che devono essere esaustive ed mutuamente esclusive (non possono essere vere contemporaneamente): - ipotesi nulla (H0) —> è l’ipotesi relativa alla popolazione generale ed è espressa in lettere greche. È SEMPRE un’ipotesi di uguaglianza ed è l’ipotesi da veri care e si comporta come “ancora” perché non so quale sarà la media, ma so che la media del QI generale della popolazione è 100 ↪︎ QI medio = 100 - Ipotesi alternativa (H1) —> può essere di varie forme ↪︎ QI > 100 (ipotesi monodirezionale destra) ↪︎ QI < 100 (ipotesi monodirezionale sinistra) ipotesi bidirezionali (a 2 code) Si usa il sistema di ipotesi perché rappresenta un “ancora” e comprende: Il principio di falsi cazione di Popper: se i dati campionari non supportano l’ipotesi nulla, allora l’ipotesi nulla viene falsi cata e si accetta l’ipotesi alternativa. ↳ si accetta o ri uta l’ipotesi nulla prima di fare i calcoli—> non si accetta MAI, in prima battuta, l’ipotesi alternativa 4 fi fi fi fi fi fi fi fi fi fi fi Step 2: utilizzare le informazioni campionarie per prendere le decisioni (esperimento) Es. faccio fare ai bambini un questionario sull’alimentazione e poi il test del QI Si aprono due scenari: - media del QI pari a 100 —> accetto ipotesi nulla - QI medio pari a 108 —> non si può decidere così a caso, ma bisogna avere un modello probabilistico per decidere Step 3: calcolo il rischio di aver preso delle decisioni sbagliate, ossia commettere errori Traduco l’ipotesi nulla in un modello probabilistico noto, in questo caso una normale Es. possono avere 108 per puro caso, ci sono bambini molto intelligenti Calcolo quanto sia probabile che e ettivamente si sia ri utato l’ipotesi nulla solo per caso, se fosse così si può commettere un errore: - Errore di Iª specie = falso positivo, si ri uta l’ipotesi nulla quando, nella realtà, questa è vera - Errore di IIª specie = falso negativo, si ha quando si accetta l’ipotesi nulla quando questa, nella realtà, sarebbe falsa (succede quando c’è basso potere statistico) Se c’è il rischio di questi errori, che va calcolato prima di fare la raccolta dei dati, devo usare la soglia statistica (detta ) che corrisponde al rischio che lo sperimentatore si assumere per commettere un errore di Iª specie ↪︎ = 5% —> falso positivo nel 5% dei casi => se si raccolgono 50 bambini e si fa la media campionaria, poi lo si fa per altri bambini per 100 volte, ci si assume il rischio che nel 5% dei rischi ci sia una media così alta di QI per caso e permette di de nire una linea di demarcazione tra i possibili eventi che fanno accettare H0 e lo spazio di possibili eventi che invece ce la fanno ri utare e sta nella coda nale a dx della campana (pochissimi casi che hanno un alto QI) Stabilire una soglia stastistica vuol dire stabilire una soglia di demarcazione che permette di de nire una linea di spaziale che permette tra l’accettazione o il ri uto dell’ipotesi nulla. REGIONE DI ACCETTAZIONE = il punteggio è vicino a quello della popolazione di riferimento (es.100) REGIONI DI RIFIUTO ( ) = il punteggio medio si discosta signi cativamente da quello della popolazione di riferimento, ossia la soglia statistica (es. 5%) VALORE CRITICO = il valore del test che determina il con ne tra zona di accettazione e zona di ri uto. Per determinare il valore critico si possono usare delle tabelle di valori di riferimento: Si stabilisce il valore di (es. al 5%) e si cerca nella tabella 1 - (es. 0.95 e corrisponde al valore dell’area sottesa da ∞ - Z) ↪︎ distribuzione dei punti z è una distribuzione normale, a campana, che ha una media pari a 0 ed una deviazione standard pari a 1, è il punto principale per fare veri ca di ipotesi Z critico = zona di valore critico con ne tra accettazione e ri uto Per decidere se 108 è diverso da 100, bisogna avere un modello probabilistico che mi aiuta, stabilendo il rischio che io mi voglio assumere per commettere un errore di prima specie pari al 5%, signi ca che è 0.95 ed è l’area sottesa alla curva tra la linea di demarcazione e +∞, lo z critico viene stabilito tramite le tabelle. Sulla base di questa tabella, il punto di demarcazione che mi fa venire una zona di ri uto di 0.05 e di accettazione di 0.95 (z critico). Posso capire dove sta il 108, devo trasformare il 108 in uno z tramite statista test z (media del campione z - muconzero (media di popolazione di rif.)/ sigma/radice quadrata di n —> si ha 3.771 e cade nella zona di ri uto (sta nella coda, la zona rossa di ri uto) Più riduco e minore sarà la probabilità di commettere un errore di prima specie. P-value è la probabilità di aver ottenuto un risultato uguale o più estremo di quello che e ettivamente ho osservato empiricamente —> es. mi dice quanto è probabile che abbia avuto 108 per caso ↪︎ se è più basso di , mi posso dare di quel valore —> ri uto ipotesi nulla e accettazione ipotesi alternativa perché signi ca che lo z calcolato sta nella zona di ri uto 5 fi 𝛼 𝛼 𝛼 𝛼 fi 𝛼 𝛼 𝛼 fi ff fi fi fi fi fi fi fi fi fi fi fi fi fi 𝛼 fi ff fi fi fi fi 𝛼 Lezione 3 11/10/2022 Argomento delle lezioni: - inizio del programma - Regressione semplice Riferimenti al testo: Berlingeri, modelli statistici per le scienze sociali (cap.2) Lo studio della relazione tra due variabili permette di determinare le di erenze (tra i casi studiati) che vengono rilevate in una variabile e devono essere associate o meno alla di erenza che viene rilevata nell’altra variabile. Con il termine associazione si indica un associazione generica e bidirezionale, si guarda solo se queste due variano assieme oppure no —> NON si guarda se le variabili sono dipendenti o indipendenti Le variabili sono continue e ordinabili, ovvero signi ca che sono variabili numeriche per cui è sensato calcolare media e varianza. ↳ la relazione tra le variabili può essere interpretata come il cambiamento atteso nei punteggi di una variabile al variare della seconda variabile —> REGRESSIONE SEMPLICE (o bivariata) “Più ciambelle mangio, più sono felice?” Bisogna trovare un modo per studiare e quanti care per studiare il numero di ciambelle mangiate e la felicità: 1) individuo la variabile —> conto numero delle ciambelle, operazionalizzo il costrutto di felicità (es. contare i sorrisi della persona) 2) Stabilire la variabile dipendente e quella indipendente ↪︎ contare le ciambelle = indipendente, contare i sorrisi = dipendente => solitamente la v.dipendente è quella di cui si vuole studiare un comportamento 3) metto in relazione le due variabili => studiare la forma, la direzione e la forza della relazione Studiare la forma tra variabili quantitative : si studia con il diagramma a dispersione (o scatterplot) che comprendono tanti punti quanti sono gli individui compresi nel campione ↳ relazione lineare —> può essere riassunta in una retta Il diagramma di dispersione crea una nuvola di punti che corrispondono alla rappresentazione estesa della relazione tra le variabili. Ogni punto rappresenta la relazione tra la VD (y) e la VI (x) per ogni singolo caso. L’approssimazione della nuvola di punti è pari ad una retta che ingloba tutti i punti della nuvola => retta di regressione La retta di regressione viene descritta con l’equazione: y̌ = a + byx ⋅ xi a = intercetta (o anche coe ciente costante) byx = coe ciente di regressione (o coe ciente angolare) L’intercetta indica il valore atteso della VD quando la VI è uguale a 0, possiamo dire in poche parole in quale punto la retta di regressione interseca l’asse delle y. Le proprietà principali sono: Esprime una stima puntuale della VD Esprime una quantità con l’unità di misura della VD Indica una previsione che indica una misura della VD —> se la VD si modi ca lo farà anche la scala della VI —> intercetta cambia —> varianza di scala 6 ffi ffi ffi fi fi ff ff fi Il coe ciente di regressione indica la relazione tra la VD e la VI, il suo scopo è quello di quanti care l’e etto della VI sulla VD quanti cando il cambiamento atteso nella VD per ogni cambiamento nella VI. Questo coe ciente non è standardizzato, ossia le due variabili hanno delle scale di misura che sono intuitivamente comprensibili. Le principali proprietà sono: Si esprime con l’unità di misura della VD Rappresenta l’e etto della VI sulla VD Indica un cambiamento non condizionato dei valori speci ci della VI Se si somma o si sottrae una costante alla VI, la retta di regressione non cambia—> invarianza di scala Quando le unità di misura delle variabili non sono comprensibili intuitivamente, bisogna usare la versione standardizzata (ossia che vale per tutte le variabili) del coe ciente di regressione; che prende il nome di coe ciente standardizzato Beta (βyx) ed indica la variazione, espressa in deviazioni standard, della VD per ogni aumento o diminuzione di una deviazione standard della VI. co vyx Il coe ciente standardizzato beta facendo: βyx = —> equivale ad r, il coe ciente di correlazione di sy ⋅ sx Pearson x̄ = media della variabile x sx = deviazione standard di x È inoltre importa aggiungere che il coe ciente standardizzato beta corrisponde al coe ciente di correlazione di Pearson e quindi varia tra -1 e +1. Il coe ciente di correlazione di Pearson varia in un valore compreso tra -1 e +1, dove -1 a erma che le variabili sono perfettamente inversamente proporzionali, e +1 a erma che le variabili sono perfettamente direttamente proporzionali. Il valore al centro, ossia lo 0 equivale all’assenza di relazione, quindi la retta standardizzata è piatta. Ovviamente i valori possono avere anche un valore intermedio: i valori di r > 0 indicano la presenza di una relazione positiva, mentre i valore r < 0 indicano la presenza di una relazione negativa. La formula del coe ciente costante deriva da: 1) la retta di regressione deve passare per il punto che unisce le medie delle variabili: a = ȳ − byx ⋅ x̄ ↪︎ in questa equazione ȳ e x̄ rappresentano i punti di posizione della media 2) da questa equazione è possibile anche avere il valore di byx 3) in realtà, l’indice naturale per quanti care associazione tra due variabili è la covarianza: Σ(yi − ȳ) ⋅ (xi − x̄ ) co vyx = dove N − 1 indica i gradi di libertà N−1 co vyx Σ(yi − ȳ) ⋅ (xi − x̄ ) 4) il coe ciente di regressione, ossia byx è anche pari a: byx = = sx2 Σ(xi − x̄ )2 ↪︎ equivale al rapporto tra covarianza e varianza —> entrambe queste formule da sole, al denominatore, hanno i gradi di libertà, che quindi appaiono sia al numeratore che al denominatore e quindi si sempli cano Lo scopo dell’indice di covarianza è quello di indicare in media quanta corrispondenza c’è nei nostri dati tra le deviazioni dalla media in x e le deviazioni dalla media in y. SQyx Con questa sempli cazione si può esprimere byx e si scrive: byx = SQx SQyx equivale alla somma dei prodotti SQx equivale alla somma dei prodotti —> sono gli indicatori di varianza 7 ffi ffi ffi ffi ffi ffi ff fi ffi fi ff fi ffi fi ffi ff fi ffi ffi ff fi La formula del coe ciente di regressione scandalizzato ha lo stesso valore del coe ciente di regressione che si ottiene standardizzando le variabili. ↪︎ per standardizzare le variabili si vanno dividere tutti i punteggi per la loro deviazione standard In poche parole, è possibile a ermare che il coe ciente di relazione lineare di Pearson ha lo stesso valore del coe ciente angolare della retta βyx che contiene i punti del gra co dello scatterplot dopo aver standardizzato le variabili. Σ( yi − ȳ)(xi − x̄) N−1 ↳ se βyx =r = —> che equivale al rapporto tra la covarianza e la deviazione Σ( yi − ȳ) 2 Σ(xi − x̄) 2 N−1 ⋅ N−1 standard (che a sua volta equivale alla radice quadrata della varianza) Σ··y x·· Quindi se abbiamo il punteggio standardizzato abbiamo la formula nale: r = dove ·· y e x·· N−1 corrispondono al punteggio standardizzato. Ovviamente, tutte le formule del coe ciente r danno lo stesso risultato numerico. L’analisi della regressione restituisce i coe cienti di regressione, che forniscono il valore delle probabilità di ottenere il nostro risultato sotto l’ipotesi nulla, ovvero quando il coe ciente testato è uguale a 0. Tutti i software statistici contengono diversi coe cienti: i coe cienti standardizzati (Beta), quelli non standardizzati (beta ed errore standard), il t-test (o T di Student) ed il p-value. Il modello completo, inoltre, tiene conto anche dell’errore associato a quella rappresentazione: si ha una buona rappresentazione quando si associa ad un piccolo errore. L’errore associato al modello di regressione, sull’equazione della retta di regressione di ottiene facendo: yi = a + byx ⋅ x + ei L’errore del modello di regressione equivale alla di erenza tra il punteggio osservato quello predetto; spesso, prende anche il nome di punteggio residuo. Gli errori possono essere sia positivo (quindi hanno valori maggiori rispetto a quello predetto) oppure minori (ovvero con valori minuti rispetto al valore predetto). Gli errori sono equivalenti, ovvero hanno lo stesso valore numerico, quindi è possibile elevarli al quadrato per eliminare il segno. ↳ facendo poi la somma degli errori, tutti elevati al quadrato si ottiene la quanti cazione degli errori —> SQe = Σei 2 = Σ(yi − ȳ)2 L’unità di misura dell’errore corrisponde al quadrato dell’unità di misura della VD. Ovviamente è importante capire se l’errore ottenuto è grande oppure è piccolo: per fare questo bisogna fare un confronto con l’errore associato non usare la regressione. Quando si parla di non usare la regressione si intende di rappresentare la VD usando la media, e quindi, escludendo la VI. Possiamo dire che l’errore associato alla media è dato dalla distanza tra punteggi osservati e i valori predetti (cioè la media) —> quindi equivale alla somma dei quadrati della VD La di erenza tra non usare la regressione (SQy) ed usare la regressione (SQe) ci dice quanto il modello di regressione stai migliorando la rappresentazione della VD. Facendo il rapporto tra la riduzione dell’errore (SQe) e l’errore associato alla media (SQy) si ottiene la SQy − Sqe proporzione di riduzione dell’errore (R 2): R 2 = SQy R 2 ha un valore compreso tra 0 ed 1 —> maggiore sarà il suo valore —> migliore sarà l’adattamento ↪︎ se la presenza della regressione riduce l’errore —> una parte delle di erenze nella VD può essere spiegata grazie alle di erenze della VI —>1 − R 2 corrisponde al coe cente di alienazione 8 ff ffi ffi ff ff ffi ffi ffi ffi ff ffi ffi ffi fi fi ff fi ffi R 2 può essere spiegato anche come indicatore di varianza condivisa fra VD e VI, quindi permette di spiegare un parte del punteggio che alla VD che varia alla modi ca del punteggio della VI e questo permette la rappresentazioni della variabilità delle variabili all’interno di un diagramma di Venn. Se in un software statistico, troviamo scritto R 2 uguale a 0.807, signi ca che spiega l’80.7% della variabilità della VD. La retta di regressione è la retta che meglio de nì la nuova di punti tra VD e VI; ha lo scopo anche di garantire quale, tra le tante rette esistiti, posa essere la migliore poiché viene associata ad un errore più piccolo. Per fare questo bisogna usare il metodo dei minimi quadrati —> Sqe = Σ(yi − a − byx )2 R 2 ha lo scopo anche di indicare la varianza non di errore della regressione e che il coe ciente di regressione standardizzato è uguale a quello non standardizzato —> quindi la proporzione di varianza non cambia ↳ si può anche dire che R 2 è il quadrato dell’indice di correlazione di Pearson fra x e y. INFERENZA STATISTICA Sono presenti due tipologie di test: i test sui coe cienti di regressione ed i test sulla bontà di modello. Test sui coe cienti di regressione Il test associato al coe ciente di regressione è il T-test. Il suo valore è dato dal rapporto tra il coe ciente ed i suo errore standard ed il suo valore è uguale per il coe ciente byx e per βyx. È inoltre importante a ermare che l’errore standard è direttamente proporzionale all’errore della regressione. In questo test il p-value permette di indicare un valore t uguale oppure maggiore rispetto a quello ottenuto con la regressione campionando da una popolazione dove il valore di t è 0. Se il p-value è minore della soglia comune di 0.05 si ri uta l’ipotesi nulla e si accetta l’ipotesi alternativa. Test sulla bontà di modello Il test associato alla bontà di modello è il test F. Il test F ha una logica molto simile al T-test, solo che il test F è un test quadratico perché è adatto a testare delle quantità quadratiche come la varianza, usandole al posto delle deviazioni standard. La stessa logica del p-value con il T-test viene applicata al test F. LA MATRICE DI CORRELAZIONE È una tabella che presenta nelle celle i coe cienti di correlazione tra le corrispondenti variabili in riga e colonna. È una matrice quadrata con tante righe e tante colonne quante le variabili che voglio analizzare contemporaneamente. Si fa riferimento leggendo prima le righe e poi le colonne. La diagonale principali è formata da valori 1 (correlazione con il valore stesso) che è perfetta. (n − 1) Sono presenti n ⋅ che corrispondono alle correlazioni fra tutte le coppie di variabili. 2 Il triangolo superiore e inferiore della matrice sono simmetrici —> l’indice di correlazione è bidirezionale Per esprimere un nesso causale tra le variabili bisogna: - decidere chi è la causa e chi è l’e etto —> quindi capire qual’è la variabile indipendente e la variabile dipendente - Identi care il modello matematico per esprimere questa relazione Per fare questo c’è bisogno della retta di regressione (il modello teorico): yî = a + byx ⋅ xi yî = valori della VD predetti dal modello byx = coe. Regressione, pendenza della retta a = intercetta della retta con asse delle y 9 ffi fi ffi ff ffi ff ffi ffi fi ff ffi fi fi fi ffi Lezione 4 12/10/2022 Argomento delle lezioni: - Modello teroico - Regressione multipla Riferimenti al testo: Berlingeri, modelli statistici per le scienze sociali (cap.3) Tra tutte le rette che passano per una nuvola di punti, la retta migliore è quella che minimizza l’errore del modello: SQe = Σ(yi − yî )2 Dove: SQe —> varianza residua Il modello di regressione teorico esprime la retta, il modello completo esprime i valori che e ettivamente si osservano e sono caratterizzati da una coppia di x e di y e che segue il criterio dei minimi quadrati. ŷ = a + byx ⋅ xi Poi c’è anche il modello di regressione completo che si calcola per i valori osservati ed è il modello che tiene conto anche degli errori residui (stessa formula, ma con l’aggiunta dell’errore residuo ϵi). yi = a + byx ⋅ xi + ϵi Per un insieme di punti, passano in nite rette, quindi come si sceglie la retta migliore? Si deve cercare la retta che è in grado di minimizzare la somma dei residui, elevati al quadrato. ↪︎ la retta che rispetta il criterio minimo dei quadrati = la retta che rende minimo la somma degli scarti del modello elevati al quadrato (l’errore del modello) Si eleva al quadrato per eliminare il problema dei segni opposti, che potrebbe anche andare ad annullare dei termini. La retta che ha l’errore più piccolo è la migliore. Quando viene individuata la retta migliore, è importante sapere il potere del modello ottenuto: il metodo più semplice per scoprirlo è la media campionaria. Per capire quanto il modello sia buono si devono usare degli indicatori, il più importante è la bontà di adattamento del modello (R 2) e varia tra 0 ed 1: più si avvicina ad 1, maggiore sarà il potere del modello preso in considerazione. L’indice di bontà di adattamento rappresenta la proporzione di varianza della VD che viene spiegata dal modello di regressione. r = indice di correlazione lineare di Pearson ↪︎ se è pari ad 1, allora anche la R 2 è uguale ad 1 La relazione tra R 2 ed r vale solo per la regressione semplice Cose che valgono solo per la regressione semplice: 1) relazione tra x ed y, dopo averlo standardizzato in modello 2) Calcolo la retta di regressione 3) Ottengo il coe ciente standardizzato di regressione beta = r 4) r se elevato al quadrato mi de nisce R 2 Es. r = 0.9 —> R 2 = 0.81 —> 81% = modello spiega 81% Se l’R 2 ha un valore di 0.49, è su cientemente diverso da zero? Devo fare l’inferenza sui parametri del modello di regressione e sulla bontà del modello: 1) inferenza su R 2 —> se non è molto diverso da 0 non ha senso guardare i parametri di regressione ↳ si fa un primo sistema di ipotesi per poi usare la statistica test adatta (in questo caso la F) —> sempre + 10 ffi fi ffi fi ff 2) Inferenza su byx —> la sua statistica è una t di student: ↳ anche qua prima si elabora un sistema di ipotesi per poi utilizzare una statistica test di t t di student ha una forma a campana, ma cambia in base ai gradi di libertà, si usa per fare una veri ca di ipotesi su parametri del campione —> si guardano anche i gradi di libertà (N-2) ↪︎ se è signi cativo (< 0.05) allora c’è una relazione signi cativa tra VI e VD I gradi libertà sono il numero di informazioni, all’interno di un campione, che possono variare in maniera indipendente da uno all’altro (variano come vogliono) ↪︎ es. per arrivare ad una somma uguale a 10 —> il primo numero può essere qualsiasi, dopo il secondo numero deve essere necessariamente il complementare 3) grado di inferenza di βyx—> si svolge in maniera simile all’inferenza su byx ↳ si fa prima un sistema di ipotesi, poi una stastica test T e lo stesso numero di gradi di libertà di byx (N-2) ↪︎ se è signi cativo (< 0.05) allora c’è una relazione signi cativa tra VI e VD 4) grado di inferenza sull’intercetta del parametro a—> c’è sempre, ma non è detto che sia degna di nota perché dipende dalla variabile indurita nel modello ↳ si fa un sistema di ipotesi e se questo dovesse essere signi cativo (quindi è < 0.05), allora il valore della VD, se VI è 0, sara signi cativamente diverso da 0. REGRESSIONE MULTIPLA È l’estensione più semplice della regressione semplice, è un modello con più variabili indipendenti e permette di valutare il nesso “causale” tra la più VI su una stessa VD. Si de nisce come regressione multipla il modello di regressione in cui sono presenti più VI. In questo modello vengono aggiunti tanti termini quante sono le VI; questi termini aggiunti hanno tra di loro una relazione lineare. Lo scatterplot con una regressione multipla diventa multidimensionale, ogni variabile assume una dimensione nel modello. Non viene più rappresenta da una retta di regressione, ma da un piano di regressione, che nasce dalla presenza di due Vi tramite scatterplot 3D. La funzione del piano di regressione è yî = a + byx.w ⋅ xi + byw.x ⋅ wi può essere de nita come la diretta estensione della retta di regressione con più VI: è importante aggiungere che questa funzione non è una retta, perché ora, grazie al maggior numero di variabili, la retta acquisisce più dimensioni diventando un piano. C’è sempre una nuvola di punti con 3 coordinate. I coe cienti della funzione della regressione multipla sono de niti e etti o coe cienti parziali. Il modello di regressione sui valori predetti lo si trova sia con i coe cienti standardizzati che con quelli non standardizzati: yî = a + byx.w ⋅ xi + byw.x ⋅ wi (per i coe cienti non standardizzati) yî = a + βyx.w ⋅ xi + βyw.x ⋅ wi ( per i coe cienti standardizzati) —> βyw.x varia tra -1 ed 1, a di erenza della regressione semplice non si può dire che corrisponda al coe ciente di Pearson e non c’è correlazione 11 ff ffi fi ffi fi fi fi fi ffi ffi fi fi fi fi ffi ffi ff fi byx.w —> coe ciente di regressione della variabile x su y, contando dell’esistenza di w ↪︎ può rappresentare anche: - E etto diretto di x su y, quando viene bloccato l’e etto di w - E etto di x su y, rendendo parziale l’e etto di w In poche parole possiamo riassumere la regressione multipla dicendo che: L’ interpretazione della costante a non è molto diversa rispetto alla regressione semplice ↳ indica il valore atteso della VD quando le VI sono 0, ma è anche il punto di regressione che interseca l’asse delle y Il coe ciente byx.w è il cambiamento atteso nella VD (Y) per ogni unità della VI (X) al netto della VI (W) ↳ rappresenta anche l’e etto di X tenendo conto anche della presenza di W, ovvero il coe ciente di regressione parziale —> punto di vista geometrico byx.w è l’inclinazione del piano rispetto all’asse d’interesse Con il modello di regressione completo, rispetto alla variabile osservata y abbiamo: yi = a + byx.w ⋅ xi + byw.x ⋅ wi + ϵi Anche la regressione multipla va valutata per quanto riguarda la capacità di ridurre l’errore di predizione. Per farlo si può valutare la bontà di adattamento del modello utilizzando R 2, ossia la proporzione di varianza spiegata dalle VI. SQy − SQe Formula: R 2 = dove R 2 indica la capacità aggregata delle VI di SQy predire la VD (e n qui sarebbe lo stesso della regressione semplice), ma in questo la di erenza sta che R 2 non è dato dal coe ciente di regressione standardizzato al quadrato perché qui rappresenta il contributo complessivo delle VI. La capacità del modello di psiegare la varianza è data dalla somma di tutte le componenti di varianza condivise (a + b + c). (a + b + c) L’ R 2, in questo caso, è dato da —> e rappresenta l’errore associato alla regressione (a + b + c + e) Per quanti care il contributo unico delle VI ci sono 2 alternative: - coe ciente semi-parziale al quadrato = esprime il contributo unico di ognuna della VI al totale della a 2 varianza di VD, aumenta l’R 2 totale grazie al contributo di VI —> sryx.w = a+b +c +e - coe ciente di correlazione parziale al quadrato = spiega la VI se la VD non varia anche in funzione 2 a delle altre VI —> pryx.w = a+e Nella regressione multipla, la stima del piano di regressione è de nito da 1 + k coe cienti, ossia la somma tra una costante ed un numero di variabili indipendenti (k). I gradi di libertà sono il numero di informazione che sono libere di variare indipendentemente all’interno di un campione. ↳ i gradi di libertà associati all’errore, quindi, sono : N − (1 + k) = N − 1 + k ↳ i gradi di libertà associati all’R 2 sono dati dalla di erenza tra i gradi di libertà della varianza totale (N − 1) e quelli della varianza di errore ((N − 1 − k) e quindi, con lai sempli cazione si ottiene solo k C’è sia un modello teorico che uno empirico, ognuno dei quali possiede tante variabili b quante sono le variabili b La distribuzione t-student è una distribuzione di probabilità che si usa per fare veri ca di ipotesi rispetto alla stima di parametri campionari. Assume una forma a campana che varia in funzione dei cosiddetti “gradi di libertà” —> maggiore è il numero di gradi di libertà e più la curva sarà assimilabile ad una curva normale 12 ff ff fi ffi ffi ffi fi ffi fi ffi ff ff ff ff fi fi ffi ff ffi ESERCITAZIONE JAMOVI 1 18/10/2022 Argomento delle lezioni: - Uso di Jamovi Riferimenti al testo: Berlingeri, modelli statistici per le scienze sociali I nomi delle variabili devono essere più semplici possibili ↪︎ meglio non usare lo spazio —> usare _ per separare le parole Digit_t0 —> indica la variabile digit spam (test per MBT) Digit_t1 —> digit span che viene e ettuato in un tempo t1 Raven_t0 —> indica la variabile dell’esperimento delle raidici colorate di Raven (culture free) Gruppo_t e gruppo_nt —> sono il gruppo dei soggetti trattati (t) e dei soggetti non trattati (nt) Come importare le excel 1) Aprire jamovi 2) Premere ≡ 3) Premere “importazione speciale” 4) Premere ”sfogliare” e scegliere il le Il simbolo dei tre pallini colorati è uno dei tanti simboli (come il metro) che ci dano indicazioni sulla natura delle variabili —> per esempio i tre pallini colorati indicano che la variabile è nominale Come contare gli elementi del campione (frequenze) 1) Premere “analisi” 2) Prendere “descrittive” 3) Aggiungere o togliere statistica o gra ci 4) Premere il simbolo della ➔ centrale 5) Controllare se portano i numeri —> se questo non dovesse succedere controllare righe e colonne Come creare una tabella di contingenza 1) Premere “frequenze” 2) Premere “campioni indipendenza” 3) Inserire i dati nelle righe e nelle colonne Come inserire una matrice di correlazione (in questo caso è associazione tra indice globale, età e Raven_t0) 1) Premere su “menù regressione” 2) Premere su “matrice di correlazione” e selezionare poi la variabile 13 fi fi ff fi Lezione 5 18/10/2022 Argomento delle lezioni: - Confronto di medie e t-test Riferimenti al testo: Berlingeri, modelli statistici per le scienze sociali Se ci si ritrova ad avere due variabili che sono due tipologie di erenti: per esempio la VD è quantitativa, mentre la VI è nominale, bisogna usare il GLM ( o modello lineare generale). Il modello lineare generale è un modello che può essere usato indipendentemente dalla natura delle VI che vengono selezionate in uno studio. Nei casi analizzati no ad ora: Se si vuole studiare la relazione lineare tra due variabili quantitative senza ipotesi sulla relazione di causa- e etto —> uso il coe ciente di correlazione di Pearson (r) Se si vuole studiare il nesso causale tra due variabili quantitative bisogna: - identi care la causa (quindi la VI) e l’e etto (cioè la VD) - Si crea un modello di regressione lineare semplice —> relazione rappresentata tramite retta di regressione Se si vuole studiare il nesso causale tra più VI quantitative e una VD quantitativa, allora bisogna: - Estendere, o meglio generalizzare, il modello di regressione - Ottenere una regressione lineare multipla con tanti parametri b (o β) quante sono le VI considerate Se si vuole studiare il nesso causale tra VI categorica (o nominale) e VD quantitativa, allora bisogna estendere ancora di più il modello lineare. Esistono 3 tipi di T-test che fanno riferimento a situazioni speci che dal punto di vista scienti co, quindi per speci che domande di ricerca. Ognuna di queste 3 tipologie di test sono associate a uno speci co sistema di ipotesi e, quindi, per un preciso scopo. T-test a campione unico Si usa quando si vuole valutare se la media campionaria è uguale o diversa rispetto ad un valore di riferimento teorico nella popolazione. ↪︎ es. valutare se l’età media di un campione di anziani è maggiore di 50 anni Il suo sistema di ipotesi è: H0 : età —> = 50 H1 : età —> ≠ 50 Si calcola facendo la media del campione la media di riferimento della popolazione fratto la deviazione standard. Si distribuisce con N-1 gradi di libertà ed è associata ad un certo p value, cioè se è minore di ri uto l’H0. Se si ri uta l’H0 devo capire se l’età media è maggiore o minore di 50, prendo il valore di 15,2 (che si trova su mean di erence dice la di erenza media tra la media di riferimento e quella reale) e, in base ai dati, si va ad aggiungere o togliere al valore medio di 50. Con il valore di statistica test (in questo caso 15.1) si capisce se è maggiore o meno della media di riferimento guardando il segno del valore: se positivo vuol dire che i soggetti sono più anziani, se è negativo signi ca che sono più giovani. Il gra co che la rappresenta è una campana simmetrica 14 ff ff 𝜇 𝜇 fi fi fi fi 𝜇 𝜇 fi ff ffi fi ff fi ff fi fi 𝛼 fi rispetto alla media, in cui le punte sono verso il basso e rappresentano il valore con cui si va a ri utare H0. Fanno parte delle statistiche test parametriche e funzionano bene con una distribuzione di dati normali (ossia che seguono, più o meno, la campana). T-test per campioni indipendenti Si usa per testare se la media di un gruppo A è diversa dalla media del gruppo B (2 gruppi indipendenti). ↪︎ es. valutare se due gruppi di pazienti hanno, in media, la stessa età Il sistema di ipotesi è composto da: H 0 : μg1 = μg2 H 1 : μg1 ≠ μg2 La statistica test di riferimento viene calcolata in maniera diversa perché non c’è una popolazione di riferimento, ma 2: al numeratore avrò , mentre al denominatore c’è la stima dell’errore standard della di erenza tra le medie campionarie (misura di variabilità che tiene conto della variabilità dei due campioni). Se ri uto H0, allora c’è una di erenza signi cativa tra la media dell’età dei gruppi. I gradi di libertà sono (N-2) —> (N1+N2) -2. Con Jamovi: 1) Si controllano gli assunti (test di normalità) —> se questo non è signi cativo —> H0 ha una distribuzione di dati normale 2) Se la distribuzione segue la normale —> bisogna anche controllare il test di Levene ( le varianze sono simili) che ci dice se la varianza nei due gruppi è simili, se risulta gruppo sperimentale Gruppo di pazienti a etti dalla stessa patologia, ma che eseguono solo attività ricreative quotidiane (non trattati, NT) —> gruppo di controllo Le variabili che sono coinvolte sono: VI: IL GRUPPO VD: INDICE-GLOBALE È una variabile nominale dicotomica (ossia una variabile nominale con solo 2 modalità). Può essere anche de nito come fattore che si È una variabile quantitativa distribuisce su due livelli: - T (trattati) - NT (non trattati) Il sistema di ipotesi si articola in: {H 1 : μT ≠ μNT H 0 : μT = μNT nell’ipotesi nulla, si ipotizza che la media dei T sia uguale alla media dei NT Come si fa a utare una regressione se abbiamo una variabile categoriale? ↪︎ si attribuisce il valore 0 ai NT ed il valore 1 ai T La variabile che rimodi ca VI categorica in 0 ed 1 è detta dummy variable. I dati vengono rappresentati tramite uno scatterplot. Ci sono da fare 2 premesse con questi gra ci: - In una distribuzione di dati, la media è il valore che minimizza la distanza tra oggetti osservati e la media stessa. - La regressione è la retta che minimizza la distanza tra i punti osservati e quelli stimati. ↳ la retta di repressione quindi passa per la media di entrambi i gruppi Come detto precedentemente, l’equazione della retta con errore è: yi = a + byx ⋅ xi + ϵi Che cosa rappresenta la variabile a? ↪︎ è il valore atteso della VD (ossia la y) quando la VI è pari a 0, quindi la dummy variable è pari a 0 (il gruppo degli NT) —> in poche parole l’intercetta è la media del gruppo NT Che cosa rappresenta il coe ciente b? ↪︎ rappresenta la pendenza della retta, in questo caso si calcola facendo: byx = y¯1 − y¯0 => byx = y¯T − yNT ¯ Che cosa rappresenta il coe ciente β? Rappresenta la pendenza della retta quando le variabili sono standardizzate, ma è anche l’indice di correlazione di Pearson tra x e y —> possiamo dire che in questo caso rappresenta il coe ciente di correlazione tra la variabile nominale (VI) e la variabile continua (VD) ed è de nito che coe ciente di correlazione punto biseriale. Che cosa rappresenta l’indice R 2? Solitamente rappresenta la bontà di adattamento di modello, ma qui è la proporzione di varianza di Y spiegata dalla di erenza di medie tra i due gruppi 16 fi ffi ff ff fi fi ffi ffi fi fi ffi ffi Lezione 6 25/10/2022 Argomento delle lezioni: - Confronto medie: ANOVA a 1 via Riferimenti al testo: Berlingeri, modelli statistici per le scienze sociali (cap.4) Il modello lineare può essere generalizzato ulteriormente, ma con la presenza di variabili miste (una quantitativa e una nominale) non è possibile usare una retta come rappresentazione —> stessa logica In questi casi si utilizza un GLM conforme ad una analisi della varianza (o ANOVA, Analysis Of VAriance): ossia una tecnica che permette di confrontare i dati che derivano da 2 o più gruppi tramite il confronto tra la variabilità interna ai gruppi (varianza within Group) con la variabilità tra i gruppi (varianza between groups). Il modello prende il nome di ANOVA ad una via quando si ha un modello con un VI multigruppo. I PRINCIPI DEL MODELLO Quando si usa? Si usa quando si vuole confrontare le emende di più di due gruppi. Sistema di ipotesi H 0 :μg1 = μg2 = μg3 … μgj−esimo —> tutte le medie di tutti i gruppi sono uguali H 1 : μgj−esimo ≠ μgj−esimo —> c’è almeno una coppia di medie che di erisce => variabilità diversa da 0 Assunto di base La variabilità totale di un fenomeno può essere scomposta in: - variabilità tra i gruppi => between-subject - Variabilità entro i gruppi => within-subject UN ESEMPIO PER COMPRENDERE Quesito “Si vuole veri care se il livello di prestazione ad un test di ragionamento astratto varia in funzione della scuola di provenienza.” Si raccolgono i dati in 3 diverse scuole: 1) scuola blu 2) Scuola rossa 3) Scuola verde Si testano 10 studenti per ogni scuola. Variabili VI = scuola —> è una variabile categorica che si distribuisce su 3 livelli VD = prestazione al test —> variabile quantitativa Sistema di ipotesi H 0 : μblu = μrossi = μverdi {H 1 : μj−esimo ≠ μj−esimo Da H1 si originano diversi scenari dati da diverse combinazioni possibili perché si può avere la di erenza tra - μblu e μrossi - μrossi e μverdi - μblu e μverdi Se si va a ri utare H0, vuol dire che esiste almeno una coppia che di erisce, ma non so qual’è. Per scoprirlo devo fare altre analisi a posteriori (i cosiddetti confronti post-hoc). 17 fi fi ff ff ff Assunto di base Come detto precedentemente, la variabilità totale di un fenomeno può essere scomposta in variabilità tra i gruppi e variabilità entro i gruppi. Quindi si può dire che la somma dei quadrati è: SQtot = SQtra + SQentro —> proprio per l’assunto di base Es. valutare ragionamenti con matrici di Raven di eriscono per di erenza: - ho 3 scuole e raccolgo 10 unità per scuola —> 30 bambini - Analisi della varianza che si basa sul fenomeno e che può essere composta in between e within sub. - Si fa la prima formula per una scuola, poi per un altra e si fa la somma totale =>SQtra - La variabile entro i gruppi si fa facendo la somma tra il quadrato dello scarto tra la media totale e quella del gruppo di riferimento => SQentro Questo è il gra co che presenta le medie delle scuole, la linea tratteggiata è la media totale e la variabilità è data dalla di erenza tra gli scarti dei tre puntini (ognuno dei quali rappresenta la media del gruppo). La variabilità entro i gruppi fa riferimento alla distanza tra il puntino nero e il quadratino nale rosso (e questo vale per tutti i gruppi). Che statistica si usa per l’ANOVA ad 1 via? Si usa una statistica F che si distribuisce con (J-1) e (N-J) gradi di libertà Varianza tra i gruppi /J-1 (3-1) = gradi di libertà varianza entro i gruppi / N-J (30-3) = gradi di libertà MSQtra si ottiene se divido la variabilità tra i gruppi (between subjects) per i propri gradi di libertà (J-1). ↪︎ stessa cosa per la variabilità entro i gruppi —> si divide MSQentro per i suoi gradi di libertà (N-J). MSQtra Quindi la statistica F può essere ricalcolato come: F = MSQentro Può essere de nita come un rapporto: al rapporto ho la MSQtra e al denominatore ho la MSQentro ; in poche parole è il rapporto tra SQbet ween e la SQwithin, entrambe moltiplicate per il loro grado di libertà. Come detto precedentemente i gradi di libertà sono rispettivamente (J − 1) e (N − J ). Nel primo caso si usa (J − 1) perché si posseggono J gruppi e quindi ci saranno altrettanti valori liberi da calcolare intorno alla media delle medie ( ȳ) e, per ciò si perde un grado di libertà. Nel secondo caso si usa (N − J ) perché equivalgono al numero di casi N sottratti al numero di parametri ssi (J). Quando si guarda una veri ca di ipotesi in questo modo uso la statistica test F: al numeratore metto la variabilità media tra i gruppi (MSQtra) mentre al denominatore metto la variabilità media entro i gruppi (MSQentro). La F è una statistica test data da un rapporto che si mette appresso una variabilità tra il numeratore ed il denominatore. P-value > 0.05 —> statistica test F non signi cativo —> si ri uta H0 => non c’è evidenza su ciente per dire che esiste una di erenza tra i gruppi 18 fi fi ff ff fi fi fi fi ffi fi ff ff P-value < 0.05 —> statistica test F signi cativa —> H0 accettata => c’è almeno una coppia di medie che di erisce ↪︎ per questa seconda possibile soluzione, bisogna o guarire il gra co delle medie oppure fare dei confronti a posteriori Osservando il valore del p-value che esce dalla selezione dei dati si può ben vedere che il valore di è minore di 0.05, quindi si va a ri utare l’ipotesi nulla. Con questo risultato si può concludere che il tipo di scuola va a in uenzare in modo signi cativo la prestazione al test di ragionamento astratto. Si può notare, osservando il gra co, che la scuola blu ha in media, una prestazione più bassa rispetto alle altre scuola (mean 16.1). Possiamo dire che è possibile passare dall’ANOVA al GLM. L’analisi della varianza può essere ri-descritta in forma di modello lineare generale (GLM), ovvero signi ca che può essere descritta come una generalizzazione di un modello lineare simile a quello applicato nel caso delle variabili dicotomiche. E come si fa? Si ricorre alle dummy variables. ↳ se ho 3 gruppi, allora si possono codi care quei 3 gruppi usando 2 dummy variables (J-1). Faccio come in questa tabella: inserisco i 3 gruppi e le due dummy variables. Poi, inserisco le dummy in un modello lineare: yî = a + by1 ⋅ Du m m y1 + by2 ⋅ Du m m y 2 a: è l’intercetta che rappresenta il valore atteso di y quando tutte le dummy sono uguali 0, in questo caso rappresenta la media del gruppo verde (che è il reference group). Il référence group è quel gruppo di informazione che contiene le comparazioni fra medie che sono fatte usando il gruppo che contiene 0 in tutte le dummy. by1: è la di erenza tra la media del reference group, è il gruppo che ha come Du m m y1 = 1 e Du m m y 2 = 0 (ossia in questo caso il gruppo blu). by2 cosa rappresenta? Essendo questo un modello lineare, bisogna anche valutare la bontà del modello R 2 che rappresenta la proporzione di varianza Y spiegata dall’insieme delle dummy, ovvero dei gruppi. Se questo valore è signi cativamente diverso da 0, ciò signi ca che c’è un e etto variabile gruppo, quindi signi ca che c’è almeno una coppia che di erisce. In questo caso il test su R 2 del GLM e il test F dell’ANOVA sono uguali. R 2 è dato dal rapporto tra la variabilità spiegata dalle medie dei gruppi e la variabilità totale: L’indice SQbet ween R2 = SQy Se almeno un confronto tra le medie è diverso da 0, allora anche R 2 sarà diverso da 0. Allo stesso modo, se il test F associato all’R 2 è diverso da 0, allora diremo che non tutte le medie sono uguali e che quindi la VI ha un e etto principale signi cativo. 19 fi fi fi ff fi ff fi 𝛼 fi ff ff fi fi fi fl ff fi fi Lezione 7 26/10/2022 Argomento delle lezioni: - ANOVA fattoriale between subjects - Esercitazione 2 Riferimenti al testo: Berlingeri, modelli statistici per le scienze sociali (cap.5) Le variabili between subjects sono variabili i cui modelli raggruppano delle osservazioni provenienti da statistiche di erenti. ↳ es. sesso biologico Le variabili within subjects è una variabile i cui modelli raggruppano osservazioni provenienti dalle stesse unità statistiche —> solitamente sono cambiamenti del tempo ↳ es. osservazione di una variabile psicometria all’inizio e alla ne di un trattamento IL DISEGNO FATTORIALE È un disegno sperimentale in cui vengono usate due o più variabili categoriche (fattori). Il disegno trasversale ha come cautela il fatto che non è detto che si possa vedere sempre un e etto, quindi per evitare questo problema bisogna lavorare su grandi quantità. I livelli di ciascun fattore vengono incrociati in modo tale da ottenere tutte le possibili combinazioni di livelli di ogni variabile. Per esempio: “si vogliono studiare se le abilità di lettura nei bambini di prima e seconda elementare sono diverse per i maschi e le femmine” Variabili indipendenti (che prendono il nome di X e W): Classi elementari (fattore su due livelli) Sesso biologico (fattore su due livelli) Variabile indipendente (che prende il nome di Y): Velocità di lettura di parole e di non parole Come si può notare, si ottiene un disegno fattoriale 2X2 (due livelli di classe X due livelli di sesso biologico) e, quindi, si ottengono 4 combinazioni sperimentali date dall’incrocio dei livelli di ogni fattore. Quando si ha un disegno fattoriale 2X2: - E etto principale del 1º fattore —> c’è una di erenza tra 1ª e 2ª elementare, indipendentemente dal sesso biologico? - E etto principale del 2 fattore —> c’è una di erenza di medie tra maschi e femmine, indipendentemente dalla classe che frequentano? - Interazione classe x sesso biologico —> c’è di erenza tra prima e seconda elementare se la di erenza tra i sessi conta? ↪︎ il gra co dice che se partono da una di erenza, poi in seconda elementare raggiungono un livello uguale e ci mostra che i maschi hanno una di erenza importante tra la prima e la seconda elementare, mentre le femmine no Si guardano le interazioni come delle forbici perché se le due linee del gra co fossero parallele Quando si guarda il gra co dei pro li delle medie, se ho delle interazioni, ho sempre delle linee che tondono ad incrociarsi, mentre se le linee sono parallele, allora l’interazione non è signi cativa. 20 ff ff ff fi ff fi fi ff ff ff ff fi fi fi ff ff Per poter analizzare un disegno fattore 2X2 bisogna utilizzare un modello statistico capace di cogliere i 3 fattori di interesse presente: yî = bx ⋅ xi + bw ⋅ wi + bi ⋅ xi ⋅ wi + a bx ⋅ xi è l’e etto principale di X —> di erenza tra le medie dei gruppi (di. tra classi considerando sesso bio) bw ⋅ wi è l’e etto principale di w bi ⋅ xi ⋅ wi è l’interazione dei due fattori —> è la di erenza tra l’e etto X per i due gruppi de niti da W a è l’intercetta che, in questo caso, rappresenta l’abilità media di lettura dei maschi in prima elementare, in poche parole è il valore atteso di Y quando sia X che W sono uguali a 0. Questo modello prende il nome di regressione moderata e ha il compito di descrivere gli e etti di ognuna delle variabili indipendenti (ossia X e W) per ogni possibile livello dell’altra. La sua rappresentazione non è data da un piano di regressione perché la pendenza delle rette che de niscono i valori predetti non sono parallele e, quindi, il piano si “incurva” dando luogo ad una super cie di regressione. La super cie di regressione sarà tanto incurvata quanto è grande il coe ciente associato al termine di interazione (ossia il coe ciente bi). L’interpretazione di questo coe ciente può essere doppia: Se ha un valore positivo —> l’e etto della VI aumenta all’aumentare dei valori dell’altra VI Se ha un valore negativo —> l’e etto della VI diminuisce all’aumentare dell’altra VI L’e etto d’interazione viene de nito anche come e etto di secondo ordine, mentre gli e etti lineari sono detti e etti di primo ordine. Per il resto, la regressione moderata ha le stesse caratteristiche di una regressione multipla. Per analizzare un modello 2X2 ci sono dei passaggi da seguire: 1) codi care le variabili categoriche in 0 e 1 (codi ca dummy) 2) Si codi cano le variabili centrandole sullo 0 —> queste codi che corrispondono a un variabile contrasto che indica la di erenza tra i due gruppi de niti dalla VI 3) Si calcola il coe ciente associato ai termini lineari (che è pari alla di erenza tra le medie dei gruppi de niti dalla VI, calcolati per l’altra VI uguale alla sua media) 4) L’interpretazione si può basare sulla visualizzazione di gra ci delle medie 5) Interazione tra la variabile X e una delle W 6) Interpretazione dei risultati Non ci sono rappresentazioni del sesso biologico dei bambini, ci si concentra solo dalla media. Questo gra co a sinistra, rappresenta l’e etto principale del 1º fattore considerando come Y il tempo di lettura, mentre come X la classe di appartenenza dei bambini. Qui viene fatto l’opposto del gra co precedente. In questo secondo gra co si va a studiare l’e etto principale del sesso biologico: rispetto al primo gra co,