Attendibilità e Matrici PDF
Document Details
Uploaded by FreedRapture407
UniTo
Tags
Summary
Questi appunti forniscono una panoramica sull'attendibilità degli strumenti di misurazione, in particolare nell'ambito della ricerca sociale. Vengono descritti diversi metodi per valutare l'attendibilità di una batteria di item, come il test-retest, le forme parallele e lo split-half, con particolare focus sull'alfa di Cronbach.
Full Transcript
LEZIONE 5: L’ATTENDIBILITA’ E LE MATRICI L’attendibilità (reliability) e la validità di uno strumento sono concetti che vanno tenuti distinti, anche se condividono alcuni ingredienti nelle loro formule (ad esempio la correlazione tra variabili). L’attendibilità (reliability) è il grado con il quale...
LEZIONE 5: L’ATTENDIBILITA’ E LE MATRICI L’attendibilità (reliability) e la validità di uno strumento sono concetti che vanno tenuti distinti, anche se condividono alcuni ingredienti nelle loro formule (ad esempio la correlazione tra variabili). L’attendibilità (reliability) è il grado con il quale una certa procedura di traduzione di un concetto in variabile produce gli stessi risultati in prove ripetute con lo stesso strumento di misurazione. Il concetto di attendibilità, riferito agli indicatori, si applica solo alle variabili cardinali. Nella ricerca sociale raramente si possono replicare le misurazioni a oggetto invariato. L’attendibilità di una batteria di item può solo essere stimata con appositi metodi, il più noto è l’Alfa di Cronbach. Altri metodi sono: Test-retest: si somministra un test per due volte sugli stessi soggetti nel breve periodo e si calcola la correlazione tra i punteggi ottenuti nelle due occasioni. Nella ricerca sociale e psicologica sono stati messi a punto metodi alternativi a quello del Test-Retest, tipico delle scienze naturali; questo perché, per motivi più o meno evidenti, è problematico proporre agli intervistati la stessa domanda più volte. Alternative-form (“forme parallele”): due test, costituiti da due distinte batterie di domande, si definiscono paralleli quando si è in grado di affermare che essi misurano approssimativamente lo stesso “valore vero” sottostante, differendo solo per l’errore accidentale. Al di là degli aspetti più tecnici va detto che tale situazione di obiettiva omogeneità tra i due test è difficile da dimostrare nel campo della misurazione degli atteggiamenti, mentre è relativamente più semplice da realizzare nel campo dei test che accertano apprendimenti, abilità, competenze ecc. dove cioè esiste una risposta “alfa”, ossia la risposta obiettivamente corretta. Si somministrano, pertanto, i due test a un campione di individui, in due rilevazioni a breve distanza, per evitare che gli stati sulla proprietà da misurare cambino nel frattempo. Una volta ottenute le due misurazioni, si creano due indici sommativi sulle due batterie e poi si calcola la correlazione come stima dell’attendibilità. Split-halves: lo strumento di rilevazione, una batteria di item considerata omogenea rispetto a una proprietà sottostante da misurare indirettamente, si somministra in un’unica tornata a un campione di individui. Si divide poi il test, in genere in due parti: ad esempio, le domande della batteria vengono suddivise in due gruppi a seconda che occupino una posizione pari o dispari nelle colonne della matrice dati e poi si considerano le due metà come forme parallele. Quindi si calcola la correlazione tra le due metà. Il metodo, molto usato, richiede in realtà alcuni correttivi perché, nel modo appena descritto, misura l’attendibilità di parte dello strumento; peraltro, cambiando il criterio di partizione, può cambiare la stima ottenuta. Alfa di Cronbach: si basa sull’idea che per una scala omogenea (cosa che va accertata preventivamente) e perfettamente attendibile la varianza complessiva sia data dalla somma delle varianze di ogni item. In genere però la varianza della batteria eccede la somma di quella degli item, a causa dell’errore di misurazione. Su una batteria di item omogenei (che misurano cioè la stessa proprietà) si applica la seguente formula (a standardizzato): Dove: - S è il numero di item della batteria e - r indica la media delle correlazioni di Pearson tra gli item. Convenzionalmente, si individua in 0.70 la soglia al di sopra della quale l’attendibilità è considerata accettabile. L’Alfa di Cronbach, salvo casi particolari sottostima la vera attendibilità. Il test viene somministrato in un’unica occasione e si opera sulla batteria di item nel suo insieme. Da questo punto di vista si può dire che l’Alfa di Cronbach fornisce una stima conservativa dell’attendibilità. Si noti, inoltre, che esso dipende anche dalla numerosità degli item: questo significa che con molte misure anche poco correlate si possono ottenere dei valori di alfa elevati. È sbagliato considerare l’alfa di Cronbach come indice di omogeneità (unidimensionalità) di un gruppo di variabili. Nell’es. seguente, lo stesso valore di a (0.86) si ottiene su due set di item correlati tra loro in modo diverso. Solo nel secondo caso abbiamo un set omogeneo. L’omogeneità va accertata prima di calcolare l’Alfa. In definitiva, va utilizzato cum grano salis: un valore elevato di questo indice è una condizione necessaria ma non sufficiente per una batteria di item omogenea e attendibile. Migliorare l’attendibilità con l’item analysis: l’attendibilità di una batteria andrebbe accertata prima di iniziare la survey; se non è già stata accertata in altri studi, si può ricorrere all’analisi secondaria oppure a un pre-test. È pratica comune apportare alcune migliorie alle batterie di item dopo che si sono raccolti i dati, eliminando quegli item che fanno abbassare l’attendibilità della batteria. Non si tratta di un’operazione automatica: occorre sempre valutare la perdita d’informazione che comporta la rimozione di un item (ricordiamo che ogni indicatore rappresenta solo una parte della proprietà che si vuole misurare). Vocabolario del data entry - Data entry: immissione di dati in un sistema informatico; si esegue con digitazione su tastiera, ma può essere anche automatizzata: lettura ottica, riconoscimento vocale, importazione in un software di file-dati creati con altri software ecc. - Editor grafico di file dati: interfaccia grafica (GUI) che rende agevole l’inserimento dei dati. - Tracciato record: indica le posizioni esatte dei dati in ciascun record (una concatenazione di campi in riga); ad es. nella tabella della slide precedente, l’informazione ‘sex’ è collocata nel terzo campo da sinistra. - Codebook: un dizionario in cui si esplicita il significato delle variabili e delle modalità che ciascuna di esse assume. - Dataset: è il file contenente i dati (e alcuni meta-dati) digitalizzati che servono per fare l’analisi con il software statistico. - CSV comma-separated values: un formato di file-testo in cui i dati sono separate da una virgola. Ogni riga è un record di dati. Uno dei più usati per importare o esportare tabelle di dati (ad es. da Excel a R). FRAMING DEI DATI Le tecniche di analisi dei dati operano su strutture dette matrici, applicando formule matematiche, logiche e statistiche tradotte in operazioni di algebra delle matrici (anche detta lineare). L’informazione raccolta nella survey va opportunamente organizzata in una o più di queste strutture (oggetto della data theory). Possiamo schematizzare l’operato di una tecnica automatica di analisi dei dati come segue: input minimo → tecnica di analisi → output L’Input minimo è la matrice contenente l’informazione essenziale, non ridondante, per il funzionamento della tecnica. Matrice CxV La struttura dei dati più utilizzata nella ricerca sociale è la matrice Casi per Variabili (C V). In alcuni software e ambienti di programmazione è detta dataframe. Una CxV è una tabella in cui le colonne contengono variabili di tipo diverso: numeriche qualitative e quantitative, logiche (booleane), testuali («stringhe»). Gli elementi entro ciascuna colonna devono comunque essere dello stesso tipo. La matrice CxV è - two-ways, ossia a due entrate, - two-modes, ossia sulle entrate sono rappresentati due tipi di oggetti: sui vettori-colonna (verticali) sono rappresentate le variabili, sui vettori-riga (orizzontali) i casi. I casi sono detti anche profili (si parla anche di «matrice di profili»). Ogni singola cella della CxV contiene il dato, un valore numerico che indica la modalità della variabile a cui è assegnato il caso (e quindi il suo stato sulla proprietà). Righe e colonne sono permutabili. Matrice per modalità Nella CxV le variabili sono in forma compressa, ossia ciascuna variabile è rappresentata in un vettore colonna. Se le modalità sono poche nella CxM, è possibile rappresentare una variabile in forma disgiuntiva esaustiva in K vettori colonna, quante sono le sue modalità. Ogni k-esima colonna contiene una dummy che rappresenta una funzione di appartenenza: i valori 1 o 0 indicano l’appartenenza o meno a quella modalità della variabile. Seguendo la logica classica (ogni caso appartiene a una e una sola modalità), si avrà che la somma di riga delle K modalità della variabile è pari a 1 (tale vincolo non c’è nella logica fuzzy, dove i valori di appartenenza variano in modo continuo tra 0 e 1). ALGEBRA DELLE MATRICI I Chiamiamo scalare un qualsiasi numero reale. Un vettore (lettera minuscola) è un insieme di scalari ordinato, in riga o in colonna; ad es.: Vettore-riga: a = [+1 -7 +0.3] Vettore-colonna: + 4 b = − 2 + 1 Da un punto di vista geometrico un vettore è un segmento orientato, immerso in uno spazio K dimensionale, così individuato v=(v1,v2,v3…vk) i valori nella parentesi sono dette componenti e si interpretano come coordinate. Un insieme di scalari ordinato su righe e colonne è detto matrice (lettere maiuscole) ad es.: 1 − 7 0.3 A= 4 5 − 2 L’ordine della matrice, si esprime nel modo seguente → (RC) dove - R è il numero delle righe - C il numero delle colonne. ◼ Se R=C la matrice è detta quadrata→ In una matrice quadrata possiamo individuare la diagonale principale come quell’insieme di valori posti sulla diagonale che va dall’angolo in alto a sinistra a quello in basso a destra ◼ quando RC la matrice è detta rettangolare. ◼ Se la matrice è anche simmetrica: la parte sopra-diagonale ‘riflette’ la sub-diagonale 1 3 − 0.5 3 4 2 − 0.5 2 0 →M. diagonale: è quadrata, tutti gli elementi esterni alla diagonale principale hanno valore zero →M. triangolare superiore: se solo gli elementi sotto la diagonale principale sono tutti uguali a zero, →M. triangolare inferiore: se solo gli elementi sopra la diagonale sono tutti uguali a zero →M. scalare: Una matrice diagonale K, in cui gli elementi posti sulla diagonale principale sono uguali a un valore costante k →M. identità: I è l’elemento neutro rispetto al prodotto, e occupa la diagonale →M. di unità: quando una matrice quadrata contiene solo valori 1 →M. nulla: i cui elementi sono tutti paria zero: essa rappresenta l’elemento neutro rispetto all’addizione. Vediamo come si individua la posizione di un generico elemento entro un vettore o una matrice attraverso opportuni pedici numerici (che fungono da coordinate). Il primo pedice indica la riga, il secondo la colonna Somma e sottrazioni: 2 matrici, A e B, possono essere sommate (o sottratte) se sono dello stesso ordine. Il risultato sarà una matrice C dello stesso ordine, in cui ogni elemento cij sarà dato dalla somma o sottrazione di aij e bij. Esempio: Moltiplicazione per uno scalare: una qualsiasi matrice A è moltiplicabile per uno scalare k. Il risultato è una matrice dello stesso ordine in cui gli elementi si ottengono moltiplicando ogni elemento aij per k. 1 3 − 0.5 4 12 − 2 3 4 2 4 = 12 16 8 − 0.5 2 0 − 2 8 0 Moltiplicazione di due matrici: due matrici, A e B sono compatibili rispetto al prodotto se la prima è di ordine (NK) e la seconda di ordine (KM), ossia se n° colonne di A = n° righe di B. Il risultato sarà una matrice di ordine (NM) i cui elementi si ottengono secondo la formula Prima riga*prima colonna Seconda riga*prima colonna K Terza riga*prima colonna E poi c nm = a nk b km 1 Prima riga *seconda colonna Seconda riga*seconda colonna Terza riga*seconda colonna a 11 a 12 c c12 ci chiediamo prima se sono compatibili, si perché il numero di a b11 b12 11 colonne di A (2) è uguale al numero di righe di B(2). 21 a 22 b = c 21 c 22 a 31 a 32 21 b 22 c 31 c 32 Si noti che la moltiplicazione tra matrici non gode della proprietà commutativa: i due prodotti A·B e B·A, ammesso che siano possibili entrambi, non danno di norma lo stesso risultato. Es c11= a11*b11+a12*b21 Es c21=a21*b11+ a22*b21 Prodotto scalare ed esterno: moltiplichiamo una matrice di ordine MK con una di ordine KM - se MK si parla di prodotto esterno. Il prodotto interno di due vettori restituisce uno scalare ed è pertanto detto prodotto scalare; es. c11 = a11 b11 + a12 b 21 + a13 b 31 = (1 2) + (0 4) + (3 1) = 5 2 1 0 3 4 = 5 1 Il prodotto esterno di due vettori invece ha come risultato una matrice quadrata con un numero di righe e di colonne pari al numero di elementi dei due vettori 2 2 0 6 4 1 0 3 = 4 0 12 1 1 0 3 Inversione di matrice: L’operazione di inversione è definita solo per le matrici quadrate. Si definisce inversa di A e si indica con A-1 la matrice che post- o pre-moltiplicata da A restituisce la matrice Identità: A·A-1 = A-1 ·A = I Come vedremo più avanti, non tutte le matrici sono invertibili Trasposizione di una matrice: data una matrice A di ordine (MK), si definisce trasposta di A e si denota con A', quella matrice di ordine (KM) la cui prima colonna è la prima riga di A, la cui seconda colonna è la seconda riga di A e così via sino alla K-esima colonna (che è la K-esima riga di A). Esempio: 1 3 − 0.5 1 4 − 2 7 4 8 A = 4 4 A' = 3 − 2 8 0 − 0.5 7 0 Si noti che una matrice simmetrica è uguale alla sua trasposta. Una matrice può essere moltiplicata per la sua trasposta e il risultato è una matrice quadrata simmetrica detta matrice prodotto-momento. Se A·A'=A'·A=I, allora A è detta matrice ortogonale.