I test psicologici: Teorie e Modelli PDF
Document Details
Uploaded by CleanestBiography
Universitas Mercatorum
Tags
Summary
Questo documento presenta una panoramica delle teorie e dei modelli relativi ai test psicologici. Si focalizza sull'importanza di diversi livelli di astrazione nella costruzione di tali test, inclusa la relazione tra concetti teorici, derivati ed empirici.
Full Transcript
I test psicologici: teorie e modelli 1\. Struttura di una teoria [[La costruzione di un test psicologico]](https://docs.google.com/document/d/12HbKlY9KXwKLTCKMSMWuuYD98TSS2PkDE96cbfmM4Cs/edit?tab=t.0) La costruzione di un test psicologico è un'operazione complessa durante la quale devono esser...
I test psicologici: teorie e modelli 1\. Struttura di una teoria [[La costruzione di un test psicologico]](https://docs.google.com/document/d/12HbKlY9KXwKLTCKMSMWuuYD98TSS2PkDE96cbfmM4Cs/edit?tab=t.0) La costruzione di un test psicologico è un'operazione complessa durante la quale devono essere tenuti in considerazione **diversi livelli di astrazione**. Secondo **Bagozzi (1994)**, è possibile individuare**:** **Tre diversi livelli di astrazione ** - teorico, - derivato - empirico **Quattro tipi di relazioni ** - proposizione non osservabile (legame tra concetti teorici), - definizione teorica (legame tra concetti teorici e derivati), - regola di corrispondenza (legame tra concetti derivati e concetti empirici), - definizione empirica (legame tra concetti empirici e misure osservate). Il livello di astrazione dei **concetti teorici è quello della teoria pura**: rappresenta quindi un sistema di idee e di considerazioni legate in modo coerente tra di loro. I legami tra concetti teorici sono chiamati **proposizioni non osservabili**: ad esempio, la teoria della ***Frustrazione-Aggressività di Dollard e collechi (1939)*** postula che la frustrazione sia la causa fondamentale dell'aggressività. Nelle scienze avanzate come la fisica, il linguaggio adottato per esplicitare tali relazioni è quello della **matematica o della logica. ** In psicologia, l'uso del linguaggio matematico/logico è **raro**: infatti, la maggioranza delle teorie psicologiche utilizza il linguaggio **comune** corredato di termini **tecnici** che risultano comprensibili alla comunità scientifica alla quale i ricercatori appartengono. L'incapacità delle teorie psicologiche di adottare il linguaggio matematico/logico è una delle più importanti cause di incomprensioni, dibattiti accaniti e contrapposizioni ideologiche. Ciò è dovuto al fatto che il linguaggio comune presenta infatti un elevato livello di **indeterminatezza.** Quando lo si usa per definire delle teorie, non è necessario risolvere problemi di incoerenza, ambiguità o incompletezza, cosa che è invece necessario fare quando si usa un linguaggio matematico. Il risultato di questa indeterminatezza di base è - la mancanza di un quadro teorico condiviso, - 'incapacità di confrontare due teorie, e - la proliferazione di microteorie difficili da verificare. Il secondo livello di astrazione è quello dei **concetti derivati**: si tratta di concetti astratti più dettagliati rispetto a quelli definiti al livello teorico. La relazione tra concetti teorici e derivati è chiamata **definizione teorica** e dà vita ad un **costrutto teorico. ** Per costrutto teorico si intende la definizione di una nozione teorica tale che se ne possa poi dare una definizione empirica. Ad esempio, secondo la **teoria di Dollard** e colleghi l'aggressività può essere definita come [un insieme di comportamenti atti a recare danno intenzionale nei confronti di un'altra persona.] Come si vede, questa definizione non si limita a specificare cosa sia un certo costrutto teorico, ma chiarisce anche quello che non è: così, nel costrutto di aggressività non rientrano i danni non intenzionali e i danni intenzionali verso sé stessi. Il terzo livello di astrazione è quello dei **concetti empirici:** a questo livello **le regole di corrispondenza** definiscono il legame tra il concetto teorico e il concetto empirico. Si arriva in questo modo alla formulazione delle **definizioni operative**: con esse il ricercatore specifica il modo in cui il costrutto teorico può essere misurato nel mondo reale. Tornando all'esempio dell'aggressività, una definizione operazionale potrebbe essere il punteggio totale in un questionario di autovalutazione contenente frasi che fanno riferimento a comportamenti aggressivi, oppure il numero di volte in cui una persona usa la forza fisica nei confronti di un'altra persona per risolvere un conflitto. Le **definizioni empiriche** danno luogo agli **indicatori**: con questo termine si intende una misura empirica che si pone in relazione con il costrutto teorico attraverso una regola di corrispondenza. In altre parole, l'indicatore è una variabile osservata (il punteggio di accordo con una affermazione) che si ipotizza cogliere il costrutto teorico. Dato il livello di astrazione e di indeterminatezza del costrutto teorico, solitamente vi sono molteplici indicatori diversi per ogni costrutto. Infine, l'ultimo tipo di relazione è quello tra concetti empirici e la realtà osservata, chiamato **'definizione empirica':** si tratta di esplicitare la specifica operazione che si compie per raccogliere i dati: ad esempio, utilizzare un questionario carta e matita o una griglia osservativa. 2\. Modelli di costruzione dei test psicologici Come illustrato, nel paragrafo precedente, un costrutto teorico deve essere necessariamente operazionalizzato attraverso la definizione di un costrutto empirico. La misura di questo costrutto è spesso un test psicologico. Tuttavia, per approntare tale strumento c'è bisogno di un utilizzare uno specifico modello di costruzione. Facendo riferimento allo schema precedente, i **modelli di costruzione** possono essere considerati come **regole di corrispondenza tra costrutti teorici e indicatori**. In pratica, tutti i test psicologici possono essere considerati come regole di corrispondenza. **La teoria dell'errore casuale** (**Lord & Novick**, 1968) è sicuramente il modello di costruzione più utilizzato in psicologia. Essenzialmente, esso si basa sulla scomposizione del punteggio osservato in due componenti, **il punteggio vero e l'errore casuale: ** **𝑋 = 𝑉 + 𝐸 ** L'idea sottostante è che il punteggio osservato in un test non sia mai il punteggio vero, ma comprenda sempre una porzione di errore che è inevitabilmente connessa all'atto stesso di misurare. Gli errori possono essere **sistematici o casuali.** Un errore si dice sistematico quando il suo effetto influenza tutti i punteggi nella stessa direzione e con la stessa intensità. Ad esempio, in numerosi esperimenti il tempo di reazione ad uno stimolo visivo viene misurato come il tempo impiegato dal soggetto per premere la barra spaziatrice del computer. Una misurazione effettuata in questo modo non sarà mai perfetta, in quanto essa includerà sempre una piccola frazione di tempo che intercorre tra la pressione della barra e l'arrivo del segnale alla memoria centrale del computer. Questo errore ha la caratteristica di essere uguale per tutti i soggetti: in pratica, equivale ad aggiungere al tempo di reazione vero una costante che non modificherà in alcun modo le inferenze statistiche derivate dal confronto tra gruppi di soggetti diversi. In effetti, le conseguenze dovute alla presenza dell'errore sistematico sono poco rilevanti in campo psicologico, in quanto le inferenze sono quasi sempre comparative: tutti i soggetti hanno utilizzato lo stesso strumento e quindi hanno nel loro punteggio la stessa porzione di errore. Al contrario, gli effetti dovuti all'errore casuale, se non controllati, possono essere devastanti sull'attendibilità e validità del test. L'errore si dice casuale quando esso agisce in modo diverso per soggetti diversi sottoposti allo stesso test. Ad esempio, si supponga di aver costruito un questionario in cui si chiede ai soggetti di valutare quanto l'item «Mi piace giocare con i cani ed i gatti» sia una descrizione valida di sé su una scala a 11 punti. Il soggetto A risponde 0 in quanto ama giocare con i gatti, ma non con i cani (o viceversa) e, poichè interpreta la domanda come presenza simultanea dei due animali, può aver deciso che a lui non capita mai di giocare con entrambi gli animali. Il soggetto B risponde 5 in quanto ama giocare con i cani, ma non con i gatti ed interpreta la domanda come una richiesta di pesare i due eventi. Questa ambiguità di fondo comporta la presenza di errore non sistematico, in quanto il ricercatore non è in grado di prevederne la direzione (dipende da come il soggetto interpreta la frase). Una delle implicazioni più importanti della teoria dell'errore casuale è che il punteggio di un soggetto al test non sarà mai il suo punteggio vero, ma soltanto uno dei possibili punteggi che egli può assumere. Questo significa che il punteggio osservato è una variabile che assume i suoi valori secondo una distribuzione di probabilità che contiene il punteggio vero. L'idea sottostante è che, data una serie infinita di misurazioni, l'errore di misura scomparirà e il punteggio medio di tutti i punteggi osservati diventerà uguale al punteggio vero del soggetto. Detto in altri termini, la teoria dell'errore casuale assume **una distinzione tra campione e popolazione:** il punteggio di un soggetto al test è considerato come un campione proveniente da una popolazione di punteggi possibili che contiene il punteggio vero. Tanti più campionamenti saranno effettuati tanto più la media dei campioni tenderà a coincidere con la media della popolazione. In effetti, uno dei parametri statistici che possono essere derivati dalla teoria dell'errore casuale è l'**errore standard di misura:** si tratta di un parametro che quantifica l'intervallo di confidenza all'interno del quale cadrà, con un certo livello di probabilità, il punteggio vero del soggetto. 3\. Modelli fattoriali e modelli riflessivi Come illustrato nei paragrafi precedenti, con il termine indicatore si intende una misura empirica che si pone in relazione con il costrutto teorico attraverso una regola di corrispondenza. È importsante, a questo punto, operare una distinzione tra indicatori **riflettivi e formativi. ** Gli **indicatori riflettivi** sono così chiamati in quanto si ipotizza che essi riflettano l'effetto del costrutto teorico; in altre parole, il costrutto teorico rappresenta il costrutto latente, mentre gli indicatori sono variabili misurate causate dal costrutto latente. Ad esempio, se un soggetto risponde «molto» alla domanda «alla minima difficoltà tendo a deprimermi», è il costrutto teorico di Depressione che causa la risposta, non viceversa. Al contrario, gli **indicatori formativi** sono chiamati in questo modo in quanto vanno a formare il costrutto latente, che risulta essere, quindi, la somma lineare di una serie di indicatori. Ad esempio, il costrutto teorico di stress può essere definito da una serie di indicatori, quali la perdita di un familiare, il divorzio, la perdita del lavoro, ecc.: la condizione di stress psicologico deriva quindi dalla sommatoria dei singoli eventi stressanti. Questa distinzione ha importanti conseguenze a livello teorico: infatti, gli indicatori riflettivi devono essere necessariamente correlati tra loro in quanto derivano dallo stesso costrutto, mentre ciò non è vero per gli indicatori formativi. Dalla distinzione tra indicatori riflettivi e formativi discende la distinzione tra **modelli fattoriali e modelli regressivi. ** La corrispondenza tra i due livelli è chiara: - se gli indicatori sono riflettivi, il modello di costruzione del test sarà fattoriale; al contrario, - se gli indicatori sono formativi, il modello di costruzione del test sarà regressivo. **L'analisi fattoriale** è una tecnica statistica che consente di estrarre delle dimensioni latenti ad una serie di variabili osservate. La logica su cui essa si basa è semplice: se le variabili correlano tra loro, si può pensare che ci sia un costrutto sottostante che le accomuna e che spiega tali correlazioni. È noto, ad esempio, che alle persone vivaci piace andare alle feste, parlare con persone appena conosciute, e prendere l'iniziativa. Per molte persone, questi diversi comportamenti si presentano insieme: sono cioè correlati tra di loro. In casi come questi, l'analisi fattoriale può essere utilizzata per verificare se **queste correlazioni sono sufficientemente elevate e coese da consentire l'emergenza di una dimensione sottostante**. Nel caso delle variabili precedenti, il costrutto latente che causa le correlazioni tra i vari comportamenti potrebbe essere l'Estroversione. Una persona estroversa mostrerà, con molta probabilità, tutti i comportamenti citati, i quali pertanto riflettono l'effetto della dimensione latente. In sostanza, se il modello di costruzione è quello fattoriale, **gli indicatori** devono essere riflettivi, e se sono riflettivi, **devono correlare tra di loro.** I modelli regressivi si basano invece su una tecnica nota come **regressione multipla**, in cui vi è una singola variabile dipendente che viene predetta da una serie di variabili indipendenti. Nei modelli regressivi, si può pensare che la **variabile dipendente sia il costrutto latente**, mentre **le variabili indipendenti sono gli indicatori**, che rappresentano quindi la causa del costrutto. In questo caso, ciò che conta è che l**e variabili indipendenti siano correlate con la variabile dipendente**, mentre non è strettamente necessario che vi siano delle correlazioni significative tra le diverse variabili indipendenti. Riassumendo, quindi, se il modello di costruzione è quello regressivo, gli indicatori sono riflettivi e se sono riflettivi, non vi è alcuna necessità che correlino tra di loro. I test psicologici: Selezione degli item 1\. Prove preliminari e prima somministrazione Una volta generato il pool iniziale di item, è buona norma effettuare delle **prove preliminari** del test. **L'obiettivo** = **rifinire la formulazione degli item**( eliminando o modificando quegli item di difficile interpretazione) Il ricercatore pianifica un piccolo **studio pilota** in cui viene indagata la comprensibilità e l'ambiguità degli item generati. **Esempio** Ad esempio, si può chiedere ad un gruppo di soggetti (comparabili a quelli cui il test finale è rivolto) di fornire una spiegazione scritta del significato delle frasi e di valutare su una scala da 0 a 10 quanto secondo loro ciascuna frase è chiara e comprensibile (dove il valore 0 indica una frase per nulla comprensibile, mentre il valore 10 indica una frase completamente chiara e comprensibile). Sulla base dei dati così raccolti, lo studioso può decidere di eliminare alcuni item oppure di inventarne di nuovi, che a loro volta verrano passati al vaglio di una procedura simile a quella appena descritta. **Istruzioni ** Per completare la preparazione della **versione preliminare** del test, occorre **scrivere in modo chiaro le istruzioni** per la sua somministrazione.** ** Le istruzioni sono fornite in modalità **scritta nella prima pagina del test ** Devono consentire al soggetto di **comprendere** appieno il suo compito. In esse spiegata **la ragione della ricerca**: una spiegazione **generica** è preferibile, per evitare di influenzare le risposte del soggetto. Nelle istruzioni va spiegata chiaramente **la modalità di risposta al test** (fornendo esempi chiarificatori; la scala di risposta) Evitare che i soggetti possano utilizzarla in maniera scorretta. Nei **test di personalità e nei test di atteggiamento**, è diventata consuetudine invitare il soggetto a rispondere sinceramente, con la prima risposta che viene in mente, senza riflettere molto sulla domanda. Questo perché anche la frase più chiara e semplice ad una riflessione approfondita può nascondere **ambiguità** e chiavi di interpretazione diverse. Il soggetto va invitato a considerare se la frase di solito lo descrive oppure no. In linea teorica, per tutti i comportamenti è possibile fornire una risposta del tipo «dipende, in alcuni casi si ma non sempre...»; bisogna pertanto chiedere ai soggetti di fare una **specie di sommatoria mentale**, in modo da arrivare ad un giudizio finale su come si comporta di solito. **Prima somministrazione** A questo punto il test è stato preparato ed è pronto per una prima somministrazione. I dati ricavati serviranno per selezionare ulteriormente gli item, in un processo iterativo (somministrazioneselezione-nuova somministrazione-nuova selezione, ecc.) che porterà alla **versione finale del test**. In generale, è buona norma preventivare almeno **due somministrazioni** prima di poter giungere alla versione finale del test. **Scelta campione** Un problema rilevante consiste nel **decidere le caratteristiche del campione a cui somministrare la prima versione del test.** Se le risorse fossero infinite, il campione dovrebbe essere molto vasto, almeno 1000 soggetti stratificati per età, sesso, classe sociale, professione, ecc., il ricercatore è quotidianamente costretto ad effettuare dei **compromessi in termini di rapporti tra costi e benefici. ** In linea di massima, è consigliabile avere un **rapporto tra numero di item e numero di soggetti di almeno 1 a 3: ** ovvero, è buona norma reclutare **3 soggetti (o più) per ogni item**. In ogni caso, non bisognerebbe **mai** scendere **sotto i 100 soggetti** totali. Per quanto riguarda le caratteristiche del campione, è indispensabile effettuare almeno la **stratificazione per sesso e per età.** In altre parole, il campione dovrebbe essere composto approssimativamente da metà maschi e metà femmine di età differente (in pratica, questo significa evitare di raccogliere la maggior parte dei soggetti tra gli studenti universitari). 2. Selezione degli item: caso con risposte esatte Una volta raccolti i dati della prima somministrazione, inizia la fase di selezione vera e propria degli item per arrivare infine alla versione finale del test. I criteri statistici utilizzati per la selezione degli item variano a seconda se il test prevede una risposta esatta oppure no. Gli **item dei test di intelligenza e di profitto** prevedono una **risposta esatta**, mentre gli **item dei test di personalità e di atteggiamento** **no**n prevedono risposte esatte. Gli item dei test di **intelligenza** (o di profitto) possono essere **dicotomici**, nel caso in cui assumono solo due valori (si/no; giusto/sbagliato), o **politomici**, nel caso in cui vi sono più modalità di risposta, di cui una sola corretta. Ai fini della selezione, **entrambi** i tipi di item **sono codificati come dicotomici**, attribuendo il **punteggio 1** se la risposta è corretta e il **punteggio 0** se la risposta è sbagliata. L'informazione di cui si dispone è quindi - il numero di persone che rispondono correttamente **(Np)** - il numero di persone che sbagliano **(Nq).** Dividendo il numero di persone che rispondono correttamente per il numero totale delle persone alle quali è stato somministrato il test si ottiene l'**indice di difficoltà dell'item**: L'indice di difficoltà varia tra **0 e 1**, dove il valore 0.5 indica che metà dei soggetti hanno risposto correttamente all'item. La varianza dell'item è data dal **prodotto tra la proporzione di risposte corrette e la proporzione di risposte errate**, cioè: ![](media/image2.png) Data questa formula, è facile dimostrare che l'item assume la capacità **discriminativa massima quando p = q = 0.50. ** Un **primo criterio di selezione** consiste quindi nell'**eliminare gli item che discriminano poco**: ovvero, quegli item ai quali la maggior parte dei soggetti rispondono o correttamente o erroneamente. Il caso estremo è quello in cui tutti i soggetti rispondono correttamente: in queste condizioni, p = 1 e l'item non fornisce nessuna informazione discriminativa. In pratica, si procede creando un intervallo di p all'interno del quale selezionare gli item: in genere, questo intervallo è compreso **tra 0.2 e 0.8: ** si selezionano, quindi, gli item ai quali risponde correttamente tra il 20% e l'80% dei soggetti. Altri criteri di selezione prendono in considerazione il **punteggio totale al test**. Un esempio è **l'indice di discriminazione**. Questo metodo consiste nel formare **due gruppi: ** - soggetti con punteggio totale basso (tipicamente, al di **sotto del 30° percentile**) - soggetti con punteggio totale alto (tipicamente, **sopra il 70° percentile**). L'indice di discriminazione si calcola come differenza tra la proporzione di risposte corrette nei due gruppi: **Questo indice varia tra −1 e +1: ** - valori **positivi i**ndicano che l'item discrimina nel **verso corretto** (chi risponde correttamente all'item ha punteggi totali elevati), - mentre valori **negativi i**ndicano che l'item discrimina nle **verso sbagliato** (chi risponde correttamente all'item ha punteggi totali bassi). In pratica, la selezione degli item si basa su alcune soglie critiche: **D \> 0.30**: l'item discrimina in maniera efficace; ** D compreso tra 0.20 e 0.30**: la capacità discriminativa dell'item è intermedia e probabilmente dovrebbe essere modificato; ** D \< 0.20:** l'item deve essere eliminato o riformulato completamente. Un terzo criterio di selezione si basa sulla **correlazione tra l'item e il punteggio totale al test**. Poiché l'item è dicotomico, l'indice più adeguato è **il coefficiente di correlazione punto-biseriale. ** In generale, quando il test ha una lunghezza compresa tra 20 e 30 item, una correlazione superiore a 0.30 rappresenta la soglia minima da raggiungere: item con valori inferiori devono essere eliminati. 3. Selezione degli item: caso senza risposte esatte **I test di personalità e di atteggiamento** non prevedono una risposta esatta. In questo caso**, i criteri di selezione** devono necessariamente essere **diversi** da quelli utilizzati per i test che presentano item dicotomici. *Per comodità, si prenderà in considerazione il caso di item misurati su scala Likert a 7 punti (ma il discorso può essere facilmente generalizzato ad item misurati su scala Likert a 5 punti). * Come accennato nel paragrafo precedente, il potere discriminativo di un item di questo tipo è legato alla dispersione o variabilità dei punteggi. Nel caso della scala Likert, la distribuzione che massimizza la dispersione è quella rettangolare, in cui tutti i punteggi hanno la stessa frequenza: per esempio, con 98 soggetti, un item con una distribuzione rettangolare avrà 14 frequenze per ciascuno dei 7 punteggi. Per la presenza di proprietà statistiche desiderabili, si preferisce avere item con **distribuzione normale. ** Nel caso della scala **Likert a 7 punti,** se la distribuzione è normale, la media sarà uguale a **4, mentre la deviazione standard sarà uguale a 1. ** In pratica, questo significa che, con un campione di 100 soggetti, un item con queste proprietà avrà la seguente distribuzione: 1 soggetto avrà il punteggio 1 o il punteggio 7; 5 soggetti avranno il punteggio 2 o il punteggio 6; 24 soggetti avranno il punteggio 3 o il punteggio 5; 40 soggetti avranno il punteggio 4. **Ai fini della selezione degli item, la regola convenzionale consiste nel creare un intervallo di fiducia di 1.5 deviazioni standard intorno al valore medio teorico:** ![](media/image4.png) Come detto, nel caso di una scala Likert a 7 passi, il valore medio teorico è 4, mentre la deviazione standard teorica è 1. Si avrà quindi il seguente intervallo di fiducia: In pratica, per le scale in cui non vi sono risposte corrette, il primo criterio consiste nel selezionare gli item che hanno una media compresa tra 2.5 e 5.5. Per la deviazione standard, l'intervallo di valori accettabili è tra 1 (la deviazione standard teorica di una distribuzione normale) e 2 (la deviazione standard teorica di una distribuzione rettangolare). Un secondo criterio di selezione consiste nel **calcolare l'asimmetria e la curtosi** della distribuzione dei punteggi associati a ciascun item. Come noto, l'asimmetria indica lo spostamento della distribuzione verso destra o verso sinistra, mentre la curtosi indica lo spostamento verso l'alto o verso il basso. Valori di asimmetria e di curtosi **tra −1 e +1** indicano una distribuzione approssimativamente normale: gli item le cui distribuzioni presentano tali valori sono quindi accettabili. Infine, è possibile calcolare la correlazione tra i punteggi all'item e i punteggi totali al test utilizzando il coefficiente di **Bravais-Pearson** (in quanto entrambe le variabili sono continue): la soglia di accettabilità è anche in questo caso intorno a **0.25-0.30.** Item che presentano correlazioni **uguali o superiori** al valore soglia sono accettabili, in quanto discriminano nel verso corretto (i soggetti che ottengono punteggi elevati nel singolo item hanno punteggi totali elevati all'intero test) Attendibilità di un test 1\. Concetto di Attendibilità L**'attendibilità o affidabilità o fedeltà** di un test può essere definita in maniera generale come l'accordo tra tentativi indipendenti di misurare lo stesso concetto teorico. Se per esempio misuriamo la larghezza di un tavolo con un metro e troviamo che essa corrisponde a 2 metri e 30 centimetri, per considerare la misura **attendibile** ci aspettiamo di ottenere lo **stesso risultato** tra un mese, effettuando la stessa misurazione con lo stesso strumento. Se così non fosse, cominceremmo a dubitare dell'affidabilità del metro a nostra disposizione. Purtroppo, gli strumenti a disposizione degli psicologi non sono in grado di fornire misurazioni così precise come quelle fisiche. In effetti, in psicometria, l'errore di misurazione è praticamente **inevitabile** e la sua entità è considerevole, se paragonato agli errori tipicamente riscontrati nelle scienze esatte. Gran parte di questo errore **dipende dall'oggetto studiato**: i costrutti psicologici sono, per loro natura, inferiti a partire da **comportamenti osservati**, per cui la loro misurazione può essere influenzata da una miriade di fattori difficilmente controllabili; in tal senso, la presenza di errore nel processo di misurazione non deve stupire. Data per scontata l'inevitabilità dell'errore, un buon test deve essere costruito in modo tale da consentire un grado sufficiente di affidabilità della misura. A livello teorico, la definizione di **attendibilità** è strattamente dipendente dalle assunzioni di base della teoria classica dei test. Come già illustrato in una lezione precedente, l'equazione di base della teoria classica dei test è la seguente: ![](media/image6.png) dove 'E' indica l'errore casuale, ovvero un tipo di errore che agisce in modo diverso per soggetti diversi sottoposti allo stesso test. Da questa definizione di errore casuale, discende che, per un numero molto grande di misurazioni (N), la media degli errori casuali deve essere nulla: Inoltre, la correlazione tra punteggio vero ed errore casuale deve essere anch'essa nulla: ![](media/image8.png) Questo secondo assunto implica che l'entità dell'errore di misura deve essere indipendente dall'entità della caratteristica psicologica che si sta misurando: in altre parole, vi deve essere la stessa probabilità di comettere errori grandi o piccoli in relazione a quantità grandi o piccole della caratteristica oggetto di studio. Altrimenti, se a quantità grandi della caratteristica corrispondono errori grandi e viceversa, l'errore di misura diventa **sistematico**. A partire dall'equazione di base della teoria classica dei test, si può facilmente verificare che la media della distribuzione dei punteggi osservati X corrisponde a: Tuttavia, per un numero sufficientemente grande di misurazioni, la media degli errori casuali si approssima a **zero**, per cui possiamo concludere che la media del punteggio **osservato corrisponde** alla media del punteggio **vero**:.![](media/image10.png) Analogamente, si può facilmente dimostrare che la varianza dei punteggi osservati è data da: Con una serie di semplici passaggi matematici, è possibile definire l'**attendibilità** come rapporto tra la **varianza vera e la varianza totale**, ovvero come complemento a 1 del rapporto tra varianza d'errore e varianza totale: ![](media/image12.png) Da questa formula, si evince che minore sarà la varianza d'errore più vicina a 1 sarà l'attendibilità del test, e più preciso sarà lo strumento. Alternativamente, è possibile definire l'attendibilità in funzione della correlazione tra il **punteggio vero e il punteggio osservato**. Infatti, l'indice di attendibilità corrisponde alla radice quadrata del coefficiente di attendibilità, ovvero alla correlazione tra punteggio vero e punteggio osservato: 2\. Tipi di attendibilità: test-retest, forme parallele e splithalf A livello teorico, vi sono molti diversi aspetti del concetto di attendibilità. Un primo aspetto ben noto riguarda **l'attendibilità test-retest**, la quale si riferisce alla **stabilità della misurazione nel tempo**: una misura attendibile deve mostrare un certo grado di stabilità temporale. Se misuriamo un costrutto al tempo T1, ci aspettiamo che, misurandolo sugli stessi soggetti con lo stesso test tra un mese (tempo T2), le misure ricavate siano quantitativamente molto simili tra loro. Per valutare questo tipo di attendibilità, basterà quindi somministrare lo stesso strumento agli stessi soggetti in due occasioni a una certa distanza di tempo l'una dall'altra e correlare i punteggi con il **coefficiente di Bravais-Pearson**. Un secondo aspetto riguarda l'utilizzo di **due forme parallele di un test:** si tratta di due forme che si propongono di misurare lo stesso costrutto psicologico in maniera interscambiabile. Le due versioni del test dovranno essere formate dallo **stesso numero di item**, i quali dovranno avere le **stesse caratteristiche psicometriche** (stessa media e stessa deviazione standard). In questo caso, la correlazione tra i punteggi nei due test fornisce una misura di attendibilità, intesa come parallelismo tra due forme dello stesso test. Una forma di attendibilità molto simile si ottiene con il **metodo dello split-half** o divisione a metà: si somministra il test al tempo T1, si divide il test a metà e si considerano le due metà come forme parallele: a questo punto, la **correlazione tra le due metà** può essere considerata come una stima dell'attendibilità del test stesso. Occorre notare però che la correlazione così ottenuta va **corretta** con la **formula profetica di Spearman-Brown,** dato che la vera **lunghezza della scala è doppia** rispetto a quella delle due metà. In pratica, questo significa che la correlazione semplice tra le due metà del test è una sottostima dell'attendibilità totale del test. In effetti, il valore del coefficiente di attendibilità è strettamente dipendente dal numero di item che compongono il test, nel senso che all'aumentare del numero di item corrisponde un aumento del coefficiente di attendibilità. La formula profetica di Spearman-Brown ci permette di stimare l'attendibilità di un test in funzione dell'aumento del numero di item che lo compongono: ![](media/image14.png) dove n è il rapporto tra numero di item finale ed iniziale, 𝑟𝑡𝑡 è l'attendibilità del test iniziale e 𝑟nt𝑡 è l'attendibilità del test finale. Dalla formula è evidente che - quando n è **maggiore di 1** (ovvero quando il nuovo test contiene più item della versione precedente) l'attendibilità del test **aumenta**; - al contrario, quando n è **inferiore a 1**, l'attendibilità del test **diminuisce.** Si supponga, ad esempio, di avere un test composto da 20 item la cui attendibilità è rtt =.83. Utilizzando la formula profetica di Spearman-Brown, possiamo stimare l'attendibilità del nostro test se aggiungessimo 8 item con caratteristiche simili ai 20 esistenti. In tal caso, il rapporto n sarà: 28/20 = 1.4. Quindi, utilizzando la formula precedente si ottiene: Dunque, aggiungendo 8 item, l'attendibilità del test aumenta da 0.83 a 0.87. Analogamente, la formula può essere utilizzata per stimare quanto dovremmo allungare il test per ottenere un'attendibilità prefissata. Con alcuni semplici passaggi matematici, si dimostra infatti che: ![](media/image16.png) Tornando all'esempio precedente, supponiamo di avere un test di 20 item la cui attendibilità è pari a 0.83; utilizzando la formula, possiamo stimare quanti item dobbiamo aggiungere per avere una attendibilità di 0.90: Ricordando che n è il rapporto tra il numero di item del test finale diviso per il numero di item del test iniziale: ![](media/image18.png) si ottiene:. Pertanto, la lunghezza del test finale dovrà essere di 37 item. Ciò significa che è necessario aggiungere 17 item al test iniziale (da 20 a 37 item) per aumentare l'attendibilità fino a 0.90. 3\. Tipi di attendibilità: coerenza interna e accordo tra giudici L'attendibilità può essere intesa in termini di **coerenza interna del costrutto misurato**: in questo senso essa riflette il grado di accordo tra più misure dello stesso costrutto ottenute nello stesso momento con uno stesso metodo. Il metodo rappresenta una estensione delle forme parallele in cui si considera ogni item come una forma parallela di tutti gli altri: la logica è quella di verificare quanto gli item siano tra loro coerenti quando li ipotizziamo come misure parallele di uno stesso costrutto. Naturalmente, se il costrutto misurato presenta più dimensioni, l'attendibilità come coerenza interna viene misurata separatamente sugli item che definiscono ciascuna dimensione. Così, ad esempio, se abbiamo definito il concetto di 'reciprocità' in funzione di due dimensioni (vendicatività e cooperazione), dovremmo verificare quanto gli item che misurano la vendicatività sono coerenti tra loro, e quanto lo sono quelli che misurano la cooperazione. La misura più usata per misurare l'attendibilità come coerenza interna è l'**Alpha di Cronbach**, che è una misura del peso relativo della variabilità associata agli item rispetto alla variabilità totale del test (o di una specifica dimensione): ![](media/image20.png) dove - k è il numero di item, - si 2 è la varianza del singolo item - st 2 è la varianza totale del test (o della dimensione considerata). I valori dell'Alfa di Cronbach variano tra 0 (mancanza assoluta di coerenza tra gli item) e 1 (coerenza assoluta tra gli item); Nella prassi, vi sono regole pratiche condivise dalla maggior parte dei ricercatori, secondo cui: - valori **superiori a 0.90** sono considerati **ottimi; ** - valori tra **0.80 e 0.90** sono considerati **buoni; ** - valori tra **0.70 e 0.80** sono considerati **discreti;** - valori tra **0.60 e 0.70** sono considerati **sufficienti;** - e valori **inferiori a 0.60** sono considerati **deficitari.** Infine, l'attendibilità può essere intesa come **accordo tra giudici diversi**: in genere, questo indice si calcola nelle ricerche in cui si devono codificare dei comportamenti o delle risposte in alcune categorie. Per evitare classificazioni totalmente soggettive si ricorre spesso a più osservatori: per valutare il grado di accordo tra di loro si calcola il coefficiente K di Cohen, il quale tiene conto della percentuale di accordo corretta per la probabilità casuale di accordo. La procedura consiste nel **costruire una matrice di accordo k × k**, dove - k è il numero di categorie codificate, - le righe rappresentano il primo codificatore - le colonne indicano il secondo codificatore (si veda Figura 1): **L'indice K di Cohen** si calcola come segue: dove **𝑃𝑜𝑠𝑠** sono le **proporzioni di accordo osservate** (calcolate a partire dalle frequenze poste sulla diagonale della matrice) e **𝑃𝑎𝑡𝑡 sono le proporzioni di accordo dovute al caso**. L'indice varia **tra 0** (nessun accordo tra giudici) **e 1** (accordo perfetto tra giudici); Nella prassi, - valori tra **0.41-0.60** indicano un accordo moderato; - valori tra **0.61-0.80** indicano un accordo sostanziale; - e valori tra **0.81-1.00:** indicano un accordo ottimo. Considerando la tabella riportata nella Figura 1, il termine 𝑃𝑜𝑠𝑠 si calcola come rapporto tra la somma delle frequenze sulla diagonale diviso per il totale delle frequenze osservate: ![](media/image22.png) Il termine 𝑃𝑎𝑡𝑡, a sua volta, si calcola come rapporto tra il prodotto dei totali marginali di riga e di colonna diviso per il quadrato delle frequenze totali: Quindi l'indice K di Cohen risulta essere uguale a: ![](media/image24.png) Considerando le regole illustrate in precedenza, possiamo concludere che, nella nostra ricerca, l'accordo tra i giudici è sostanzialmente elevato. Validità di un test 1\. Concetto di validità In generale, per validità di un test si intende il grado e la precisione con cui esso misura una determinata caratteristica psicologica, per valutare la quale è stato appunto costruito. La validità può essere anche intesa come assenza di errore, cioè come appropriatezza nel misurare il tratto che un test si propone di misurare. Nella ricerca psicologica, la prima domanda da porsi, quando si misura qualcosa, riguarda l'attendibilità della misurazione stessa; subito dopo, bisogna chiedersi se si sta effettivamente misurando quello che si voleva misurare. In effetti, la relazione tra attendibilità e validità è molto stretta. Perché ci sia validità di una misura di un costrutto è necessario, ma non sufficiente, che la misura sia attendibile. in altre parole, è possibile avere una misura perfettamente attendibile ma completamente priva di validità. Ad esempio, l'attendibilità delle persone che dicono di aver avvistato un UFO potrebbe essere molto alta, nel senso che tutti diranno di averlo visto e molti di essi racconteranno particolari simili. Tuttavia, agli occhi dello studioso, questa apparente attendibilità non è sufficiente ad affermare che si sia veramente trattato di un UFO. Analogamente, ***Cesare Lombroso*** (1835-1909) sosteneva che ci fosse un filo conduttore, una conformità tra i tratti somatici di una persona e la sua personalità, tanto che, studiando scrupolosamente i lineamenti del viso di un individuo, se ne poteva comprendere l'aggressività e la pericolosità sociale. È plausibile che alcune delle misure fisionomiche rilevate dal Lombroso avessero una elevata attendibilità. Tuttavia, la loro validità era pressoché nulla, in quanto la teoria sottostante era fondamentalmente errata. In termini statistici, la validità viene definita dalla correlazione tra i punteggi ottenuti in un test da un gruppo di soggetti e quelli conseguiti dagli stessi soggetti in un altro strumento di misura, chiamato 'criterio'. Infatti, la maggior parte dei procedimenti per la verifica della validità di un test consistono nel mettere in relazione le misure ottenute in un test con altre misure raccolte indipendentemente da questo, ma relative allo stesso costrutto teorico. In pratica, si procede calcolando la correlazione tra due serie di misure, la prima costituita dai punteggi nel test oggetto di studio (variabile X) e la seconda formata da misure indipendenti dello stesso costrutto misurato dal test (variabile Y): il coefficiente di correlazione così ottenuto si chiama **coefficiente di validità** e viene indicato dal simbolo Occorre notare, tuttavia, che gli **errori casuali**, che riducono l'attendibilità di un test, incidono anche sulle **correlazioni fra il test e le misure del criterio**, riducendone **l'intensità**: questa riduzione del coefficiente di correlazione tra test e criterio causata dall'errore di misura è nota come **'attenuazione'.** Come ricordato più volte, la teoria classica dei test sostiene che il punteggio osservato in un test derivi dalla combinazione tra una **componente vera e una componente d'errore**. Da ciò consegue che la correlazione tra i punteggi osservati nel test e nel criterio sarà sempre inferiore rispetto alla correlazione tra i punteggi veri, a causa della loro non perfetta attendibilità degli strumenti di misura. La formula della correzione della correlazione per attenuazione consente di stimare quale sarebbe la correlazione tra i punteggi veri nel test e nel criterio se non fosse presente alcun errore di misura: ![](media/image26.png) dove è la **stima della correlazione tra i punteggi veri** di X e Y,![](media/image28.png) è il **coefficiente di validità del test** X, e sono i **coefficienti di attendibilità dei test** X e Y. Come per l'attendibilità, anche la validità aumenta se cresce la lunghezza del test. La formula per stimare il nuovo coefficiente di validità di un test quando viene allungato di n item è la seguente: ![](media/image30.png) dove è la stima del coefficiente di validità del nuovo test e **𝑛 è il rapporto tra numero di item finali e iniziali. ** Ipotizziamo, ad esempio, di avere un test di 30 item, il quale ha un coefficiente di attendibilità di 0.84 e un coefficiente di validità di 0.68; se il numero di item viene raddoppiato (n = 60/30 = 2), il nuovo coefficiente di validità sarà: ![](media/image32.png) 2. Significatività teorica/osservativa e validità di criterio Come per l'attendibilità, anche per la validità esistono diversi aspetti da considerare. La validità generale di un test sarà riferibile al grado in cui questi diversi aspetti vengono soddisfatti contemporaneamente. A questo proposito, **Bagozzi (1994)** distingue cinque diverse dimensioni del concetto di validità: **a) Significatività teorica ed osservativa di un costrutto; ** **b) Attendibilità; ** **c) Validità di criterio, ulteriormente distinta in validità concorrente e validità predittiva; ** **d) Validità di costrutto, ulteriormente distinta in validità convergente e validità discriminante; ** **e) Validità nomologica. ** Per **significatività teorica** si intende un giudizio sulla natura e la coerenza interna del linguaggio usato per definire il costrutto. Riguarda quindi la definizione dei termini che specificano il costrutto e le connessioni di quest'ultimo con altri costrutti all'interno della struttura teorica più ampia di cui esso è parte. Per **significatività osservativa** si intende invece la natura delle relazioni tra termini teorici e definizione empirica (ovvero, si fa riferimento alla bontà delle **regole di corrispondenza).** In sostanza, questi due aspetti costituiscono il livello di valutazione di una teoria: - come essa esplicita un costrutto - lo pone in relazione con altri - ne fornisce una definizione empirica. Evidentemente, essi riguardano aspetti formali e concettuali per i quali non è possibile una verifica sul piano empirico. Va notato che molti autori, in letteratura, si riferiscono alla significatività teorica e osservativa con il termine **validità di contenuto**, il quale tuttavia ha il difetto di confondere i due livelli in un unico aspetto indistinto. Inoltre, la **significatività teorica** non deve essere confusa con **la validità di facciata**, termine con cui si fa riferimento al giudizio di esperti sul fatto che il test appare misurare, primae facie, il costrutto che dovrebbe misurare. A prima vista, ci si potrebbe meravigliare di trovare il concetto di attendibilità tra gli aspetti della validità, in quanto i due argomenti sono quasi sempre trattati in maniera separata. Tuttavia, occorre ricordare che il **grado di attendibilità** di un test rappresenta **il limite massimo della sua validità**: ovvero, la misura di un costrutto può essere al massimo tanto valida quanto attendibile. La logica sottostante è, ancora una volta, che un ricercatore deve prima verificare che la misura sia attendibile; soltanto in seguito, si potrà verificare se e quanto essa sia valida. Come illustrato nella lezione precedente, l'attendibilità di un test è data dal rapporto tra varianza vera e varianza totale; a sua volta, la varianza vera, che corrisponde alla varianza attendibile, può essere distinta in: varianza valida (rispetto ad un criterio, come vedremo più avanti) e varianza non valida. Da ciò ne consegue che la varianza valida di un punteggio può essere al massimo tutta la varianza del punteggio vero -- ovvero tutta la varianza attendibile. Come già ribadito più volte, è perfettamente lecito che una misura abbia una attendibilità elevata, ma una validità nulla. Tipicamente ciò accade quando il primo aspetto della validità è deficitario: ovvero, quando la significatività teorica ed osservativa del costrutto è scadente, poiché la teoria sottostante è **errata** (si ricordi, a questo proposito, la teoria fisiognomica formulata da Cesare Lombroso). La **validità di criterio** può essere definita come il grado di corrispondenza o relazione tra una misura e un criterio di riferimento. Si distingue in due forme, a seconda del momento in cui si rileva il criterio: si parla di **validità concorrente** quando la misura e il criterio vengono misurati nello stesso momento -- un esempio è dato dalla relazione tra quoziente intellettivo misurato con un test di intelligenza e la risoluzione di un problema di elevata complessità cognitiva; si parla di **validità predittiva** quando il criterio viene rilevato in un momento successivo (a distanza di tempo) -- un esempio è dato dalla relazione tra il punteggio raggiunto in un test attitudinale e il successo lavorativo ottenuto negli anni successivi. Va sottolineato che il coefficiente di validità rappresenta la correlazione tra due misure osservate a livello empirico (il punteggio nel test oggetto di studio e un criterio di riferimento). Tuttavia, il concetto di validità riguarda sempre **la relazione tra costrutti**, che è definita a livello teorico: la conseguenza di questa distinzione è che il coefficiente di validità come correlazione tra costrutti deve tenere conto dell'**errore di misurazione**. La formula di correzione della correlazione per attenuazione (illustrata nel paragrafo precedente) quantifica l'impatto dell'errore di misura sulla stima della correlazione tra due costrutti (α e β): Da questa formula si evince che la correlazione tra due misure è sempre una sottostima della correlazione tra i corrispondenti costrutti; le due correlazioni diventano uguali solo quando le attendibilità delle misure sono perfette **(uguali a 1)** -- ovvero quando l'errore di misurazione è nullo (una circostanza inverosimile nell'ambito della ricerca psicologica). 3. Validità di costrutto e validità nomologica Per validità di costrutto si intende il grado in cui uno strumento misura il costrutto che dovrebbe misurare (in pratica, corrisponde alla definizione tout court di validità). Si distingue in: **validità convergente**: indica il grado di accordo tra misure diverse dello stesso costrutto -- la logica sottostante è che [due misure indipendenti di uno stesso costrutto] (ottenute con metodi differenti) dovrebbero avere correlazioni elevate per poter essere considerate delle valide misure di quel costrutto; **validità discriminante**: indica [il grado di distinzione tra misure di costrutti diversi] -- in questo caso, la logica è che misure di costrutti diversi dovrebbero avere correlazioni basse affinché i due costrutti possano essere considerati realmente diversi. Il modo migliore per valutare questi due tipi di validità è di progettare uno studio in cui due o più costrutti vengono misurati con due o più metodi diversi. Le correlazioni così ottenute andranno a formare quella che è chiamata una **matrice multi-tratto multi-metodo. ** La Figura 1 illustra una matrice di questo tipo, riferita ad un ipotetico studio in cui due costrutti, l'ansia e l'intelligenza, sono misurati con due metodi diversi, un test oggettivo ('exam') e una griglia di osservazione compilata da un giudice esterno ('rater'). ![](media/image34.png) Figure 1. Esempio di matrice multi-tratto multi-metodo **Campbell e Fiske** (1959) definiscono i valori contenuti nella matrice come segue: **correlazioni monotratto-eterometodo**: si tratta di correlazioni tra le misure dello [stesso costrutto ottenute con due o più metodi diversi] -- valutano la **validità convergente** e pertanto dovrebbero essere alte e significative (nella tabella corrispondono ai valori 0.42- 0.49); **correlazioni eterotratto-monometodo**: si tratta di correlazioni tra le misure di [diversi costrutti ottenute con lo stesso metodo] -- valutano la **validità divergente** e pertanto dovrebbero essere basse o nulle (nella tabella corrispondono ai valori 0.18-0.23); **correlazioni eterotratto-eterometodo:** si tratta di correlazioni tra le [misure di diversi costrutti ottenute con metodi diversi] -- **valutano la validità divergente** e pertanto devono essere basse o nulle (nella tabella corrispondono ai valori 0.17-0.15). Infine, per **validità nomologica** si intende [il grado in cui il costrutto predice ciò che deve predire] e non predice ciò che non deve predire. In altre parole, occorre dimostrare che il costrutto [si inserisce in una **rete di relazioni** con altri costrutti teoricamente affini] (si veda la Figura 2 per un esempio). L'enfasi sugli aspetti predittivi rende la validità nomologica simile alla validità di criterio: la differenza è che la **validità di criterio** riguarda la relazione tra un costrutto e un singolo criterio, mentre la **validità nomologica** riguarda le relazioni tra un costrutto e molteplici criteri. Per poter verificare questo tipo di validità, la teoria sottostante deve essere ben chiara e sviluppata, in quanto deve indicare come il costrutto in esame si colleghi con altri costrutti e ciò che bisogna attendersi (o non attendersi) in termini di predizioni. Il **metodo d'elezione** per verificare la validità nomologica è quello delle **equazioni strutturali** La Standardizzazione dei test 1. La taratura dei test psicologici La standardizzazione di un test è un'operazione delicata e fondamentale per il corretto utilizzo di un test psicologico, soprattutto quando occorre prendere **decisioni su singoli individui. ** Standardizzare significa infatti t**rasformare i punteggi grezzi ottenuti ad un test in puntegg**i che abbiano un qualche significato psicologico: come già accennato in precedenza, quello che si ottiene come punteggio grezzo è un numero che non significa nulla di per sé se non esiste un **riferimento normativo**. Ad esempio, sapere che il soggetto A ha ottenuto un punteggio di 25 ad un test non fornisce molte informazioni se non si conosce la prestazione media del gruppo di riferimento. Se tuttavia sappiamo che la media della popolazione in quel test è 25, oppure che il 70% dei soggetti della popolazione ottiene un punteggio uguale o inferiore a 25, allora abbiamo a disposizione tutte le informazioni necessarie per interpretare il punteggio del soggetto A. Costruire delle norme di riferimento implica delle ipotesi di fondo che è bene esplicitare. In primo luogo, il ricercatore deve implicitamente supporre che [la caratteristica che si vuole misurare abbia una distribuzione nota nella popolazione]. Di solito, la distribuzione prescelta è quella normale, in cui molti individui hanno quantità intermedie della caratteristica oggetto di studio mentre pochi soggetti hanno quantità molto elevate o molto basse. La conseguenza più rilevante di questo assunto è che [il ricercatore può utilizzare la media della popolazione come riferimento normativo]. Poiché la media della popolazione non è nota in anticipo ma deve essere **stimata sulla base dei dati campionari**, è necessario che il campione sia il più possibile **rappresentativo** della popolazione generale. **Standardizzazione con popolazioni differenti da quella di origine** Da quanto detto, emerge chiaramente l'importanza del campionamento ai fini di una standardizzazione adeguato del test psicologico. Infatti, è ben noto che norme di riferimento ottenute su campioni di popolazioni straniere possono non avere alcun significato se utilizzate per soggetti non appartenenti a quelle popolazioni. Recentemente, è sorto un acceso dibattito tra gli studiosi sul fatto che, in psicologia, la taratura dei test è spesso basata su campioni di comodo, quasi sempre **studenti universitari.** La giustificazione che viene addotta fa riferimento alla presunta **generalità dei costrutti studiati**: poiché la popolazione di riferimento è l'intera specie umana, si può supporre che essa sia omogenea per quanto riguarda i processi di base. Questa giustificazione può essere valida per alcuni test che misurano **abilità generali**, ma lo è sempre meno se le prestazioni riguardano **comportamenti caratterizzati da uno spiccato significato sociale e culturale** (cosa che avviene per la maggior parte dei test psicologici). Inoltre, nell'ambito della psicologia sperimentale vi sono numerosi esempi di esperimenti eseguiti su studenti americani che non sono stati replicati in studenti europei: lo stesso principio sembra essere valido anche per i test ed è il motivo principale per cui la standardizzazione in popolazioni differenti da quella di origine rappresenta un'area ormai a sé stante nell'ambito della psicometria applicata ai test. In generale, una buona **taratura** di un test richiede i seguenti passi: **identificare la popolazione di interesse** (per esempio tutti gli studenti delle scuole elementari di Roma); **decidere come effettuare il campionamento**: in questa fase è necessario stimare la numerosità del campione e il tipo di campionamento da effettuare; **calcolare gli indicatori statistici** (media, varianza, errore standard della media, indici di attendibilità e validità); **preparare le tavole di conversione dei punteggi grezzi in punteggi standardizzati**; preparare una **dettagliata documentazione scritta della procedura da inserire nel manuale del test.** 2. Il campionamento Un campionamento adeguato rappresenta la base per una buona standardizzazione di un test psicologico. Effettuare un campionamento rappresentativo è un processo difficile e molto dispendioso, e il ricercatore deve essere cosciente dei limiti che le norme possono avere in conseguenza ai limiti del campionamento. In generale, con il termine **'campione normativo**' si indica un gruppo di soggetti le cui risposte al test vengono prese come termine di riferimento per valutare le risposte di qualsiasi altro soggetto che successivamente venga sottoposto a quel test. Il campione normativo deve avere una buona corrispondenza con le **caratteristiche della popolazione** ed essere sufficientemente **ampio** da **minimizzare i possibili errori di stima dei parametri. ** Sul campione normativo vengono infatti calcolate media e deviazione standard come stima degli stessi parametri nella popolazione: [se il campione è rappresentativo ci si attende che la media del campione sia abbastanza simile alla media della popolazione]. La teoria dell'errore casuale ci dice che [i due parametri differiscono in base all'errore di campionamento:] se si potessero estrarre infiniti campioni dalla stessa popolazione e calcolare su ciascuno di essi la media, la distribuzione risultante sarebbe una curva normale con media uguale alla media della popolazione (μ). La deviazione standard di tale distribuzione viene chiamata **errore standard della media** e viene utilizzato per calcolare un intervallo di confidenza intorno alla media del campione entro il quale, con una certa probabilità, cadrà la media della popolazione. L'errore standard della media può essere stimato in base alla deviazione standard e alla numerosità del campione normativo, utilizzando la seguente formula: ![](media/image36.png) Dalla formula si evince chiaramente che, a parità di deviazione standard, l'errore standard della media diminuisce all'aumentare della numerosità del campione normativo: in pratica, quindi, campioni normativi molto ampi consentono di stimare la media della popolazione con un margine di errore ridotto. **Tipi di Campionamento: Probabilistico e Non Probabilistico** Il campionamento può essere classificato in due grandi categorie: - **Campionamento probabilistico**, in cui tutte le unità della popolazione hanno una probabilità nota e uguale di essere estratte. - **Campionamento non probabilistico**, in cui le unità della popolazione non hanno la stessa probabilità di essere selezionate, rendendo il campione meno rappresentativo della popolazione di partenza. **Campionamento Probabilistico** **1. Campionamento Casuale Semplice** Il campionamento casuale semplice è il tipo di campionamento probabilistico più diretto. Si seleziona casualmente un numero prefissato di elementi dalla popolazione, formando così il campione. Questa procedura è semplice e si esegue assegnando un numero a ciascun elemento della popolazione, per poi usare una tavola di numeri casuali e scegliere gli elementi in base ai numeri estratti. I soggetti selezionati, a cui sono stati assegnati i numeri, formeranno quindi il **campione normativo**. **2. Campionamento Stratificato** Il campionamento stratificato è una variante del campionamento casuale semplice e prevede la suddivisione della popolazione in sottopopolazioni omogenee (strati) rispetto a una caratteristica di interesse. Da ciascuno strato viene estratto un campione casuale semplice di uguale numerosità. Questo metodo è particolarmente utile nei test, poiché permette di stratificare in base a variabili che il ricercatore ritiene correlate con l'oggetto del test, come: - Sesso - Età - Livello socioeconomico **3. Campionamento a Grappolo** Il campionamento a grappolo viene utilizzato quando la popolazione è già suddivisa in gruppi naturali, come aziende, ospedali o classi scolastiche. In questo metodo, si estraggono casualmente una o più unità (grappoli) e tutti gli individui di queste unità vengono inclusi nel campione. Ad esempio: - Tutti gli alunni di una determinata classe - Tutti gli impiegati di un'azienda **Considerazioni sulla Scelta del Campionamento** La selezione del tipo di campionamento non dipende solo da scelte teoriche, ma anche da decisioni pratiche, tra cui le risorse economiche a disposizione. Il campionamento casuale semplice richiede tempo, personale e risorse finanziarie maggiori rispetto ad altre tecniche, rendendo in molti casi più vantaggiosi il campionamento stratificato o a grappolo. 3\. Trasformazione dei punteggi Come accennato, i punteggi grezzi ottenuti dai soggetti in un test psicologico devono essere interpretati con riferimento ai punteggi normativi derivati da un apposito campionamento su scala nazionale o su popolazioni specifiche (in tal caso si parla di norme locali, in quanto la validità è circoscritta ad una specifica popolazione e non può essere estesa alla popolazione generale). Quando il campione normativo è molto vecchio (per esempio, di 10 o 20 anni prima), è consigliabile interpretare i punteggi con riferimento a quelli ottenuti dai soggetti di oggi, anche quando il campionamento di questi ultimi non è rappresentativo: infatti, non vi è alcuna garanzia che un campione normativo di 20 anni fa continui ad essere rappresentativo della popolazione generale anche dopo un lungo lasso di tempo. Esistono diversi metodi di trasformazione dei punteggi ottenuti ad un test per renderli paragonabili ai punteggi di altri test o per poterli interpretare in termini diagnostici. Questi metodi si basano su norme legate: ai **parametri del campione** (media e deviazione standard): in tal caso si parla di norme espresse in punteggi standard; oppure alle **frequenze della distribuzione dei puntegg**i: in tal caso si parla di norme espresse in percentili. Trasformazione in percentili La **trasformazione in percentili** si basa sulla posizione che i punteggi occupano nella distribuzione dei punteggi ottenuti dal campione normativo. *Si chiama infatti **'**percentile' il punteggio al di sotto del quale cade una determinata percentuale dei soggetti del campione normativo; ad esempio, il 25.mo percentile corrisponde al punteggio al di sotto del quale cade il 25% dei soggetti del campione normativo*. La trasformazione prevede che il punteggio grezzo sia convertito in rango percentile. A tale scopo, è innanzitutto necessario costruire la distribuzione di frequenza dei punteggi grezzi ottenuti dal campione normativo: in questa distribuzione Ad ogni punteggio corrisponderà una - **frequenza 𝑓𝑖** ovvero il numero di soggetti che hanno ottenuto quel punteggio - una **frequenza cumulata 𝑓𝑐** che è data dalla somma tra la frequenza del punteggio e tutte le frequenze dei punteggi inferiori A questo punto, il rango percentile viene calcolato attraverso la seguente formula: - **𝑓𝑐(x-1)** è la frequenza cumulata del punteggio immediatamente precedente a quello che interessa - **N** è l'ampiezza del campione normativo. I ranghi percentili hanno il grosso inconveniente di avere **una distribuzione non normale (rettangolare)**: ciò implica che una stessa differenza di punteggio grezzo sarà amplificata se i punteggi grezzi sono vicini alla media, mentre sarà ridotta se i punteggi grezzi si trovano agli estremi della distribuzione. A causa di questa limitazione, i ranghi percentili sono perlopiù utilizzati per comunicare in modo semplice i risultati ai soggetti. Trasformazioni sui parametri del campione normativo Per quanto riguarda le trasformazioni basate sui **parametri del campione normativo**, la più nota è sicuramente la **trasformazione in punti z,** espressa dalla seguente formula: ![](media/image38.png) dove sono rispettivamente la media e la deviazione standard del campione normativo. Come noto, la distribuzione dei punti z è normale con media = 0 deviazione standard = 1. Pertanto, i punti z hanno il vantaggio di avere sempre lo stesso significato: un punto z pari a +1 indica che il punteggio si trova 1 deviazione standard al di sopra della media, qualunque sia la media e la deviazione standard del campione normativo; analogamente un punto z pari a −1.07 indica che il punteggio grezzo si trova al di sotto della media e la sua distanza da essa è pari a 1.07 volte la deviazione standard. La trasformazione in punti z non ha soltanto vantaggi. *Infatti, questo metodo produce punteggi negativi, i quali rappresentano uno svantaggio sia per le analisi statistiche successive sia per la comunicazione dei risultati. * *Allo scopo di risolvere questo problema, sono state proposte varie trasformazioni lineari dei punti z basate sulla formula generale: * ![](media/image40.png) *dove * * sono la media e la deviazione standard della nuova distribuzione. * *La più nota e usata trasformazione dei punti z è certamente la scala in punteggi T, la quale corrisponde ad una distribuzione con media 50 e deviazione standard 10: * ![](media/image42.png) *Oltre ai punteggi T, vi sono altre tre trasformazioni utilizzate per la taratura dei test psicologici: * * Punteggi stanine: si tratta di una trasformazione che utilizza una scala a nove punti (da 1 a 9), con media 5 e deviazione standard 2: * * Punteggi sten: si tratta di una trasformazione che utilizza una scala a dieci punti (da 1 a 10), con media 5.5 e deviazione standard 2: * ![](media/image44.png) **Punteggi Q.I**.: si tratta di una trasformazione che utilizza una scala con media 100 e deviazione standard 15 o 16: 4.Uso dell'errore standard di misura La teoria classica dei test (o teoria dell'errore casuale) assume che il punteggio osservato di un soggetto non corrisponde mai al suo punteggio vero. Tuttavia, se fosse possibile esaminare il soggetto un numero sufficientemente grande di volte, si otterrebbe una distribuzione in cui il punteggio vero potrebbe essere calcolato come media dei punteggi osservati in ciascuna prova. In questo contesto, l'errore standard di misura è una stima della deviazione standard della distribuzione di punteggi che un soggetto otterrebbe se fosse sottoposto al test un numero infinito di volte. Esso è facilmente calcolabile avendo a disposizione l'attendibilità del test (rtt) e la deviazione standard del campione normativo (σx): ![](media/image46.png) Ad esempio, se l'attendibilità del test è 0.91 e la deviazione standard del campione normativo è 10, l'errore standard di misura sarà: L'errore standard di misura può essere utilizzato per calcolare **un intervallo di confidenza** in cui cadrà il punteggio vero del soggetto con una certa probabilità. La formula da utilizzare è la seguente: ![](media/image48.png) dove **z** è il valore critico corrispondente al livello di probabilità prescelto. In genere, si desidera avere una probabilità del 95% di individuare l'intervallo entro cui cade il punteggio vero (ovvero, si accetta la possibilità di sbagliare 5 volte su 100). Dalle proprietà della distribuzione normale, sappiamo che il 95% dei punteggi cade entro ±1.96 deviazioni standard dalla media; pertanto, la formula da utilizzare per calcolare un intervallo di confidenza con una probabilità del 95% sarà: Ad esempio, se un soggetto ottiene il punteggio 60 in un test che ha un errore standard di misura pari a 3, l'intervallo di confidenza sarà: 60 ± (1.96 × 3); ovvero, nel 95% dei casi, il punteggio vero del soggetto sarà compreso tra 54 e 66. L'errore standard di misura può essere utilizzato per confrontare i punteggi ottenuti ad uno stesso test da due soggetti diversi. In tal caso, l'ipotesi nulla prevede che non vi sia alcuna differenza tra i punteggi veri dei due soggetti. Per verificare statisticamente questa ipotesi, occorre innanzitutto calcolare l'errore standard della differenza, che è dato da: ![](media/image50.png) dove 𝜎𝑋 e rtt sono la deviazione standard e l'attendibilità del test. A questo punto, è possibile calcolare un apposito indice z e procedere alla verifica delle ipotesi nel modo consueto: Si supponga ad esempio che i soggetti A e B abbiano ottenuto i punteggi 45 e 52 ad un test con 𝜎𝑋 = 10 e 𝑟𝑡𝑡 = 0.85. Sulla base di questi dati, è possibile calcolare l'errore standard della differenza: ![](media/image52.png) L'indice z che permette di verificare l'ipotesi nulla di non differenza tra i punteggi dei due soggetti sarà quindi uguale a: Il valore campionario di z risulta essere inferiore allo z critico con α = 0.05 (1.96): pertanto, si accetta l'ipotesi nulla e si conclude non vi è differenza tra i punteggi veri dei soggetti A e B. L'errore standard di misura può essere utilizzato per la verifica delle ipotesi anche quando uno stesso soggetto viene valutato con due test diversi (i quali devono avere però la stessa unità di misura): in questo caso, il ricercatore vuole verificare se il soggetto è più abile in un campo piuttosto che in un altro. La formula per il calcolo dell'errore standard della differenza diventa: ![](media/image54.png) dove sono le varianze d'errore dei due test (ovvero i quadrati degli errori standard di misura dei due test). L'ipotesi nulla di non differenza tra i punteggi ottenuti dal soggetto nei due test può essere verificata calcolando lo stesso indice z riportato in precedenza: ![](media/image56.png) Ad esempio, si supponga che un soggetto abbia ottenuto i punteggi 75 al test A (il quale ha 𝜎𝑋 = 15 e 𝑟𝑡𝑡 = 0.95) e 54 al test B (il quale ha 𝜎𝑋 = 10 e 𝑟𝑡𝑡 = 0.87). Per procedere alla verifica dell'ipotesi nulla, occorre innanzitutto calcolare gli errori standard di misura dei due test, i quali sono: ![](media/image58.png) A questo punto è possibile calcolare l'errore standard della differenza, che sarà uguale a: Infine, si calcola il rapporto z: f![](media/image60.png) Il valore z ottenuto sul campione è maggiore rispetto allo z critico con α = 0.05 (1.96), per cui si rifiuta l'ipotesi nulla e si conclude che il soggetto è più abile nel test A.