Psicometria 3 PDF

Psicome ia - orie e cniche dei st par 2🥲 Lezione 1- 11/10/2024 La misurazione in psicologia (dalla psicometria ingenua alla psicometria scienti ca) Psicometria = “the science of psychological assessment”. La branca della psicologia che si occupa della quanti cazione e misurazione di proprietà mentali, emozioni, tratti, atteggiamenti e comportamenti, nonché della costruzione, validazione, adattamento e miglioramento di test, questionari ed altri strumenti utilizzati per tale misurazione (Declaratorie MUR). Terminologia di base - Ciò che vogliamo misurare viene de nito attributo, caratteristica, proprietà (es estroversione). - De niamo variabile qualunque attributo o caratteristica, sica o psichica, che assume valori diversi quando sottoposta ad osservazione (ad es: voto all'esame di Tecniche dei Test) - Quest'ultima si di erenzia dalla costante, che prevede una sola modalità di manifestazione (ad esemplo, rilevare la professione in un campione di individui estratto casualmente dall'ordine degli psicologi del Lazio potrebbe risultare in una costante) - Ciò su cui viene compiuta la misurazione viene de nito caso o unità di analisi (ad es individui, classi, aziende). Il concetto di misurazione “Il processo di misurazione consiste nell’attribuzione di numeri a oggetti o eventi seguendo determinate regole” (Stevens). Co misurazione si intende il prodotto dell’applicazione di regole per classi care o assegnare dei numeri a degli oggetti7eventi, in modo tale che il numero rappresenti la quantità degli attributi o il grado in cui una qualità è presente. La misurazione Da un punto di vista formale, il processo di misurazione prevede tre elementi interconnessi: - Un sistema empirico (SE), cioè un insieme di entità non numeriche, ovvero la caratteristica che si vuole misurare, ad esempio l’estroversione. - Un sistema numerico (SN), che consente di assegnare dei valori che rendono ragione della variazione del sistema empirico - Una regola (o funzione di isomor smo, f) che consente di attribuire dei numeri agli elementi del sistema empirico. Il fatto che si possano assegnare dei numeri seguendo regole di erenti dà luogo a di erenti tipi di misurazione. Nel suo lavoro pionieristico, Stevens de nisce quattro diverse «scale» o «livelli di misurazione» delle variabili, ordinabili gerarchicamente secondo un livello crescente di complessità: I. Scala nominale II. Scala ordinale III. Scala a intervalli equivalenti IV. Scala a rapporti equivalenti 1. Scala nominale Rappresenta il livello più elementare di misurazione di una variabile. Nella misurazione su scala nominale I numeri vengono attribuiti per realizzare semplici operazioni di classi cazione e categorizzazione, stabilendo rapporti di uguaglianza o di erenza fra gli elementi. Gli elementi appartenenti alla stessa classe ottengono lo stesso numero e sono de niti equivalenti. Agli elementi appartenenti a classi diverse sono attribuiti numeri di erenti. Ad es. 0 = genere maschile; 1 = genere femminile; 2 = non binario. I numeri associati alle varie caratteristiche hanno una funzione di semplice etichetta senza alcun valore quantitativo. Non sono possibili operazioni matematiche quali addizioni, sottrazioni, gerarchie. In un esempio di stato civile—> I numeri ricoprono un mero valore di etichetta: possiamo a ermare che i single appartengono ad una classe diversa dai coniugati, ma non è possibile a ermare che i single «precedano» i coniugati rispetto allo stato civile, o che abbiano una «quantità» di attributo maggiore. 1 ff ff fi fi tr ff fi te te fi fi fi te fi fi ff te ff ff fi fi ff fi 2. Scala ordinale Il processo di misurazione su scala ordinale prevede l'attribuzione di valori numerici ordinabili gerarchicamente, con l'obiettivo di stabilire una graduatoria tra le unità di analisi rispetto all'intensità o alla grandezza della caratteristica in esame. Permette di de nire relazioni di maggioranza, uguaglianza o minoranza tra gli elementi. Pur potendo ordinare le unità di analisi dalla minore alla maggiore rispetto ad un attributo, non permette di rilevare in assoluto la quantità di attributo posseduto, né quale distanza intercorre fra le unità di analisi in termini di quantità. Nelle scale ordinali non esiste unità di misura. 3. Scala a intervalli equivalenti Il processo di misurazione della scala a intervalli equivalenti prevede l'attribuzione di valori numerici basati su un'unità di misura arbitraria. L'origine della scala, ovvero il punto zero, è scelto arbitrariamente e non indica l'assenza della proprietà che si sta misurando. Permette di quanti care il grado in cui un attributo è presente e la quantità di attributo che separa due misurazioni di erenti: la di erenza tra i valori numerici corrisponde alla di erenza tra i livelli della «caratteristica» posseduta. Le operazioni algebriche consentite sono addizioni e sottrazioni. Un esempio di uso è quello della scala termometrica Celsius: consente di determinare se due misurazioni sono uguali o diverse (es. 5°C # 10°C). Permette una relazione d'ordine tra i valori (es. 5°C < 10°C). La di erenza tra valori numerici rappresenta la di erenza nell'attributo misurato (es. la di erenza tra 5°C e 10°C è uguale alla di erenza tra 15°C e 20°C). Non esiste uno zero assoluto, ma solo arbitrario: 0°C non indica un'assenza di calore. L'assenza di uno zero assoluto non ci permette di a ermare che, se oggi ci sono 20°C e ieri ce ne erano 10°C, oggi faccia il doppio più caldo di ieri. 4. Scala a rapporti equivalenti Il processo di misurazione consiste nell'attribuire alle unità di analisi dei valori numerici sulla base di una scala di misura che trae la sua origine nel valore zero. Possiede le stesse caratteristiche del suo corrispettivo ad intervalli, con la di erenza che il valore zero è interpretabile in termini assoluti, ovvero come assenza dell'attributo misurato. Viene mantenuta la costanza del rapporto anche in presenza di trasformazioni di scala di misura. I numeri sono utilizzabili nel pieno delle loro caratteristiche algebriche (sono consentite tutte le operazioni). Un esempio classico fa riferimento al tempo di reazione. Ipotizziamo che tre individui A, B e C riportino un tempo di reazione ad uno stimolo di 200, 400, e 600 ms, rispettivamente: - Possiamo determinare se due misurazioni sono uguali o diverse (es. 200ms # 400ms). - Possiamo determinare una relazione d'ordine tra i valori (es. 200ms < 400ms). - La di erenza tra valori numerici rappresenta la di erenza nell'attributo misurato (es. la di erenza tra 200ms e 400ms è uguale alla di erenza tra 400ms e 600ms). - Possiamo a ermare che A sia stato il doppio più rapido di B, che a sua volta è stato il doppio più rapido di C, nel rispondere allo stimolo. Statistiche signi canti Per statistica signi cante intendiamo l'ammissibilità di una statistica rispetto alla scala di misurazione della variabile in oggetto. - Scala nominale: frequenze, moda - Scala ordinale: mediana, quantili. - Scala a intervalli equivalenti: media aritmetica, varianza. - Scala a rapporti equivalenti: media geometrica. Scale di misura 2 ff ff ff fi ff ff ff fi ff fi ff ff ff ff ff ff ff ff fi Cosa misuriamo in psicologia? Nelle discipline psicologiche l'oggetto di misurazione è generalmente rappresentato da costrutti teorici o latenti, ossia entità ipotetiche non direttamente osservabili (pensiamo ai tratti di personalità, disturbi mentali). Tali costrutti possono essere inferiti solo facendo riferimento a indicatori e comportamenti osservabili. Pensiamo al disturbo depressivo maggiore (MDD). Un clinico, nel fare diagnosi, non osserva "la depressione" in sé, bensì rileva le sue manifestazioni osservabili, quali umore de esso, insonnia/ipersonnia, mancanza di energia, scarsa concentrazione, variazioni nell'appetito (ipofagia/iperfagia), anedonia, etc. Modello a variabile latente I costrutti sono latenti e non sono osservabili, per cui possiamo usare dei modelli, che sono espressioni informalizzate di teorie. Un modello permette di descrivere, interpretare e spiegare un determinato fenomeno. Il modello a variabile latente è il modello di misurazione più usato. Mette in relazione indicatori osservabili con un costrutto latente (es la depressione con i suoi indicatori osservabili). Da un punto di vista gra co ad es la depressione è un ovale che è il costrutto latente, collegato con delle frecce agli indicatori, la freccia va dal costrutto latente agli indicatori, per cui la depressione causa i sintomi. A partire dai sintomi possiamo quanti care il costrutto latente della depressione). Altro esempio: ansia da interazione sociale, intesa come un marcato disagio nell’incontrare e parlare con altri individui. Social Interaction Anxiety Scale (SIAS) - Mattick & Clark, 1998: - Paura di essere incapaci di esprimersi - Paura di risultare noiosi - Paura di apparire stupidi - Paura di essere ignorati - Paura di non saper rispondere alle interazioni sociali Lezione 2- 12/10/2024 Categorie di misura Gli aspetti osservabili del comportamento umano, secondo Ercolani & Perugini (1997), possono essere ricondotti a quattro categorie di misure: 1. La latenza (intesa come l'intervallo di tempo che intercorre fra uno stimolo ed il veri carsi di uno speci co evento) 2. La frequenza (intesa come il numero di volte che si presenta un determinato evento) 3. La durata (intesa come la quantità di tempo di un singolo comportamento) 4. L'intensità (misurata sia a livello oggettivo, ad esempio con segnali elettro siologici, sia mediante scale di valutazione) Lo scaling Il procedimento che permette di ottenere una misura quantitativa di una variabile psicologica viene de nito scaling. Implica solitamente la costruzione di una scala per misurare la caratteristica psicologica in esame (es depressione), e l’attribuzione ad ogni soggetto che ha risposto agli item di un numero che indica il grado con cui possiede la caratteristica che si sta rilevando. Il processo 3 fi fi fi fi fl fi fi di scaling consente di di erenziare e di ordinare lungo un continuum le unità di analisi in relazione alla caratteristica latente rilevata. I modelli di scaling possono essere suddivisi in due ampie famiglie: a) Scaling centrato sulle persone (la variabilità nelle risposte è attribuibile alle di erenze individuali tra i soggetti nel livello di tratto posseduto) b) Scaling centrato sugli stimoli/risposte (la variabilità nelle risposte è determinate sia dai livelli di tratto dell'individuo, sia dalle caratteristiche degli item stessi) Lo scaling può essere: - Unidimensionale (mira a rilevare un solo attributo latente) - Multidimensionale (mira a rilevare più attributi latenti) Le tecniche di scaling possono essere di erenziate in: - Modelli deterministici (non includono errore casuale) - Modelli stocastici o probabilistici (includono l'errore casuale) Gli item costituiscono gli elementi minimali di un test psicologico. Vengono solitamente combinati tra loro (in modo additivo o tramite media) per ottenere un punteggio complessivo che ri ette la presenza dell'attributo latente oggetto di indagine. Tale procedura necessità dell'utilizzo di modelli psicometrici, modelli che permettono di determinare una corrispondenza empirica tra gli item ed il costrutto psicologo misurato. Nei modelli psicometrici sottostanti la maggior parte dei test psicologici viene ipotizzato che I costrutti latenti in uenzino/causino gli indicatori osservati. In altri termini, le risposte agli item sono determinate dal costrutto che misurano, e gli item sono considerati indicatori che ri ettono gli aspetti fondanti il costrutto (modelli di misura ri essivi). Sistemi implicati nella misurazione Verso una psicometria scienti ca - De nizione della caratteristica da misurare - Basarsi su comportamenti osservabili - De nire la situazione nella quale i comportamenti osservabili vengono rilevati Test psicologici I 3 aspetti citati sopra portano alla costruzione di test psicologici, di cui abbiamo 3 de nizioni: “Una procedura sistematica attraverso la quale viene presentato ad una persona un insieme di stimoli che attivino, in una situazione controllata, tutti quei comportamenti che esprimono la caratteristica che vorremmo misurare, espressivi di una de nizione condivisa di quella caratteristica, in modo da registrar e interpretare tali comportamenti secondo procedure de nite, e poterli esprimere sinteticamente in un indice metrico che possa essere confrontato con quello di altri individui nella medesima situazione”- Pedrabissi & Santinello. "Una situazione standardizzata nel quale il comportamento di una persona viene campionato, osservato e descritto producendo una misura oggettiva e standardizzata di un campione di comportamenti”- Boncori, 1993. "Un test psicologico è una tecnica, come tale implicante un complesso di norme che ne determinano i criteri di applicabilità, idonea per collocare un individuo, relativamente a una 4 fl fi fi ff fi fl ff fl fi fi ff fl fi speci ca caratteristica psicologica, rispetto ad un gruppo di riferimento identi cato secondo precise modalità”- Mucciarelli, Chattat & Celani, 2002. Assessment psicologico Il complesso mosaico di elementi che compongono l’assessment psicologico: Tipi di test psicologici Test cognitivi I test cognitivi (o di massima performance) prevedono solitamente più alternative di risposta, delle quali solo una è considerata corretta: Test di livello (batterie di test formati da una serie di prove che richiedono il ricorso ad abilità cognitive, ad es: test di intelligenza) Test di sviluppo (valutano lo sviluppo cognitivo secondo un determinato modello di riferimento) Test di pro tto (misurano il livello di conoscenza raggiunto dopo un periodo di formazione) Test attitudinali (prove cognitive utilizzate per predire il successo in ambito lavorativo, scolastico, universitario). I test cognitivi possono essere a loro volta suddivisi in: a) Test di velocità: costituiti da prove facili che devono essere risolte in un tempo estremamente limitato. Sono strutturati in modo tale che non si riesca a risolverli totalmente nel tempo previsto. b) Test di potenza: costituiti da prove di crescente di coltà. Il punteggio massimo viene raramente raggiunto. Test non cognitivi I test non cognitivi (o di tipica performance) non prevedono risposte corrette, e sono progettati per esplorare aspetti legati al comportamento, agli atteggiamenti, agli interessi e alle inclinazioni di un individuo espresse in contesti quotidiani: I. Test di personalità (MMPI-2; BFQ-2) II. Test di atteggiamento ed opinioni (richiedono di indicare il grado di assenso o accordo rispetto ad un determinato argomento) 5 fi fi ffi fi III. Inventari di interessi (valutano la preferenza di un individuo per determinate attività, e sono utilizzati principalmente per promuovere scelte occupazionali in linea con gli stessi). Ambiti di applicazione dei test I test psicologici sono uno strumento applicabile trasversalmente in ogni settore della disciplina: - Psicologia clinica (funzione di screening e diagnostica, valutazione di e cacia degli interventi) - Psicologia del lavoro (selezione del personale, stress-lavoro correlato, clima lavorativo) - Psicologia dello sviluppo e dell'educazione (valutazione delle di coltà di apprendimento, orientamento negli studi) - Psicologia del marketing (atteggiamenti dei consumatori, motivazione all'acquisto, gradimento verso determinati prodotti) - Psicologia giuridico-forense (valutazione della capacità genitoriale e personologica in casi di a damento minorile) Codice deontologico e test psicologici Articolo 5 del codice deontologico dell'Ordine Nazionale degli Psicologi: “Lo psicologo è tenuto a mantenere un livello adeguato di preparazione professionale e ad aggiornarsi nella propria disciplina speci catamente nel settore in cui opera. Riconosce i limiti della propria competenza e usa, pertanto, solo strumenti teorico-pratici per i quali ha acquisito adeguata competenza e, ove necessario, formale autorizzazione. Lo psicologo impiega metodologie delle quali è in grado di indicare le fonti e i riferimenti scienti ci, e non suscita, nelle attese del cliente e/o utente, aspettative infondate” Articolo 21 del codice deontologico dell’Ordine Nazionale degli Psicologi: “Lo psicologo, a salvaguardia dell'utenza e della professione, è tenuto a non insegnare l'uso di strumenti conoscitivi e di intervento riservati alla professione di psicologo a soggetti estranei alla professione stessa, anche qualora insegni a tali soggetti discipline psicologiche. È fatto salvo l'insegnamento agli student del Corso di laurea in psicologia, ai tirocinanti, e agli specializzandi in materie psicologiche” Etica nell’uso dei test Si misurano attributi, NON persone. Lezione 3- 17/10/2024 De nizione del costrutto teorico- operazionalizzazione e dominio di contenuto Il processo di costruzione del test inizia con l’ovvia, ma non banale, domanda del “cosa vogliamo misurare”. Una chiara de nizione del costrutto teorico oggetto di indagine rappresenta lo spartiacque tra una psicometria ingenua ed una psicometria scienti ca, quest’ultima caratterizzata da metodi e procedure che rendono il più oggettivo possibile il processo di misurazione. Il problema della de nizione del costrutto teorico è estremamente rilevante considerata l’eterogeneità terminologica nella disciplina. Esempio Ansia sociale secondo il DSM-5 (APA, 2013): a. Marcata paura o ansia per una o più situazioni sociali in cui l’individuo è esposto al possibile giudizio degli altri, come interazioni sociali, essere osservati ed esibirsi di fronte agli altri. b. L’individuo teme di mostrare sintomi di ansia che saranno valutati negativamente (e.g., saranno umilianti, imbarazzanti o porteranno al ri uto). c. Le situazioni sociali provocano quasi sempre paura o ansia. d. Le situazioni sociali sono evitate o sopportate con intensa paura o ansia. e. La paura o l’ansia è sproporzionata rispetto alla minaccia reale posta dalla situazione sociale e al contesto socioculturale. f. La paura, l’ansia o l’evitamento sono persistenti, tipicamente durano per 6 mesi o più. g. La paura, l’ansia o l’evitamento causano disagio clinicamente signi cativo o compromissione in ambito sociale, lavorativo o in altre importanti aree del funzionamento. 6 ffi fi fi fi fi fi fi fi ffi ffi fi A loro volta, alcuni modelli teorici propongono due sottodimensioni della fobia sociale, la prima legata all'ansia di essere osservati durante attività quotidiane, l'altra connessa al disagio nelle interazioni sociali (e.g., Mattick & Clarke, 1998): Fobia sociale: si manifesta con ansia e nel timore di essere osservati dagli altri mentre si svolgono attività quotidiane, come mangiare, scrivere, o camminare in una stanza a ollata. La preoccupazione è quella di apparire ansiosi, timidi o in di coltà, con il rischio di arrossire, tremare o sembrare a disagio. Ansia da interazione sociale: si manifesta con disagio durante gli incontri e le conversazioni, indi erente dal fatto che l’altro sia un estraneo, conoscente o persona del sesso opposto. La paura principale è quella di apparire noiosi o incapaci di esprimersi, di non sapere cosa dire o come reagire, o di sentirsi ignorati. Da tali esempi è evidente come un pre-requisito fondamentale per la costruzione di un test psicologico sia basarsi su una de nizione precisa, dettagliata e scienti camente condivisa del costrutto che lo strumento si propone di rilevare. Operazionalizzazione Il processo di individuazione delle manifestazioni comportamentali che permettono di rilevare la presenza di una caratteristica psicologica latente è de nito operazionalizzazione. Operazionalizzare permette di legare i concetti scienti ci a operazioni osservabili da chiunque, rendendo oggettivi i dati derivanti dall’osservazione scienti ca. Le operazionalizzazioni sono, dunque, gli indicatori osservabili di una variabile psicologica latente (o costrutto teorico). Il dominio di contenuto Coerentemente con la de nizione teorica adottata, l’obiettivo diviene delimitare, all’interno dell’universo di tutti i possibili comportamenti, quelli che possono rappresentare le operazionalizzazioni del costrutto. L’insieme delle possibili operazionalizzazioni del costrutto viene de nita dominio di contenuto. Delineare un adeguato dominio di contenuto è condizione necessaria per garantire la validità di contenuto di una scala, de nibile come il grado in cui gli indicatori di uno strumento di misurazione sono rilevanti e rappresentativi del costrutto target (Haynes et al., 1995). Il dominio di contenuto viene de nito sulla base di molteplici fonti, ad esempio: a. Analisi della letteratura scienti ca b. Consultazione di esperti del settore c. Interviste, focus group o sondaggi condotti nella popolazione generale d. Esperienza clinica e professionale e. Altri strumenti di valutazione sviluppati per il medesimo costrutto Esempio Per delimitare il dominio di contenuto del Pathological Narcissism Inventory (Pincus et al., 2009), gli autori hanno adottato un approccio plurimo: 1. Si sono rivolti a docenti universitari di psicologia clinica, studenti di dottorato, psicoterapeuti. 2. Hanno esaminato la letteratura teorica (saggi, trattati, manuali diagnostici) ed empirica (articoli scienti ci su riviste peer-reviewed) sul narcisismo patologico. 3. Hanno preso in rassegna video/audioregistrazioni di sedute di psicoterapia aventi ad oggetto il narcisismo patologico. Tale lavoro ha portato all’identi cazione di sette dimensioni del narcisismo (ad es. manipolazione per raggiungere i propri scopi; volontà di nascondere le proprie debolezze; stima di sé subordinata al giudizio e considerazione altrui; fantasticare situazioni di amore ideale, successo ed eroismo). 7 ff fi fi fi fi fi fi fi fi ffi fi fi fi fi ff Dominio, facets, subfacets Da un punto di vista empirico, se determinati comportamenti rappresentano delle operazionalizzazioni del medesimo costrutto, essi tenderanno a variare assieme. - In un test sviluppato per la misurazione della essibilità cognitiva, individui con elevata essibilità tenderanno ad ottenere punteggi elevati ai relativi item del test, mentre individui con scarsa essibilità tenderanno ad ottenere punteggi più bassi negli stessi. Non sempre tale condizione si veri ca. In presenza di costrutti concettualmente ampi, alcuni item possono mostrare di erenti pattern di correlazione, suddividendosi in «subset» che ri ettono speci che sfaccettature (facets) del costrutto. La essibilità cognitiva può avere diverse sfaccettature, come adattabilità a nuovi contesti e cambiamento di prospettiva, che potrebbero essere misurate da subset di item diversi. In condizioni caratterizzate da un’ampiezza concettuale elevata del costrutto, è preferibile evitare di de nire un numero eccessivo di indicatori per coprire l'intero dominio di contenuto. Al contrario, è consigliabile focalizzarsi sulle diverse sfaccettature (o facets) del costrutto stesso, assicurandosi di operazionalizzare ciascuna di esse in modo appropriato. Quando un costrutto è de nibile attraverso una serie di facets, questo viene chiamato dominio. Un esempio è rintracciabile nel dominio di intelligenza teorizzato dal test di Wechsler, che divide la stessa in due sfaccettature: l’intelligenza verbale e l’intelligenza di prestazione. Esempio- delimitazione del dominio di contenuto 8 fl fi fi fi fl ff fi fl fl fl - In questa situazione, considerata l’ampiezza concettuale del costrutto di estroversione, può essere utile individuare aree di contenuto speci che che raggruppino operazionalizzazioni (i.e., aggettivi) più omogenei tra di loro, suddividendo il dominio in più facets. - Concentrarsi sull’operazionalizzazione delle facets → compito più agevole rispetto all’operazionalizzare un dominio di contenuto ampio. - In tal caso, il test presuppone la presenza di item che misurino le facets, le quali a loro volta ri ettono il dominio (costrutto) di interesse. Dopo l’individuazione delle facets (estroverso: assertività, ricerca di stimoli, espansività, emozioni positive, attività, socievolezza), c’è il campionamento del contenuto. Il ruolo della teoria - La teoria ha un ruolo centrale nell’individuare le operazionalizzazioni più rappresentative e rilevanti nel dominio di contenuto - Non è possibile delegare alla sola statistica la selezione degli indicatori, la quale rischierebbe di portare ad un processo di campionamento impreciso come quello osservato precedentemente. - Le analisi statistiche utilizzate in questo contesto si basano sulla correlazione tra gli indicatori, e la presenza di un set di indicatori particolarmente correlato ed omogeneo potrebbe risultare in un campionamento non rappresentativo del costrutto target. Il ruolo della teoria: un esempio Desidero sviluppare un test per rilevare la soddisfazione di vita (life satisfaction): - Sono presenti 8 item che misurano la soddisfazione lavorativa, i quali risultano fortemente correlati, con coe cienti di correlazione tra 0.60 e 0.70. - Il restante gruppo di 16 item, che operazionalizzano altre dimensioni focali del costrutto (come la soddisfazione nelle relazioni interpersonali e la soddisfazione nanziaria), presenta correlazioni più moderate, di ampiezza compresa tra 0.30 e 0.45. - L'adozione di un approccio completamente data-driven per la selezione degli indicatori, basato sulla matrice di correlazione, potrebbe portare a: a); sovrastimare l'importanza del subset omogeneo, identi candolo come centrale per il costrutto; b) escludere altri item moderatamente correlati, ma altrettanto importanti per la de nizione del costrutto di life satisfaction. - Ciò in uisce sulla validità di contenuto della scala. Dominio di contenuto e scopo del test A cosa serve il nuovo test? A chi è rivolto il test? Il processo di de nizione del dominio di contenuto è strettamente interrelato ai due quesiti. - Volendo sviluppare un test di pro tto per l’esame di Teorie e Tecniche dei Test (prestazione massima), la domanda «cosa si intende per test psicologico» potrebbe essere utile per identi care coloro che hanno un livello di preparazione molto basso, ma non rappresenta un domanda selettiva in grado di discriminare tra studenti con elevati livelli di preparazione. - In tal caso, la nalità ed i destinatari del test in uiscono sul livello di di coltà delle domande da includere nel test di pro tto. Lo scopo del test In termini di scopi, una distinzione importante ri ette quella tra test orientati al criterio ed al costrutto: - Con test orientati al criterio de niamo quei test il cui scopo principale è identi care particolari gruppi di persone sulla base del punteggio ottenuto (ad es. test di screening). - Quando il test diviene uno strumento per la veri ca empirica di una teoria, ad es. valutare il pattern di associazioni di un costrutto all’interno di una precisa cornice teorica, parliamo di test orientati al costrutto (o alla teoria). Un test orientato al criterio può avere una limitata applicabilità, mentre un test orientato al costrutto è solitamente applicabile in una maggiore varietà di contesti e situazione. I due orientamenti non sono tuttavia mutualmente escludentisi. Non è consigliabile utilizzare un test progettato per un certo scopo e per una speci ca popolazione, in contesti o popolazioni diverse. Berstein & Putnam (1986) sviluppano la Dissociative Experiences Scale (DES), derivando il contenuto degli item da quanto riferito in 9 fl fi fl fi fi ffi fi fi fi fi fl fi fi fl fi ffi fi fi fi seduta da pazienti con disturbo dissociativo, con l’obiettivo di utilizzare lo strumento come ausilio in sede di valutazione diagnostica e di screening. Un test di questo tipo può essere particolarmente utile per nalità di screening in una popolazione a rischio, ma non è consigliabile utilizzarlo per scopi di ricerca nella popolazione generale. Lezione 4- 18/10/2024 Formulazione degli item di un test Caratteristiche degli item - De nito l’obiettivo del test, la popolazione alla quale è rivolto, il modello teorico sottostante e le sue operazionalizzazioni, è necessario sviluppare gli elementi minimali del test. - La statistica ricopre, anche in questa fase, un ruolo marginale, in quanto l’obiettivo è formulare item adeguati sul piano strutturale e linguistico. - Le caratteristiche fondamentali degli item di un test sono: A. La chiarezza B. La centralità rispetto alla de nizione del costrutto e al contesto C. La non o ensività ed inclusività del linguaggio La chiarezza - La chiarezza si riferisce alla mancanza di ambiguità ed eccessiva generalità sia nelle domande poste, che nelle istruzioni del test. - Le persone non rispondono agli item, ma a ciò che comprendono dell’item. - L’utilizzo di una terminologia comprensibile ed adatta alle competenze linguistiche della popolazione target è requisito fondamentale per garantire delle risposte accurate ed attendibili. Centralità rispetto al contenuto - Utilizzo di item coerenti e centrali con la de nizione del costrutto. - Questa condizione può essere valutata, una volta de nito l’insieme degli item, mediante criteri speci ci di inclusione ed esclusione che determinano quali item inserire nella versione preliminare del test. - Tali criteri dovrebbero essere valutati da giudici esperti nella caratteristica misurata, per determinare la loro centralità rispetto al contenuto ed al contesto. Ad esempio, Mattick e Clarke (1998), per de nire le due scale della fobia sociale, hanno valutato la centralità degli item sulla base dei seguenti criteri: 1. l’item deve riferirsi o ad una paura di essere osservato o alla paura di interagire in interazioni sociali 2. l’item deve riferirsi a contenuti a ettivi della risposta di ansia/paura (nervosismo, preoccupazione, paura o tensione) o al suo opposto (comfort, agio, rilassamento) 3. l’item non deve riferirsi all’apprensione sociale o alla preoccupazione circa le opinioni degli altri in senso generale La di coltà nel rispondere al secondo item non è legata all’analogia, ma alla necessità di possedere una conoscenza speci ca. L’item presenta una centralità rispetto al costrutto più coerente con un esame di letteratura che con un test di intelligenza. Task impurity problem: le prove che compongono un test chiamano in causa processi cognitivi che non sono direttamente rilevanti per la valutazione della caratteristica in esame. 10 fi fi ffi ff fi fi fi ff fi fi fi Centralità rispetto al contesto Non o ensività ed inclusività Responsabilità etica in qualità di psicologi. Non o ensività quando la misurazione riguarda dati intimi della persona (e.g., etnia, orientamento religioso, identi cazione di genere). Evitare item che inducano atteggiamenti difensivi ed ostili nelle persone. Evitare di identi care una persona con la sua diagnosi clinica. Sesso biologico vs. identità di genere. Utilizzo di genere neutro, o rivolgersi con un pronome che ri etta l’identità di genere. Esercizio Identi care i problemi dei seguenti item sulla base delle caratteristiche fondamentali menzionate: «Sono in grado di fare networking e cacemente» «Classi ca i seguenti paesi: Italia, Venezuela, Giappone, Somalia» «Le persone depresse tendono a isolarsi socialmente» Come li modi chereste? Item per i test di prestazione tipica 1. Item si/no vero/falso - Brevi a ermazioni, tendenzialmente in prima persona - Di facile comprensione e rapida compilazione - Potrebbe esser percepita come inadeguata nel cogliere la complessità di un pensiero o comportamento - Mancanza di punti intermedi Per ovviare ai menzionati limiti, è stata proposta una variante del formato, ossia con l’aggiunta, oltre a vero e falso, di “non so”. La risposta «Non so» è scarsamente informativa sulla caratteristica da misurare: - Favorisce risposte difensive - Di cilmente interpretabile (non applicabilità, di coltà di comprensione, o risposta intermedia?) - Pone problemi in merito allo scoring Item mi piace/non mi piace - Spesso costituti da parole singole o semplici elenchi di tematiche (scelta di un termine saliente), approccio meno soggetto a risposte conformiste o socialmente desiderabili. - Utili per catturare le immediate reazioni emotive degli individui a questioni controverse. - Molto impiegato nelle scale sulle preferenze e nella psicologia sociale. Item a scelta multipla forzata Alternative di risposta qualitativamente diverse e di cilmente collocabili sul medesimo continuum. Si basano su uno scaling 11 ffi fi ff ff fi ff fi fi fi ffi ffi ffi fl ipsativo → misure autoreferenziali che forniscono informazioni sull’individuo che compila il test. Non consentono il confronto con altri individui in quanto le informazioni assumono signi cato solo nel contesto del singolo. In questa tipologia di test non sono presenti norme (punteggi di riferimento). Di coltà nell’applicare i tradizionali modelli di analisi statistica e nell’assegnare un punteggio alle diverse alternative di risposta. Item con scale di valutazione Formato più di uso per i test a prestazione tipica. Può esser interpretato come un’evoluzione del formato Vero/Falso, includendo risposte di grado intermedio. Il tipo di scaling derivante da questo formato prende il nome di Likert Scaling. - Le scale Likert sono summated rating scales, ovvero scale in cui il punteggio del costrutto è derivato dalla somma delle valutazioni fornite ai singoli item. - Ogni item permette di misurare un attributo (costrutto) che prevede un continuum sottostante di tipo quantitativo. Nell’esempio precedente, si suppone un continuum delimitato da «per niente d’accordo» a «completamente d’accordo» - Item formati solitamente da brevi a ermazioni. - La presenza di un numero maggiore di alternative di risposta, comprese quelle intermedie, non obbliga l’individuo ad una forzata scelta dicotomica (Sì/No) che potrebbe non ri ettere il livello reale dell’attributo. - Le summated rating scale, prevedendo una struttura multi-item, presentano inoltre importanti vantaggi rispetto all’utilizzo di item singoli --> aumentano la precisione della misurazione e determinano una maggiore variabilità del punteggio totale. Le rating scale possono essere utilizzate per valutare tre diversi domini: - Frequenza: es con quale frequenza mostra di coltà di addormentamento? - Intensità: es quanto tale di coltà in uenza il suo umore? - Accordo: es gli altri dormono più di me Le rating scale prevedono l’utilizzo di ancoraggi, termini che fungono da riferimento per determinare la risposta dell’individuo: Le rating scale tradizionali prevedono dei quanti catori indeterminati, descrivendo ogni punto mediante un’etichetta. Gli ancoraggi dovrebbero essere il più possibile simmetrici: 12 ff ffi ffi ff fl ffi fi fl fi Qual è il numero ottimale di punti? Formati di risposta unipolare vs. bipolare Strettamente unipolare: la scala di risposta viene de nita rispetto all’intera estensione di un continuum in cui il punteggio minore corrisponde ad un sentimento di neutralità. Strettamente bipolare: vengono esplicitate risposte che indicano l'uno o l’altro estremo, nonché la neutralità. Scale di frequenza Range e ect: La risposta in una scala di frequenza può essere in uenzata dall’e etto degli altri comportamenti presenti nel test. Il medesimo comportamento potrebbe non ricevere la stessa valutazione se inserito in un test con altri comportamenti molto frequenti o poco frequenti. Una possibile soluzione è l’utilizzo di quanti catori determinati, che tuttavia non sono sempre utilizzabili. Frequency e ect: La tendenza ad utilizzare tutte le categorie della scala di risposta con la stessa frequenza se il numero di comportamenti da valutare è ampio. Lezione 5- 22/10/2024 Linee guida per la formulazione di item di test a prestazione tipica Item di prestazione tipica Generalmente costituti da brevi a ermazioni che descrivono: a) Stati d’animo («Mi sento un fallimento») b) Desideri («Vorrei essere famoso») c) Atteggiamenti («Il carcere è solo uno strumento di repressione») d) Opinioni («Ritengo la mia quotidianità noiosa») e) Convinzioni («Le altre persone cercano di ingannarmi») f) Comportamenti («Svolgo i compiti assegnati accuratamente») 13 ff ff fi fl ff ff fi g) Attribuzioni di tratti («Mi de nisco una persona gentile») h) Interessi («Mi piacciono gli Oasis») i) Reazioni comportamentali («Reagisco con violenza alle critiche») j) Singole parole, ad esempio checklist di aggettivi («entusiasta», «ispirato»). La formulazione degli item (operazione de nita item wording) è di centrale importanza per lo sviluppo di un test psicologico. Un item formulato male può generare sostanziali distorsioni nelle risposte. Per quanto riguarda gli item a parole singole, non esistono linee guida speci che: l’unica accortezza è veri care la corrispondenza tra i termini ed il dominio di contenuto che si intende indagare. Per quanto riguarda gli item costituiti da a ermazioni, oltre a garantire i criteri principali (chiarezza, centralità rispetto al contenuto e al contesto e non o ensività) è possibile far riferimento a speci che linee guida. Adeguare il linguaggio alle competenze linguistiche della popolazione target - Utilizzare parole che gli individui della popolazione target siano in grado di comprendere - Se la scala è rivolta alla popolazione generale, privilegiare termini il cui signi cato sia largamente condiviso - In caso di impiego in una popolazione speci ca, documentarsi sui termini più familiari nell’ambito Fare una richiesta a cui la persona è in grado di fornire facilmente una risposta - Alcune motivazioni e processi potrebbero sfuggire alla consapevolezza di chi risponde (ad es. «Ho avuto la tendenza a non notare sensazioni di tensione sica o disagio» - Domande in merito a stati interni potrebbero non essere colte dalla popolazione generale. - Evitare item con riferimenti che non tutti conoscano (ad es. «Detesto le persone che hanno atteggiamenti da Rambo»). - Alcuni partecipanti potrebbero non aver mai esperito la situazione descritta nell’item (ad es. «Insulto i guidatori che mi tagliano la strada mentre guido»). Chiedere una sola cosa alla volta «Alcune persone hanno esperienza di guidare/andare in macchina o in autobus o in metropolitana e improvvisamente di realizzare di non ricordare cosa è successo durante tutto parte del viaggio”. Item da evitare in quanto riporta una molteplicità di situazioni dove la persona potrebbe sperimentare esperienze di erenti. In questi casi, è possibile suddividere l’a ermazione in item più brevi e coincisi. Riferirsi a comportamenti speci ci, e non in generale «Mi piace leggere» - Evitare termini che si riferiscano ad un’ampia gamma di comportamenti o situazioni. - Nell’esempio menzionato l’item è troppo generico: la lettura può riguardare argomenti e materiali diversi, per cui è necessario fornire ulteriori speci che sul tipo di lettura (ad es. libri, fumetti, giornali) ed argomento (ad es. storia, letteratura, psicologia). Evitare riferimenti alla frequenza, soprattutto se generici - Formulare item con ancoraggi precisi («Con quale frequenza usa la carta di credito per i suoi acquisti?» Mai – Qualche volta all’anno – Qualche volta al mese – Qualche volta alla settimana - Tutti i giorni) - Formulare item con riferimenti temporali chiari («Nelle ultime due settimane mi sono sentito triste») Evitare alternative di risposta che facciano riferimento a più dimensioni Nell’ultima settimana mi sono sentito: depresso, apatico, stressato. - L’item indaga tre diversi aspetti dello stato d’animo di una persona. - Di di cile collocazione all’interno del continuum (come assegno il punteggio?) 14 ffi fi fi fi ff fi fi ff fi fi fi ff ff fi fi Minimizzare la possibilità che la persona intuisca lo scopo dell’item - Se lo scopo dell’item viene compreso, la risposta dell’individuo potrebbe ri ettere l’opinione o una visione socialmente desiderabile rispetto alla caratteristica in esame, piuttosto che la visione reale. - Idealmente un test di prestazione tipica dovrebbe misurare attributi sconosciuti alla persona, ma spesso è una condizione irrealistica. - Limite principale degli strumenti self-report. Evitare le negazioni - Le negazioni ad inizio frase o le negazioni multiple potrebbero rendere l’item complesso da comprendere se, per esprimere l’accordo, è necessario fornire una risposta a ermativa o negativa. («Non mi preoccupo di non piacere alla gente») - Se possibile, preferire formulazioni al positivo Evitare domande suggestive, le insinuazioni e le assunzioni implicite - Evitare di formulare item in cui un’alternativa di risposta abbia una maggiore probabilità di essere scelta, che contengano un giudizio implicito, o che presuppongano una certa condizione come vera. («Se i politici fossero meno corrotti, avrei più ducia nel loro operato»; «Se i giovani fossero meno irresponsabili, la società avrebbe meno problemi») E etti distorcenti delle risposte agli item di un test a prestazione tipica Rapporto del numero di item con il numero di punti della scala di risposta - La motivazione e l’attenzione tenderanno siologicamente a calare in test estremamente lunghi. - Conciliare le esigenze di rappresentatività del campione di comportamenti con la quantità di impegno ed attenzione che ogni persona può concedere. - Più sono numerosi gli item, più è preferibile utilizzare formulazioni brevi ed un basso numero di punti nella scala di risposta E etto attrattore del punto centrale della scala - Il punto centrale di una scala viene scelto con una frequenza maggiore degli altri punti, indipendentemente dal numero di punti della scala di risposta. - Problema interpretativo del punto medio. - Neutralità, non so, o falsi negativi? - Sebbene un numero di punti pari in una scala di risposta potrebbe mitigare il problema, in alcune misurazioni un punto intermedio è necessario (ad es. cambiamento terapeutico). Response sets - Tendenze sistematiche delle persone a rispondere agli item indipendentemente dalla quantità di costrutto e dal contenuto dell’item. - De niti response sets da Cronbach (1946), possono essere sia temporanei e quindi trascurabili, sia stabili (veri e propri tratti di personalità). 15 ff ff fi fi fi fl ff - Jackson e Messick (1958) propongono invece una distinzione tra response styles (distorsioni sistematiche stabili e costanti rispetto al tempo ed al contenuto delle scale) e response set (distorsioni sistematiche limitate a particolari test, contenuti o contesti) - Le due principali fonti di response set sono l’acquiescenza e la desiderabilità sociale. Acquiescenza e disacquiescenza - Acquiescenza de nibile come la tendenza a essere d’accordo con gli item indipendentemente dal contenuto. - Disacquiescenza de nibile come la tendenza a non essere d’accordo con gli item indipendentemente dal contenuto. - Net acquiscience: tendenza a mostrare maggiore acquiescenza che non disacquiescenza. - Generano un’incoerenza nelle risposte, data la tendenza sistematica a rispondere allo stesso modo ad item con contenuti opposti. Gli e etti sono rinforzati da item di di cile interpretazione e da similarità nella formulazione: Tipi di response sets 16 ff fi fi ffi Desiderabilità sociale “The tendency to give socially desirable responses in self-description" (Edwards, 1957, p. 35) - Bias di over-reporting: riportare una frequenza o un accordo con comportamenti socialmente desiderabili maggiore della realtà. - Bias di under-reporting: riportare una frequenza o un accordo con comportamenti socialmente indesiderabili minore della realtà. Item straight e item reverse - Gli item con contenuto orientato nella direzione del costrutto (ad alti punteggi dell’item corrispondono alti livelli del costrutto) vengono de niti straight items o positively worded items. - Gli item con contenuto orientato nella direzione opposta del costrutto (a bassi punteggi dell’item corrispondo livelli di costrutto alti) vengono de niti reverse items o negatively worded items. Reverse items Ci sono 3 diverse categorie di item reverse—> prendendo come esempio “sono una persona educata”, le categorie sono: 1. POLAR OPPOSITE: sono una persona maleducata 2. NEGATED REGULAR: non sono una persona educata 3. NEGATED POLAR OPPOSITE: non sono una persona maleducata - Lo scopo principale degli item reverse è quello di contrastare l’acquiescenza agendo da speed bump cognitivo (dissuasore di velocità). - L’obiettivo è rallentare la velocità di compilazione del test della persona ed evitare risposte automatiche agli item, al ne di considerare più attentamente il contenuto degli stessi. - Serve estrema attenzione nel formulare un item reverse: le negazioni tendono a confondere gli individui circa la loro reale posizione sul continuum del costrutto, a maggior ragione se la popolazione target fa riferimento a bambini ed adolescenti. - Generalmente sono preferibili item reverse del tipo «polar opposite», sebbene non sempre esista una forma opposta dell’item straight. Gli item reverse, pur avendo il pregio di mitigare l’acquiescenza, presentano alcune problematiche che potrebbero indurre a loro volta distorsioni nelle risposte: - A livello statistico, tendono ad avere distribuzioni dei punteggi diverse dagli item straight, e ad essere più omogenei tra di loro che con gli item straight, a loro volta più omogenei al loro interno. Ciò potrebbe indebolire la struttura unidimensionale della scala. - Alcuni contributi hanno evidenziato che il funzionamento di una scala di risposta può variare a seconda del fatto che l’item sia reverse o straight. L’alternativa «un po’ in disaccordo» in un item reverse non è sempre equivalente a «un po’ d’accordo» in un item straight. - Proximity e ect: correlazioni diverse in funzione della vicinanza fra item straight e reverse all’interno di un test. Lezione 6- 26/10/2024 Item per i test di prestazione massima Domande aperte o chiuse? Le domande aperte richiedono un processo di memoria di rievocazione (ricordare verbalmente un contenuto relativo a qualcosa di studiato o vissuto). La rievocazione può essere di tre tipi: 17 ff fi fi fi I. Libera: non vengono fornite informazioni particolari. In un test di pro tto, si può chiedere ad esempio di descrivere la prima topica Freudiana. II. Guidata: permette il recupero di informazioni mediante piccoli suggerimenti che dovrebbero favorire il ricordo. Tipica delle interviste strutturate. III. Seriale: richiede il recupero delle informazioni mediante un ordine prestabilito. Ad esempio, in una prova di memoria si può richiedere di riportare gli elementi nel medesimo ordine in cui sono stati presentati. Le risposte chiuse si basano su un processo di memoria diverso, quello di riconoscimento (riconoscere fra le alternative proposte quella che soddisfa il criterio richiesto). Nel caso di un test di pro tto: Quale dei seguenti non è un indice di dispersione? a. Varianza b. Media aritmetica c. Deviazione standard d. Scarto interquartile Nell’ambito dei test a prestazione tipica, una risposta argomentata ad una domanda aperta non si presta ad analisi statistiche (dato qualitativo). Non veicola informazioni su scala ordinale, a meno di procedimenti che introducono una quota di soggettività. Nell’ambito di un test di prestazione massima, l’utilizzo di domande aperte richiede un processo di scoring particolarmente oneroso: - Il punteggio va determinato sulla base di una procedura de nita partial credit. - Si decide la gamma di punteggi ottenibile (ad es. 1-5), si stabiliscono in anticipo i criteri per determinare la risposta perfetta, nonché le penalizzazioni in caso di errori. Test di intelligenza, abilità cognitive ed attitudinali Item per i test di intelligenza Per la costruzione di test di intelligenza, è importante considerare la distinzione tra intelligenza uida ed abilità cristallizzata. Intelligenza uida: - Capacità di ragionamento primaria impiegata per risolvere i problemi ed adattarsi all’ambiente. - Indipendente da condizionamenti culturali ed in gran parte ereditabile. - Misurabile mediante item di inferenza, induzione, essibilità di chiusura, etc. - Operazionalizzata mediante item che non richiedono alcuna conoscenza pregressa, o compiti completamente nuovi nelle quali le persone non dovrebbero aver avuto esperienza. Intelligenza cristallizzata: - Fa riferimento ad abilità legate all’apprendimento scolastico, ben consolidate, ed inerenti il saper utilizzare le strategie e gli apprendimenti conseguenti all’esperienza. - Soggetta ad in uenze ambientali e sociali. - Misurabile mediante item verbali (comprensione di parole o idee), numerici (manipolazione dei numeri) e relativi a speci che abilità socialmente rinforzate. - Operazionalizzata da item che richiedono conoscenze e abilità speci che che è lecito attendersi in individui di una determinata età e cultura. Analogie - Generalmente presentano la forma di proporzioni (es siamese : gatto = alano : ???) - Si basano sulla capacità dell’individuo di estrarre dalla prima parte dell’item una speci ca relazione analogica, ed applicarla alla restante parte. - Analogie di questo tipo permettono di ottenere una misura di intelligenza cristallizzata. - L’esempio menzionato non è infatti esente da condizionamenti culturali. - La loro di coltà dovrebbe essere manipolata a livello di relazioni fra gli elementi: es televisore : microscopio = radio : ???—> risposte: microprocessore, satellite, lente di ingrandimento, ampli catore - Manipolando la di coltà a livello di contenuti, il rischio è di perdere la centralità rispetto al costrutto dell’intelligenza e formulare un test di cultura generale. - In termini di intelligenza uida, è possibile prevedere item numerici, alfabetici o visivi (es 13:4=23:???); (oppure es B:V=E:???) 18 fl ffi fl fl ffi fi fi fi fl fl fi fi fi fi Item a esclusione Formati da un elenco di elementi (parole, numeri, forme) in cui tutti gli elementi, tranne uno, possono essere ricondotti ad una categoria speci ca. L’obiettivo è «trovare l’intruso». Generalmente gli item ad esclusione indagano l’intelligenza cristallizzata, frutto di conoscenze precedenti. Item a sequenza Possono essere verbali, numerici o visivi, e sono ampiamente di usi nei test di intelligenza. Item di informazione generale - Classici item di cultura generale che trattano argomenti multipli (ad es. storia, politica, letteratura, geogra a). - L’obiettivo è valutare se l’individuo possiede l’informazione speci ca, comunemente trasmessa nei percorsi di istruzione obbligatoria. - Evitare di formulare item che richiedono una conoscenza o competenza troppo speci ca. Item di abilità verbale - Misurano primariamente l’intelligenza cristallizzata - Richiedono, ad esempio, di scrivere quante più parole possibile inizino con una lettera, l’individuazione del signi cato, di un sinonimo o di un contrario di un termine, la corretta ortogra a di una parola, o individuare la parola che completa una frase. Item di ragionamento verbale - Valutano la capacità di collegare dati e conoscenze in modi non immediati e di fare deduzioni logiche di varia complessità. - Ad esempio, richiedono di individuare un principio o una regola da applicare alla soluzione di un problema, il concetto di condizione necessaria o su ciente, oppure di partire da alcune premesse e giungere alla corretta conclusione. Item di comprensione del testo - Caratterizzati da un breve testo e dei quesiti ad esso relativi. - A partire da un testo di vario tipo (ad es. tratto da un saggio scienti co, articolo di giornale, romanzo, etc.), gli item saggiano la capacità di padroneggiare concetti o determinati elementi di conoscenza attraverso il riconoscimento di a ermazioni vere o false, la capacità di fare inferenze, individuare rapporti gerarchici, stabilire relazioni, e decodi care quanto implicato e presupposto dal testo. - Altra tipologia di item di comprensione del testo di usa è quella in cui viene sottoposto un testo dal quale sono state rimosse alcune parole, richiedendo all’individuo di completarlo producendo autonomamente la risposta o scegliendo fra possibili alternative. Item per i test di intelligenza - Le analogie, gli item ad esclusione e gli item a sequenza sono i più di usi all’interno dei test di intelligenza. - Chiamano in causa abilità speci che (verbali, numeriche, spaziali). - La principale di coltà è produrre item che permettono di separare l’abilità cristallizzata dall’intelligenza uida: conoscenze speci che o dipendenti dal livello di istruzione possono in uenzare sensibilmente i risultati. - Versioni visive dell’item potrebbero mitigare il problema (utilizzate ad esempio nel MENSA). Lezione 7- 29/10/2024 Item per i test di pro tto Test di pro tto - Test utilizzati per valutare l’esito di un apprendimento (ad es. esami universitari) - Caratterizzati in larga da parte da item a risposta multipla, che presentano importanti vantaggi sul piano pratico, tra cui la possibilità di somministrare le prove ad un elevato numero di persone e la facilità di correzione. - Richiedono una progettazione particolarmente accurata, in quanto non tutte le possibili operazionalizzazioni del dominio di contenuto sono ugualmente rilevanti, ed è necessario de nire quelle fondamentali sulla base degli obiettivi educativi. 19 fl fi fi fi ffi fl fi fi fi fi fi ff ff ffi fi ff fi fi ff fi fi - Inoltre, per lo stesso tipo di contenuto, è necessario prevedere diversi livelli di di coltà. Item vero-falso Evitare di trasporre nell’item le frasi testuali che compaiono nel materiale da studiare, ciò al ne di valutare le capacità di ragionamento, inferenza e deduzione del candidato. «Il valore del coe ciente di determinazione può variare fra 0 e 1, e rappresenta la proporzione di variabilità condivisa fra due variabili» Item a scelta multipla - Tipologia di item più di usa nei test di pro tto. - Le alternative di risposta errate (distrattori) dovrebbero essere credibili, implicando un ragionamento che chi risponde potrebbe potenzialmente fare, pur conducendo alla conclusione errata. Item ad abbinamento - Vengono generalmente presentate due liste di elementi, chiedendo di abbinare gli elementi della prima lista a quelli della seconda adottando un determinato criterio. - Si dovrebbe prevedere un numero diverso di elementi nelle due liste, per evitare risposte «per esclusione» Linee guida per la formulazione di item di test a prestazione massima Da un punto di vista strutturale, l’item di prestazione massima a scelta multipla è diviso in due parti: l’item stem (testo che contiene la domanda/problema) e le alternative di risposta (quelle errate sono de nite distrattori). - Necessario soddisfare le tre caratteristiche fondamentali degli item (chiarezza, centralità rispetto al contenuto ed al contesto, non o ensività ed inclusività). - Evitare negazioni non necessarie (a meno che non indaghi la capacità logica in una sequenza di negazioni). - Evitare domande che includono una molteplicità di richieste. - Evitare incongruenze grammaticali. - Formulare problemi o domande il più semplici possibile dal punto di vista verbale e strutturale, in modo da limitare l’interferenza dell’abilità verbale (a meno che non indaghi quest’ultima). - Evitare parole inutili che potrebbero a aticare il lettore. 20 ffi fi ff ff fi ff ffi fi - Evitare formulazioni troppo elaborate, con linguaggio estremamente pomposo e ripetizioni di parole - Proporre distrattori tutti ugualmente «appetibili» per chi non conosca la risposta corretta Quale problema potrebbe sorgere con un item così formulato? - Evitare suggerimenti impliciti con domande insolite - Evitare che la risposta a un item sia contenuta nell’item stem di un altro item Struttura e somministrazione del test Il consenso informato - Prima di procedere alla somministrazione di un test, è necessario fornire al partecipante un consenso informato: un documento che fornisce tutte le informazioni necessarie per decidere, in piena autonomia, se sottoporsi al test oppure no. - Il consenso informato è necessario per qualsivoglia forma di valutazione, ad eccezione dei casi in cui essa sia stabilita da un tribunale, riguardi la capacità decisionale, o sia parte di un’attività in ambito educativo, istituzionale o lavorativo. - Il test è una comunicazione privilegiata tra individuo e psicologo, per cui va sempre garantita la massima riservatezza. - Se possibile, è inoltre necessario prevedere una restituzione dei risultati al partecipante. - La prima informazione da fornire è quella relativa alla funzione del test, ovvero cosa misura e qual è lo scopo della somministrazione. Bilanciare la necessità non svelare troppo del test o dello scopo (potrebbe in uenzare l’attendibilità delle risposte), con quella di non fornire informazioni fuorvianti ai partecipanti. - In seconda battuta, l’individuo va motivato a impegnarsi, ad esempio con motivazioni che riguardano il progresso della scienza, la possibilità di contribuire allo sviluppo di uno strumento per migliorare la valutazione psicologica, etc. - Inoltre, la persona va rassicurata rispetto alle risposte che fornirà. Sottolineare, ad esempio, come il test misuri un solo attributo della persona, non sarà rappresentativo di ciò che lui/lei è complessivamente. Evitare di indurre atteggiamenti difensivi o oppositivi. - Se le risposte possono essere in uenzate dalla desiderabilità sociale, normalizzare le alternative di risposta. Ad esempio, in un test che indaga la frequenza degli errori di guida: «Tutti commettiamo qualche errore al volante…». - Speci care che non esistono risposte giuste o sbagliate ma solo risposte personali (prestazione tipica), oppure che la risposta corretta è una sola (prestazione massima). - Indicare come verranno utilizzate le risposte dell’individuo. Ad esempio, se i dati saranno pubblicati in forma aggregata, come verrà garantita la riservatezza, dove verranno conservati i dati, chi avrà accesso, etc. Il consenso informato deve inoltre contenere informazioni sull’identità, la quali ca professionale ed i contatti (e-mail, numero di telefono) di chi è responsabile della somministrazione del questionario, in modo tale che il partecipante sappia a chi rivolgersi in futuro per ottenere informazioni di qualunque tipo. Se possibile, utilizzare carta intestata di un’istituzione/autorità scienti ca, oppure un sito istituzionale, per la somministrazione. Il consenso informato va rmato prima della compilazione del test. Se la somministrazione è online, il partecipante deve dichiarare di aver letto e compreso l’informativa sul trattamento dei dati, di aver preso visione del modulo di consenso informato e di accettare la partecipazione liberamente, dando il consenso al trattamento dei suoi dati. Nei casi di somministrazione su minori, è necessario ottenere il consenso scritto da parte di entrambi i genitori o del tutore legale. 21 fi fi fl fl fi fi Istruzione o consegna del test - Le istruzioni o consegna del test speci cano in quale modo deve essere compilato il test e come vanno fornite le risposte. - Necessaria estrema chiarezza e sintesi. Tipologia di somministrazione Somministrazione online vs carta e matita: vantaggi e svantaggi. La valutazione preliminare degli item di un test La validità di un test - La validità di un test psicologico può essere genericamente de nita come la capacità di un test di misurare e ettivamente ciò che vogliamo misuri. - Non è un concetto unico, ma si declina in varie tipologie: validità di contenuto, validità di facciata, validità di costrutto, validità di criterio. - Il processo di ra namento del test, ossia la selezione degli item che, a partire dal pool inizialmente generato, verranno inclusi nella versione nale del test, inizia dall’indagine della validità di contenuto e di facciata, per le quali non sono previste analisi statistiche vere e proprie. - Al contrario, le prove empiriche per altre forme di validità, come la validità di costrutto e di criterio, possono essere ottenute da ricerche in campioni ampi e rappresentativi, e la successiva conduzione di analisi statistiche di routine. Validità di contenuto «La validità di contenuto è il grado in cui gli elementi di uno strumento di assessment sono rilevanti e rappresentativi del costrutto target per un particolare scopo di valutazione» Haynes e colleghi (1995). «Content validity is the degree to which elements of an assessment instrument are relevant to and representative of the targeted construct for a particular assessment purpose» - Assessment instrument: applicabilità della validità di contenuto ai metodi di valutazione psicologica. - Elements: tutti gli aspetti del processo di misurazione che possono in uenzare i risultati ottenuti (non solo item, ma anche le istruzioni fornite e la codi ca delle risposte). - The degree to which: giudizio che dovrebbe essere espresso su base quantitativa. - Construct: costrutto, attributo o variabile psicologica che intendiamo misurare. - For a particolar purpose: gli indicatori di rappresentatività e rilevanza di uno strumento possono variare in base allo scopo della valutazione. Validità di contenuto come stato/ caratteristica transitoria, e non caratteristica stabile di un punteggio ottenuto da uno strumento. Rilevanza (relevance): appropriatezza degli elementi del test per la valutazione del costrutto oggetto di indagine. - Ad esempio, la rilevanza di un questionario self-report che misura l’estroversione sarà funzione del grado in cui lo strumento conterrà item che ri ettono la de nizione teorica e le sfaccettature del costrutto. - La rilevanza è compromessa se la scala contiene item estranei al dominio di contenuto e/o sono assenti operazionalizzazioni necessarie. Rappresentatività (representativeness): grado in cui gli elementi del test sono rappresentativi delle varie sfaccettature del costrutto target e riescono a coprire in modo adeguato il dominio di contenuto. Un esempio: test per la misurazione degli attacchi di panico secondo la de nizione proposta dal DSM-5. I punteggi nel questionario ri etteranno il costrutto, e costituiranno prove della validità di contenuto della scala, se gli item: - Coprono tutte le sfaccettature del costrutto (ri ettono i 13 criteri per la de nizione di attacco di panico de niti dal manuale diagnostico) - Indagano la durata temporale - Indagano le conseguenze dell’attacco di panico 22 fi ff ffi fl fi fl fl fi fi fi fi fi fi fl - Indagano la frequenza con cui vengono sperimentati gli attacchi di panico - Indagano la preoccupazione nei confronti degli attacchi di panico La valutazione di rilevanza e rappresentatività degli item è condizionata da una serie di fattori: - L’uso che si intende fare del test e le inferenze che si intendono trarre dai dati ottenuti (ad es. strumento di screening vs. strumento per gravità della sintomatologia) - Il tipo di comportamento che si intende valutare (comportamenti in contesti speci ci o generalizzati, tipici o atipici, comuni o estremi). - Il parametro di interesse (frequenza, intensità, accordo con un’a ermazione). - La popolazione target (la validità di contenuto può variare in funzione delle popolazioni). - Il dominio concettuale (speci ca cornice di riferimento teorica; etichette simili per diversi domini). Natura dinamica della validità di contenuto: - Il dominio di contenuto e le sfaccettature dei costrutti possono evolvere nel tempo, modi cando la rilevanza e la rappresentatività degli elementi del test. - Un test potrebbe perdere la sua validità di contenuto sulla base di nuovi risultati empirici o nuovi modelli teorici proposti in letteratura. - Gli indici di validità non possono quindi ritenersi stabili nel tempo, necessitando di un riesame periodico ed eventuale revisione delle scale di misurazione. La validità di contenuto è rilevante per tutti gli elementi di uno strumento che in uenzano i dati ottenuti: - Istruzioni - Contenuto degli item - Precisione nella formulazione degli item - Formato di risposta - Presentazione e sequenza degli item - Codi ca delle risposte - Assegnazione dei punteggi La validità di contenuto va esaminata anche in termini di rilevanza degli strumenti per le caratteristiche da valutare e per gli scopi della misurazione. - Metodo-modalità: grado in cui un particolare metodo di valutazione è appropriato per il costrutto target (ad es. self-report inadatto per contenuti che agiscono ad un livello inconsapevole) - Metodo-funzione: grado in cui un particolare metodo di assessment è appropriato per gli scopi della valutazione (ad es. self-report non adatto per fare diagnosi, necessità di un approccio multi-metodo) Componenti della validità di contenuto Secondo Fitzpatrick (1983), è possibile identi care quattro componenti fondamentali della validità di contenuto. 1. Campionamento del dominio: inteso come campionamento del contenuto o come campionamento del comportamento: Campionamento del contenuto: grado in cui ogni item del test corrisponde ad un dominio di contenuto teoricamente de nito e il grado in cui l’insieme degli item è in grado di rappresentare tale dominio. Ad esempio, un test di pro tto in psicometria non possederebbe validità di contenuto se presentasse item sul tema dell’attendibilità ma non su quello della validità. Campionamento del comportamento: grado in cui le risposte a un test costituiscono un campione adeguato dei comportamenti che il test intende misurare. Ad esempio, un test di intelligenza non possiede validità di contenuto se la risposta ad una analogia non è determinata dal QI ma dalla conoscenza degli argomenti utilizzati per formulare l’analogia. 2. Rilevanza del dominio: Rilevanza del contenuto: i domini di contenuto che de niscono una misura devono essere rilevanti rispetto all’universo concettuale da valutare. Ad esempio quali argomenti del corso di psicometria sono più rilevanti rispetto ad altri per quello che è lo scopo del corso? 23 fi fi fi fi fi fi ff fi fl fi Rilevanza delle risposte: grado in cui i comportamenti attivati tramite il test (situazione speci ca) ri ettono i comportamenti messi in atto dall’individuo in risposta a stimoli e situazioni quotidiane. Ad es in un esame di psicometria lo studente che applica un test statistico per risolvere un esercizio dell’esame di pro tto, sarà in grado di applicarlo allo stesso modo se dovesse trovarsi di fronte un problema analogo in un’attività di ricerca reale? 3. Chiarezza del dominio: fa riferimento alla chiarezza con cui i domini di contenuto di una misura vengono de niti. Necessario speci care tutti gli aspetti della procedura di misurazione che possono in uire sul punteggio al test: è necessaria una descrizione dettagliata del contenuto, della struttura e della procedura di assegnazione dei punteggi. Garantire un’adeguata chiarezza del dominio massimizza la capacità del test di produrre risultati replicabili (generare lo stesso esito se la misurazione è ripetuta sulla stessa persona). 4. Qualità tecnica degli item: Un item mal formulato determina distorsioni nelle risposte e non può essere considerato rappresentativo di nessun dominio di contenuto o universo di comportamenti. Ad esempio, un item di pro tto ambiguo, con doppie negazioni e con istruzioni non chiare non può essere indicativo di una conoscenza della materia oggetto di indagine (la risposta all’item non è determinata dalla presenza del costrutto ma da fattori esterni). Checklist per la veri ca della qualità tecnica degli item Lezione 8- 5/11/2024 Linee guida per ottenere un’adeguata validità di contenuto Il dominio di contenuto deve riferirsi a comportamenti con un signi cato universalmente condiviso - Ad esempio, l’idoneità alla guida è operazionalizzabile in comportamenti speci ci e facilmente osservabili: rispettare le precedenze, parcheggiare correttamente, sorpassare a sinistra, etc. La corrispondenza fra il risultato ad un esame di guida ed il costrutto è molto forte, da cui ne deriva una validità di contenuto molto robusta. - Discorso diverso per i test psicologici, dove le inferenze si basano su una struttura teorica generalmente riconosciuta dalla comunità scienti ca. De nire accuratamente il dominio e le sfaccettature del costrutto e sottoporle a validazione di contenuto prima di sviluppare gli altri elementi dello strumento: - Un costrutto non adeguatamente de nito nelle sue sfaccettature limiterà la validità di contenuto del test. - Nello sviluppare un test, è necessario sottoporre a revisione di esperti la de nizione del costrutto teorico, il dominio e le sue sfaccettatura prima di generare gli item. - Ne consegue quindi la necessità de nire preliminarmente ciò che il costrutto è (cosa deve essere incluso nella de nizione del costrutto), e ciò che non è (cosa deve essere escluso). 24 fi fi fl fl fi fi fi fi fi fi fi fi fi fi fi fi Sottoporre tutti gli elementi di uno strumento di assessment a validazione di contenuto

Document Details

Tags

Related

Summary

Full Transcript