Metodi Statistici - PDF

Proprietà: divide il triangolo in due parti di uguale area. la deviazione standard è un indice di variabilità che misura lo scarto di ogni punteggio dalla media del campione; l’errore standard si ottiene dividendo la deviazione standard per la radice quadrata della numerosità del campione. Esso richiede il calcolo della mediana (ovvero, il punteggio al di sotto del quale cade il 50% dei partecipanti), del 25° percentile (ovvero, il punteggio al di sotto del quale cade il 25% dei partecipanti) e del 75° percentile (ovvero, il punteggio al di sotto del quale cade il 75% dei partecipanti). La linea orizzontale che attraversa il box rappresenta la mediana , mentre le linee orizzontali che delimitano la parte superiore e inferiore del box rappresentano il 75° e il 25° percentile. Le linee verticali, dette whisker (o ‘baffi’), si estendono in alto fino al 90° (o 95°) percentile e in basso fino al 10° percentile. Il vantaggio di usare il box-and-whisker plot consiste nel fatto che questo metodo mostra chiaramente la presenza di una eventuale asimmetria nei dati. Ad es Certo! La devianza tra i soggetti rappresenta la variabilità dei punteggi medi dei singoli soggetti rispetto alla media complessiva. È un parametro utile in analisi come l'ANOVA a misure ripetute, dove si vuole capire quanto i soggetti differiscono tra loro al netto delle variazioni dovute alle diverse condizioni o prove. Ecco cosa è necessario per calcolarla: 1. La media dei punteggi di ciascun soggetto (la media di riga): ○ Per ciascun soggetto, si calcola la media dei punteggi ottenuti in tutte le prove. Questo valore rappresenta il punteggio medio individuale. ○ Ad esempio, se un soggetto ha partecipato a cinque prove, si calcola la media dei punteggi ottenuti in queste cinque prove. 2. La media complessiva: ○ Dopo aver calcolato le medie individuali per tutti i soggetti, si calcola la media complessiva di questi valori per ottenere un riferimento comune. Formula della devianza tra soggetti Per valutare l'effetto principale di una variabile, bisogna considerare: 3. Le medie di riga (o di colonna). Spiegazione Effetto principale: In un'analisi statistica, l'effetto principale di una variabile si riferisce all'impatto che quella variabile ha sui risultati, indipendentemente dalle altre variabili nel modello. Per esempio, in un disegno sperimentale con più variabili indipendenti, l'effetto principale di una variabile è il suo effetto medio sui punteggi, ignorando le interazioni con altre variabili. Medie di riga (o di colonna): Quando si valutano gli effetti principali, si calcolano le medie delle osservazioni per ciascuna categoria della variabile indipendente. Se stai analizzando i dati in una tabella a doppia entrata, le medie di riga rappresentano i punteggi medi per ciascun livello della variabile indipendente (ad esempio, se stai valutando l'effetto di un trattamento, queste medie mostrano l'effetto medio del trattamento su un gruppo). Altre opzioni 1. Le medie dei singoli soggetti: Questa opzione si concentra sulle prestazioni individuali e non è utilizzata per calcolare gli effetti principali in un contesto di gruppo. 2. Le medie delle singole celle: Anche se le medie delle celle possono fornire informazioni sulle interazioni tra variabili, non sono sufficienti per valutare l'effetto principale di una singola variabile. 3. Le medie di coppie di celle: Le medie di coppie di celle possono aiutare a comprendere le interazioni, ma non sono utilizzate per calcolare l'effetto principale di una variabile. a data di nascita è importante per un'istantanea del momento attuale, la coorte è fondamentale per comprendere il processo di cambiamento nel tempo. Immagina uno studio che esamina l’effetto del fumo (variabile indipendente) sulla salute polmonare (variabile dipendente). Se non si tiene conto della polluzione atmosferica come variabile confusa, si potrebbe concludere erroneamente che il fumo ha un effetto maggiore sulla salute polmonare di quanto non sia in realtà. In questo caso, la polluzione atmosferica influisce sia sul fumo (persone che vivono in aree inquinate potrebbero essere più propense a fumare) sia sulla salute polmonare, creando una distorsione nel rapporto causa-effetto. La sostituzione dei valori mancanti con la media, nota anche come imputazione per media, può avere conseguenze significative sui dati e sulle analisi statistiche. Vediamo i due punti che hai menzionato più in dettaglio: 1. Distorsione nella Distribuzione della Variabile Quando si sostituiscono i valori mancanti con la media, si introduce un picco artificiale nella distribuzione della variabile. Questo avviene per vari motivi: Concentrazione dei Punteggi: Imputando i valori mancanti con la media, tutti i valori sostituiti assumono lo stesso valore (la media). Se ci sono molti valori mancanti, il numero di punteggi che corrispondono alla media aumenta, portando a una concentrazione di dati attorno a questo valore. Questo crea una distribuzione che non riflette accuratamente la variabilità e la diversità dei dati originali. Perdita di Informazione: La sostituzione dei valori con la media non tiene conto delle informazioni individuali. Ogni sostituzione ignora le variazioni tra i soggetti e può falsare la rappresentazione della reale distribuzione dei dati. 2. Diminuzione della Varianza e Coefficiente di Correlazione La sostituzione con la media comporta anche una diminuzione della varianza per i seguenti motivi: Calcolo della Varianza: La varianza è una misura della dispersione dei dati. Quando i valori vengono sostituiti con la media, la variabilità dei dati diminuisce perché più valori coincidono con il valore medio. Questo riduce l'ampiezza della distribuzione. Impatto sul Coefficiente di Correlazione: La correlazione misura la forza e la direzione di una relazione lineare tra due variabili. Quando la varianza di una variabile è ridotta (come avviene con l'imputazione della media), ciò può portare a una diminuzione del coefficiente di correlazione: ○ Se i valori di una variabile sono concentrati attorno alla media e mostrano poca variazione, la correlazione con un'altra variabile (che potrebbe avere maggiore variabilità) sarà influenzata negativamente. In sostanza, se una variabile ha bassa variabilità, la sua capacità di mostrare una relazione significativa con un'altra variabile diminuisce, portando a un coefficiente di correlazione più basso. La sostituzione dei valori mancanti con la media può distorcere la distribuzione di una singola variabile, ma non necessariamente la relazione tra due variabili. Ecco un approfondimento sui motivi di questa distinzione: Distorsione nella Variabile 1. Concentrazione Attorno alla Media: ○ Quando sostituisci i valori mancanti con la media, tutti i punti sostituiti assumono lo stesso valore (la media). Questo porta a un picco artificiale attorno a quel valore, alterando la distribuzione originale della variabile. Ad esempio, se una variabile ha una distribuzione che include punteggi estremi (outliers), la sostituzione con la media riduce questa variabilità e appiattisce la distribuzione. 2. Riduzione della Varianza: ○ La varianza di una variabile è influenzata dalla dispersione dei suoi valori. Imputando la media, riduci la dispersione, poiché molti valori coincidono con la media stessa. Questo porta a una sottovalutazione della vera variabilità presente nei dati originali. Relazione tra Variabili 1. Correlazione Resistente: ○ La correlazione misura la forza e la direzione di una relazione lineare tra due variabili. Se una variabile ha una bassa variabilità (per esempio, a causa dell'imputazione per media), la correlazione con un'altra variabile potrebbe non essere fortemente influenzata, specialmente se quest'ultima mantiene una variabilità significativa. ○ Se la variabile indipendente mantiene la sua variabilità e la relazione lineare con la variabile dipendente è forte, la correlazione potrebbe rimanere significativa nonostante la distorsione di una delle variabili. 2. Indipendenza degli Errori di Misurazione: ○ Quando imputi la media, stai introducendo un certo livello di errore nella variabile che stai correggendo, ma questo non implica necessariamente che la relazione tra le variabili sia alterata. Se le due variabili sono correlate nel loro stato originale (prima dell'imputazione), questa correlazione potrebbe rimanere intatta se la variabile indipendente non subisce una distorsione simile. ùIndicatori e Variabili Osservate 1. Indicatori: ○ Gli indicatori sono le misurazioni specifiche o gli item utilizzati in un test o in un questionario per valutare un costrutto teorico. Ad esempio, in un test di autovalutazione dell'ansia, gli indicatori potrebbero essere le risposte a domande come "Ti senti nervoso in situazioni sociali?" o "Hai difficoltà a dormire a causa delle preoccupazioni?". Questi item rappresentano il costrutto più ampio dell'ansia. 2. Variabili Osservate: ○ Le variabili osservate sono i dati che raccogliamo durante la misurazione. Queste possono includere punteggi, risposte a domande o qualsiasi dato che possa essere registrato. In un test di autovalutazione dell'ansia, le variabili osservate sono i punteggi ottenuti dalle risposte degli individui agli indicatori. Costrutti Teorici 1. Definizione: ○ I costrutti teorici sono concetti astratti che non possono essere misurati direttamente. Rappresentano idee o fenomeni complessi, come l'intelligenza, l'ansia, la soddisfazione o la motivazione. Questi costrutti sono formulati sulla base di teorie e modelli che spiegano come e perché esistono. 2. Caratteristiche: ○ Astrazione: I costrutti teorici sono generalmente alti livelli di astrazione e sono spesso formulati in base a ipotesi teoriche. ○ Base scientifica: Sono supportati da teorie e ricerche precedenti. Ad esempio, il costrutto dell'intelligenza può essere spiegato attraverso varie teorie psicologiche. ○ Non direttamente osservabili: Non possono essere misurati direttamente con strumenti standardizzati; richiedono misurazioni indirette. 3. Esempi: ○ Intelligenza, ansia, depressione, leadership, motivazione. Costrutti Empirici 1. Definizione: ○ I costrutti empirici si riferiscono alle misurazioni concrete e osservabili associate ai costrutti teorici. Rappresentano dati concreti che possono essere raccolti e analizzati attraverso metodi di ricerca, come questionari, interviste, test o osservazioni. 2. Caratteristiche: ○ Osservabilità: I costrutti empirici possono essere misurati e analizzati attraverso strumenti di misurazione e tecniche statistiche. ○ Operazionalizzazione: I costrutti empirici sono spesso il risultato dell'operazionalizzazione dei costrutti teorici, cioè la traduzione di un concetto astratto in variabili misurabili. ○ Variabilità: Poiché sono basati su dati raccolti, i costrutti empirici possono variare tra gli individui o le situazioni. 3. Esempi: ○ Risultati di un test di intelligenza, punteggi di una scala di ansia, dati raccolti da questionari sulla soddisfazione lavorativa. Relazione tra Costrutti Teorici ed Empirici Ciclo di Validazione: I costrutti empirici vengono utilizzati per testare e convalidare i costrutti teorici. Attraverso la raccolta di dati empirici, i ricercatori possono verificare se le teorie sono valide e se i costrutti teorici possono essere misurati in modo efficace. Sviluppo di Strumenti: Quando si sviluppano strumenti di misurazione (come test e questionari), i ricercatori devono operazionalizzare i costrutti teorici per creare costrutti empirici misurabili. Ad esempio, un costrutto teorico come "soddisfazione lavorativa" può essere misurato attraverso domande specifiche che valutano aspetti concreti dell'esperienza lavorativa. Conclusione In sintesi, i costrutti teorici sono concetti astratti che spiegano fenomeni complessi, mentre i costrutti empirici sono le misurazioni concrete di questi fenomeni. La loro interazione è fondamentale per lo sviluppo di teorie, strumenti di misurazione e per la ricerca in psicologia e nelle scienze sociali. In un esperimento entro i soggetti, i termini "condizioni sperimentali," "trattamenti," "livelli," "gruppi" e "variabili dipendenti" sono concetti fondamentali utilizzati per descrivere la struttura e l'implementazione dell'esperimento. Ecco una definizione di ciascuno di questi termini: 1. Condizioni Sperimentali Definizione: Le condizioni sperimentali sono le diverse situazioni o contesti in cui i partecipanti vengono posti durante l'esperimento. In un disegno entro i soggetti, ogni partecipante è esposto a tutte le condizioni sperimentali. Importanza: Permettono di confrontare gli effetti di diversi trattamenti o manipolazioni all'interno dello stesso gruppo di soggetti, riducendo la variabilità individuale e aumentando la sensibilità del test. 2. Trattamenti Definizione: I trattamenti si riferiscono alle manipolazioni specifiche che vengono applicate ai partecipanti. Ogni trattamento corrisponde a una condizione sperimentale e rappresenta una variazione di un fattore indipendente. Importanza: L'analisi dei trattamenti aiuta a determinare l'effetto della manipolazione sul comportamento o sulla risposta dei partecipanti. 3. Livelli Definizione: I livelli rappresentano le diverse intensità, quantità o categorie di un fattore indipendente. Ogni fattore può avere più di un livello, e i livelli definiscono le variazioni del trattamento. Importanza: Consentono di esaminare l'effetto di diverse intensità della manipolazione e di osservare se e come l'effetto varia in base al livello. 4. Gruppi Definizione: Nei disegni sperimentali, i gruppi si riferiscono a insiemi di partecipanti che ricevono trattamenti diversi. In un esperimento entro i soggetti, non ci sono gruppi distinti per i trattamenti, poiché ogni soggetto vive tutte le condizioni. Importanza: Nella sperimentazione tra soggetti, i gruppi vengono utilizzati per confrontare i risultati tra diverse coorti di partecipanti, ma in un disegno entro i soggetti non è necessario formare gruppi separati. 5. Variabili Dipendenti Definizione: Le variabili dipendenti sono le misurazioni raccolte durante l'esperimento per valutare l'effetto delle manipolazioni. Rappresentano le risposte dei partecipanti e possono includere punteggi, reazioni, misure fisiologiche, ecc. Importanza: Le variabili dipendenti forniscono i dati necessari per analizzare l'efficacia dei trattamenti e delle condizioni sperimentali. Esse indicano come le variabili indipendenti (trattamenti, condizioni) influenzano i risultati. Riassunto delle Relazioni In un esperimento entro i soggetti: Condizioni sperimentali equivalgono a trattamenti perché entrambi si riferiscono alle situazioni che i partecipanti vivono. Livelli rappresentano le variazioni dei trattamenti, che possono influenzare le variabili dipendenti. Non ci sono gruppi separati nel disegno entro i soggetti, poiché ogni soggetto vive tutte le condizioni. Una tabella è una rappresentazione grafica dei dati in forma numerica utilizzando le righe e le colonne di una matrice. Un grafico è una rappresentazione dei dati attraverso relazioni spaziali in un diagramma L’istogramma mostra tutti i punteggi della variabile dipendente (in ascissa) e la frequenza assoluta di ciascun punteggio (in ordinata) La differenza sostanziale tra istogrammi e grafici a barre è la tipologia di dati rappresentata. Gli istogrammi vengono utilizzati con dati continui, mentre i grafici a barre con dati categorici o nominali. l’istogramma = la variabile dipendente contiene poche categorie; il poligono di frequenza = le categorie sono molte L’asimmetria può essere positiva quando la coda più lunga si trova nella parte alta della distribuzione (pochi partecipanti hanno ottenuto punteggi elevati). Al contrario, l’asimmetria è negativa quando la coda più lunga si trova nella parte bassa della distribuzione (pochi partecipanti hanno ottenuto punteggi bassi) il grafico a barre (Figura 8) illustra le variazioni in una variabile dipendente continua (ordinata) in funzione dei livelli di una variabile indipendente qualitativa (categoriale). barre si estendono per più o meno uno la deviazione standard (± 1 SD) o più o meno un errore standard (± 1 SE). La Figura 1 riporta un grafico a barre in cui sono state inserite anche le barre di errore. la deviazione standard è un indice di variabilità che misura lo scarto di ogni punteggio dalla media del campione; l’errore standard si ottiene dividendo la deviazione standard per la radice quadrata della numerosità del campione. Il secondo passo nella fase di codifica dei dati consiste nel trasferire i dati stessi dai fogli di risposta grezzi (cartacei) ad un foglio di calcolo riassuntivo. Quasi sempre, questo foglio ha la forma di una matrice di dati o tabella a doppia entrata, in cui le righe orizzontali indicano i soggetti e le colonne verticali indicano le variabili indipendenti o dipendenti. Il processo che porta dai dati grezzi all’analisi statistica è chiamato trascrizione dei dati. L’attendibilità è definita come il rapporto tra la varianza della parte vera e la varianza osservata. L'α (alfa) di Cronbach è un indice di attendibilità molto utilizzato in psicologia, applicabile a misure come le scale di personalità o di atteggiamenti. La procedura per calcolarlo è: 1. Dividere gli item di un test in due gruppi uguali e calcolare l’attendibilità con il metodo split-half (correlazione). 2. Ripetere l’operazione con diversi raggruppamenti di item, fino a esaurire tutte le possibili divisioni a metà. 3. Calcolare l’α di Cronbach come la media di tutte le correlazioni split-half ottenute. L'α di Cronbach varia tra 0 e 1. La maggior parte dei ricercatori considera valori superiori a 0.70 come molto buoni. È importante notare che l'α di Cronbach è influenzato dalla lunghezza del test: aumenta con il numero degli item. Il coefficiente Alfa di Cronbach è una misura statistica utilizzata per valutare la consistenza interna di un insieme di item o domande in un test o questionario. La consistenza interna indica quanto bene i vari item misurano lo stesso concetto o costrutto. coefficiente Alfa di Cronbach varia tra 0 e 1, dove: Un valore più vicino a 1 indica una maggiore affidabilità e coerenza interna tra gli item. Un valore più vicino a 0 indica una bassa coerenza, suggerendo che gli item potrebbero non essere ben correlati tra loro o che non misurano lo stesso costrutto. Validità di contenuto: Riguarda il grado in cui gli item sono un campione rappresentativo dell'universo di comportamenti che si vuole misurare. Validità di criterio (predittiva o concorrente): Si riferisce al grado di associazione tra la misurazione del costrutto tramite lo strumento e le misurazioni di altri costrutti utilizzati come criteri di riferimento esterni. Validità di costrutto (convergente o discriminante): Riguarda il grado in cui la misura riflette accuratamente il costrutto che si vuole misurare. la validità è sempre definita dalla correlazione tra i punteggi ottenuti da un gruppo di soggetti nel test che si sta validando e quelli ottenuti dagli stessi soggetti in un altro test, chiamato criterio. Una terza strategia di controllo riguarda la scelta degli strumenti: l’obiettivo è quello di aumentare la sensibilità della ricerca migliorando la misurazione del comportamento in esame. In generale, uno strumento di osservazione adeguato deve consentire di estrarre la risposta dall’insieme delle osservazioni casuali, rendendo così la misura oggettiva e attendibile. Il primo passaggio riguarda la generalizzazione dei risultati dal campione alla popolazione accessibile Randoomizzazione La randomizzazione viene utilizzata quando ciascun soggetto è sottoposto varie volte a ciascuna condizione e il numero di soggetti è abbastanza alto da garantire che una particolare sequenza non abbia probabilità di influenzare i risultati. Ad esempio, negli esperimenti sull’apprendimento o sulla percezione, ciascuno stimolo viene presentato molte volte ai soggetti. In tal caso, l'opzione migliore è randomizzare l’ordine delle condizioni in maniera casuale per ciascun soggetto. Il numero di soggetti o di ripetizioni è un fattore che viene deciso dal ricercatore: non vi è quindi una regola precisa. Randomizzazione a blocchi Una variazione molto utile è la cosiddetta randomizzazione a blocchi: con questo metodo, l’ordine delle condizioni è randomizzato all'interno di ciascun blocco, con la restrizione che ciascuna condizione deve essere applicata una volta prima della ripetizione di qualsiasi condizione. La randomizzazione a blocchi è molto utile se l’esperimento prevede che ciascuna condizione sia applicata due volte e vi sono due sessioni separate. Controbilanciamento inverso Una seconda variazione anch'essa molto utile è il cosiddetto controbilanciamento inverso. Si tratta di una tecnica molto utile quando i soggetti studiati sono pochi e ci sono parecchie condizioni che possono essere applicate solo poche volte. In pratica, le condizioni sono applicate in un determinato ordine la prima volta e nell’ordine inverso la seconda volta. Controbilanciamento competo Il controllo degli effetti dell'ordine e della sequenza tra i soggetti è possibile quando gruppi diversi sono sottoposti a condizioni sperimentali diverse. Una prima possibilità è data dal controbilanciamento completo, il quale consiste nel formare tanti gruppi quante sono le possibili combinazioni tra le condizioni: ogni gruppo è sottoposto ad una combinazione diversa. Lo svantaggio di questa tecnica è che il numero di ordini richiesto aumenta geometricamente con il numero delle condizioni. il gran numero di interazioni da considerare rende l’interpretazione dei risultati molto difficoltosa: in particolare, può essere arduo individuare le differenze che hanno dato luogo ad una interazione che coinvolge tre o più fattori. un numero variabile di livelli (da due a sei). I numeri rappresentati in verde rappresentano, invece, le medie di riga e di colonna: da tali medie è possibile comprendere l’effetto principale di una variabile. Per definizione, l’effetto principale di una variabile (o fattore) è l’effetto medio di una variabile su tutti i livelli di un’altra variabile. Il disegno entro i soggetti è il più economico, in quanto richiede solo 8 soggetti. Il disegno misto è intermedio, in quanto richiede il doppio dei soggetti rispetto al disegno entro (16 soggetti). Infine, il disegno tra i soggetti è il più dispendioso, in quanto richiede il doppio dei soggetti rispetto al disegno misto (32 soggetti). Pertanto, il disegno entro i soggetti è preferibile quando il reclutamento dei soggetti è problematico e non si prevedono forti effetti dell’ordine e della sequenza. La ricerca su singoli soggettiche gli individui possono essere considerati come essenzialmente equivalenti l’uno all’altro. ispirò la tradizione dello studio delle differenze individuali (inaugurata da Galton e Pearson)che le caratteristiche umane sono distribuite normalmente. Secondo tale approccio, la variabilità attorno alla media è inevitabile La tradizione degli studi sul singolo soggetto sostiene che la maggior parte della variabilità nel comportamento del soggetto sia imposta dalla situazione e pertanto possa essere rimossa attraverso un accurato controllo sperimentale; Al contrario, la tradizione delle differenze individuali e della ricerca su gruppi assume che molta della variabilità sia intrinseca ai soggetti studiati e debba essere controllata e analizzata statisticamente Negli esperimenti su singoli soggetti è meno probabile scoprire l’effetto di una variabile poco importante, per cui lo sperimentatore non è distratto da effetti poco appariscenti. In termini tecnici, gli statistici utilizzano il termine ‘potenza’ per indicare la probabilità che un test statistico riveli una differenza significativa effettivamente presente nella popolazione da cui sono stati estratti i soggetti. Quando invece i dati sono raggruppati in classi, il calcolo della mediana si basa sulla seguente formula: , lo scarto semplice medio rappresenta la media delle differenze, in valore assoluto, dalla media della distribuzione: Si ricordi che la somma delle differenze dalla media prese con il loro segno (positivo o negativo) è, per definizione, sempre uguale a zero; quindi, il fatto di sommare gli scostamenti in valore assoluto consente di ottenere un valore diverso da zero. Lo scarto semplice medio è una misura della dispersione che rappresenta la media degli scarti (cioè delle differenze) tra i valori di un insieme di dati e la media della distribuzione, calcolati in valore assoluto. In altre parole, lo scarto semplice medio ci dice, in media, di quanto ciascun dato si discosta dalla media dell'insieme, senza tenere conto del segno (positivo o negativo). distribuzioni simmetriche e unimodali, si riscontra che: circa il 68% (ovvero, i 2/3) delle osservazioni cadono nell’intervallo: M ± 1s; circa il 95% delle osservazioni cadono nell’intervallo: M ± 2s; e circa il 99% delle osservazioni cadono nell’intervallo: M ± 3s presenta due punti di flesso (ovvero, due punti in cui si manifesta un cambiamento di curvatura o di convessità) in corrispondenza di x = µ ± σ Q-Q Plot Un metodo grafico più informativo è basato sulla rappresentazione dei quantili (Plot dei quantili o Q-Q Plot o Cumulative Normal Plot). L’idea alla base di questa tecnica consiste nel confrontare i quantili della distribuzione della variabile esaminata con i quantili della distribuzione normale. Con il termine “quantili” si fa riferimento a quegli indici di posizione (come la mediana, i quartili, i decili e i centili) che consentono di suddividere una distribuzione in un certo numero prestabilito di parti uguali. In genere, i quantili della distribuzione normale sono riportati ad intervalli di 0.10 Asimmetria negativa = valori alti hanno frequenza maggiore= la media inferiore rispetto alla mediana. Asimmetria positiva= valori bassi hanno frequenza maggiore=la media valore superiore rispetto alla mediana La significatività degli indici di curtosi e asimmetria può essere verificata statisticamente: la procedura, molto semplice, consiste nel dividere l’indice (di asimmetria o di curtosi) per il suo errore standard e nell’usare la distribuzione normale standardizzata come riferimento per valutare se l’indice osservato ha una probabilità inferiore rispetto ad un livello di significatività scelto a-priori Per individuare gli outlier univariati, l’ispezione di alcuni grafici, come il whisker-and-box plot (o semplicemente box plot), risulta molto utile. Nel caso di correlazioni bivariate (tra due variabili), l’ispezione dello scatterplot può evidenziare la presenza di casi anomali: si tratta di casi che risultano essere isolati dal resto dei soggetti (si veda la Figura 6) e la cui eliminazione produce, in genere, un sensibile aumento della correlazione osservata I valori anomali posso influenzare molti indicatori, tra cui : la media, la deviazione standard gli indici di correlazione tra le variabili Si è già detto che, in molti casi (ad es., ricerche che implicano la misurazione di tempi di reazione), la mediana risulta essere più affidabile rispetto alla media. Inoltre, si possono utilizzare statistiche «robuste» rispetto alla presenza di casi anomali, come la media trimmed, la quale viene calcolata eliminando il 5% dei casi con punteggi più alti e più bassi Esclusione listwise Questa strategia prevede la limitazione delle analisi ai soli casi che presentano valori validi per tutte le variabili. I vantaggi sono certamente la semplicità e la possibilità di ottenere una matrice di dati rettangolare sulla quale applicare tecniche di analisi standard. Lo svantaggio consiste nella ○ Riduzione dell’ampiezza del campione – un fattore che determina l’affidabilità delle stime campionarie. ○ Inoltre, il metodo funziona solo se i dati mancanti interessano poche unità rappresentanti un sotto-gruppo casuale dell’intero campione. Esclusione pairwise: Questa strategia prevede la limitazione delle analisi ai soggetti che di volta in volta presentano valori validi nella coppia di variabili che viene considerata (ad esempio, nel calcolo del coefficiente di correlazione, vengono considerati solo i casi che presentano valori validi in entrambe le variabili). Sostituzione con la media: Questo metodo prevede la sostituzione del valore mancante con la media della variabile nel campione o nel gruppo a cui appartiene il soggetto. Purtroppo, questa procedura presenta due svantaggi non indifferenti: In primo luogo, se i valori mancanti sono tanti, la sostituzione con la media introduce una seria distorsione nella distribuzione della variabile, creando un picco artificiale in corrispondenza del suo valore medio. In secondo luogo, la tecnica produce una notevole diminuzione della varianza, la quale, a sua volta, può implicare una notevole riduzione dell’entità del coefficiente di correlazione. Tuttavia, è molto più frequente il caso in cui tali valori non sono indipendenti: se ciò si verifica, occorre stabilire dei vincoli che li condizionano. Sottraendo tale numero dai valori che sommati generano la distribuzione chi2 si ottengono i gradi di libertà. Pertanto, il parametro k può non coincidere con il numero effettivo di valori che hanno generato la distribuzione; piuttosto, esso corrisponderà, nella maggior parte dei casi, ai gradi di libertà, ovvero ai valori veramente indipendenti che hanno generato la distribuzione.I valori del chi2 sono stati tabulati (Figura 2). Le righe corrispondono ai gradi di libertà, mentre le colonne: corrispondono a diverse aree di probabilità cumulate. La distribuzione t di Student (così detta dallo pseudonimo di Gosset) è molto utile per campioni con una numerosità inferiore a 30 unità. per n sufficientemente grande, è assimilabile alla distribuzione normale; Dal punto di vista formale, la distribuzione t può essere definita in termini di distribuzione F: Anche in questo caso, si ha a che fare con una famiglia di distribuzioni che variano in funzione di un unico parametro, k2. A differenza delle distribuzioni chi2 e F, La distribuzione t: è simmetrica rispetto a t = 0 è definita lungo tutte l’asse delle ascisse, da −∞ a +∞. Per α = 0.05, i valori z critici sono: +1.65 (o −1.65) nel caso di una ipotesi alternativa monodirezionale; e ±1.96 nel caso di una ipotesi alternativa bidirezionale. Il test consiste nel calcolare il chi2 critico per un determinato α e confrontarlo con il chi2 calcolato sul campione: se quest’ultimo valore è maggiore del chi2 critico si rifiuta l’ipotesi nulla. Come illustrato nelle precedenti lezioni, l’utilizzo del test del chi2 richiede al ricercatore di specificare i gradi di libertà, ovvero il numero di valori veramente indipendenti che generano la distribuzione. Nel caso di un campione singolo, i gradi di libertà corrispondono a: k – 1, dove k indica il numero di categorie presenti nel problema. Occorre notare che la distribuzione chi2 è continua, mentre il valore calcolato sul campione è discreto, essendo basato su frequenze: molti autori suggeriscono di correggere il valore del chi2 calcolato sul campione per approssimarlo meglio alla distribuzione teorica. Il metodo più noto è conosciuto come correzione per continuità di Yates; semplicemente, in questa formula alla differenza in valore assoluto tra le frequenze teoriche e quelle empiriche viene sottratto il valore 0.50: Per n sufficientemente grande (>30), questa distribuzione ha forma normale, con media uguale alla differenza tra le medie delle due popolazioni da cui provengono i campioni e varianza uguale alla somma delle varianze delle distribuzioni campionarie delle medie delle due popolazioni dalle quali provengono i campioni Un caso particolare si ha quando i due campioni sono piccoli (n1 e n2 < 30). In queste condizioni, l’indicatore z non ha più distribuzione normale; quindi occorre trovare un altro indicatore che abbia una distribuzione nota. Questo indicatore è la t di Student, Questo indicatore ha una distribuzione approssimabile alla distribuzione t di Student con gradi di libertà pari a: n1 + n2 − 2. Verifica ipotesi sulla forma delle distribuzioni per due campioni indipendenti Tabella contingenza La situazione può essere rappresentata attraverso una tabella di contingenza 2 × 2: In questa tabella, le righe rappresentano i due campioni le colonne rappresentano le categorie (favorevoli al divorzio: si/no). Indichiamo con fi (da f1 a f4) le frequenze di ciascun campione nelle singole categorie; n1 e n2 sono i totali marginali di riga: rappresentano il numero di soggetti nei due campioni; a1 e a2 sono i totali marginali di colonna: rappresentano il numero di soggetti favorevoli o contrari al divorzio indipendentemente dal campione di appartenenza; N è l’ampiezza totale del campione esaminato. Per poter utilizzare il test chi quadrato per la verifica delle ipotesi, occorre calcolare le frequenze teoriche attese in ciascuna cella in base all’ipotesi nulla. Nel caso di due campioni, il calcolo delle frequenze teoriche = trovare la frequenza che ci si dovrebbe attendere se la variabile fosse distribuita ugualmente sia tra i due campioni sia tra le categorie nell’ambito di ciascun campione. In particolare, per ogni cella la frequenza teorica si ottiene dividendo il prodotto dei corrispondenti totali marginali di riga e di colonna per il numero totale di soggetti esaminati (N). Il test di Mann-Whitney (chiamato anche U-test di Mann-Whitney o Wilcoxon rank-sum test) è un test statistico non parametrico che confronta le distribuzioni di due gruppi indipendenti. Viene utilizzato per verificare se ci sono differenze significative tra le mediane o le distribuzioni di due campioni, senza fare assunzioni sulla forma della distribuzione (ad esempio, non richiede che i dati siano normalmente distribuiti). Quando si usa il test di Mann-Whitney? Il test di Mann-Whitney si utilizza quando: Si vogliono confrontare due gruppi indipendenti. I dati non seguono una distribuzione normale o non si può assumere la normalità. Si ha a disposizione dati ordinali (classifiche, gradi, posizioni) o continui che non rispettano i requisiti per i test parametrici (come il t-test). Limiti Non fornisce informazioni dettagliate sulla differenza tra i gruppi (ad esempio, la dimensione dell'effetto). Non può essere usato per confrontare più di due gruppi (in tal caso, si potrebbe I test parametrici z e t, illustrati nelle lezioni precedenti, si applicano quando la variabile oggetto di studio è misurata almeno su una scala a intervalli equivalenti. D’altra parte, il ricercatore dovrà ricorrere a test non parametrici quando: a) la variabile oggetto di studio ha una distribuzione non normale, oppure è misurata a livello ordinale; b) le varianze delle due popolazioni da cui provengono i campioni sono molto diverse tra loro; c) i campioni hanno numerosità minima. usare il test di Kruskal-Wallis). In sintesi, il test di Mann-Whitney è un potente strumento non parametrico per confrontare due gruppi indipendenti in termini di distribuzione o mediana, particolarmente utile quando i dati non soddisfano i presupposti dei test parametrici come il t-test. In particolare, la procedura prevede Mettere i soggetti dei due campioni in ordine di rango, indipendentemente dalla loro appartenenza. Si sommano i ranghi dei soggetti del campione A e, separatamente, i ranghi dei soggetti del campione B. Se le due somme non differiscono troppo, si può pensare che la caratteristica oggetto di studio sia presente nei due campioni in misura equivalente. Per quanto riguarda la verifica delle ipotesi, vi possono essere due casi: Se l’ampiezza del campione è uguale o inferiore a 20 (n ≤ 20), il test di Mann-Whitney è basato sul calcolo della statistica U, la quale è uguale al valore più piccolo R1 e R2 ( somma dei ranghi attribuiti ai soggetti dei due campioni.) I valori critici di U sono tabulati in funzione di n1 e n2, sia per ipotesi monodirezionali sia per ipotesi bidirezionali. il test di Wilcoxon Quando n ≤ 25, si utilizzano le apposite tavole, in cui i valori critici di T sono tabulati in funzione di n e di diversi livelli di probabilità. Anche in questo caso (come nel test di Mann-Whitney), il valore di T diminuisce man mano che la probabilità diventa inferiore al livello α. Quindi, si respinge l’ipotesi nulla se il valore T calcolato sul campione è inferiore al T critico: T < T critico. BravaisPearson, detto anche coefficiente di correlazione prodotto-momento. Tale coefficiente si utilizza solo nel caso di relazioni lineari tra le variabili (non è quindi in grado di quantificare relazioni curvilinee) e può assumere tutti i valori compresi tra −1 e +1, Il coefficiente è quindi dato dalla somma dei prodotti dei punteggi standardizzati delle variabili x e y, diviso per il numero totale di osservazioni. Si ricordi che i punteggi standardizzati z indicano la posizione di un determinato punteggio rispetto alla distribuzione di punteggi cui esso appartiene. Dunque, il prodotto ZxZy rappresenta una misura della concordanza tra le posizioni dei punteggi ottenuti dal soggetto nelle variabili x e y. Poiché il coefficiente r di Bravais-Pearson si basa sull’uso di variabili standardizzate, è chiaro che non è necessario che le due variabili abbiano la stessa unità di misura: sarà infatti la standardizzazione implicata nel calcolo del coefficiente a renderle confrontabili. Il coefficiente r può essere alternativamente espresso in termini di covarianza, ovvero la parte di varianza comune alle due variabili. Ricordando che la covarianza è definita come la media del prodotto degli scarti di ciascuna variabile dalla propria media La distribuzione campionaria di r ha forma normale ed è tabulata per diversi gradi di libertà, pari a (n – 2), e per diversi livelli di probabilità. Quando almeno una delle due variabili per le quali si vuole verificare la correlazione è misurata su una scala ad un livello di misura inferiore a quello delle scale a intervalli equivalenti, il coefficiente r di Bravais-Pearson non può più essere utilizzato. Esistono però diversi indici di correlazione che si possono utilizzare quando si hanno misure ordinali o categoriali. Il coefficiente Rs di Spearman fornisce un indice di correlazione per ranghi e viene utilizzato quando entrambe le variabili sono misurate su scala ordinale. o una delle due variabili è misurata su scala ordinale e l’altra è misurata su scala a intervalli o a rapporti equivalenti; Il calcolo del coefficiente rs di Spearman si basa sulle differenze (d) riscontrate tra i ranghi attribuiti allo stesso soggetto nelle due variabili: dove Di rappresenta la differenza tra i ranghi attribuiti al soggetto i nelle variabili x e y, ed n è il numero totale di soggetti esaminati. Il coefficiente rs varia tra −1 e +1, e i valori assunti hanno lo stesso significato dei corrispondenti valori di r Osservando la formula si può notare che una correlazione positiva perfetta si ottiene quando, per ciascun soggetto, i ranghi attribuiti nella prima e nella seconda variabile coincidono Per quanto riguarda la verifica delle ipotesi, bisogna distinguere tra due casi: ○ Se n < 30: i valori critici di rs sono tabulati a due livelli di probabilità (α = 0.05 e α = 0.01): si respinge H0 se il valore campionario di rs è superiore al valore critico; ○ Se n ≥ 30: si calcola il seguente indice, il quale ha una distribuzione che può essere approssimata alla t di Student con (n – 2) gradi di libertà: Quando si calcola la correlazione tra due variabili ordinali, può capitare che vi siano, per una o per entrambe le variabili, molti ranghi uguali. In questi casi la differenza tra i ranghi di x e y risulta ridotta e ciò provoca una stima per eccesso del coefficiente di correlazione rs di Spearman, che deve essere quindi corretto tramite una formula complessa. Un altro coefficiente di correlazione per ranghi, che ha il vantaggio di poter essere applicato anche in presenza di molti ranghi uguali, è il tau di Kendall. Si pone una delle due graduatorie (per esempio quella di x) in ordine naturale crescente; Considerando l’altra graduatoria (quella di y), si confronta ogni valore con tutti quelli che lo seguono, cominciando dal primo; Si attribuisce il punteggio +1 quando la coppia di valori nella graduatoria di y si trova nell’ordine corretto (crescente: secondo > primo; terzo > secondo, ecc.); Si attribuisce il punteggio −1 quando la coppia di valori si trova nell’ordine sbagliato; La somma di tutti questi punteggi viene indicata con ‘S’; Il valore ‘S’, così calcolato, va confrontato con il valore massimo possibile che si potrebbe ottenere da un confronto del genere (ovvero, il valore che si otterrebbe se l’ordine fosse sempre rispettato). Poiché questo valore massimo è uguale al numero di combinazioni di n oggetti presi a 2 a 2, la formula del coefficiente tau sarà la seguente: dove il valore al denominatore rappresenta, appunto, il numero di combinazioni di n oggetti presi a 2 a 2. Il coefficiente tau varia tra −1 e +1 (al pari dei coefficienti r di Bravais-Pearson e rs di Spearman), ha in genere un valore inferiore ad rs, e non è mai una buona stima di r (nemmeno quando il campione è molto numeroso). La media della distribuzione campionaria del coefficiente Tau di Kendall è 0. Il coefficiente di correlazione punto-biseriale (rpb) viene utilizzato quando si deve verificare la correlazione tra una variabile x continua e una variabile y categoriale e dicotomica. Se quest’ultima variabile assume i valori 1-2, Come gli altri coefficienti di correlazione, anche rpb varia tra −1 e +1. Tuttavia, se la variabile continua ha distribuzione normale e la variabile dicotomica è equidistribuita (n1=n2), il valore massimo raggiungibile da tale coefficiente è 0.798. Quando i valori della variabile dicotomica sono 0 e 1, rpb è equivalente al coefficiente r di Bravais-Pearson ed è indifferente usare l’uno o l’altro. Quando i valori in entrambe le variabili dicotomiche sono 0 e 1, il coefficiente rphi coincide con il coefficiente r di Bravais-Pearson ed è indifferente usare l’uno o l’altro. Per la verifica delle ipotesi, è stato dimostrato che: rphi = chi2/n Il coefficiente di determinazione rappresenta la parte di varianza comune alle variabili X e Y: in una relazione causale, esprime la proporzione di varianza della VD che viene «spiegata» dalla VI. Da ciò consegue che (1 – 𝑟 2) è la proporzione di varianza della VD non spiegata dalla VI, anche detta varianza residua. Per valori di r elevati, la varianza spiegata dalla VI sarà molto alta (100% per r = 1); Per valori di r bassi, la varianza spiegata sarà modesta e la varianza residua (non spiegata) molto elevata. , la retta prescelta è quella che rende minima la somma delle distanze al quadrato tra i valori di Y osservati e i valori di Y predetti (Y'): Nell’equazione della retta di regressione, ‘a’ e ‘b’ rappresentano dei parametri ignoti. In particolare: b è il cosiddetto coefficiente di regressione e rappresenta l’inclinazione della retta, ovvero l’angolo che essa forma con l’asse delle ascisse (si veda la Figura 1): varia tra −1 e + 1 e indica la quantità di cambiamento in Y che si prevede per 1 unità di cambiamento in X; a è l’intercetta e rappresenta la distanza tra l’asse delle x e il punto di incontro della retta di regressione con l’asse delle ordinate (in pratica è l’altezza della retta di regressione; si veda la Figura 1); corrisponde al valore predetto di Y quando X = 0. Figura 1. Illustrazione grafica del coefficiente di regressione e dell’intercetta Dal punto di vista matematico, il coefficiente di regressione b può essere definito come il rapporto tra la somma del prodotto degli scarti di X e Y e la somma degli scarti al quadrato di X: La devianza totale viene quindi scomposta in devianza tra i gruppi e devianza entro i gruppi (o residua); La devianza tra i gruppi viene scomposta in: devianza del fattore A, devianza del fattore B e devianza dell’interazione A × B In una analisi della varianza, la variabilità totale presente nei dati può essere quantificata calcolando la somma degli scarti di ciascun punteggio dalla media generale. Questa variabilità totale può essere scomposta in: Variabilità tra i gruppi (detta anche ‘between’ o ‘tra i trattamenti’), costituita dalle differenze che esistono tra il gruppo sperimentale e quello di controllo; Variabilità entro i gruppi (detta anche ‘within’ o di errore o residua), costituita dalle differenze che esistono tra gli individui in ciascun gruppo. La variabilità tra i gruppi si può attribuire ad almeno tre fonti di variazione: a) l’effetto del trattamento (indotto dallo sperimentatore); b) l’effetto delle differenze individuali; c) l’effetto dovuto all’errore casuale, legato per esempio agli strumenti di misura utilizzati (gli ultimi due effetti sono considerati accidentali, poiché non possono essere controllati dallo sperimentatore). Questa fonte di variabilità può essere isolata eliminando la variabilità all’interno di ciascun gruppo: ovvero, rendendo tutti i soggetti uguali alla media del gruppo. In questo modo, la variabilità tra i gruppi corrisponde agli scarti tra le medie di ciascun gruppo e la media generale. D’altra parte, la variabilità entro i gruppi è dovuta al fatto che soggetti appartenenti allo stesso gruppo non rispondono in maniera identica. Essenzialmente, può essere attribuita a due fonti di variazione: l’effetto delle differenze individuali l’effetto dovuto all’errore casuale (ovvero, due fonti di variabilità accidentali). Dal punto di vista operativo, si misura calcolando gli scarti tra i punteggi dei singoli soggetti e la media del gruppo di appartenenza. In realtà, la scomposizione non riguarda la varianza, bensì la devianza (la somma dei quadrati degli scarti dalla media), e separatamente i gradi di libertà (gdl); si ha quindi che: devianza totale = devianza tra i gruppi + devianza entro i gruppi; gdl totali = gdl tra i gruppi + gdl entro i gruppi. Le varianze vengono calcolate solo successivamente, dividendo le devianze per i rispettivi gradi di libertà. Calcolo delle Varianze Le varianze sono calcolate solo dopo la scomposizione, dividendo le devianze per i rispettivi gradi di libertà: Varianza tra i gruppi = Devianza tra i gruppi / Gradi di libertà tra i gruppi. Varianza entro i gruppi = Devianza entro i gruppi / Gradi di libertà entro i gruppi. devianza tra le prove, che è data dagli effetti del trattamento e dell’errore casuale; devianza entro le prove, che è dovuta alle differenze individuali e all’errore casuale. La devianza entro le prove può essere ulteriormente scomposta in: devianza tra i soggetti, che è la porzione di variabilità dovuta alle differenze individuali tra i soggetti; e devianza residua, che rappresenta tutta la parte di variabilità che resta non spiegata, dovuta all’effetto dell’errore casuale. Dal punto di vista matematico, la devianza totale è rappresentata dalla somma dei quadrati degli scarti dei singoli punteggi dalla media generale: La devianza tra le prove si calcola come somma dei quadrati degli scarti della media di ciascuna prova dalla media generale: Infine, la devianza residua viene calcolata come somma dei quadrati degli scarti dei singoli punteggi dalla media di ciascuna prova Se l’ipotesi nulla è vera (il trattamento non produce effetti, e quindi i due campioni provengono dalla stessa popolazione), la varianza tra i gruppi e quella entro i gruppi saranno molto simili tra loro, in quanto entrambe comprenderanno soltanto la varianza accidentale (gli effetti dovuti alle differenze individuali e all’errore casuale). Se invece l’ipotesi nulla è falsa (il trattamento produce effetti significativi e quindi i due campioni provengono da popolazioni diverse), la varianza tra i gruppi sarà maggiore di quella entro i gruppi, in quanto, oltre alla varianza accidentale, essa comprenderà anche l’effetto dovuto al trattamento sperimentale. L’ipotesi nulla può pertanto essere verificata con il test statistico F di Fisher, la cui distribuzione campionaria è nota: La devianza tra i soggetti è rappresentata dalla somma dei quadrati degli scarti tra la media dei punteggi dell’i-esimo soggetto in tutte le prove e la media generale L’analisi della covarianza è una tecnica statistica molto utile che consente di eliminare dalla varianza residua una parte di varianza spiegata da una variabile di disturbo Nella pratica, il calcolo delle ŷ è molto laborioso, per cui si preferisce utilizzare un procedimento differente in cui la devianza totale viene scomposta in: devianza spiegata dalla regressione: dovuta agli effetti della variabile di disturbo da controllare (x); devianza non spiegata dalla regressione: dovuta a tutti gli effetti che non sono riconducibili alla variabile di disturbo. Quest’ultima devianza può quindi essere ulteriormente scomposta in: devianza tra i gruppi: dovuta agli effetti del trattamento, delle differenze individuali e dell’errore casuale; devianza residua: dovuta agli effetti delle differenze individuali e dell’errore casuale Nel caso dell’analisi della covarianza, l’indice F si calcola come rapporto tra la devianza tra i gruppi e la devianza residua La tecnica della scomposizione degli effetti è stata proposta da Fisher, il quale ha dimostrato che, dati k gruppi indipendenti, la devianza tra i gruppi può essere scomposta in (k – 1) devianze con 1 grado di libertà. Ognuna di queste devianze origina un confronto indipendente, che consiste nel confronto tra un gruppo con un insieme di grupp Per ciascun confronto si calcola la devianza, data dalla somma dei quadrati degli scarti fra il gruppo e l’insieme di gruppi che sono oggetto di confronto Poiché, come detto, tali devianze hanno sempre 1 grado di libertà, i valori così calcolati equivalgono alle varianze dei singoli confronti. Per ciascun confronto si calcola il rapporto F ponendo al numeratore la varianza del singolo confronto e al denominatore la varianza entro i gruppi (o residua) derivante dall’analisi della varianza complessiva. Come di consueto, i valori di F calcolati sul campione devono essere confrontati con il valore F critico in corrispondenza di un α prefissato (in genere 0.05) e dei gradi di libertà delle varianze utilizzate per calcolare il rapporto – ovvero: 1 per la varianza del confronto e (N – k) per la varianza entro i gruppi (o residua). Se F > Fcritico, allora il confronto è da considerarsi significativo. Confronti post-hoc Al contrario dei confronti pianificati, i confronti post-hoc si effettuano solo dopo aver ottenuto un risultato significativo nell’analisi della varianza complessiva. Essi consistono nel confrontare, a due a due, tutte le possibili medie. Questo significa che non è possibile selezionare solo alcuni confronti di interesse; i confronti post-hoc sono automaticamente calcolati per tutte le coppie di medie. La statistica su cui questi confronti si basano è la minima differenza significativa di Fisher (Fisher LSD) o il t protetto Per ogni coppia di medie (i,j), il t protetto si calcola con la seguente formula: I valori t protetti così ottenuti vanno confrontati con i valori critici della distribuzione t di Student con gli stessi gradi di libertà della varianza entro i soggetti (ottenuta nell’analisi della varianza complessiva) e al fissato livello di probabilità Interazione significativa nei disegni fattoriali Nei disegni fattoriali, la presenza di un’interazione significativa indica che l’effetto di una variabile A varia in funzione dei livelli di un’altra variabile B. In altre parole, l’effetto della variabile A non è costante su tutti i livelli della variabile B. Tuttavia, un’interazione significativa non ci dice in quale modalità della variabile B si presenta la differenza tra le medie. In questo caso, è possibile utilizzare il test t di Student per confrontare coppie di medie. Metodo della più piccola differenza significativa Il metodo consiste nel calcolare la più piccola differenza significativa. Se la differenza tra la coppia di medie in esame supera tale valore critico, essa è considerata significativa. Per verificare la veridicità di queste conclusioni, occorre confrontare, a due a due, le medie di coppie di celle utilizzando il test t di Student: dove mi e mj sono le medie delle celle da confrontare e 𝑠𝑑 è la deviazione standard della differenza tra le medie di due celle: dove n è il numero di soggetti in ogni cella (nei disegni bilanciati è uguale per tutte le celle) e la varianza residua è quella calcolata nell’analisi della varianza complessiva. A questo punto, alcuni semplici passaggi matematici consentono di arrivare alla formula per il calcolo della più piccola differenza significativa: Test proiettivi: in cui vengono presentati stimoli da completare o interpretare; Test non proiettivi: costituiti da frasi o affermazioni alle quali il soggetto deve dare o meno il proprio assenso Test di velocità: composti da prove molto facili da risolvere in un tempo limitato, così che nessun soggetto riesce a rispondere a tutte le prove (es. il subtest Cifrario della scala di intelligenza WAIS-IV). Test di efficienza: concedono più tempo, ma la difficoltà cresce rapidamente, rendendo difficile per chiunque ottenere il punteggio massimo. Test nomotetici: progettati per stabilire leggi comuni a tutti gli individui (tipici della psicometria). Test idiografici: volti a cogliere ciò che è unico o specifico per un individuo, come nei test proiettivi di personalità, in cui le interpretazioni sono soggettive INTERVISTA una tecnica troppo legata alla soggettività e all’abilità dell’intervistatore. si ottengono risultati difficilmente ripetibili consente di cogliere aspetti della personalità che non emergerebbero in test più standardizzati. Le scarse garanzie di replicabilità non consentono di considerarle come veri e propri strumenti di misura, anche se nelle interviste semi-strutturate vi è spesso la possibilità di trasformare le informazioni in forma quantitativa. SCALE DI VALUTAZIONE L’approccio basato sulle scale di valutazione si avvale di esperti che osservano il comportamento del soggetto e sono in grado di classificare determinate caratteristiche di personalità su scale a 5 o 7 punti. Gli svantaggi 1. necessaria un’osservazione per lunghi periodi per effettuare una valutazione stabile della personalità. 2. In secondo luogo, gli esperti devono essere adeguatamente formati, un processo che può risultare lungo e dispendioso. 3. Infine, vi è la possibilità di incorrere nel cosiddetto ‘effetto alone’, una distorsione per cui, se un soggetto viene classificato con un punteggio elevato su una scala, tende ad esserlo anche nelle altre. GRIGLIE DI REPERTORI Hanno lo scopo di descrivere i rapporti interpersonali mediante la valutazione incrociata di elementi e di costrutti Il metodo consiste nel presentare al soggetto una triade di elementi e nel chiedergli di indicare su quali costrutti due di essi sono simili tra loro e diversi dal terzo. Si tratta di una specie di intervista strutturata, anche se è possibile procedere ad elaborazioni statistiche anche molto complesse. QUESTIONARI DI PERSONALITÀ I questionari di personalità = insieme di item sotto forma di affermazioni riguardanti comportamenti o sentimenti → il soggetto deve rispondere dichiarando il suo assenso o meno. Il vantaggio = relativamente semplici e veloci da costruire. Lo svantaggio = bisogna molta attenzione nel formulare gli item (occorre evitare item ambigui o tali da favorire particolari risposte). Difficile dimostrare che un test misura realmente il costrutto in esame( ciò è in parte dovuto al fatto che, nella maggior parte dei casi, non vi è accordo su quali sono le variabili o i tratti da misurare. ) TEST PROIETTIVI Sono costituiti da un insieme di stimoli ambigui, che il soggetto è invitato a descrivere. L’ipotesi sottostante è che le descrizioni dei soggetti riflettano qualcosa dei loro pensieri e sentimenti più nascosti. Scala di Thurstone La costruzione di una scala di Thurstone prevede tre fasi successive: 1. Formulazione di affermazioni: Formulare un gran numero di affermazioni. 2. Valutazione delle affermazioni: Far valutare le affermazioni a un numero sufficientemente elevato di giudici su una scala a 11 punti, da «molto favorevole» a «molto sfavorevole». 3. Selezione delle affermazioni: Selezionare un piccolo numero di affermazioni che coprano l’intera gamma di valutazione dell’atteggiamento e sulle quali vi sia un sostanziale accordo tra i giudici (bassa deviazione standard tra le valutazioni). In questo modo, ogni item avrà un valore di scala – dato dalla media delle valutazioni di tutti i giudici. Il punteggio del soggetto corrisponderà al più alto valore di scala dell’affermazione che egli approva; oppure, alla media dei valori di scala delle affermazioni che egli approva. Scala di Guttman L’obiettivo principale di una scala di Guttman è quello di costruire una scala composta da item selezionati in modo tale che, se il soggetto supera o risponde affermativamente a un item, avrà superato o risposto affermativamente anche a tutti gli item precedenti. Pertanto, il principale vantaggio della scala di Guttman è la perfetta riproducibilità della scala: dato un punteggio, è possibile ricostruire la sequenza delle risposte fornite dal soggetto. Normalmente, ciò non accade nelle scale di tipo sommativo, dove non è possibile sapere, sulla base del solo punteggio totale, a quali item il soggetto ha risposto in maniera affermativa (o corretta) e a quali no. Scala di Likert Le scale di Likert sono costituite da un insieme di affermazioni alle quali il soggetto deve rispondere su una scala di valutazione a 5 o 7 punti La costruzione di questa scala si basa su alcune assunzioni: Unidimensionalità: tutti gli item devono misurare lo stesso costrutto teorico. Relazione monotona: una relazione tra due variabili si dice monotona se il crescere di una di esse corrisponde all’incremento dell’altra, o viceversa. Distribuzione lineare: La distribuzione di tutti gli item deve essere approssimativamente lineare. Se questi tre assunti sono veri, allora la somma di tutti i punteggi sarà una combinazione lineare degli item e starà in rapporto lineare con l’atteggiamento. Il punteggio del soggetto, quindi, è la somma delle valutazioni date a ciascun item. Durante la costruzione della scala, bisogna porre molta attenzione sulla formulazione degli item. Vanno infatti evitati affermazioni troppo estreme (sia in senso favorevole che sfavorevole), in quanto i soggetti tenderanno a rispondere nello stesso modo (vi sarà scarsa variabilità). Gli item ideali sono affermazioni moderatamente positive o negative, che rendono la risposta meno ovvia. Differenziale Semantico Infine, uno strumento spesso utilizzato in psicologia è il differenziale semantico. Si tratta di un insieme di scale bipolari ancorate a ciascun polo tramite un aggettivo descrittivo del lato del continuum semantico (passivo-attivo, calmo-eccitato, ecc.). Si chiede al soggetto di valutare un concetto ponendo un segno su un punto della scala che separa i due aggettivi. «stile di risposta»: ovvero, il fatto che spesso i soggetti tendono ad attestarsi sulle risposte estreme, ovvero a preferire il punto intermedio. lo stile di risposta acquiescente consiste nella tendenza a rispondere positivamente a domande formulate in positivo, indipendentemente dal contenuto della domanda stessa. Per minimizzare questo effetto, il ricercatore deve formulare gli item in modo positivo e negativo in uguale misura. Da una parte, l’attendibilità di un test aumenta con l’aumentare del numero di item. D’altra parte, la validità del test diminuisce quando il numero di item e la durata di compilazione del test sono eccessive, in quanto i soggetti perdono motivazione e rispondono in maniera approssimativa. In linea di massima, un buon compromesso si ha quando il tempo di compilazione è compreso tra 15 e 30 minuti; ad ogni modo, per avere un’attendibilità sufficiente, è necessario utilizzare almeno 10 item per ogni dimensione del costrutto Secondo Bagozzi (1994), è possibile individuare: Tre diversi livelli di astrazione teorico, derivato empirico Quattro tipi di relazioni proposizione non osservabile (legame tra concetti teorici), definizione teorica (legame tra concetti teorici e derivati), regola di corrispondenza (legame tra concetti derivati e concetti empirici), definizione empirica (legame tra concetti empirici e misure osservate). Il livello di astrazione dei concetti teorici è quello della teoria pura: rappresenta quindi un sistema di idee e di considerazioni legate in modo coerente tra di loro. I legami tra concetti teorici sono chiamati proposizioni non osservabili Il secondo livello di astrazione è quello dei concetti derivati: si tratta di concetti astratti più dettagliati rispetto a quelli definiti al livello teorico. La relazione tra concetti teorici e derivati è chiamata definizione teorica e dà vita ad un costrutto teorico Il terzo livello di astrazione è quello dei concetti empirici: a questo livello le regole di corrispondenza definiscono il legame tra il concetto teorico e il concetto empirico. Si arriva in questo modo alla formulazione delle definizioni operative: con esse il ricercatore specifica il modo in cui il costrutto teorico può essere misurato nel mondo reale. Le definizioni empiriche danno luogo agli indicatori: con questo termine si intende una misura empirica che si pone in relazione con il costrutto teorico attraverso una regola di corrispondenza.In altre parole, l’indicatore è una variabile osservata (il punteggio di accordo con una affermazione) che si ipotizza cogliere il costrutto teorico. Dato il livello di astrazione e di indeterminatezza del costrutto teorico, solitamente vi sono molteplici indicatori diversi per ogni costrutto. Infine, l’ultimo tipo di relazione è quello tra concetti empirici e la realtà osservata, chiamato ‘definizione empirica’: si tratta di esplicitare la specifica operazione che si compie per raccogliere i dati Facendo riferimento allo schema precedente, i modelli di costruzione possono essere considerati come regole di corrispondenza tra costrutti teorici e indicatori. Gli indicatori riflettivi sono così chiamati in quanto si ipotizza che essi riflettano l’effetto del costrutto teorico; in altre parole, il costrutto teorico rappresenta il costrutto latente, mentre gli indicatori sono variabili misurate causate dal costrutto latente. Al contrario, gli indicatori formativi sono chiamati in questo modo in quanto vanno a formare il costrutto latente, che risulta essere, quindi, la somma lineare di una serie di indicatori. La corrispondenza tra i due livelli è chiara: se gli indicatori sono riflettivi, il modello di costruzione del test sarà fattoriale( tecnica statistica che consente di estrarre delle dimensioni latenti ad una serie di variabili osservate. )La logica su cui essa si basa è semplice: se le variabili correlano tra loro, si può pensare che ci sia un costrutto sottostante che le accomuna e che spiega tali correlazioni In sostanza, se il modello di costruzione è quello fattoriale, gli indicatori devono essere riflettivi, e se sono riflettivi, devono correlare tra di loro. se gli indicatori sono formativi, il modello di costruzione del test sarà regressivo. I modelli regressivi si basano invece su una tecnica nota come regressione multipla, in cui vi è una singola variabile dipendente che viene predetta da una serie di variabili indipendenti. Nei modelli regressivi, si può pensare che la variabile dipendente sia il costrutto latente, mentre le variabili indipendenti sono gli indicatori, che rappresentano quindi la causa del costrutto. In questo caso, ciò che conta è che le variabili indipendenti siano correlate con la variabile dipendente, mentre non è strettamente necessario che vi siano delle correlazioni significative tra le diverse variabili indipendenti. Scelta campione Un problema rilevante consiste nel decidere le caratteristiche del campione a cui somministrare la prima versione del test. In linea di massima, è consigliabile avere un rapporto tra numero di item e numero di soggetti di almeno 1 a 3: ovvero, è buona norma reclutare 3 soggetti (o più) per ogni item. In ogni caso, non bisognerebbe mai scendere sotto i 100 soggetti totali. Una volta raccolti i dati della prima somministrazione, inizia la fase di selezione vera e propria degli item per arrivare infine alla versione finale del test. I criteri statistici utilizzati per la selezione degli item variano a seconda se il test prevede una risposta esatta oppure no. Gli item dei test di intelligenza e di profitto prevedono una risposta esatta, mentre gli item dei test di personalità e di atteggiamento no. Gli item dei test di intelligenza (o di profitto) possono essere dicotomici, nel caso in cui assumono solo due valori (si/no; giusto/sbagliato), o politomici, nel caso in cui vi sono più modalità di risposta, di cui una sola corretta. Ai fini della selezione, entrambi i tipi di item sono codificati come dicotomici, attribuendo il punteggio 1 se la risposta è corretta e il punteggio 0 se la risposta è sbagliata. L’informazione di cui si dispone è quindi il numero di persone che rispondono correttamente (Np) il numero di persone che sbagliano (Nq). Dividendo il numero di persone che rispondono correttamente per il numero totale delle persone alle quali è stato somministrato il test si ottiene l’indice di difficoltà dell’item: L’indice di difficoltà varia tra 0 e 1, dove il valore 0.5 indica che metà dei soggetti hanno risposto correttamente all’item. La varianza dell’item è data dal prodotto tra la proporzione di risposte corrette e la proporzione di risposte errate, cioè Data questa formula, è facile dimostrare che l’item assume la capacità discriminativa massima quando p = q = 0.50. Un primo criterio di selezione consiste quindi nell’eliminare gli item che discriminano poco: ovvero, quegli item ai quali la maggior parte dei soggetti rispondono o correttamente o erroneamente. In pratica, si procede creando un intervallo di p all’interno del quale selezionare gli item: in genere, questo intervallo è compreso tra 0.2 e 0.8: Altri criteri di selezione prendono in considerazione il punteggio totale al test. Un esempio è l’indice di discriminazione. Questo metodo consiste nel formare due gruppi: soggetti con punteggio totale basso (tipicamente, al di sotto del 30° percentile) soggetti con punteggio totale alto (tipicamente, sopra il 70° percentile). L’indice di discriminazione si calcola come differenza tra la proporzione di risposte corrette nei due gruppi: Questo indice varia tra −1 e +1: valori positivi indicano che l’item discrimina nel verso corretto (chi risponde correttamente all’item ha punteggi totali elevati), mentre valori negativi indicano che l’item discrimina nle verso sbagliato (chi risponde correttamente all’item ha punteggi totali bassi). In pratica, la selezione degli item si basa su alcune soglie critiche: D > 0.30: l’item discrimina in maniera efficace; D compreso tra 0.20 e 0.30: la capacità discriminativa dell’item è intermedia e probabilmente dovrebbe essere modificato; D < 0.20: l’item deve essere eliminato o riformulato completamente. Un terzo criterio di selezione si basa sulla correlazione tra l’item e il punteggio totale al test. Poiché l’item è dicotomico, l’indice più adeguato è il coefficiente di correlazione punto-biseriale. In generale, quando il test ha una lunghezza compresa tra 20 e 30 item, una correlazione superiore a 0.30 rappresenta la soglia minima I test di personalità e di atteggiamento non prevedono una risposta esatta. In questo caso, i criteri di selezione devono necessariamente essere diversi da quelli utilizzati per i test che presentano item dicotomici. il potere discriminativo di un item di questo tipo è legato alla dispersione o variabilità dei punteggi. Nel caso della scala Likert, la distribuzione che massimizza la dispersione è quella rettangolare, in cui tutti i punteggi hanno la stessa frequenza: Nel caso della scala Likert a 7 punti, se la distribuzione è normale, la media sarà uguale a 4, mentre la deviazione standard sarà uguale a 1. In pratica, questo significa che, con un campione di 100 soggetti, un item con queste proprietà avrà la seguente distribuzione: 1 soggetto avrà il punteggio 1 o il punteggio 7; 5 soggetti avranno il punteggio 2 o il punteggio 6; 24 soggetti avranno il punteggio 3 o il punteggio 5; 40 soggetti avranno il punteggio 4. Ai fini della selezione degli item, la regola convenzionale consiste nel creare un intervallo di fiducia di 1.5 deviazioni standard intorno al valore medio teorico: In pratica, per le scale in cui non vi sono risposte corrette, il primo criterio consiste nel selezionare gli item che hanno una media compresa tra 2.5 e 5.5. Per la deviazione standard, l’intervallo di valori accettabili è tra 1 (la deviazione standard teorica di una distribuzione normale) e 2 (la deviazione standard teorica di una distribuzione rettangolare). Un secondo criterio di selezione consiste nel calcolare l’asimmetria e la curtosi della distribuzione dei punteggi associati a ciascun item. Come noto, l’asimmetria indica lo spostamento della distribuzione verso destra o verso sinistra, mentre la curtosi indica lo spostamento verso l’alto o verso il basso. Valori di asimmetria e di curtosi tra −1 e +1 indicano una distribuzione approssimativamente normale: gli item le cui distribuzioni presentano tali valori sono quindi accettabili. Infine, è possibile calcolare la correlazione tra i punteggi all’item e i punteggi totali al test utilizzando il coefficiente di Bravais-Pearson (in quanto entrambe le variabili sono continue): la soglia di accettabilità è anche in questo caso intorno a 0.25-0.30. Item che presentano correlazioni uguali o superiori al valore soglia sono accettabili, in quanto discriminano nel verso corretto è possibile definire l’attendibilità come rapporto tra la varianza vera e la varianza totale, ovvero come complemento a 1 del rapporto tra varianza d’errore e varianza totale: Da questa formula, si evince che minore sarà la varianza d’errore più vicina a 1 sarà l’attendibilità del test, e più preciso sarà lo strumento. Alternativamente, è possibile definire l’attendibilità in funzione della correlazione tra il punteggio vero e il punteggio osservato. l’indice di attendibilità corrisponde alla radice quadrata del coefficiente di attendibilità, ovvero alla correlazione tra punteggio vero e punteggio osservato: A livello teorico, vi sono molti diversi aspetti del concetto di attendibilità. Un primo aspetto ben noto riguarda l’attendibilità test-retest, la quale si riferisce alla stabilità della misurazione nel tempo: una misura attendibile deve mostrare un certo grado di stabilità temporale. Per valutare questo tipo di attendibilità, basterà quindi somministrare lo stesso strumento agli stessi soggetti in due occasioni a una certa distanza di tempo l’una dall’altra e correlare i punteggi con il coefficiente di Bravais-Pearson. Un secondo aspetto riguarda l’utilizzo di due forme parallele di un test: si tratta di due forme che si propongono di misurare lo stesso costrutto psicologico in maniera interscambiabile. Le due versioni del test dovranno essere formate dallo stesso numero di item, i quali dovranno avere le stesse caratteristiche psicometriche (stessa media e stessa deviazione standard). In questo caso, la correlazione tra i punteggi nei due test fornisce una misura di attendibilità, intesa come parallelismo tra due forme dello stesso test. Una forma di attendibilità molto simile si ottiene con il metodo dello split-half o divisione a metà: si somministra il test al tempo T1, si divide il test a metà e si considerano le due metà come forme parallele: a questo punto, la correlazione tra le due metà può essere considerata come una stima dell’attendibilità del test stesso Occorre notare però che la correlazione così ottenuta va corretta con la formula profetica di Spearman-Brown, dato che la vera lunghezza della scala è doppia rispetto a quella delle due metà. In pratica, questo significa che la correlazione semplice tra le due metà del test è una sottostima dell’attendibilità totale del test. In effetti, il valore del coefficiente di attendibilità è strettamente dipendente dal numero di item che compongono il test, nel senso che all’aumentare del numero di item corrisponde un aumento del coefficiente di attendibilità. La formula profetica di Spearman-Brown ci permette di stimare l’attendibilità di un test in funzione dell’aumento del numero di item che lo compongono: dove n è il rapporto tra numero di item finale ed iniziale, 𝑟𝑡𝑡 è l’attendibilità del test iniziale e 𝑟nt𝑡 è l’attendibilità del test finale. Dalla formula è evidente che quando n è maggiore di 1 (ovvero quando il nuovo test contiene più item della versione precedente) l’attendibilità del test aumenta; al contrario, quando n è inferiore a 1, l’attendibilità del test diminuisce L’attendibilità può essere intesa in termini di coerenza interna del costrutto misurato: in questo senso essa riflette il grado di accordo tra più misure dello stesso costrutto ottenute nello stesso momento con uno stesso metodo. Il metodo rappresenta una estensione delle forme parallele in cui si considera ogni item come una forma parallela di tutti gli altri: la logica è quella di verificare quanto gli item siano tra loro coerenti quando li ipotizziamo come misure parallele di uno stesso costrutto. La misura più usata per misurare l’attendibilità come coerenza interna è l’Alpha di Cronbach, che è una misura del peso relativo della variabilità associata agli item rispetto alla variabilità totale del test dove k è il numero di item, si 2 è la varianza del singolo item st 2 è la varianza totale del test (o della dimensione considerata). I valori dell’Alfa di Cronbach variano tra 0 (mancanza assoluta di coerenza tra gli item) e 1 (coerenza assoluta tra gli item); Nella prassi, vi sono regole pratiche condivise dalla maggior parte dei ricercatori, secondo cui: valori superiori a 0.90 sono considerati ottimi; valori tra 0.80 e 0.90 sono considerati buoni; valori tra 0.70 e 0.80 sono considerati discreti; valori tra 0.60 e 0.70 sono considerati sufficienti; e valori inferiori a 0.60 sono considerati deficitari. Infine, l’attendibilità può essere intesa come accordo tra giudici diversi: in genere, questo indice si calcola nelle ricerche in cui si devono codificare dei comportamenti o delle risposte in alcune categorie. Per evitare classificazioni totalmente soggettive si ricorre spesso a più osservatori: per valutare il grado di accordo tra di loro si calcola il coefficiente K di Cohen, il quale tiene conto della percentuale di accordo corretta per la probabilità casuale di accordo. La procedura consiste nel costruire una matrice di accordo k × k, dove k è il numero di categorie codificate, le righe rappresentano il primo codificatore le colonne indicano il secondo codificatore (si veda Figura 1): L’indice K di Cohen si calcola come segue: dove 𝑃𝑜𝑠𝑠 sono le proporzioni di accordo osservate (calcolate a partire dalle frequenze poste sulla diagonale della matrice) e 𝑃𝑎𝑡𝑡 sono le proporzioni di accordo dovute al caso. L’indice varia tra 0 (nessun accordo tra giudici) e 1 (accordo perfetto tra giudici); Nella prassi, valori tra 0.41-0.60 indicano un accordo moderato; valori tra 0.61-0.80 indicano un accordo sostanziale; e valori tra 0.81-1.00: indicano un accordo ottimo. Considerando la tabella riportata nella Figura 1, il termine 𝑃𝑜𝑠𝑠 si calcola come rapporto tra la somma delle frequenze sulla diagonale diviso per il totale delle frequenze osservate: Il termine 𝑃𝑎𝑡𝑡, a sua volta, si calcola come rapporto tra il prodotto dei totali marginali di riga e di colonna diviso per il quadrato delle frequenze totali: il grado di attendibilità di un test rappresenta il limite massimo della sua validità: ovvero, la misura di un costrutto può essere al massimo tanto valida quanto attendibile.La formula di correzione della correlazione per attenuazione quantifica l’impatto dell’errore di misura sulla stima della correlazione tra due costrutti (α e β): Da questa formula si evince che la correlazione tra due misure è sempre una sottostima della correlazione tra i corrispondenti costrutti; le due correlazioni diventano uguali solo quando le attendibilità delle misure sono perfette (uguali a 1) – ovvero quando l’errore di misurazione è nullo (una circostanza inverosimile nell’ambito della ricerca psicologica). Il modo migliore per valutare questi due tipi di validità è di progettare uno studio in cui due o più costrutti vengono misurati con due o più metodi diversi. Le correlazioni così ottenute andranno a formare quella che è chiamata una matrice multi-tratto multi-metodo. La Figura 1 illustra una matrice di questo tipo, riferita ad un ipotetico studio in cui due costrutti, l’ansia e l’intelligenza, sono misurati con due metodi diversi, un test oggettivo (‘exam’) e una griglia di osservazione compilata da un giudice esterno (‘rater’). Figure 1. Esempio di matrice multi-tratto multi-metodo Campbell e Fiske (1959) definiscono i valori contenuti nella matrice come segue: correlazioni monotratto-eterometodo: si tratta di correlazioni tra le misure dello stesso costrutto ottenute con due o più metodi diversi – valutano la validità convergente e pertanto dovrebbero essere alte e significative (nella tabella corrispondono ai valori 0.42- 0.49); correlazioni eterotratto-monometodo: si tratta di correlazioni tra le misure di diversi costrutti ottenute con lo stesso metodo – valutano la validità divergente e pertanto dovrebbero essere basse o nulle (nella tabella corrispondono ai valori 0.18-0.23); correlazioni eterotratto-eterometodo: si tratta di correlazioni tra le misure di diversi costrutti ottenute con metodi diversi – valutano la validità divergente e pertanto devono essere basse o nulle (nella tabella corrispondono ai valori 0.17-0.15). Infine, per validità nomologica si intende il grado in cui il costrutto predice ciò che deve predire e non predice ciò che non deve predire. Il metodo d’elezione per verificare la validità nomologica è quello delle equazioni strutturali L’errore standard della media può essere stimato in base alla deviazione standard e alla numerosità del campione normativo Dalla formula si evince chiaramente che, a parità di deviazione standard, l’errore standard della media diminuisce all’aumentare della numerosità del campione normativo: in pratica, quindi, campioni normativi molto ampi consentono di stimare la media della popolazione con un margine di errore ridotto 4. Dalle frequenze poste sulla diagonale della matrice di accordo. Spiegazione: Matrice di accordo: Una matrice di accordo è una tabella che mostra le frequenze con cui i valutatori hanno concordato o meno nelle loro classificazioni. Le celle della diagonale rappresentano i casi in cui i valutatori hanno concordato sulle categorie (cioè, hanno dato lo stesso punteggio). Frequenze sulla diagonale: La somma delle frequenze sulla diagonale indica il numero totale di classificazioni concordi tra i due valutatori. Questo è un aspetto cruciale per calcolare il coefficiente di Kappa di Cohen, poiché più alto è il numero di accordi sulla diagonale, maggiore sarà il valore del coefficiente. Accordo osservato vs. accordo atteso: Il K di Cohen confronta l'accordo osservato (sulla diagonale) con l'accordo atteso (che tiene conto della probabilità di accordo casuale) per fornire una misura dell'affidabilità degli accordi tra i valutatori. Dal punto di vista matematico, la devianza totale è rappresentata dalla somma dei quadrati degli scarti dei singoli punteggi dalla media generale: dove ‘n’ è il numero di soggetti esaminati e ‘k’ è il numero delle prove alle quali sono sottoposti i soggetti. La devianza tra le prove si calcola come somma dei quadrati degli scarti della media di ciascuna prova dalla media generale: Infine, la devianza residua viene calcolata come somma dei quadrati degli scarti dei singoli punteggi dalla media di ciascuna prova La devianza tra i soggetti è rappresentata dalla somma dei quadrati degli scarti tra la media dei punteggi dell’i-esimo soggetto in tutte le prove e la media generale:

Metodi Statistici - PDF

Document Details

Tags

Related

Summary

Full Transcript