Tecniche multivariate correlazionali nella ricerca psicosociale PDF
Document Details
Uploaded by InexpensiveNeon5677
University of Padua
Andrea Bobbio
Tags
Related
Summary
This document introduces multivariate techniques, focusing on correlation and their applications in social research, for a course at the University of Padua. It defines concepts, including the definition of a technique in correlational social research.
Full Transcript
Materiale ad esclusivo fine didattico e a circolazione controllata. Insegnamento di "Tecn. Multiv. Corr. nella Ric. Psicosoc.", M3 - UniPD, a.a. 2024/2025 - © Prof. A. Bobbio Tecniche multivariate correlazionali nella ricerca psicosociale...
Materiale ad esclusivo fine didattico e a circolazione controllata. Insegnamento di "Tecn. Multiv. Corr. nella Ric. Psicosoc.", M3 - UniPD, a.a. 2024/2025 - © Prof. A. Bobbio Tecniche multivariate correlazionali nella ricerca psicosociale Introduzione Significato dei termini Tecniche e scopo del corso multivariate correlazionali nella ricerca psicosociale A cura di Andrea Bobbio a.a. 2024-2025 1 2 Tecniche Tecniche il termine ‘tecnica’ deriva dal greco τέχνη [la tecnica è un] complesso più o meno codificato (técne) di norme o modi di procedere riconosciuto da una collettività, trasmesso o trasmissibile per apprendimento, elaborato allo scopo di svolgere una Indica una capacità “artistica”: non quella data attività manuale o intellettuale di carattere individuale ed irripetibile del genio, ma quella ricorrente più domestica, trasmissibile di padre in figlio, Una procedura estemporanea, che non viene cioè dell’artigiano (Marradi, 2007; con modifiche) reiterata, né subisce qualche forma di codificazione, non è una tecnica anche se per una volta risulti eccezionalmente ingegnosa ed efficace (Gallino, La “cassetta degli attrezzi” del ricercatore 1978; con modifiche) 3 4 Tecniche Tecniche e risultati di una ricerca I risultati di una ricerca dipendono in larghissima in questa sede le tecniche che ci interessano sono misura dal complesso delle scelte che il strumentali a fini conoscitivi. Sono “le specifiche ricercatore/metodologo ha fatto lungo tutto il tragitto procedure usate in una data scienza, o per un particolare genere di indagine entro una scienza” (Kaplan, 1964; con modifiche) Infatti, nel rapporto di ricerca si dovrebbe dare molto spazio al resoconto e alla giustificazione delle scelte effettuate, valutando per quanto possibile il loro impatto sui L’essenziale del concetto di metodo sta nella scelta delle risultati tecniche da applicare ad uno specifico problema, nella capacità di modificare ed adattare tecniche esistenti, nella capacità di immaginare percorsi nuovi, che – se si Il fatto che le tecniche non abbiano la natura “impalpabile” dimostrano efficaci, si affermano e si diffondono, del metodo, ma siano risorse tangibili e disponibili, non diventeranno altre tecniche (Marradi, 2007; con implica una loro minore rilevanza o nobiltà per il lavoro 5 6 modifiche) scientifico (Marradi, 2007; con modifiche) 1 Materiale ad esclusivo fine didattico e a circolazione controllata. Insegnamento di "Tecn. Multiv. Corr. nella Ric. Psicosoc.", M3 - UniPD, a.a. 2024/2025 - © Prof. A. Bobbio Tecniche e risultati di una ricerca Multivariate Specularmente, è errato l’atteggiamento di chi “feticizza” Variabile = proprietà operativizzata di un una o più tecniche poiché ignora o vuole ignorare il fatto che ogni tecnica è stata ideata entro un certo quadro di oggetto (es. tempo durata di un evento o assunti ontologici (1), gnoseologici (2) ed proprietà, ad es. misurata da un cronometro; epistemologici (3) (Marradi, 2007; con modifiche) spazio lunghezza, altezza, ecc.). 1. convinzioni non controllabili circa la natura ultima (l’essere) ed “essenziale” della realtà (es. mente, All’interno di un approccio quantitativo, intelligenza) empirico, si può parlare di analisi dei dati 2. convinzioni su come, a che condizioni e con che limiti si possa conoscere la realtà monovariata, bivariata e multivariata a 3. convinzioni su quali siano gli obiettivi, i limiti e gli seconda che le variabili considerate siano 1, 2, 3 scopi della scienza (già Platone: episteme o conoscenza 7 o più di 3 8 certa vs. doxa od opinione) Multivariate Multivariate A. Bivariata studio delle relazioni A. Monovariata puramente descrittiva dei statistiche, ossia di tipo probabilistico, esistenti fenomeni studiati (es. calcolo delle frequenze di tra 2 variabili (es. titolo di studio e reddito; risposta di una variabile come l’età dei genere e reddito); variazione concomitante tra i partecipanti e, se applicabile, delle principali loro valori o covariazione; esistenza di un statistiche descrittive; pulizia dei dati, grafici, possibile nesso causale classificazioni, tipologie) Le tecniche di analisi bivariata dipendono strettamente dal tipo di variabili considerate e dalle loro proprietà logico-matematiche (es. nominali, ordinali, quasi-cardinali o a intervalli, 11 12 cardinali o a rapporti) Multivariate Multivariate A. Multivariata relazioni probabilistiche Alcuni esempi di tecniche di analisi esistenti tra il fenomeno da spiegare (variabile multivariata di varibili quasi- dipendente) e molteplici altri (variabili cardinali/intervalli o cardinali/rapporti: indipendenti); nel caso più semplice, le variabili Analisi della varianza coinvolte sono 3 Regressione multipla Ogni variabile sociale è in relazione con Analisi fattoriale esplorativa un’infinità di altre variabili che interagiscono ed Analisi fattoriale confermativa esercitano influenze reciproche (es. titolo di Path Analysis studio, reddito, motivazione al successo, Modelli di equazioni strutturali (SEM) autostima) la realtà (fenomenica) è 13 14 multivariata! 2 Materiale ad esclusivo fine didattico e a circolazione controllata. Insegnamento di "Tecn. Multiv. Corr. nella Ric. Psicosoc.", M3 - UniPD, a.a. 2024/2025 - © Prof. A. Bobbio Leggi statistiche e scienze sociali Correlazionali Di Ettore Majorana (1906-?), fisico italiano scomparso senza lasciar traccia nel 1938, uscì postumo un articolo dal titolo “Il valore delle leggi statistiche nella fisica e nelle comprende tutte le tecniche di analisi dei scienze sociali” (Scientia, 1942). Le tesi esposte erano: dati che hanno il loro fondamento logico nel Il presupposto che i fatti fisici sottostiano ad un rigido coefficiente di correlazione di Pearson (rxy), e determinismo è, nel suo fondamento, errata che operano quindi su variabili almeno di Ricondurre i fenomeni sociali al determinismo dei fenomeni fisici (es. fisica classica) è fuorviante livello quasi-cardinali/intervalli (o assunte Il carattere statistico, ossia probabilistico, anche delle tali…) leggi ultime dei fenomeni fisici (ossia dei fenomeni elementari della fisica moderna) rende più vicine le teorie che tentano di spiegare i fenomeni fisici di base e quelle che interpretano i fenomeni sociali. 15 16 … nella ricerca psicosociale … nella ricerca psicosociale argomenti che approfondiscono uno o più fenomeni psicologici nel campo della psicologia sociale (es. pregiudizio), del lavoro e delle organizzazioni (es. clima organizzativo); nonché in sociologia (es. i giovani del XXI secolo), scienze politiche (es. intenzioni di voto), scienze dell’educazione e della formazione (es. apprendimento scolastico cooperativo, formazione degli adulti) 17 Fonte: Zamperini & Testoni, 2002, p. 4 18 Appendice 1. Metodo Appendice 2. Metodologia unione del prefisso greco μέτα (meta/met-, “oltre, il suffisso ‘logia’ (dal greco λόγος, lògos: al di là” ma anche “con”) e del sostantivo ὁδος “discorso, pensiero”) significa “discorso su” o (hodos, “cammino”); μέθoδος significa quindi “studio di”. Il termine indica quindi la riflessione “strada con [la quale]” sul metodo consiste essenzialmente nell’arte (nel senso di Un grave errore è identificare la metodologia con abilità visto prima) di scegliere le tecniche più una specifica tecnica (es. analisi fattoriale) adatte ad affrontare un problema cognitivo, Il metodologo, quindi, dichiara ciò che il ricercatore eventualmente combinandole, confrontandole, deve fare per ottenere scienza (Dewey, 1991) non apportando modifiche e al limite proponendo riferendosi solo ad un modello astratto e generale di qualche soluzione nuova (Marradi, 2007; con scienza, ma avendo presenti anche le distorsioni modifiche) introdotte dall’uso di una certa tecnica. Concetti chiave VALIDITA’ e REPLICABILITA’ 19 24 3 Materiale ad esclusivo fine didattico e a circolazione controllata. Insegnamento di "Tecn. Multiv. Corr. nella Ric. Psicosoc.", M3 - UniPD, a.a. 2024/2025 - © Prof. A. Bobbio Quindi, in sintesi… Tali tecniche, logicamente fondate sul concetto di correlazione bivariata (Pearson), sono codificate e Lo scopo del corso “Tecniche Multivariate riconosciute da una larghissima parte della comunità Correlazionali nella Ricerca Psicosociale” è degli psicologi, in particolare dell’area approfondire i presupposti teorici ed sociale/lavoro, ma non solo (es. Economisti, applicativi, i punti di forza e di debolezza, di Sociologi, Politologi, ecc.) almeno 2 modi procedere ricorrenti nell’analisi dei dati quantitativi in psicologia sociale, L’utilizzo di queste tecniche permette al ricercatore strettamente legati tra loro dal comune di studiare variabili psicologiche complesse, fondamento nel concetto di ‘co-variazione’ o mettendole in relazione statistico-probabilistica con ‘correlazione’: un numero anche cospicuo di altre variabili di la regressione multipla interesse, e di costruire strumenti di misura (es. test, scale di atteggiamento, ecc.) l’analisi fattoriale esplorativa e confermativa 25 26 4 Materiale ad esclusivo fine didattico e a circolazione controllata. Insegnamento di "Tecn. Multiv. Corr. nella Ric. Psicosoc.", M3 - UniPD, a.a. 2024/2025 - © Prof. A. Bobbio Tecniche multivariate correlazionali nella ricerca psicosociale Talvolta, per capire la relazione che esiste tra 2 variabili, è necessario prendere in considerazione o introdurre nell’analisi una o più variabili supplementari La covariazione di 2 due variabili (X e Y) può infatti manifestarsi a causa degli effetti esercitati da altre La logica dell’analisi multivariata variabili (es. Z o M) Per stabilire la vera quantità di covariazione esistente tra due variabili è quindi necessario rimuovere quella parte della covariazione stessa attribuibile ad altri fattori A cura di Andrea Bobbio Si ripropone cioè il problema del controllo delle a.a. 2024-2025 variabili estranee 1 2 Nei “veri” esperimenti l’eliminazione delle variabili supplementari o estranee è una condizione intrinseca al Ma non tutti i problemi di interesse per la psicologia e le disegno di ricerca e si raggiunge mantenendo costanti tali scienze sociali in genere possono essere studiati variabili (es. pareggiamento dei gruppi) mediante “veri” esperimenti! Sempre negli esperimenti, le variabili relative ai soggetti In alcuni casi, poi, è tecnicamente assai difficile (variabili di attributo, es. il reddito della famiglia di realizzare un vero esperimento (ad es. studi in azienda) provenienza), che possono agire sulla relazione tra la Quando i dati sono ottenuti da strategie di ricerca non variabile indipendente e quella dipendente, possono essere sperimentali – ad es. ricerche cross-sectional o tenute sotto controllo mediante l’assegnazione casuale dei correlazionali, come nel caso di survey o indagini soggetti ai diversi gruppi (sperimentali e di controllo) campionarie –, per tenere sotto controllo gli effetti di variabili supplementari (o comunque estranee alla relazione lo scopo è quello di assicurare, per via probabilistica, che tra due variabili), è necessario ricorrere ad altre tecniche prima dell’esposizione al trattamento, ciascun gruppo 3 4 possa essere ritenuto “in media” uguale agli altri Queste consistono nell’identificare le variabili Il controllo delle variabili supplementari supplementari che possono influire sulla presunta relazione tra X e Y e nel “mantenere costanti” tali variabili per mezzo di analisi statistiche dei dati: Consideriamo il caso di 3 variabili (X, Y e Z) a) Relazione spuria La covariazione osservata può essere dovuta all’azione di una terza variabile (Z, per l’appunto) che è la vera b) Relazione indiretta (o mediazione) responsabile della relazione bivariata esistente tra X e Y c) Relazione condizionata (o moderazione) L'individuazione della variabile Z non è un problema meramente statistico, ma è innanzitutto una questione principalmente teorica 5 6 1 Materiale ad esclusivo fine didattico e a circolazione controllata. Insegnamento di "Tecn. Multiv. Corr. nella Ric. Psicosoc.", M3 - UniPD, a.a. 2024/2025 - © Prof. A. Bobbio Relazione spuria (o relazione non interpretabile) Z Esempio. Hirschi & Selvin (1967). E’ il caso in cui si è in presenza di covariazione, ma in Ordine di nascita dei figli (i.e., assenza di causazione posizione intermedia) (X) propensione alla delinquenza (Y) ? X Y Il “meccanismo” è il seguente: X e Y sono entrambe influenzate da Z (i.e., dimensione della famiglia) più sono i figli, più sono quelli in la covariazione fra le due variabili X e Y è provocata posizione intermedia in genere, i minori delinquenti da una terza variabile Z (chiamata variabile di controllo) provengono in maggioranza da famiglie numerose che agisce casualmente sia su X che su Y; La correlazione tra X e Y è pertanto “illusoria” Se la variabile Z diventa costante, cioè se non è più queste due covariano per via del loro comune soggetta a variazioni, anche la co-variazione tra X e Y rapporto con la Z (la loro relazione è quindi detta cessa di esistere (ad es. confronto tra famiglie di pari spuria, apparente, ingannevole, errata) Figura 7 dimensioni)! 8 Un caso particolare di relazione spuria è quello in cui le Nel caso della relazione spuria, l’azione di Z può essere variabili sono indicatori di uno stesso concetto/costrutto eliminata mediante: Convenzionalismo (C = Adesione passiva a tradizioni o CONTROLLO convenzioni) ed Etnocentrismo (E = tendenza a giudicare le DEPURAZIONE altre culture ed interpretarle in base ai criteri della propria) sono entrambi indicatori della Personalità Autoritaria (PA; Adorno et al., 1950) Figura Il controllo si effettua analizzando la relazione tra X e Y in sotto-campioni in cui Z è tenuta costante (come PA nell’esempio appena proposto) La depurazione si effettua per via matematica: note le co- variazioni tra X, Y e Z si calcola quello che sarebbe il C E coefficiente di correlazione tra X e Y se non ci fosse l’azione di Z, ossia al netto di Z (correlazione parziale) 9 ? 10 In questi casi la variabile causa è latente (cioè non Relazione indiretta (o relazione interpretabile) empiricamente osservata), come nel caso dei “fattori” Abbiamo una relazione indiretta fra 2 variabili (X, Y) dell’analisi fattoriale, che vedremo negli incontri quando il loro legame causale è mediato dall’azione una successivi terza variabile (Z o M, a seconda delle notazioni) La covariazione osservata è in realtà dovuta ad una terza Tuttavia, il “meccanismo” causale che provoca la co- variabile Z, che funge da “ponte” fra X e Y (Figura) variazione fra le variabili osservate è sempre lo stesso Si constata empiricamente l’esistenza di una correlazione significativa tra C ed E, poiché entrambe – in un certo senso – sono «aspetti, sfaccettature» intrinseci di PA 11 12 2 Materiale ad esclusivo fine didattico e a circolazione controllata. Insegnamento di "Tecn. Multiv. Corr. nella Ric. Psicosoc.", M3 - UniPD, a.a. 2024/2025 - © Prof. A. Bobbio La terza variabile Z (a volte indicata anche con la lettera Per chiarire il significato della mediazione consideriamo M, che forse è più intuitiva) “interviene” quindi nel il seguente diagramma di path (Figura) rapporto tra X e Y e per questo viene anche chiamata interveniente Mediatore ZoM In questo caso, anche se bisogna essere cauti con l’uso del linguaggio, non si può escludere che non esista a b realmente relazione causale fra X e Y il nesso esiste nella forma di una catena causale fra variabili c (t0) La terza variabile è detta anche “variabile mediatrice” o Predittore Criterio “mediatore” X Y c (t1) 13 14 Vediamo alcuni esempi: X potrebbe essere un particolare stile di leadership messo In un diagramma di path si possono distinguere le: in atto da un “capo”; Z o M la fiducia nello stesso capo; Y il legame affettivo (commitment) che i dipendenti le variabili esogene: la cui variabilità proviene dal di hanno verso la loro azienda/organizzazione fuori del modello (non ricevono nessuna freccia, es. X); X potrebbe essere il reddito familiare, Z o M la qualità le variabili endogene: la cui variabilità proviene in della scuola frequentata dai figli, Y i risultati ottenuti parte da dentro il modello (ricevono almeno una freccia dagli stessi figli a test standardizzati di profitto dalle altre, es. Z o M, Y). X potrebbe essere una variabile di differenze individuali (ad esempio, l’autoritarismo), Z o M il pregiudizio ostile verso le donne, Y l’atteggiamento verso le donne 15 manager 16 Una variabile agisce come mediatore se si verificano le seguenti 3 condizioni (Baron & Kenny, 1986): Ancora: a) variazioni nei livelli del predittore si associano in modo X potrebbe essere la percezione di “conflitto lavoro- significativo a (= correlano con) variazioni nel presunto famiglia”, Z o M potrebbe essere il livello di burnout, e mediatore (path a); Y il benessere psicologico dell’individuo b) variazioni nel mediatore si associano a variazioni significative nella variabile dipendente o criterio (path b); X potrebbe essere l’esposizione ad una campagna contro il fumo, Z o M la percezione dei rischi del fumo, Y c) quando i path a e b sono controllati (= contemporaneamente l’avversione al fumo calcolati/stimati), la relazione tra predittore e criterio da significativa che era (path c, tempo 0) diventa non significativa … (path c’, tempo 1) la dimostrazione più stringente della mediazione si ha quando c diventa uguale a zero (in un certo 17 senso, il suo ‘peso’ o ‘valore’ nella relazione viene assorbito 18 dalla considerazione congiunta di a e b)! 3 Materiale ad esclusivo fine didattico e a circolazione controllata. Insegnamento di "Tecn. Multiv. Corr. nella Ric. Psicosoc.", M3 - UniPD, a.a. 2024/2025 - © Prof. A. Bobbio Mediazione completa i riquadri indicano i soli Poiché molte aree della psicologia trattano fenomeni che coefficienti di regressione significativi hanno cause multiple, uno scopo più realistico da perseguire può essere quello di ricercare mediatori che Mediatore diminuiscono in modo significativo la forza (o intensità) del path c piuttosto che cercare mediatori che ZoM lo cancellino del tutto a b Analisi di mediazione: per testare empiricamente se la relazione tra X e Y è di questo tipo si conduce un’analisi di mediazione mediante modelli di regressione lineare e c (t0) path analysis, una tecnica statistica che permette di Predittore Criterio stimare gli effetti esercitati da determinate variabili X Y all'interno di un sistema causale ipotizzato dal ricercatore c (t1) 19 20 Nota di cautela Relazione condizionata (e analisi di moderazione) I ricercatori nel descrivere e nell’analizzare i modelli di Una relazione condizionata è quella in cui il legame fra 2 mediazione di solito formulano delle affermazioni “causali”: variabili cambia a seconda del valore assunto da una per esempio, affermano che la variabile indipendente causa terza variabile o influenza il mediatore, il quale a sua volta influenza la Ci troviamo di fronte a un fenomeno di interazione fra le variabile dipendente. Usano poi delle tecniche statistiche per variabili implicate testare empiricamente queste relazioni Bisogna essere molto prudenti nell’interpretare in senso In termini generali, un moderatore è una variabile “causale” dei dati che, solitamente, sono ottenuti da qualitativa (ad es. genere, titolo di studio, classe sociale) strategie di ricerca “correlazionali” e non da esperimenti o quantitativa (ad es. livello della ricompensa: alto/basso; pregiudizio nei confronti degli immigrati: Infatti, le strategie sperimentali, e in particolare i “veri” alto/basso via median split) che influenza la direzione e/o esperimenti, sono le sole che consentono di trarre la forza della relazione tra un predittore (o v. conclusioni “causali” 21 indipendente) e un criterio (o v. dipendente) (Figura)22 Esempio: 1 = Alta Z=1 2 = Bassa Z Istruzione X Y Z=1 Z=2 Y X Ascolto musica Età classica X Y 23 Z=2 24 4 Materiale ad esclusivo fine didattico e a circolazione controllata. Insegnamento di "Tecn. Multiv. Corr. nella Ric. Psicosoc.", M3 - UniPD, a.a. 2024/2025 - © Prof. A. Bobbio Nei termini dell’analisi della varianza (ANOVA), un effetto di moderazione è rappresentato dall’interazione tra il predittore e un altro fattore (per l’appunto, il moderatore) che specifica le condizioni appropriate per la sua azione Di solito il termine di interazione si ottiene dalla moltiplicazione tra i coefficienti di regressione che esprimono il peso delle variabili implicate (es. A x B) La rappresentazione diagrammatica di un modello di moderazione può essere il seguente (Figura): 25 26 Esempio: Ipotesi del contatto Nel diagramma si possono trovare tre sentieri che (Allport, 1954) e derivazioni portano alla variabile dipendente: Quantità di contatto (A) il path a che descrive l’impatto del predittore (v.i., ad es. il rumore) sulla v.d. (ad es., l’esecuzione di un compito) Qualità del contatto (B) Pregiudizio il path b che descrive l’impatto del moderatore (v.i., ad es., la controllabilità del rumore: periodico/aperiodico) Quantità x il path c che rappresenta l’interazione (o prodotto tra i Qualità (AxB) Altre variabili moderatrici? due) Tipologia di contatto interpersonale, intergruppi, 27 percezione di un ingroup comune 28 L’ipotesi di moderazione è supportata se l’interazione Z (path c) è significativa ESEMPIO l’effetto negativo del rumore X Y sull’esecuzione del compito si verifica solo quando Mediazione il rumore è aperiodico e quindi non controllabile -------------------------------------------------------------------------------------- Moderazione Come risulta dalla Figura, nel caso della moderazione, diversamente dalla mediazione, Z moderatori e predittori sono sullo stesso livello per quanto riguarda il loro ruolo come variabili antecedenti o esogene rispetto ad una variabile X Y criterio 29 30 5 Materiale ad esclusivo fine didattico e a circolazione controllata. Insegnamento di "Tecn. Multiv. Corr. nella Ric. Psicosoc.", M3 - UniPD, a.a. 2024/2025 - © Prof. A. Bobbio La variabile moderatore funziona sempre come Le cause multiple variabile indipendente, mentre le variabili mediatrici cambiano il loro ruolo da «effetti» a «cause» a seconda Sono ormai pressoché assenti nel panorama del focus dell’analisi scientifico le teorie che sostengono che il comportamento umano è causato da un unico Analisi di moderazione per testare empiricamente fattore (es. frustrazione-aggressività; Dollard, ipotesi di moderazione si usano tecniche di analisi della 1939); mentre sono sempre di più quelle che varianza e di regressione multipla postulano l’esistenza di processi di causazione multipla, ossia multivariati La scelta della tecnica dipende, in parte, dal livello di misura della variabile indipendente e del moderatore Esempi dalla Psicologia Sociale (Figura) Teoria dell’Azione Ragionata (Fishbein e Ajzen, 1975) 31 Teoria del Comportamento Pianificato (Ajzen, 1991)32 Teoria dell’azione ragionata Le cause multiple La variazione osservata in un dato fenomeno è dovuta all'azione congiunta di diverse cause Controllando simultaneamente gli effetti Teoria del comportamento esercitati da diversi fattori causali, il ricercatore pianificato può trarre inferenze sull'importanza relativa di ogni fattore sul fenomeno sotto studio, tenendo contemporaneamente conto delle possibili relazioni spurie e dei possibili processi intervenienti (Figura) 33 34 Zamperini & Testoni, 2002, p. 66 Esempio: Altri predittori? Variabili mediatrici? Variabili moderatrici? a) Reddito familiare b) Voto di laurea Stipendio c) Anni di esperienza a) x b) … a) x b) x c) a) x c) … Interazione b) x c) … a 3 vie Interazioni 35 36 a 2 vie 6 Materiale ad esclusivo fine didattico e a circolazione controllata. Insegnamento di "Tecn. Multiv. Corr. nella Ric. Psicosoc.", M3 - UniPD, a.a. 2024/2025 - © Prof. A. Bobbio Tecniche multivariate correlazionali nella ricerca psicosociale Analisi bivariata Riguarda lo studio della relazione fra 2 variabili Tecniche statistiche per l’analisi delle Quando le variabili sono continue e misurate a livello relazioni tra variabili di scala a intervalli (assunta tale o quasi-cardinale) la forza e la direzione di tale relazione è espressa dal coefficiente di correlazione prodotto-momento di Pearson, o coefficiente di correlazione lineare Tale coefficiente può assumere il valore di qualsiasi A cura di Andrea Bobbio numero reale compreso tra –1.00 e +1.00. a.a. 2024-2025 1 2 Nota Analisi multivariata In matematica, i NUMERI REALI (NR) sono numeri ai quali Riguarda lo studio delle relazioni fra più di è possibile attribuire uno sviluppo decimale finito o infinito, due variabili. Esempi sono: come nel caso di “Pi greco”, π = 3,141592... I NR possono essere positivi, negativi o nulli e comprendono, Correlazione parziale come casi particolari, i numeri interi (come 74), i numeri razionali (ossia quelli ottenibili da una frazione, come 25/9) ed Correlazione multipla i numeri irrazionali algebrici (come la radice quadrata di 2) e trascendenti (come π ed e). Regressione multipla I NR possono essere messi in corrispondenza biunivoca con i punti di una retta, detta numerica o reale → R 3 4 La correlazione bivariata E’ una misura della relazione (o associazione) lineare tra Varianza (s2x) 2 variabili Per decidere se 2 variabili sono associate dobbiamo vedere prima di tutto se covariano: = se i cambiamenti in una variabile si associano a cambiamenti nell’altra variabile → in dettaglio, se quando una variabile devia dalla sua media, anche Covarianza (sxy) l’altra devia dalla propria in modo simile Ricordiamo alcune formule: 5 6 1 Materiale ad esclusivo fine didattico e a circolazione controllata. Insegnamento di "Tecn. Multiv. Corr. nella Ric. Psicosoc.", M3 - UniPD, a.a. 2024/2025 - © Prof. A. Bobbio Tabella di dati Esempio (Tratto da: Field, 2000) X = N° spot Y = N° _ _ _ _ Soggetti (xi - X) (yi - Y) (xi - X) (yi - Y) pubblicitari pacchetti dolci 1 5 8 ESERCIZIO 0 2 4 9 3 4 10 Consideriamo un gruppo di 5 persone e 4 6 13 rileviamo quanti spot pubblicitari che 5 8 15 promuovono dei dolci guardano in una settimana; quindi rileviamo quanti pacchetti di Media questi dolci ogni persona compra la settimana Varianza successiva d.s. 7 8 Tabella di dati Alcuni passaggi X = N° spot Y = N° _ _ _ _ Soggetti (xi - X) (yi - Y) (xi - X) (yi - Y) pubblicitari pacchetti dolci Calcolo della covarianza con la formula: 1 5 8 - 0.4 -3 1.2 (X )( ) 2 4 9 - 1.4 -2 2.8 n 3 4 10 - 1.4 -1 1.4 i − X Yi − Y s xy = 4 6 13 0.6 2 1.2 i =1 = 4.25 n −1 5 8 15 2.6 4 10.4 =0 =0 = 17 N Equivalente a → codevianza / (n-1), ossia alla Media 5.4 11.0 (X i − X )2 Codevianza ponderazione (= media) della codevianza sulla numerosità s x2 = i =1 (somma dei prodotti Varianza 2.8 8.5 degli scarti dalle campionaria (17/4 = 4,25) d.s. 1.67 2.92 n −1 medie di X e Y) n-1 è una correzione indicativa dell’operazione di stima di Deviazione standard, sx o sy 9 dati della popolazione a partire da dati di un campione10 Alcuni passaggi Limite → La covarianza è una misura non Xi − X Yi − Y standardizzata; il suo valore assoluto e il suo range di variazione dipendono dalle scale di s s xy sx y misura usate della due variabili rxy = = Unità di n −1 sx s y Per superare questo problema dobbiamo misura: d.s. standardizzare la covarianza (usando come unità di misura la deviazione standard) e 4.25 4.25 ottenere così il coefficiente di correlazione (rxy). rxy = = =.87 1.67 2.92 4.876 11 12 2 Materiale ad esclusivo fine didattico e a circolazione controllata. Insegnamento di "Tecn. Multiv. Corr. nella Ric. Psicosoc.", M3 - UniPD, a.a. 2024/2025 - © Prof. A. Bobbio Approfondimento → Correlazione fra Punti z Inoltre, poiché: Se standardizziamo due variabili X e Y, trasformandole in Punti Z (Zx e Zy; M = 0; d.s. = 1), la correlazione si può esprimere nel modo seguente: Il coefficiente di correlazione può essere espresso in termini di variabili standardizzate come: Dunque, la correlazione fra due variabili standardizzate equivale, come atteso, alla loro covarianza 13 14 x− Proprietà del coefficiente di correlazione (rxy o r) Nota z= 1. Esprime la direzione e l’intensità della relazione lineare esistente tra due variabili La «standardizzazione statistica» è un procedimento che 2. Può assumere qualsiasi valore reale compreso tra +1.00 riconduce una variabile aleatoria, distribuita secondo una (correlazione positiva perfetta) e –1.00 (correlazione negativa media μ e varianza σ2, ad una nuova variabile aleatoria ma perfetta) con distribuzione «standard», con media 0 e varianza 1. 3. Quando rxy = 0 (o molto prossimo a 0) le due variabili È particolarmente utile nel caso della variabile casuale possono essere ritenute linearmente indipendenti “normale” 4. Quanto più rxy si avvicina a |1.00| (in valore assoluto), tanto Il procedimento prevede di sottrarre alla variabile aleatoria più forte è la relazione tra le due variabili 5. Il valore numerico di rxy non è proporzionale al grado della la sua media e dividere il risultato ottenuto per la relazione tra le due variabili; cioè, rxy =.60 non indica una deviazione standard della variabile (per σ e non per σ2) relazione positiva di intensità doppia rispetto a quella indicata La standardizzazione è applicabile come trasformazione da rxy =.30 (rxy quindi è fondamentalmente una variabile lineare di un insieme di dati in statistica descrittiva 15 ordinale) 16 La legge di Yerkes & Dodson (1908) Diagrammi di dispersione e coefficienti di correlazione (de Lillo et al., 2007) rxy = ? → Descrive il rapporto curvilineo tra l'insorgenza di un’emozione (ansia / stress) e la prestazione → L’ansia adattativa aiuta le persone a prepararsi, allenarsi e provare, così da migliorare il proprio funzionamento e stimolare atteggiamenti adeguatamente prudenti in situazioni potenzialmente pericolose. 17 L’ansia disadattativa causa sofferenza e disfunzionalità 18 3 Materiale ad esclusivo fine didattico e a circolazione controllata. Insegnamento di "Tecn. Multiv. Corr. nella Ric. Psicosoc.", M3 - UniPD, a.a. 2024/2025 - © Prof. A. Bobbio Il coefficiente di determinazione L’area che si sovrappone, o area in comune fra i due Fornisce una stima della proporzione di “variazione cerchi, rappresenta graficamente la forza condivisa” da due misure correlate dell'associazione: quanto maggiore è l'area di intersezione tanto più forte è l'associazione fra le due Si ottiene elevando al quadrato rxy e si indica con r2xy variabili X ed Y Possiamo rappresentare la variabilità di due variabili mediante un diagramma di Venn (Figura, r =.40): Nell’esempio, i due cerchi hanno un’area in comune del 16%, poiché r =.40 ed r2 =.16 Due variabili non correlate sarebbero rappresentate da due cerchi che non si sovrappongono Quando r2XY = 1.00 (la correlazione è perfetta, i due cerchi sono sovrapposti) la variazione condivisa è il 19 100% (Figura) 20 Si può esprimere il grado in cui due variabili non sono associate calcolando una proporzione che si chiama varianza residua; questa è data da 1 - r2xy Esempio. Se la correlazione fra rendimento medio alla scuola superiore e media dei voti agli esami universitari è r =.40, abbiamo un coefficiente di determinazione pari a.16 e una quota di varianza comune fra le due variabili del 16% La porzione di varianza non spiegata è invece pari a: varianza residua → 1 - (.4)² = 1- (.16) =.84 Quindi, ben l'84% (!) della varianza delle votazioni medie all’università non è legata alla prestazione Fonte: Bohrnstedt & Knoke, 1998, p. 223 avuta dal soggetto alle scuole superiori 21 22 …e nell’Esercizio 0? Correlazione parziale Due variabili possono essere correlate non perché una Coefficiente di influenza l’altra, ma perché entrambe sono determinate da rxy =.87 r 2 =.76 determinazione una terza variabile (relazione spuria) = (rxy)2 Z Diagramma di Venn X Y X Y X = Livello di istruzione; Z = Status sociale della Varianza residua = 1 famiglia di provenienza; Y = Reddito -.76 =.24% Varianza comune 76% rxz =.60; rzy =.50; rxy =.30 → rxy.z =.00 23 24 4 Materiale ad esclusivo fine didattico e a circolazione controllata. Insegnamento di "Tecn. Multiv. Corr. nella Ric. Psicosoc.", M3 - UniPD, a.a. 2024/2025 - © Prof. A. Bobbio Lo status sociale è all’origine della relazione tra scolarità e La correlazione parziale è quindi la correlazione lineare reddito? Dobbiamo studiare questa relazione dopo aver tra due variabili dopo che sia stato statisticamente rimosso gli effetti dello status sociale familiare: come? sottratto (rimosso, controllato, tenuto costante o parzializzato) l’effetto lineare di una o più altre variabili a) Un modo è quello di suddividere il campione in gruppi con lo stesso valore sulla variabile status (es. alto, medio, basso) e Parzializzare gli effetti delle variabili di controllo → quindi esaminare la relazione tra scolarità e reddito in ogni stimare la correlazione tra le variabili come se tutti i casi gruppo (controllo) avessero esattamente gli stessi punteggi sulle variabili di controllo, cioè mantenendo costanti i valori delle b) Possiamo calcolare la correlazione tra istruzione e reddito variabili di controllo dopo aver rimosso gli effetti di una variabile di controllo (o covariata) (lo status, nell’esempio) da entrambe le variabili Se la variabile da controllare è una (Z), il coefficiente (depurazione) → correlazione parziale rxy.z è detto parziale di 1° ordine e si calcola nel modo 25 seguente: 26 Correlazione parziale (1) Al numeratore di questa formula abbiamo la differenza tra la correlazione totale (detta di ordine zero) e un fattore di correzione (prodotto delle correlazioni di ordine zero tra z, x e Correlazione Correlazione y) “totale” tra x e y, “totale” tra Al denominatore abbiamo 2 fattori di correzione: la varianza detta di ordine “0” xez rxy − (rxz ) (ryz ) residua di X, dopo aver eliminato il contributo di Z, e la varianza residua di Y, dopo aver eliminato il contributo di Z rxy. z = La correlazione parziale è, sostanzialmente, un coefficiente di Correlazione correlazione di Pearson e viene interpretato in modo del tutto 1 − rxz2 1 − ryz2 “totale” tra simile (varia tra + 1.00 e –1.00) yez Il coefficiente di correlazione parziale elevato al quadrato esprime la quantità di varianza che X e Y condividono quando Z è sotto controllo Varianza comune r2 xy.z = se Y è la variabile dipendente, l’r parziale al quadrato tra x e z indica la quota di varianza di Y spiegata da X, quando Z viene Varianza comune tra y e z 27 mantenuta costante 28 Il coefficiente di correlazione parziale tra 3 variabili La formula per il calcolo del coefficiente di correlazione non è unico, ma dipende da quale variabile vogliamo parziale di II ordine (es. correlazione tra v1 e v2, parzializzare: con tre variabili i coefficienti possibili parzializzando v3 e v4) è la seguente (2), che implica sono tre, che si ottengono eliminando di volta in volta coefficienti di correlazione parziale di I ordine: l’influenza di ciascuna variabile dalla correlazione tra le altre due (la scelta è dettata da precise ipotesi) r12.3 − r14.3 r24.3 Possiamo calcolare r parziali di ordine superiore rimuovendo gli effetti di due o più variabili da una r12.34 = relazione → Esempio 1 − r142.3 1 − r242.3 29 30 5 Materiale ad esclusivo fine didattico e a circolazione controllata. Insegnamento di "Tecn. Multiv. Corr. nella Ric. Psicosoc.", M3 - UniPD, a.a. 2024/2025 - © Prof. A. Bobbio Capire la correlazione parziale MEDIAZIONE → le variabili X e Y sono correlate La correlazione parziale è un tentativo di comprendere perché X causa Y attraverso una o più variabili perché 2 variabili sono correlate mediatrici Due sono le possibili spiegazioni: Anche in questo caso, se l’ipotesi è corretta, la Ipotesi della “causa comune” correlazione tra X e Y dovrebbe essere diversa da zero, ma parzializzando gli effetti della variabile di Ipotesi di mediazione mediazione dovrebbe essere zero o quasi CAUSA COMUNE → sostiene che le variabili X e Y Quale delle 2 ipotesi rappresenti la migliore sono correlate perché condividono la stessa/e spiegazione della relazione tra X e Y è un problema variabile/i causale/i (relazione spuria) → se l’ipotesi teorico e una questione di indagini successive è corretta, la correlazione tra X e Y dovrebbe essere diversa da zero, ma parzializzando gli effetti della Inoltre, per testare l’ipotesi di mediazione sono causa comune dovrebbe essere uguale o molto necessarie altre tecniche e verifiche (regressione), la prossima a zero 31 sola correlazione parziale non è sufficiente! 32 La significatività del coefficiente di correlazione parziale Normale univariata Il test di significatività di una correlazione parziale valuta se, nella popolazione, la correlazione parziale è diversa da zero (H0: rxy.z = 0; H1: rxy.z ≠ 0) Assunzioni generali 1) Le variabili devono avere una distribuzione normale multivariata (Barbaranelli 2002, p. 34), cioè: a) tutte le distribuzioni univariate delle variabili sono normali (Figura) b) le distribuzioni congiunte di tutte le coppie di variabili seguono la distribuzione normale bivariata (Figura) 33 Normale bivariata 34 2) I casi esprimono un campione rappresentativo di una popolazione. Per ogni caso i punteggi delle variabili in relazione sono indipendenti La significatività del coefficiente di correlazione parziale si trova mediante la seguente trasformazione in punti t (3) : rxy. z N − 3 t N −3 = 1 − rxy2. z 35 36 6 Materiale ad esclusivo fine didattico e a circolazione controllata. Insegnamento di "Tecn. Multiv. Corr. nella Ric. Psicosoc.", M3 - UniPD, a.a. 2024/2025 - © Prof. A. Bobbio Esempio (Esercizio 0.1) Quindi, sulle tavole della distribuzione t di Student, Supponiamo di aver trovato che la riuscita agli esami individuiamo il valore di t critico, con N-3 gradi di (R) sia correlata negativamente con l’ansia da esame libertà (g.l.), e per il livello di probabilità fissato (es. (A) (r = -.441) ma positivamente con il tempo dedicato p