DISPENSE DELL'INSEGNAMENTO DI TECNICHE DI RICERCA E ANALISI DEI DATI PDF
Document Details
Uploaded by Deleted User
Università degli Studi Niccolò Cusano
Maria Stefania De Simone
Tags
Summary
Le dispense presentano un'introduzione alla ricerca in psicologia, focalizzandosi su concetti chiave come il processo di ricerca, la statistica descrittiva e inferenziale, le variabili e i costrutti, la misurazione e le scale di misura. Il documento include un'introduzione teorica alla ricerca psicologica, evidenziando i metodi e le procedure utilizzati nella pratica. I concetti vengono illustrati con un linguaggio chiaro, spiegando il ruolo dei metodi e della statistica nella ricerca psicologica.
Full Transcript
DISPENSE DELL’INSEGNAMENTO DI TECNICHE DI RICERCA E ANALISI DEI DATI Prof. Maria Stefania De Simone RICERCATORE Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone MODULO 1 INTRODUZIONE ALLA RICER...
DISPENSE DELL’INSEGNAMENTO DI TECNICHE DI RICERCA E ANALISI DEI DATI Prof. Maria Stefania De Simone RICERCATORE Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone MODULO 1 INTRODUZIONE ALLA RICERCA IN PSICOLOGIA 1. INTRODUZIONE 2. IL PROCESSO DI RICERCA 3. POPOLAZIONE, CAMPIONE, PARAMETRI E INDICI STATISTICI 4. STATISTICA DESCRITTIVA E STATISTICA INFERENZIALE 5. VARIABILI E COSTRUTTI 6. MISURAZIONE E SCALE DI MISURA 7. CLASSIFICAZIONE DELLE VARIABILI 8. I DISEGNI DI RICERCA IN PSICOLOGIA 9. L’ERRORE DI MISURAZIONE 10. LA PRESENTAZIONE DELLA RICERCA 11. ACCENNI DI NOTAZIONE STATISTICA 1 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone INTRODUZIONE ALLA RICERCA IN PSICOLOGIA 1. Introduzione Il principale oggetto di ricerca in psicologia è riconducibile allo studio della natura e della variabilità del comportamento degli individui, per finalità puramente conoscitive ovvero pratiche. Distinguiamo, in tal senso, la ricerca di base, detta anche fondamentale o pura, il cui obiettivo è far progredire la conoscenza teorica su un dato argomento, e la ricerca applicata, che invece ha lo scopo di fornire strategie pratiche per la risoluzione di problemi concreti. Il ricercatore in ambito psicologico, con l’obiettivo di descrivere, spiegare, predire il comportamento, identificarne le cause ed eventualmente applicare tali conoscenze in contesti pratici, nel corso del suo lavoro compie diversi passaggi: innanzitutto, osserva e ragiona su un dato fenomeno; successivamente, pianifica la strategia migliore per studiarlo e quindi quali metodi utilizzare, seguendo criteri di applicazione sistematici e ben definiti. Quando i fenomeni in esame lo consentono, mette a punto un esperimento con cui, partendo da un’ipotesi iniziale, modifica parte della realtà per valutarne le conseguenze e in tal modo confermare o invalidare l’ipotesi. Infine, in funzione dell’analisi e dell’interpretazione dei dati raccolti, trae le sue conclusioni teoriche, che andranno a contribuire alle conoscenze già esistenti in letteratura sul fenomeno oggetto di studio. In tutte le discipline scientifiche, le procedure utilizzate per raccogliere informazioni e acquisire nuove conoscenze su un dato fenomeno indagato sono dette metodi, mentre con il termine metodologia si intende tutto ciò che riguarda l’applicazione dei metodi stessi. La psicologia deve la sua natura scientifica all’applicazione di una metodologia di ricerca empirica e sperimentale. Per empirica s’intende una raccolta di dati osservabili e misurabili, svolta attraverso procedimenti rigorosi, logici e sistematici, in cui le conclusioni sono tratte in base a riscontri oggettivi concreti e quindi “verificabili”. Per sperimentale si intende che la ricerca viene condotta secondo le norme che definiscono propriamente il metodo scientifico, che si 2 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone caratterizza per la formulazione e il controllo delle ipotesi grazie alla pianificazione di un esperimento, in cui il ricercatore riproduce in modo artificiale e controllato il fenomeno da osservare per comprendere, in ultima analisi, se l’ipotesi iniziale può essere convalidata oppure confutata. Come in tutta la ricerca scientifica sperimentale, anche in psicologia e nelle scienze comportamentali è indispensabile la conoscenza dei concetti e dei metodi statistici. Le procedure statistiche, infatti, aiutano a garantire che le informazioni o le osservazioni siano presentate in modo accurato e informativo. Inoltre, quando si analizzano i dati di uno studio o di un esperimento, la statistica è utile per determinare se le osservazioni fatte nel mondo reale o in laboratorio sono dovute al caso oppure ad un effetto ordinato e sistematico che una variabile esercita su un'altra. In questo caso, l'analisi statistica può anche fornire una stima dell'entità dell'effetto. Separare il caso da causa-effetto è compito della scienza e la statistica è uno strumento per raggiungere tale scopo. In estrema sintesi, il termine statistica si riferisce a un insieme di regole e procedure (non sempre computazionali o matematiche) che consentono: (a) di condensare grandi quantità di informazioni in proporzioni gestibili ed informative (ad esempio, poche semplici cifre o una figura) e (b) di interpretare e trarre conclusioni da quei dati. In accordo con questa definizione generale, è possibile classificare la grande varietà di procedure statistiche esistenti in due principali categorie: - la statistica descrittiva, utile per riassumere e descrivere le caratteristiche dei dati di uno studio di ricerca in modo chiaro e comprensibile; - la statistica inferenziale, utile per trarre conclusioni e fare inferenze generali basate sui dati di uno studio di ricerca. Nel corso di questo primo modulo didattico, andremo a definire nel dettaglio e con l’ausilio di esempi pratici che cosa si intende per statistica descrittiva e statistica inferenziale. I moduli successivi saranno, invece, dedicati all’approfondimento dei metodi e delle procedure specifiche della statistica descrittiva e della statistica inferenziale. Ma, prima di procedere, è 3 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone importante definire come si articola il processo di ricerca e riprendere alcune nozioni generali e introduttive. 2. Il processo di ricerca Il processo di ricerca costituisce lo schema standard da seguire per condurre un’indagine scientifica di tipo sperimentale. Esso segue delle regole precise e si articola in una serie di fasi diverse e ben specificate, che possono essere sintetizzate come segue: 1. Identificazione del problema di ricerca 2. Pianificazione del disegno sperimentale 3. Fase delle osservazioni 4. Fase dell’analisi dei dati 5. Fase dell’interpretazione dei dati 6. Fase della comunicazione dei risultati Questi passaggi, da seguire rigorosamente per condurre un lavoro corretto da un punto di vista scientifico, si susseguono in modo progressivo e circolare (Figura 1.1). Figura 1.1. Rappresentazione schematica del processo di ricerca come percorso circolare 4 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone In genere, si parte dallo studio di un certo fenomeno d’interesse, che permette di avere un quadro generale di come esso funziona e di cosa già si conosce a riguardo (teorie e conoscenze già documentate in letteratura). Il punto di partenza del processo di ricerca consiste nell’identificazione di un problema, cioè di una contraddizione tra asserti o tra una teoria e un fatto, che deriva da una mancanza di conoscenza o da lacune nelle teorie relativamente a quel fenomeno specifico. L’identificazione di un problema rilevante porta il ricercatore alla formulazione di una domanda di ricerca generale (“Cosa permette ad uno studente di superare l’esame di Tecniche di ricerca?”), a cui consegue un’ipotesi di ricerca per spiegare, generalmente in termini di causa-effetto, il fenomeno d’interesse. Generalmente l’ipotesi di ricerca è espressa tramite un’affermazione condizionale del tipo “Se accade x, allora si osserva y” (“Se si studiano approfonditamente le dispense, allora si supera l’esame”). Con l’obiettivo di verificare l’ipotesi di ricerca, il passaggio successivo consiste nella pianificazione del disegno di ricerca. È in questa fase che il ricercatore deve prendere decisioni su come effettivamente condurre la ricerca: deve delineare l’oggetto da osservare, definire i soggetti da reclutare, le condizioni in cui condurre le osservazioni, gli strumenti di misura più affidabili, i metodi più appropriati per codificare i dati, i test statistici per le analisi, e così via. Nella fase successiva, la fase delle osservazioni o raccolta dati, il ricercatore mette in atto le procedure stabilite precedentemente e raccoglie i dati che saranno poi sottoposti all’analisi dei dati. In questa fase di analisi di dati, le osservazioni empiriche raccolte vengono, in genere, codificate in forma numerica e disposte secondo un qualche ordine necessario per permettere l’elaborazione statistica. Dopo aver analizzato statisticamente i dati, il compito del ricercatore è di interpretarli, valutando cioè se i risultati danno supporto o meno all’ipotesi di ricerca e se tale risposta contribuisce ad approfondire la conoscenza del problema. La caratteristica di primaria importanza in questa metodologia è che, indipendentemente dalle credenze e congetture che il ricercatore ha riguardo l'ipotesi in studio, l'esperimento fornisce la base per una valutazione oggettiva dell'ipotesi. 5 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone I risultati così ottenuti e la loro interpretazione andranno dunque ad arricchire il patrimonio di conoscenze su quel determinato fenomeno, e rappresentano la base di partenza per nuovi esperimenti che, oltre ad avere l’obiettivo di contribuire all’avanzamento delle conoscenze, avranno anche il compito di replicare quei risultati. Ed in questo modo il processo di ricerca ricomincia: si ritorna alla tappa iniziale del percorso, ma ad un livello più profondo di conoscenza. 3. Popolazione, campione, parametri e indici statistici La ricerca nelle scienze comportamentali in genere inizia con una domanda generale su uno specifico gruppo (o gruppi) di individui. Ad esempio, un ricercatore potrebbe essere interessato all'effetto dell’attività fisica sullo stato cognitivo delle persone anziane. Oppure un ricercatore potrebbe voler esaminare la quantità di tempo trascorsa in bagno dagli uomini rispetto alle donne. Nel primo esempio, il ricercatore è interessato al gruppo di persone anziane. Nel secondo esempio, il ricercatore vuole confrontare il gruppo di uomini con il gruppo di donne. Nella terminologia statistica, l'intero gruppo di cui un ricercatore desidera studiare un determinato aspetto o comportamento è chiamato popolazione. Ovviamente, la popolazione non è necessariamente composta da persone: potrebbe essere una popolazione di aziende, di topi appartenenti ad una determinata branca genetica o qualsiasi altro gruppo che un ricercatore vuole studiare. Come si può facilmente immaginare, una popolazione può essere piuttosto numerosa, ad esempio l'intero gruppo di anziani o donne e uomini sul pianeta Terra. Un ricercatore potrebbe essere più specifico, limitando la sua domanda di ricerca, ad esempio, alla popolazione delle donne che sono residenti in Italia, oppure potrebbe essere interessato a studiare la popolazione composta da anziani che hanno un’età superiore a 75 anni. Le popolazioni possono, quindi, variare in dimensioni, a seconda di come il ricercatore le definisce, ma sono in genere molto numerose, motivo per cui di solito è impossibile esaminare ogni individuo nella popolazione di interesse. Pertanto, i ricercatori in genere selezionano un gruppo più piccolo e 6 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone più gestibile dalla popolazione di riferimento e limitano i loro studi agli individui nel gruppo selezionato. In termini statistici, un insieme di individui selezionati da una popolazione è chiamato campione. In accordo con questa distinzione, le indagini scientifiche si dividono in due grandi categorie: le indagini totali, che sono decisamente onerose perché richiedono lo studio sistematico di tutti gli individui che appartengono ad una data popolazione, e le indagini campionarie, condotte invece su un campione selezionato. Inoltre, si definisce parametro un certo valore, tipicamente numerico (ad esempio una media), che descrive una qualche caratteristica della popolazione. L’indice statistico è invece il valore corrispondente calcolato però sul campione. È bene specificare che il processo di selezione di un campione dalla popolazione oggetto di studio descrive, in realtà, solo metà della relazione esistente tra campione e popolazione. Infatti, l'obiettivo finale di un’indagine campionaria è di arrivare alla generalizzazione dei risultati ottenuti sul campione all'intera popolazione da cui è estratto. Ricordiamo, infatti, che la ricerca inizia con una domanda sulla popolazione. Per rispondere alla domanda, il ricercatore seleziona e studia un dato campione e mette in atto una serie di procedure per valutare se i risultati ottenuti sul campione possono essere generalizzati all’intera popolazione di riferimento. La relazione circolare tra campione e popolazione è rappresentata nella Figura 1.2. Figura 1.2. Rappresentazione schematica della relazione tra popolazione e campione 7 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone Ovviamente, per poter legittimamente generalizzare i risultati ottenuti sul campione alla popolazione, è necessario che l’indagine campionaria sia condotta nel rispetto delle regole del metodo sperimentale. Innanzitutto, è necessario sempre definire con precisione la popolazione di riferimento. Quali che siano gli esperimenti, lo sperimentatore deve conoscere molto bene quale è la popolazione che i suoi campioni rappresentano. Attribuire i risultati ad una popolazione diversa, in generale più ampia, di quella da cui sono estratti i campioni è un errore molto comune e molto grave. Inoltre, il campione deve essere rappresentativo della popolazione da cui è estratto, altrimenti non avremmo nessuna sicurezza che il risultato ottenuto sul campione possa essere effettivamente esteso a tutta la popolazione. Per essere rappresentativo, il campione selezionato dovrebbe rappresentare “in piccolo” la popolazione che si vuole studiare, dovrebbe dunque avere le stesse caratteristiche della popolazione e nella stessa proporzione. Anche il numero di individuo/unità da selezionare dalla popolazione è un fattore rilevante. Ovviamente, non esistono delle indicazioni universalmente valide per determinare la numerosità del campione, che varia da esperimento in esperimento in funzioni di diversi fattori (ad es. il tipo di variabile che si vuole misurare, l’ampiezza della popolazione di riferimento, eventuali limiti materiali, e così via). Come indicazione generale, possiamo dire che, se la variabile da studiare è misurabile a livello numerico, allora, secondo il teorema del limite centrale, un campione è significativo quando supera le 30 unità. Discuteremo i motivi di questo numero nel modulo sull’inferenza statistica. Per garantire la rappresentatività del campione, la modalità di selezione gioca un ruolo importante e deve seguire delle regole precise. Possiamo suddividere le modalità di estrazione in: - Estrazione completamente casuale: i casi che andranno a comporre il campione sono selezionati dalla popolazione di riferimento in modo completamente casuale. In questo modo, il campione estratto dovrebbe essere uno tra i tanti possibili campioni estraibili e le probabilità che esso sia un campione anomalo sono molto basse e diminuiscono all’aumentare dell’ampiezza del campione; 8 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone - Estrazione casuale stratificata: si suddivide la popolazione in gruppi in funzione di una variabile che è oggetto di studio. Quindi, all’interno di questi gruppi si utilizza un’estrazione casuale dei singoli casi. Ad esempio, se siamo interessati ad indagare le differenze nell’utilizzo di internet da parte di persone di età diversa, si suddividerà la popolazione in “gruppi” di età diverse (giovani, adulti, anziani) e per ciascun gruppo si selezionano in maniera casuale dei campioni che siano omogenei tra loro tranne che per la variabile oggetto di studio, nel nostro esempio specifico “l’età”. Se da una parte l’indagine campionaria è preferibile e più frequentemente impiegata in ricerca per i vantaggi summenzionati, un problema con l'utilizzo dei campioni è che, per quanto possano essere rappresentativi della popolazione di riferimento, essi non forniscono un quadro perfettamente accurato dell'intera popolazione. In genere, infatti, è sempre presente una certa discrepanza tra indici statistici calcolati sul campione e i corrispettivi parametri a livello di popolazione. Questa discrepanza è chiamata errore di campionamento e crea il problema fondamentale che la statistica inferenziale tenta di risolvere. La figura 1.3 illustra graficamente che cosa intendiamo per errore di campionamento. Nella parte alta della figura è rappresentata un’ipotetica popolazione oggetto di studio, cioè tutti gli studenti immatricolati presso la Facoltà di Psicologia dell’Università Cusano nell’anno 2022/2023. Supponiamo che l’intera popolazione sia costituita da 2000 studenti. Nella parte bassa della figura sono rappresentati due campioni ipotetici, ciascuno composto da 25 studenti estratti in maniera completamente casuale dalla popolazione di riferimento. Ovviamente, ogni campione contiene individui diversi che hanno caratteristiche diverse. Poiché le caratteristiche di ciascun campione dipendono dalle persone specifiche che lo compongono, gli indici statistici variano da un campione all'altro. Ad esempio, i 25 studenti del campione #1 hanno un'età media di 21.3 anni e gli studenti del campione #2 hanno un'età media di 23.7 anni. È anche molto improbabile che le statistiche ottenute per un campione siano identiche ai parametri dell'intera popolazione. Nella Figura 1.3, ad esempio, nessuno dei due campioni ha indici statistici esattamente uguali ai parametri della 9 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone popolazione. Ovviamente, la figura 1.3 mostra soltanto due delle centinaia o migliaia di possibili campioni che è possibile estrarre dalla popolazione di riferimento. Ogni campione conterrebbe individui diversi e produrrebbe, di conseguenza, statistiche diverse. Questo è il concetto di base dell'errore di campionamento: le statistiche campionarie variano da un campione all'altro e in genere sono diverse rispetto ai corrispondenti parametri della popolazione. Tuttavia, questa discrepanza non significa necessariamente che esiste una differenza sistematica tra i due gruppi, ma è probabilmente il risultato di fattori casuali. Le differenze imprevedibili e non sistematiche che esistono da un campione all'altro sono un esempio di errore di campionamento. Figura 1.3. Una dimostrazione dell’errore di campionamento. Due campioni sono selezionati dalla stessa popolazione di riferimento. Si noti che gli indici statistici calcolati sul campione sono diversi da un campione all'altro e sono diversi rispetto ai parametri della popolazione da cui sono estratti. 4. Statistica descrittiva e statistica inferenziale Come già accennato nell’introduzione, le diverse procedure statistiche utili per organizzare e interpretare i dati possono essere classificate in due categorie generali. La prima categoria è la statistica descrittiva ed è costituita da un insieme di procedure statistiche che 10 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone consentono di riassumere e organizzare i punteggi grezzi in una forma più gestibile. I metodi impiegati sono sostanzialmente due: il metodo numerico, che si avvale di una serie di indicatori numerici (indicatori di tendenza centrale, di posizione e di dispersione) per sintetizzare le caratteristiche di un campione o di una popolazione, e il metodo grafico, che consente di organizzare in una tabella o illustrare graficamente i punteggi in modo che sia possibile vedere l'intero set di dati ricavati da un campione o da una popolazione. In genere, questi due metodi vengono impiegati congiuntamente. Un esempio comune di statistica descrittiva consiste nel riassumere un insieme di punteggi calcolandone la media. Infatti, anche se il nostro set di dati ha centinaia di punteggi, la media fornisce un unico valore descrittivo per l'intero dataset. La seconda categoria è chiamata statistica inferenziale, un insieme di tecniche che utilizzano i dati raccolti su campioni per fare generalizzazioni sulle popolazioni da cui sono stati selezionati. I metodi utilizzati sono sostanzialmente due: la stima dei parametri, in cui un campione viene utilizzato per stimare i parametri della popolazione, e la verifica delle ipotesi. L'esempio seguente descrive le fasi generali di uno studio di ricerca e mostra come le statistiche descrittive e le statistiche inferenziali vengono utilizzate per organizzare e interpretare i dati. L'esempio mostra anche come l'errore di campionamento può influenzare l'interpretazione dei risultati sperimentali e perché sono necessari metodi statistici inferenziali per affrontare questo problema. Nell’esempio proposto, lo scopo della ricerca è valutare la differenza tra due metodi di insegnamento (metodo A: solo dispense; metodo B: dispense + video-lezioni) sul voto finale di un certo esame nella popolazione di studenti iscritti alla facoltà di Psicologia dell’Università Cusano. A tal proposito, dalla popolazione vengono selezionati due campioni in modo casuale, ciascuno costituito da 25 soggetti. Gli studenti del primo campione vengono assegnati al metodo di insegnamento A (studiano soltanto le dispense) e gli studenti del secondo campione al metodo B (studiano sia le dispense che le video-lezioni). Dopo 2 mesi di studio, a tutti gli studenti viene assegnato un test composto da 30 domande a risposta multipla sugli argomenti del corso. A questo punto, il ricercatore dispone di due insiemi di dati: i punteggi ottenuti al test dagli studenti del primo campione (25 punteggi) e i punteggi ottenuti 11 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone al test dagli studenti del secondo campione (25 punteggi). Ora è il momento di iniziare a utilizzare le statistiche. Innanzitutto le statistiche descrittive, che consentono di semplificare la mole di dati. Ad esempio, il ricercatore potrebbe calcolare il punteggio medio per ciascun campione e/o tracciare un grafico per mostrare come i dati si distribuiscono nei due campioni. In questo esempio, attraverso la statistica descrittiva si potrebbe concludere che gli studenti del primo campione hanno un punteggio medio al test d’esame uguale a 25.5 e gli studenti del secondo campione una media uguale a 27. Una volta che il ricercatore ha descritto i dati ottenuti dai due campioni, il passo successivo è interpretare il risultato ed è qui che la statistica inferenziale entra in gioco. Nell’esempio, il ricercatore ha trovato una differenza di 1.5 punti tra i due campioni (primo campione: media 25.5 e secondo campione: media 27). Il problema che la statistica inferenziale deve affrontare è distinguere tra le due possibili interpretazioni: Interpretazione #1. Non c'è alcuna reale differenza tra i due metodi di insegnamento, e la differenza di 1.5 punti rilevata nel test tra i due campioni è solo un esempio di errore di campionamento (come nei campioni della Figura 1.3); Interpretazione #2. Esiste effettivamente una differenza tra i due metodi di insegnamento e la differenza di 1.5 punti rilevata tra due campioni al test d’esame è stata causata dai diversi metodi di insegnamento (Metodo A vs Metodo B). In altre parole, la differenza di 1.5 punti che è stata rilevata tra i due campioni è indicativa di una differenza tra i due metodi di insegnamento che può essere dunque generalizzata al livello di popolazione, oppure è dovuta solo caso? Lo scopo della statistica inferenziale è rispondere a questa domanda. 5. Variabili e costrutti Nella ricerca psicologica, tipicamente i ricercatori sono interessati allo studio di caratteristiche specifiche degli individui o a fattori esterni che ne possono influenzare il comportamento o gli stati interni. Una qualsiasi caratteristica (fisica o psicologica) che può 12 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone assumere valori diversi in un dato intervallo è detta variabile. Le variabili possono essere caratteristiche che differiscono da un individuo all'altro, come l’altezza, il peso, il sesso, la razza, il colore degli occhi, oppure possono essere condizioni esterne che cambiano, come la temperatura, l'ora del giorno, le dimensioni della stanza in cui viene condotta la ricerca. È evidente che le variabili appena menzionate sono entità concrete ben definite che possono essere osservate e misurate direttamente. C’è da dire, però, che la ricerca in ambito psicologico è incentrata tipicamente sullo studio di caratteristiche interne che le persone usano per descrivere e spiegare il comportamento. Ad esempio, diciamo che uno studente va bene a scuola perché è intelligente, oppure diciamo che qualcuno è ansioso perché mette in atto determinati comportamenti nelle situazioni sociali. Le variabili, come appunto l’intelligenza e l’ansia, sono chiamate costrutti perché sono caratteristiche interne, astratte e intangibili, che dunque non possono essere direttamente osservate e misurate. Se da una parte non è possibile osservare e misurare direttamente un costrutto, è possibile osservare e misurare dei comportamenti che sono rappresentativi del costrutto (indicatori). Non possiamo "vedere" l'intelligenza o l’ansia, ma possiamo vedere comportamenti indicativi di intelligenza o ansia. I comportamenti esterni possono, quindi, essere utilizzati per creare una definizione operativa del costrutto. L’operazionalizzazione, cioè il processo di definizione operativa del costrutto per cui esso viene tradotto in comportamenti esterni osservabili e misurabili direttamente nella realtà, è un passaggio fondamentale nella ricerca psicologica perché consente di passare dal costrutto teorico alla variabile empirica. Il disgusto è un costrutto teorico che può essere osservato e misurato analizzando le alterazioni della muscolatura facciale, ossia traducendolo in un comportamento empirico. Allo stesso modo l’ansia, costrutto teorico, può essere misurata, ad esempio, in termini di frequenza cardiaca, variabile empirica. 6. Misurazione e scale di misura Per dimostrare i cambiamenti nelle variabili, è necessario effettuare delle misurazioni. In psicologia, la misurazione consiste in un processo descrittivo che consente di dare una 13 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone valutazione, possibilmente numerica, del grado o della quantità di una determinata caratteristica (la variabile oggetto di studio per l’appunto) in un individuo o in un gruppo di individui. Ad esempio, un ricercatore potrebbe essere interessato a valutare le ore che mediamente uno studente universitario dedica al giorno per studiare: le “ore di studio giornaliere” è una variabile, perché appunto può variare da individuo a individuo; tale variabile può avere valori che vanno da 0 a 24 ore, e il valore della risposta di un determinato individuo rappresenta il suo punteggio. Se un certo studente dedica 3 ore al giorno allo studio, allora 3 è il suo punteggio sulla variabile chiamata "ore di studio giornaliere". La misura ottenuta per ogni individuo è chiamata dato o, più comunemente, punteggio o punteggio grezzo, mentre l'insieme di tutti i punteggi del campione (o della popolazione) è chiamato data set. Dunque, la raccolta dei dati richiede di effettuare misurazioni delle nostre osservazioni e la misurazione implica l'assegnazione di individui o eventi a categorie. Le categorie possono essere semplicemente nomi, come uomo/donna o occupato/disoccupato, oppure possono essere valori numerici. Le categorie utilizzate per misurare una variabile costituiscono una scala di misurazione e le relazioni tra le categorie determinano diversi tipi di scale. Le distinzioni tra le scale sono importanti perché identificano i limiti di alcuni tipi di misurazioni e il perché alcune procedure statistiche sono appropriate per i punteggi che sono misurati su alcune scale ma non su altre. Esaminiamo quattro diverse scale di misura, partendo dalla più semplice alla più sofisticata. Scala nominale. La misurazione su scala nominale comporta la classificazione degli individui in categorie che hanno nomi diversi e non sono correlate tra loro in modo sistematico. Esempi di scale nominali includono la classificazione delle persone per sesso (maschio, femmina), etnia (caucasico, asiatico, ecc.), stato civile (celibe, nubile, coniugato, ecc.), tipo di studi intrapresi (psicologia, ingegneria, lettere, biologia, giurisprudenza, ecc.). Le misurazioni su scala nominale consentono di determinare se due individui sono diversi, ma non identificano né la direzione né l'entità della differenza. In un gruppo di studenti universitari classificati in funzione della facoltà frequentata, possiamo dire che uno studente è iscritto alla facoltà di 14 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone Lettere e un altro a quella di Ingegneria, ma non possiamo dire che Lettere è "più di" o "meno di" Ingegneria e non possiamo specificare quanta differenza ci sia tra le due categorie. Scala ordinale. Le categorie che compongono una scala ordinale non solo hanno nomi diversi (come in una scala nominale) ma sono anche organizzate in una sequenza ordinata in termini di dimensioni o grandezza. Alcuni esempi di scale ordinali includono la classificazione delle persone per età (giovane, adulto, anziano), per valutazione di merito (insufficiente, sufficiente, discreto, buono, ottimo) oppure per taglia indossata (small, medium, large, extra- large). Con le misurazioni su scala ordinale, è possibile determinare se due individui sono diversi e la direzione della differenza. Ad esempio, se in un torneo di atletica Mario viene inserito nella categoria “pesi massimi” e Luca nel gruppo “pesi medi”, possiamo stabilire non solo che Mario e Luca sono diversi, ma anche l’ordine in funzione dell’intensità della variabile (Mario > Luca). Tuttavia, le misurazioni ordinali non consentono di determinare la dimensione della differenza tra due individui, per cui nel nostro esempio non è possibile stabilire quanto Mario è “maggiore di” Luca. Scala a intervalli: La scala ad intervalli, alle due caratteristiche della scala ordinale (differenza e ordine), aggiunge quella di misurare le distanze o le differenze tra le coppie di valori. Essa, infatti, si fonda su una misura oggettiva e costante, anche se il punto di origine e l'unità di misura sono arbitrari. Esempi classici di scale ad intervalli sono la temperatura (misurata in gradi Celsius o Fahrenheit). Valori di temperatura, oltre a poter essere facilmente ordinati secondo l’intensità del fenomeno, godono della proprietà che le differenze tra loro sono direttamente confrontabili e quantificabili. Un limite della scala a intervalli è la natura del punto zero. Una scala di intervallo ha, infatti, un punto zero arbitrario, per cui il valore 0 viene assegnato a una posizione particolare sulla scala semplicemente per comodità o riferimento, ma non indica una totale assenza della variabile misurata. Ad esempio, una temperatura di 0° Fahrenheit non significa che non ci sia temperatura e non vieta che la temperatura si abbassi ancora. 15 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone Scala a rapporti: La scala di rapporti ha il vantaggio di avere un’origine reale, per cui è ancorata a un punto zero che non è arbitrario ma è piuttosto un valore significativo che rappresenta un'assenza completa della variabile misurata. L'esistenza di un punto zero assoluto e non arbitrario significa che possiamo misurare l'importo assoluto della variabile, cioè possiamo misurare la distanza da 0. Ciò rende possibile confrontare le misurazioni in termini di rapporti. Ad esempio, un individuo che impiega 10 secondi per risolvere un problema (10 in più di 0) ha impiegato il doppio del tempo di un individuo che termina in soli 5 secondi (5 in più di 0). Ne consegue che, con una scala a rapporti, possiamo misurare la direzione e la dimensione della differenza tra due misurazioni e possiamo descrivere la differenza in termini di rapporto. Le scale dei rapporti sono abbastanza comuni e includono misure fisiche come altezza e peso, variabili come il tempo di reazione, il numero di errori in un test, o più in generale, tutte quelle misure in cui 0 (zero) significa quantità nulla. 7. Classificazione delle variabili Nell’analisi statistica, già al primo approccio occorre porre sempre molta attenzione alle caratteristiche dei dati, poiché da esse dipendono sia i metodi di descrizione che la tipologia di test che è possibile applicare. In termini generali, le variabili in uno studio possono essere classificate in funzione di due parametri: il livello di precisione della misurazione e il ruolo che hanno all’interno dell’esperimento. In funzione del primo parametro, possiamo differenziare le variabili discrete, che sono costituite da numeri o categorie separate e indivisibili, e le variabili continue, che invece possono assumere, nel loro range di variazione, qualsiasi valore numerico reale. Le variabili discrete sono comunemente limitate a numeri interi e indivisibili, ad esempio il numero di bambini in una famiglia o il numero di abitanti di un paese. Se osserviamo la frequenza giornaliera di studenti che visionano le video-lezioni, possiamo contare 28 studenti un giorno e 29 studenti il giorno successivo. Tuttavia, non è mai possibile osservare un valore compreso tra 28 e 29. Una variabile discreta può anche consistere in osservazioni che 16 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone differiscono qualitativamente. Ad esempio, le persone possono essere classificate per sesso (maschio, femmina), per professione (medico, insegnante, impiegato, ecc.), per specializzazione accademica (biologia, chimica, filosofia ecc.). In ogni caso, la variabile è discreta perché è costituita da categorie separate e indivisibili. D'altra parte, molte variabili come il tempo, l’altezza, il peso, non sono limitate a un insieme fisso di categorie separate e indivisibili ma possono essere suddivise in un numero infinito di parti frazionarie, per cui sono dette continue. Il peso di una persona è un esempio di variabile continua, perché può essere espressa in un numero infinito di valori possibili che rientrano tra due valori osservati (ad esempio 61 kg, 61.7 kg, 61.73 kg, in funzione della precisione dello strumento di misurazione utilizzato e del livello di approssimazione adottato dal ricercatore). In funzione del secondo parametro (il ruolo svolto all’interno dell’esperimento), possiamo differenziare le variabili indipendenti (quelle che sono manipolate dallo sperimentatore) e le variabili dipendenti (quelle che sono osservate e misurate dallo sperimentatore, cioè i dati). Nella ricerca psicologica lo sperimentatore è interessato a misurare gli effetti di variabili indipendenti su variabili dipendenti. Ad esempio, uno psicologo può misurare il numero di comportamenti aggressivi negli adolescenti depressi e non depressi. Qui lo stato di depressione è la variabile indipendente e il numero di atti aggressivi è la variabile dipendente. Oppure, riprendendo l’esempio che abbiamo fatto in precedenza (cfr. paragrafo 4 “Statistica descrittiva e statistica inferenziale”), il metodo di insegnamento (metodo A e metodo B) è la variabile indipendente, mentre la prestazione all’esame (il punteggio ottenuto al test di valutazione) è la variabile dipendente. Le variabili indipendenti possono essere sia qualitative (ad esempio, un confronto tra due diverse forme di psicoterapia) che quantitative (ad esempio, un confronto degli effetti di una, tre o cinque unità di caffeina), mentre le variabili dipendenti sono generalmente, ma certamente non sempre, quantitative. 17 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone In una ricerca, si riconoscono anche variabili che possono creare confusione nella relazione tra variabile indipendente e dipendente. Ci riferiamo, a questo proposito, alle variabili confuse (o confondenti operazionali), cioè variabili non previste teoricamente dal ricercatore, e dunque non controllate, che covariano con la variabile indipendente perché sono intrinsecamente associate ad essa o alla sua operazionalizzazione, e alle variabili di disturbo (o confondenti procedurali), che sono estranee alla variabile indipendente, ma covariano con essa a causa, in genere, di errori metodologici del ricercatore (cosiddetti artefatti) nella pianificazione e messa in atto delle procedure di ricerca. 8. I disegni di ricerca in psicologia Nell’ambito della ricerca scientifica quantitativa, un possibile criterio di classificazione dei metodi di ricerca utilizzati in psicologia è basato essenzialmente sul grado di controllo che il ricercatore esercita sulla situazione in cui si manifesta il fenomeno oggetto di studio e sulla possibilità di minimizzare gli effetti di disturbo. Il grado di controllo può, infatti, essere massimo quando è il ricercatore stesso che “produce” il fenomeno (es. in laboratorio), o minimo quando la natura del fenomeno è tale che può essere osservato solo in condizioni che il ricercatore non può influenzare in alcun modo. In tal senso, è possibile tracciare un continuum che, dal minor al maggiore controllo esercitato dal ricercatore, contempla: i metodi descrittivi, i metodi correlazionali, il metodo quasi-sperimentale e il metodo sperimentale. Alcuni studi di ricerca sono condotti semplicemente per descrivere le singole variabili per come esistono naturalmente. Ad esempio, un funzionario universitario potrebbe condurre un sondaggio per descrivere le abitudini alimentari, del sonno e di studio di un gruppo di studenti universitari. In questo caso, il grado di controllo è nullo. C’è da dire, però, che la maggior parte delle ricerche ha lo scopo di esaminare le relazioni tra due o più variabili. Ad esempio, c'è una relazione tra la quantità di violenza che i bambini vedono in televisione e frequenza dei comportamenti aggressivi che mostrano? Esiste una 18 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone relazione tra la qualità dell’alimentazione e il livello di rendimento scolastico dei bambini delle scuole elementari? C'è una relazione tra le ore di sonno e la media dei voti degli studenti universitari? Per stabilire l'esistenza di una relazione, i ricercatori devono fare osservazioni, cioè misurazioni delle variabili d’interesse. Uno studio di ricerca che misura semplicemente due diverse variabili osservate per determinare se esiste una relazione effettiva tra loro è chiamato metodo correlazionale. I risultati di uno studio correlazionale possono dimostrare l'esistenza di una relazione tra due variabili, ma non forniscono una spiegazione per tale relazione in termini di causa e effetto. Un secondo metodo per esaminare la relazione tra due variabili prevede il confronto di due o più gruppi di soggetti. In questa situazione, la relazione tra variabili viene esaminata utilizzando una delle variabili (la variabile indipendente) per definire i gruppi, e misurando la seconda variabile (la variabile dipendente) per ottenere dei punteggi per ciascun gruppo. Per chiarire questo punto, consideriamo l’esempio seguente. Un gruppo di bambini delle scuole elementari viene suddiviso in maniera casuale in due gruppi di pari dimensioni: al primo gruppo viene mostrato un programma televisivo di 30 minuti che mostra numerosi casi di violenza; al secondo gruppo viene mostrata un filmato sempre di 30 minuti che però non include alcuna scena di violenza. Entrambi i gruppi vengono successivamente osservati in una stanza giochi e il ricercatore registra il numero di atti aggressivi commessi da ciascun bambino utilizzando una specifica griglia di valutazione. Il ricercatore confronta, quindi, i punteggi del primo gruppo (violenza) con i punteggi del secondo gruppo (non violenza). Una differenza sistematica tra i due gruppi può fornire una prova significativa della relazione tra visione della violenza in televisione e comportamento aggressivo nei bambini delle scuole elementari. Un metodo di ricerca come questo, che prevede il confronto di gruppi di punteggi, è noto come metodo sperimentale. L'obiettivo di uno studio sperimentale è dimostrare una relazione di causa ed effetto tra due variabili. In particolare, un esperimento tenta di dimostrare che la modifica del valore della variabile indipendente (livelli della variabile indipendente = violenza, non violenza) provoca cambiamenti nella variabile dipendente (numero di comportamenti 19 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone aggressivi). Per raggiungere questo obiettivo, garantendo il massimo grado di controllo sulle condizioni in cui avviene l’osservazione del fenomeno oggetto di studio, il metodo sperimentale ha due caratteristiche che differenziano gli esperimenti da altri tipi di studi di ricerca: - La manipolazione: il ricercatore manipola la variabile indipendente e ne definisce completamente i livelli, che saranno assegnati ai gruppi di soggetti in base ad un preciso disegno. La variabile dipendente viene osservata (misurata) per determinare se la manipolazione può essere la causa delle modifiche. - Il controllo: il ricercatore deve esercitare un controllo sulla situazione di ricerca per assicurarsi che altre variabili estranee non influenzino la relazione in esame. In linea di principio, tutte le altre variabili che potrebbero influire sulla variabile dipendente devono essere tenute sotto controllo. Per dimostrare queste due caratteristiche, riprendiamo il nostro esempio precedente. Nell’esperimento, il ricercatore ha manipolato la variabile indipendente suddividendo il campione in due gruppi e assegnando ciascuno di essi ad un livello della variabile indipendente (primo gruppo = visione del video violento; secondo gruppo = visione del video non violento). Per poter dire che la differenza nella quantità di comportamenti aggressivi è causata dalla visione di scene violente, il ricercatore deve escludere qualsiasi altra possibile spiegazione. Deve, cioè, controllare tutte le altre possibili variabili che potrebbero influenzare la produzione di comportamenti aggressivi. In generale, ci sono due categorie di variabili di disturbo che i ricercatori devono considerare: Le variabili concorrenti. Si tratta di caratteristiche come l'età, il sesso, l'intelligenza, che variano da un individuo all'altro. Ogni volta che un esperimento confronta diversi gruppi di partecipanti, il ricercatore deve assicurarsi che le variabili dei partecipanti non differiscano da un gruppo all'altro. Supponiamo, ad esempio, che nell’esperimento precedente il gruppo di bambini che visionava il filmato violento fosse costituito per il 90% da femmine, mentre il gruppo che visionava il video non violento fosse costituito per il 90% da maschi. In questo caso, c'è una spiegazione alternativa per i risultati oltre alla variabile indipendente: è possibile, infatti, 20 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone che la differenza nel numero di comportamenti aggressivi sia stata causata dal sesso dei partecipanti. In questo caso, si dice che lo studio è confuso perché contempla più di una spiegazione per i risultati ed è quindi impossibile raggiungere una conclusione univoca. Variabili ambientali. Queste sono le caratteristiche dell'ambiente come l'illuminazione, l'ora del giorno e le condizioni meteorologiche. Il ricercatore deve assicurarsi che gli individui dei due gruppi siano testati nello stesso ambiente e nelle stesse condizioni, altrimenti, anche in questo caso, le differenze ambientali e contestuali potrebbero essere la causa delle differenze misurate nei due gruppi, producendo un esperimento confuso. I ricercatori hanno a disposizione diverse tecniche di base per controllare le altre variabili in un esperimento. Una di queste è sicuramente l'assegnazione casuale, il che significa che ogni partecipante ha la stessa probabilità di essere assegnato a ciascuna delle condizioni. In questo modo, le caratteristiche dei partecipanti dovrebbero distribuirsi in modo uniforme tra i due gruppi, con un effetto che è direttamente proporzionale alla numerosità del campione. L'assegnazione casuale può essere utilizzata anche per controllare le variabili ambientali. Ad esempio, i partecipanti potrebbero essere assegnati in modo casuale per i test al mattino o al pomeriggio. Ovviamente, il processo di ricerca non termina qui. Una volta stabilita una significativa relazione di causalità tra la variabile indipendente e la variabile dipendente, nasce il problema se tale relazione sia generalizzabile all’intera popolazione da cui il campione è stato estratto e alle condizioni quotidiane in cui di solito il fenomeno si presenta (quindi all’esterno del laboratorio in cui è stato condotto l’esperimento). Ma affronteremo queste problematiche nei prossimi moduli. È importante chiarire che il termine esperimento si applica solo agli studi che soddisfano i requisiti specifici delineati in precedenza. Come abbiamo visto, infatti, un esperimento deve comprendere la manipolazione di una variabile indipendente e il controllo rigoroso di altre variabili estranee. Ci sono, tuttavia, una serie di altri metodi di ricerca che non sono veri esperimenti ma esaminano comunque la relazione tra variabili confrontando gruppi di punteggi. 21 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone Questo tipo di studio di ricerca è classificato come quasi sperimentale. Si tratta di ricerche in cui, nonostante sia attuato un alto grado di controllo delle variabili di disturbo, il ricercatore non ha il completo controllo della variabile indipendente, perché non è direttamente manipolabile dal ricercatore (es. sesso, età, istruzione, status socio-economico) oppure perché la variazione si è già realizzata prima dell’osservazione (es. esposizione ad un certo fattore di rischio). Un esempio di uno studio quasi-sperimentale consiste nel confrontare un gruppo di bambini e un gruppo di bambine di scuola elementare (variabile indipendente = sesso) in un test di lettura ad alta voce (variabile dipendente). Si noti che questo studio prevede il confronto di due gruppi di punteggi, esattamente come in un esperimento. È evidente, tuttavia, che il sesso (maschio, femmina) non è variabile manipolabile: tutti i maschi devono essere nel gruppo dei maschi e tutte le femmine devono essere nel gruppo delle femmine. In queste situazioni si parla di quasi-esperimento, perché l’assegnazione dei soggetti ai gruppi sperimentali, e quindi alle diverse condizioni sperimentali, non può essere effettuata dal ricercatore prima dell’esperimento, e quindi secondo un processo di randomizzazione. Spesso gli esperimenti e i quasi-esperimenti includono una condizione di controllo, che ha lo scopo di fornire una baseline per il confronto con la condizione sperimentale. Definiamo questo concetto con un esempio pratico. Un ricercatore interessato ad indagare l’effetto di un nuovo farmaco anticolinesterasico sullo stato cognitivo dei pazienti affetti da demenza, potrebbe reclutare un dato campione dalla popolazione d’interesse e suddividerlo in due gruppi, somministrando il farmaco ad uno di essi e un placebo all’altro. Dopo un certo numero di somministrazioni del farmaco e del placebo, il ricercatore, come misura dello stato cognitivo generalizzato, potrebbe somministrare all’intero campione un test neuropsicologico, ad esempio il Mini-Mental State Examination, e confrontare i punteggi ottenuti al test dagli individui trattati col farmaco e dagli individui che hanno ricevuto il placebo. L'obiettivo di questo tipo di esperimento è dimostrare che il trattamento ha un effetto, mostrando che i punteggi nella condizione di trattamento sono sostanzialmente diversi dai punteggi nella condizione di non trattamento. In questo tipo di ricerca, la condizione di non trattamento o 22 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone placebo è chiamata condizione di controllo e la condizione di trattamento è chiamata condizione sperimentale. 9. L’errore di misurazione L’errore, inteso nel senso moderno di imprecisione fra una data misurazione e il “vero” valore di quella grandezza, è un concetto relativamente moderno. Innanzitutto, è utile precisare che l’errore, in statistica, non è uno sbaglio, come si potrebbe pensare riferendoci al senso comune, ma è inteso come la distanza, o scarto, fra il risultato di una misura e il valore vero, che deriva dall’intrinseca imprecisione del processo di misurazione. Ogni misurazione è, infatti, influenzata da imperfezioni dello strumento, del metodo di misura, dell'ambiente e dell'osservatore, influenze che possono anche variare nel tempo e che determinano una certa quota di errore nella misura rispetto al valore vero. Ovviamente, si tratta di un concetto idealizzato, dal momento che gli errori non possono essere conosciuti esattamente in quanto non sono noti i valori veri. Dunque, ogni qual volta che eseguiamo una misura, dobbiamo aspettarci un errore sulla misura ottenuta. Da ciò consegue che, in ogni misura, sono riconoscibili due componenti: una componente vera e una componente di errore. Il punteggio di un certo soggetto “i” in una certa variabile “x” è il risultato di due parti: una parte vera più un margine di errore. La formula è la seguente: xi = vi + ei Esistono due tipologie di errore, la cui somma è uguale all’errore totale su ogni misura: - Errori sistematici: sono solitamente legati a cause di errore intrinseche al processo di misurazione per cui sono errori costanti, che si ripetono sistematicamente ad ogni misura effettuata e in un’unica direzione (sempre in eccesso o in difetto). Se utilizziamo una bilancia starata di 0.5 kg in eccesso, allora tutte le misurazioni avranno un errore in eccesso di 0.5 kg. Essendo generalmente insiti nello strumento di misura, gli errori sistematici si verificano anche se il processo di misurazione viene 23 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone ripetuto più volte. Non possono essere eliminati totalmente, ma ridotti identificandone la causa e applicando delle correzioni numeriche per compensarne l'effetto. - Errori casuali: sono riconducibili a fenomeni casuali e, dunque, incontrollabili, che variano in modo imprevedibile da una misura all’altra influenzando il risultato qualche volta in eccesso, qualche altra volta in difetto. Questo comporta che, quando misuriamo più volte la stessa grandezza, non otteniamo mai lo stesso valore, ma piuttosto i valori cambiano di volta in volta, generando dispersione. Si ritiene che gli errori casuali possano causare con uguale probabilità sovrastime e sottostime del valore reale. Da ciò consegue che, sebbene non sia possibile eliminarli completamente, con un numero sufficiente di misurazioni è possibile individuare gli errori casuali: ci si aspetta, infatti, che all’aumentare delle misurazioni, le singole discrepanze tra misure (alcune positive e altre negative) si annullino reciprocamente. Chiarito cosa intendiamo per errore in statistica e la distinzione tra le due tipologie, approfondiremo la trattazione nel prossimo modulo, parlando della teoria degli errori e della distribuzione normale, anche detta curva degli errori accidentali, cioè di quegli errori che si commettono misurando più volte, in via indipendente e con il medesimo grado di accuratezza, una certa grandezza, appunto gli errori casuali. 10. La presentazione della ricerca Come specificato all’inizio del modulo, l’ultima fase del processo di ricerca consiste nella comunicazione dei risultati. La possibilità di rendere pubblici i risultati di una ricerca è un aspetto fondamentale per il progresso di qualsiasi disciplina scientifica, perché consente di sommare le esperienze e confrontare i risultati di ricerche diverse, condotte sia in condizioni simili che volutamente differenti, favorendo, in ultima analisi, l’accumulo delle conoscenze, la formulazione di nuove ipotesi e la verifica di teorie già divulgate. 24 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone La pubblicazione di un articolo scientifico su una rivista prestigiosa è sicuramente uno degli obiettivi più ambiti dal ricercatore. Per pubblicare i risultati di una ricerca, tutte le riviste scientifiche del settore richiedono che la presentazione della ricerca, dei dati e della loro interpretazione alla luce della letteratura esistente seguano criteri standard e ben specificati. È richiesto, in particolare, che tutte le fasi del processo di ricerca (l’ipotesi sperimentale, la definizione della popolazione, il reclutamento del campione, le procedure adottate in fase di raccolta e analisi dei dati, il riepilogo e l’interpretazione degli stessi) siano descritte e codificate fin nei minimi dettagli. Solo in questo modo, infatti, diviene possibile la verifica dei risultati da parte di altri studiosi ed il confronto con altre ricerche ed analisi del settore. La replicabilità di uno studio è, infatti, un aspetto fondamentale del metodo scientifico e, affinché i dati di un esperimento possano essere replicati, è necessario fornire un resoconto dettagliato dei metodi utilizzati. Al fine di facilitare la lettura e la corretta comprensione della ricerca e dei risultati, le riviste scientifiche richiedono agli autori di seguire uno schema preciso per divulgare i loro studi. In linea di massima, lo schema da seguire è fondato sullo sviluppo di quattro elementi. Una introduzione, in cui viene presento in modo accurato l'argomento oggetto di studio, la letteratura specifica e i lavori scientifici pregressi condotti su quel dato argomento, le ipotesi di ricerca e i risultati attesi dal ricercatore (le cosiddette prediction). Lo stile linguistico utilizzato è di tipo argomentativo e interpretativo; I materiali e metodi, in cui sono riportate con grande dettaglio le informazioni e le modalità con cui la ricerca è stata condotta, in modo che un qualsiasi altro ricercatore, seguendo le indicazioni fornite, possa replicare la ricerca stessa. Lo stile linguistico adeguato è descrittivo e schematico. Questa parte è generalmente suddivisa in sottosezioni, in cui vengono descritte le caratteristiche dei soggetti, le modalità di reclutamento e raccolta dati, le misure e gli strumenti di misurazione, le procedure, il disegno di ricerca e il tipo di analisi statistica definiti in funzione delle ipotesi che si intendono verificare, del tipo di scala con cui sono state misurate le variabili e delle caratteristiche statistiche della distribuzione dei dati. 25 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone I risultati, in cui vengono riportati gli output delle analisi statistiche, che consentono di dare una risposta alle ipotesi iniziali. Lo stile linguistico utilizzato è descrittivo e fattuale, non interpretativo. Qui vengono riportati gli indici descrittivi (medie, deviazioni standard, percentuali, frequenze, ecc.), gli indici delle analisi statistiche eseguite (ad esempio, t-test, chi- quadrato, F di Fisher, ecc., con i relativi gradi di libertà e livello di significatività) e le eventuali rappresentazioni dei dati (tabelle e grafici); La discussione, in cui i risultati ottenuti dai test statistici vengono interpretati in termini di significato, per far emergere un quadro complessivo da confrontare sia con le ipotesi iniziali formulate dal ricercatore e descritte nell’introduzione che con la letteratura preesistente su quel dato fenomeno di studio, in modo da poter discutere di eventuali concordanze o discordanze con i risultati già pubblicati. Lo stile linguistico, dunque, è necessariamente argomentativo e interpretativo. È in questa sezione che vengono, inoltre, discusse le possibili limitazioni della ricerca e le prospettive per nuovi studi futuri. 11. Cenni di notazione statistica Arrivati a questo punto della trattazione, sarà sicuramente chiaro che le misurazioni ottenute negli studi di ricerca forniscono i dati su cui verranno condotte le analisi statistiche. Di solito, si utilizza un insieme di dati (o dataset) che deriva dalla misurazione di una o più variabili a livello campionario o, occasionalmente, di popolazione. In termini statistici, è utile lasciare che i simboli rappresentino le variabili misurate nello studio. Tipicamente, si utilizza la lettera maiuscola romana X per indicare la variabile misurata, e la lettera Y se lo studio prevede la misurazione di una seconda variabile. Quindi, se dovessimo misurare, ad esempio, l'età di un gruppo di soggetti, utilizzeremo la lettera X per indicare la variabile "età". Nel caso in cui fossimo interessati anche a misurare il peso dello stesso gruppo di soggetti, utilizzeremo la lettera Y per indicare la variabile “peso”. La lettera N viene utilizzata per indicare il numero di soggetti su cui è stata misurata la variabile (o le variabili). Si utilizza la lettera N maiuscola per definire il numero di punteggi in una popolazione e la lettera n minuscola per definire il numero 26 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone di punteggi in un campione. Nel nostro esempio, se misuriamo la variabile “età” in un campione di 7 soggetti, allora scriveremo n=7. L’insieme dei punteggi che vengono collezionati per ogni data variabile può essere presentato in una colonna intestata con la lettera della variabile. Questo processo è illustrato nelle tabelle seguenti, che mostra, appunto i punteggi di ogni singolo soggetto all’interno del campione (n = 7) sulla variabile X, cioè l’età e sulla variabile Y, cioè il peso. Ovviamente, la tabella a sinistra si riferisce al caso in cui una sola variabile è misurata, la tabella a destra si riferisce al caso in cui si effettuano osservazioni per due variabili, per cui ci saranno due punteggi per ogni individuo del campione. Quando ci sono più valori della variabile, è importante distinguerli e questo è possibile indicizzando il simbolo della variabile. Nello specifico, possiamo riferirci ad ogni singolo punteggio del dataset assegnando un pedice a X (o Y se sono due variabili), che corrisponde al numero del soggetto che ha ottenuto quel dato valore specifico. Osserviamo la tabella: il primo soggetto ha un’età di 24 anni e un peso di 67 kg, allora scriveremo X1=24 e Y2=67; il secondo soggetto del campione ha un’età di 26 anni e un peso di 75 kg, allora scriveremo X2=26 e Y2=75; e così via fino all’ultimo soggetto del nostro ipotetico dataset, il soggetto 7, che ha un’età di 23 anni e un peso di 59 kg, per cui scriveremo X7=23 e Y7=59. 27 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge Corso di Tecniche di ricerca e analisi dei dati Prof. Maria Stefania De Simone Riassumendo, nella notazione statistica: X o Y sono usati per indicare la/e variabile/i misurata/e. N sta per il numero totale soggetti su cui è misurata la variabile. Xi o Yi è l'i-esimo punteggio, dove i può variare da 1 a N. 28 Revisione in data 01/12/2022 È vietato copiare e riprodurre il presente documento se non nei limiti di legge