Tecniche Quantitative di Analisi PDF

Document Details

Uploaded by Deleted User

Maurizio Pisati

Tags

social science research methods quantitative analysis social phenomena research techniques

Summary

This document provides an overview of quantitative analysis techniques, focusing on identifying, analyzing, and evaluating various social and human phenomena. It details the course structure, including teaching methods (lectures and exercises) and two exam options (participatory and standard). The document also explores research techniques, data collection, and data analysis, specifically touching upon the roles of properties, states, and units in social research.

Full Transcript

PRESENTAZIONE DEL CORSO Prof Maurizio Pisati Obiettivo del corso Fornire un insieme di strumenti concettuali e pratici per identificare, analizzare, valutare e formulare enunciati quantitativi cioè espressioni linguistiche che - esplicitamente, implicitamente, direttamente o indirettamente, totalme...

PRESENTAZIONE DEL CORSO Prof Maurizio Pisati Obiettivo del corso Fornire un insieme di strumenti concettuali e pratici per identificare, analizzare, valutare e formulare enunciati quantitativi cioè espressioni linguistiche che - esplicitamente, implicitamente, direttamente o indirettamente, totalmente o parzialmente, - descrivono la realtà mediante una o più quantità di interesse Realtà di interesse Fenomeni sociali umani Organizzazione del corso Il corso si articola in 56 ore di lezione in presenza. Ogni lezione prevede una prima parte in cui vengono presentati i contenuti di interesse (modalità erogativa) e una seconda parte che prevede esercitazioni individuali o di gruppo, presentazioni e discussioni da parte delle studentesse e degli studenti (modalità interattiva). La parte dedicata alla modalità erogativa e quella dedicata alla modalità interattiva variano da lezione a lezione. Nel complesso, circa il 60% del tempo è dedicato alla modalità erogativa, mentre il 40% del tempo è dedicato alla modalità interattiva. L'esame può essere svolto in due modi. Modalità partecipativa: consiste nell'effettuare una serie di esercitazioni individuali o di gruppo durante il corso e nel presentarne i risultati in forma orale (durante le lezioni) o scritta, secondo le indicazioni di volta in volta fornite dal docente. Ciascuna esercitazione riceverà una valutazione; nel loro insieme, tutte le valutazioni concorreranno alla determinazione del voto finale. L'accesso a questa modalità di esame richiede la partecipazione regolare e attiva alle lezioni, che sarà accertata mediante la registrazione delle presenze. Modalità standard: consiste nel sostenere una prova scritta che richiede di rispondere a venti domande (diciotto a scelta multipla e due aperte) su argomenti tratti dai materiali didattici. Le risposte alle domande a scelta multipla saranno valutate 1.5 punti se corrette, 0 punti se errate; le risposte alle domande aperte saranno valutate da 0 a 3 punti. Il voto della prova sarà pari alla somma dei punti conseguiti in tutte le domande, arrotondata per eccesso (primo decimale uguale o superiore a 5) o per difetto (primo decimale inferiore a 5) al numero intero più vicino; le somme arrotondate pari a 31 saranno equiparate al voto 30/30, mentre quelle pari a 32 o 33 saranno equiparate al voto 30 e lode. Il tempo disponibile per la prova è di 40 minuti. Testi Un libro sul ragionamento critico e il metodo scientifico: Polidoro M., Pensa come unə scienziatə. Come coltivare l’arte del dubbio, Milano, PIEMME, 2021. Un libro sull’analisi quantitativa dei dati: Corbetta P., Gasperoni G. e Pisati M., Statistica per la ricerca sociale, Bologna, il Mulino, 2001, capitoli 1-7. Altri materiali: in base alle necessità potranno essere utilizzati ulteriori materiali di esame (testi o video) che, nel caso, saranno resi disponibili nella pagina e-learning del corso nella sezione Materiali didattici. 1 1. RILEVAZIONE DELLE INFORMAZIONI Interrogativi di ricerca, rilevazione di informazioni e analisi dei dati Il ricercatore sociale si pone degli interrogativi e cerca di formulare risposte, basando queste ultime per quanto possibile su riscontri con la realtà. Per rispondere a questi interrogativi, il ricercatore si avvale spesso di tecniche. Una tecnica è un «complesso più o meno codificato di norme e modi di procedere, riconosciuto da una collettività, trasmesso o trasmissibile per apprendimento, elaborato allo scopo di svolgere una data attività manuale o intellettuale di carattere ricorrente». Una tecnica si distingue, dunque, per la presenza dei seguenti elementi: - la codificazione, - la condivisione da parte di una comunità, - la possibilità di insegnarne il funzionamento - il carattere ricorrente dei problemi per la soluzione dei quali la tecnica è stata sviluppata. Si può utilmente distinguere tra fase di rilevazione e fase di analisi, e dunque fra tecniche di rilevazione e tecniche di analisi. Fase di rilevazione - definire gli interrogativi di ricerca, ossia i problemi cognitivi da risolvere - scegliere il luogo, il periodo e il tipo di oggetto su cui indagare, - individuare gli specifici oggetti di cui si vogliono conoscere alcune caratteristiche, - decidere attraverso quali operazioni pratiche rilevare queste caratteristiche - registrazione in qualche forma i risultati di queste rilevazioni. In breve, le tecniche di rilevazione sono le procedure mediante le quali si producono i dati che successivamente verranno sottoposti ad analisi. La successiva fase di analisi presuppone dunque l'esistenza dei dati, e consiste nella loro elaborazione al fine di acquisire elementi conoscitivi intorno alla realtà. La statistica si situa in questa fase: essa è costituita da un insieme di tecniche per l'analisi dei dati. Sia le tecniche di rilevazione sia quelle di analisi comportano una semplificazione della realtà: nella rilevazione si selezionano soltanto alcuni elementi della realtà da studiare, e le relative informazioni possono prendere la forma di dati; questi ultimi vengono manipolati e ulteriormente sintetizzati dall'analisi. La scelta delle tecniche di rilevazione e di analisi da adottare dipende: - dalla natura del problema cognitivo affrontato, - dal numero di oggetti e/o di caratteristiche che si intendono studiare, - dalla disponibilità di risorse, - dalla particolare sensibilità del ricercatore. In ciascuna indagine, tecniche di rilevazione e tecniche di analisi sottostanno a un vincolo cronologico: la rilevazione precede l'analisi. Tecniche di rilevazione e tecniche di analisi non sono tuttavia indipendenti fra loro. La scelta di una determinata tecnica di rilevazione (o analisi) pone limiti a quali tecniche di analisi (o rilevazione) possono essere impiegate. 2 Le tecniche di rilevazione abitualmente usate nelle scienze sociali si differenziano lungo numerose dimensioni, e non tutte producono materiale empirico suscettibile di analisi statistica. Ad esempio, l'osservazione partecipante, la conduzione di interviste non strutturate, gli approcci etnometodologici di solito si avvalgono di strumenti di tipo ermeneutico per analizzare le informazioni raccolte, al fine di ricostruire la realtà nei termini delle norme e delle motivazioni che guidano il comportamento dei soggetti osservati. Nelle ricerche per le quali può essere utile il ricorso all'analisi statistica dei dati, le informazioni vengono raccolte, classificate e registrate secondo schemi tendenzialmente rigidi, prestabiliti dal ricercatore e rispondenti alle sue esigenze cognitive. Il ricercatore ritiene di disporre di conoscenze intorno al fenomeno indagato sufficientemente estese per individuare quali proprietà siano rilevanti. Questo tipo di rilevazione dà luogo a una notevole riduzione della complessità delle attività di ricerca e consente di raccogliere informazioni su molte caratteristiche, di semplificare le procedure di registrazione e codifica, di comparare agevolmente le situazioni di casi diversi, di controllare ipotesi precise, di riunire tutti i dati prodotti in un'unica matrice. Le tecniche di analisi statistica dei dati presuppongono, infatti, che le informazioni da sottoporre ad analisi siano state registrate e organizzate in una matrice dei dati. Ci si può prefiggere: - sia di esplorare i dati senza sottoporre a controllo aspettative particolari proprio al fine di individuare in quali direzioni approfondire l'analisi, - sia di controllare previsioni e ipotesi precise, formulate nel corso dell'analisi o prima di essa. In entrambi i casi si rientra nella cosiddetta «statistica descrittiva». Proprietà, stati, unità La rilevazione strutturata si incentra su tre tipi di elementi, distinti ma fra loro intimamente legati: le proprietà, gli stati e le unità. Una «proprietà» è una caratteristica che è possibile attribuire a un determinato tipo di oggetto, ossia all'unità di analisi (o semplicemente «unità»). I diversi modi in cui quella caratteristica può manifestarsi corrispondono ai suoi «stati». Le unità sono referenti sui quali si vogliono rilevare informazioni. Le unità più frequenti delle ricerche sociologiche sono gli individui. Ad esse si possono associare proprietà come: età, genere, condizione occupazionale, colore dei capelli, orientamento religioso, partito votato, numero di figli e così via. Alcuni degli stati che gli individui possono assumere su queste proprietà sono: per l'età: 15 anni, 30 anni, 62 anni e così via; per il genere: uomo o donna; per la condizione occupazionale: impiegato di concetto, in cerca di prima occupazione, bracciante agricolo, libero professionista, pensionato, casalinga, disabile al lavoro, impegnato nel servizio militare/civile e così via; Qualora l'unità di analisi fosse stata diversa, anche le proprietà ad essa associabili sarebbero state diverse. Il percorso-tipo di un'indagine sociologica consiste in un itinerario ciclico che inizia dalla teoria, attraversa le fasi di rilevazione delle informazioni e di analisi dei dati e alla 3 teoria ritorna. Si tratta di un itinerario tratteggiato più o meno nelle stesse forme in tutti i manuali di metodologia della ricerca sociologica. Ciò che contraddistingue la ricerca scientifica da altre attività che si prefiggono di acquisire conoscenze è il tentativo di basare queste conoscenze su riscontri empirici mediante un processo di «operativizzazione». Naturalmente, le unità sulle quali il ricercatore vuole rilevare informazioni, e di conseguenza anche le proprietà e gli stati, dipendono intimamente dai suoi interrogativi di ricerca. Per mezzo del disegno di ricerca il ricercatore si adopera per tradurre in termini empirici le proprietà in variabili, le unità in casi e gli stati in dati o valori. Unità di analisi Innanzitutto è necessario che il ricercatore scelga il tipo di oggetto, ossia l'unità di analisi, su cui vuole rilevare informazioni. Le unità che vengono osservate nell'ambito delle scienze sociali sono di diversi tipi: - individui. - gruppi strutturati di individui (famiglie, associazioni di volontariato, sindacati dei lavoratori, sette religiose, gruppi etnici, bande di criminali, istituzioni pubbliche), - aggregati territoriali (comuni, province, regioni, stati), - testi scritti (storici, letterari, giornalistici) - prodotti culturali (fotografie, rappresentazioni teatrali, programmi televisivi, dipinti, filmati), - eventi (conflitti armati, consultazioni elettorali, cerimonie matrimoniali, scioperi, cene fra amici) - situazioni (interazioni temporanee fra estranei, fra studenti durante le prove scritte all'esame di maturità, fra medico e paziente), - luoghi (aule universitarie, chiese, stadi), - periodi di tempo (mesi, anni, decenni, secoli). Non esiste alcun limite a ciò che può essere definito come unità di una ricerca empirica. La scelta dell'unità varia in funzione degli interessi del ricercatore e dei problemi cognitivi che cerca di risolvere. 4 Alla scelta dell'unità deve accompagnarsi anche l'individuazione di un ambito spazio-temporale, che definisce i limiti entro i quali il ricercatore sceglie gli oggetti da osservare. L'ambito spazio-temporale e l'unità determinano la popolazione di riferimento, ovvero l'insieme dei potenziali casi della ricerca. Quando l'unità corrisponde a un prodotto culturale, e in particolar modo a testi, la popolazione di riferimento si chiama corpus. L'ambito spazio-temporale definisce anche i confini entro i quali, a rigore, sono generalizzabili i risultati della ricerca. La specificazione dell'ambito spazio-temporale deve essere esplicita ed inequivoca. Un'importante distinzione va tracciata fra unità di rilevazione e unità di analisi. E’ possibile che una ricerca preveda che informazioni vengano rilevate presso un tipo di unità e poi riferite a un altro tipo di unità: ad esempio, si possono raccogliere informazioni riguardanti le coppie coniugate (unità di analisi) intervistando soltanto mariti (unità di rilevazione). Ogni volta che i due tipi di unità non coincidono il ricercatore deve adoperarsi al fine di evitare che le particolari caratteristiche, percezioni e aspettative degli oggetti osservati vengano attribuite indebitamente ad oggetti di altro tipo. Definita la popolazione di riferimento, il ricercatore deve decidere: - se rilevare informazioni su tutti gli oggetti che le appartengono → «rilevazione esaustiva» o «totale» - oppure soltanto su un sottoinsieme di essi → «rilevazione campionaria» o «parziale». Di solito si ricorre al campionamento per una serie di motivi pratici: - minori costi in termini economici e di risorse umane; - minor tempo richiesto per la rilevazione delle informazioni; - maggiore semplicità di gestione; - possibilità di operativizzare un maggior numero di proprietà. Queste decisioni determineranno presso quali elementi della popolazione di riferimento verranno effettivamente rilevate delle informazioni, ossia quali casi potenziali della ricerca diventeranno casi effettivi. I casi di una ricerca sono gli esemplari di una data unità di analisi che vengono effettivamente inclusi nell'indagine. I casi costituiscono gli oggetti specifici della ricerca empirica. L'unità d'analisi è dunque singolare e astratta, mentre i casi sono multipli e concreti. Definizione operativa delle proprietà Le proprietà assumono, sulle unità alle quali afferiscono, stati diversi, ossia esse variano da un'unità all'altra. Per tradurre una proprietà in termini empirici occorre darne una definizione operativa, ossia stabilire alcune procedure per rilevare gli stati delle proprietà sui casi e registrarli in forma simbolica, al fine di sottoporli ad analisi. La definizione operativa viene fatta a tavolino; l'operativizzazione è la sua applicazione pratica. 5 Attraverso la formulazione di una definizione operativa e la sua applicazione, una proprietà viene trasformata in variabile e i suoi stati vengono trasformati in modalità della variabile stessa. Per facilitare la registrazione di tali modalità, ad ognuna di esse viene assegnato un differente valore simbolico, normalmente costituito da un numero. Ad esempio, la proprietà «titolo di studio» può essere operativizzata chiedendo a un insieme di intervistati di indicare il titolo più elevato conseguito; lo stato di ciascun caso viene registrato in una delle seguenti modalità: «senza titolo», «licenza elementare», «licenza media», «diploma» e «laurea». A queste categorie («categoria» e «modalità» possono essere considerati sinonimi) vengono assegnati rispettivamente i valori 1, 2, 3, 4 e 5, i quali vengono registrati nella matrice del dati. Non sussiste un rapporto di corrispondenza biunivoca fra «proprietà» e «variabile», in quanto una proprietà può essere operativizzata in modi diversi. In altre parole, le definizioni operative non sono predeterminate. Ad esempio, la proprietà «livello culturale», associata a un individuo, può essere definita operativamente facendo riferimento: a) al suo titolo di studio, b) al numero di libri che ha letto negli ultimi dodici mesi, c) ai suoi consumi culturali quotidiani, d) ai risultati conseguiti su un test di cultura generale e altri modi ancora. La decisione su come operativizzare una proprietà è affidata alla discrezionalità del ricercatore, al quale può essere solo chiesto di a) esplicitare b) giustificare le sue scelte. Per quanto la definizione operativa possa apparire come un atto arbitrario e soggettivo, paradossalmente in essa trovano fondamento i caratteri di scientificità e di oggettività della ricerca sociale. Se è vero che la definizione operativa è arbitraria e soggettiva, col procedere e il maturare di una scienza e l'affinarsi delle tecniche, la sua arbitrarietà si riduce, in quanto si formano convergenze all'interno della comunità scientifica che permettono di arrivare a definizioni convenzionali di carattere intersoggettivo. La definizione operativa rappresenta anche il criterio di oggettività della ricerca scientifica. La definizione operativa fornisce indicazioni necessarie affinché la stessa rilevazione possa essere replicata da altri ricercatori. A volte la definizione operativa si complica ulteriormente. Le proprietà particolarmente complesse o generali non si prestano ad essere definite operativamente in maniera diretta. In questi casi il ricercatore si avvale di proprietà più semplici o specifiche che siano semanticamente legate alla proprietà complessa/generale e istituisce un cosiddetto «rapporto di indicazione» fra le prime e la seconda. Si individuano, quindi, concetti più specifici, denominati «indicatori», a partire dai quali è più agevole costruire una definizione operativa. Così una proprietà generale come la religiosità, riferita agli individui, può essere distinta in componenti più specifiche (o «dimensioni»): - le dimensioni rituale (la partecipazione a riti), 6 - esperienziale ('avvertire di presenze o influenze), - ideologica (le credenze), - consequenziale (i comportamenti). Errore di rilevazione Nel passaggio dalle proprietà e dall'unità di analisi alle variabili e ai casi, il ricercatore deve essere sempre consapevole del ruolo ricoperto dall'errore di rilevazione. Tale errore corrisponde al divario che separa inevitabilmente i dati che vengono registrati nella matrice dei dati dalla realtà che si vuole studiare. L'errore di rilevazione viene abitualmente distinto in due componenti: - errore sistematico - errore accidentale. Per cui si può dire che il valore osservato, ossia il valore assunto dalla variabile empirica così come viene rilevato nelle operazioni di ricerca, è la somma di tre parti: lo stato effettivo sulla proprietà che la variabile intende rilevare, e le due componenti dell'errore: valore osservato = stato effettivo + errore sistematico + errore accidentale per cui: errore di rilevazione = valore registrato - stato effettivo = errore sistematico + errore accidentale L'errore sistematico è costante, nel senso che si presenta in tutte le rilevazioni. Il suo valore medio sul totale dei casi osservati assume un valore positivo o negativo, nel senso che il valore registrato tende sistematicamente a «sovra-» o «sotto-stimare» lo stato effettivo. Per esempio, se rileviamo la partecipazione elettorale di un campione di cittadini mediante un'intervista, chiedendo loro se sono andati a votare alle ultime elezioni, la diffusa tendenza degli intervistati ad esagerare il livello della propria partecipazione fa sì che in qualsiasi rilevazione si ottiene un tasso di partecipazione elettorale «osservato» sistematicamente superiore a quello «vero». L'errore accidentale varia da rilevazione a rilevazione. Varia in ipotetiche repliche della stessa rilevazione sullo stesso individuo, e varia da individuo ad individuo. Si tratta di oscillazioni che tendono ad annullarsi a vicenda. L'errore sistematico è dunque una parte di errore comune a tutte le applicazioni di una determinata rilevazione; l'errore accidentale è una parte di errore specifica di ogni singola rilevazione. Tali errori sorgono in due fasi dell'itinerario di ricerca: - la fase teorica, o di indicazione, che riguarda la scelta di eventuali indicatori, - la fase empirica, o di operativizzazione, che consiste nell'applicazione delle definizioni operative degli indicatori e delle altre proprietà. L'errore nella fase di indicazione, ossia di scelta degli indicatori atti a rappresentare una certa proprietà, è un errore di tipo sistematico. Ad esempio, assumere come indicatore di partecipazione politica di una persona il fatto che sia iscritta o meno al sindacato può essere una scelta affetta da errore sistematico. 7 L'errore nella fase di operativizzazione può essere sia sistematico che accidentale. In una tipica ricerca sociale il processo di operativizzazione si articola in diverse fasi, in ognuna delle quali si possono commettere errori. In particolare ne possiamo distinguere tre: - la fase di selezione dei casi; - la fase di rilevazione delle informazioni, o di osservazione; - la fase di trattamento dei dati. Gli errori di selezione sono dovuti al fatto che si cerca di rilevare informazioni non presso l'intera popolazione di riferimento, bensì su un campione. Vi sono tre diversi tipi di errore di selezione: - l'errore di copertura → consegue al fatto che la lista della popolazione dalla quale si estraggono i casi del campione non è completa, escludendo dalla possibilità di entrare a fare parte della rilevazione alcuni elementi della popolazione. - l'errore di campionamento → deriva dal fatto che i risultati variano a seconda dello specifico campione estratto. - l’errore di non-risposta → si manifesta quando su alcuni elementi, pur appartenendo al campione da studiare, non sono per qualsiasi motivo rilevabili i dati Gli errori di osservazione possono essere addebitati a quattro fonti: a) errori dovuti all'intervistatore b) errori dovuti all'intervistato, fra i quali l'errata comprensione della domanda, le risposte consapevolmente menzognere, le manchevolezze della memoria in domande riferite al passato; c) errori dovuti allo strumento: domande mal formulate, domande tendenziose, ecc.; d) errori dovuti al modo di somministrazione Gli errori nel trattamento dei dati si verificano dopo che le informazioni sono state rilevate e consistono in errori di codifica, di trascrizione, di memorizzazione su supporto informatico, di elaborazione, ecc. Tutti questi errori possono essere sia sistematici che accidentali. Si pensi per esempio agli errori dovuti allo strumento. Questo modo articolato di vedere l'errore viene anche chiamato approccio dell'«errore complessivo» (total survey error). L'errore complessivo di una ricerca non è misurabile, in quanto troppe componenti sfuggono al controllo del ricercatore. 8 Tipi di proprietà e tipi di variabili Per «variabile» si intende una proprietà operativizzata. Le variabili costituiscono l'elemento centrale dell'analisi empirica. Tant'è che si può descrivere il mondo del sociale per mezzo di un complesso di variabili e studiarne poi le interrelazioni. Un modo molto importante per classificare le variabili riguarda il tipo di operazioni logiche e matematiche alle quali i loro valori possono essere sottoposti. Si tratta di una tipologia di fondamentale importanza, in quanto stabilisce la legittimità di determinate procedure di analisi statistica. L'appartenenza di una variabile a questo o quel tipo dipende, fra l'altro, dall'operazione intellettuale che sta al centro della corrispondente definizione operativa, che a sua volta dipende dal tipo di proprietà che si vuole operativizzare. In prima battuta si possono distinguere le variabili in tre tipi: - nominali - ordinali - cardinali. La variabile nominale risulta dall'operativizzazione di una proprietà che assume stati discreti non ordinabili. La natura «discreta» degli stati significa che esistono confini molto netti fra essi, tali per cui non è possibile immaginare stati intermedi. La natura «non ordinabile» degli stati significa che non è possibile rinvenire una relazione d'ordine sottesa agli stati. Si possono stabilire soltanto relazioni logiche fra gli stati di una proprietà che assume stati discreti non ordinabili, e quindi tra le modalità di una variabile nominale: un caso può essere eguale a un altro oppure diverso, ma non maggiore o minore. L'operazione che permette di passare dalla proprietà alla variabile in questo caso si basa sulla classificazione. La classificazione consiste nell'individuazione di un insieme di classi che corrispondono agli stati che una proprietà può assumere. Queste classi devono presentare due requisiti: a) esaustività → ogni caso deve poter essere collocato in una delle classi individuate mediante classificazione; b) mutua esclusività → le classi devono essere individuate in maniera tale da rendere impossibile l'appartenenza di un caso a più di una classe. 9 Alle modalità della variabile viene associato un valore, che serve ad identificare la modalità e differenziarla dalle altre. In genere si tratta di un numero, ma esso non ha alcun significato numerico. L'operazione di suddivisione di una proprietà in categorie non ordinate consiste infatti nella semplice associazione ad ogni categoria di un nome, inteso come etichetta, quale che esso sia: è questo il motivo per il quale questo tipo di variabile viene chiamata «nominale». Un caso particolare di variabili nominali è quello in cui le modalità sono solo due. Tali variabili sono dette dicotomiche e possono essere trattate in sede di analisi statistica con strumenti normalmente non applicabili alle variabili nominali. Se la proprietà da operativizzare presenta stati discreti ordinabili, la risultante variabile è ordinale. In questo tipo di proprietà l'esistenza di un ordine sotteso agli stati permette di rilevare non solo relazioni di eguaglianza e diseguaglianza fra gli stati/modalità, ma anche relazioni d'ordine, cioè «maggiore di» e «minore di». Tuttavia, in una variabile ordinale non è nota la distanza che intercorre fra le diverse modalità. La definizione operativa in questo caso si basa sull'assegnazione a modalità ordinate, o sull'ordinamento, il quale tiene conto, oltre ai requisiti menzionati per la classificazione, dell'ordine sotteso agli stati della proprietà. Quindi l'attribuzione dei valori alle singole modalità dovrà rispettare l'ordine fra gli stati. Per questo viene quasi sempre usata la serie dei numeri naturali, ai quali tuttavia si riconoscono unicamente le caratteristiche ordinali dei numeri, non anche quelle cardinali. Tuttavia è buona norma seguire il criterio della serie dei numeri naturali oppure usare valori che riflettano una stima, per quanto approssimata e soggettiva, delle distanze fra le categorie. Le variabili possono essere ordinali per due motivi: - perché derivano da proprietà originariamente costituite da stati discreti - perché derivano da proprietà continue, che sono state registrate su una sequenza solo ordinale per difetto di strumenti di misurazione. E’ questo il caso delle citate domande di un questionario che prevedono risposte graduate Nelle variabili cardinali i valori numerici assegnati alle modalità hanno un pieno significato numerico; i numeri possiedono non solo le caratteristiche ordinali dei numeri, ma anche quelle cardinali. Dato il carattere cardinale dei valori, fra le modalità di una variabile di questo tipo non solo si potranno stabilire relazioni di eguaglianza e di diversità e non solo relazioni d'ordine; si potranno effettuare anche tutte le operazioni aritmetiche sui valori. È possibile determinare le distanze fra le modalità di variabili cardinali in quanto esiste un'unità di riferimento (un'unità di misura o l'unità di conto), e ciò permette di applicare a queste distanze tutte le operazioni aritmetiche che si applicano ai numeri e quindi di sottoporre le variabili alle elaborazioni statistiche più sofisticate. Le variabili cardinali possono essere create a partire da due tipi di definizione operativa: la misurazione e il conteggio. La misurazione presuppone le seguenti due condizioni: a) la proprietà da misurare è continua, cioè può assumere infiniti stati intermedi in un dato intervallo fra due stati qualsiasi; 10 b) la comunità scientifica ha elaborato e accettato un'unità di misura prestabilita che funge da grandezza di riferimento con la quale si può confrontare la grandezza da misurare. Il processo di misurazione comporta l'arrotondamento del numero «reale» corrispondente allo stato effettivo a un numero di cifre compatibile con il livello di approssimazione stabilito per la rilevazione. Il conteggio sta al centro della definizione operativa quando: a) la proprietà da registrare è discreta, assume cioè stati finiti, non frazionabili; b) la proprietà è concepibile come il possesso o la relazione con un determinato numero di elementi. In questo caso l'operativizzazione consiste semplicemente nel «contare» gli elementi posseduti dal caso o con i quali quest'ultimo è in relazione. L'unità di conto è «naturale». Le variabili cardinali basate sulla misurazione sono rare nelle scienze umane: - età e altre variabili basate sul tempo (anni impiegati per conseguire una laurea, anzianità di servizio in un determinato lavoro); - variabili basate sulla lunghezza (altezza di un individuo, distanza di un comune dal capoluogo regionale), - sulla superficie (area verde di un comune), - sulla massa (peso di un individuo). Tali variabili sono tutte derivate da proprietà tipiche delle scienze naturali. Eppure le proprietà più caratteristiche e interessanti delle scienze umane possono essere concepite come proprietà continue, che variano in maniera graduale fra gli individui. Esse tuttavia non riescono a passare dalla condizione di proprietà continua a quella di variabile cardinale per un difetto nella fase di operativizzazione, in particolare per la difficoltà di ideare un'unità di misura applicabile agli atteggiamenti umani. Si è tentato di aggirare questo ostacolo in molti modi, di solito mediante il ricorso alle tecniche delle cosiddette «scale» (scaling), che cercano di «misurare» opinioni, atteggiamenti e valori, e più in generale proprietà continue attinenti a dimensioni psicologiche e valoriali dell'individuo. Le tecniche delle scale «autoancoranti» - come il «termometro dei sentimenti» o le scale di collocazione «sinistra-destra» per gli orientamenti politici vanno in questa direzione. L'obiettivo è quello di avvicinarsi a delle «misurazioni» in senso proprio, dando luogo a variabili nelle quali la distanza fra due valori sia nota. Per le variabili prodotte da queste tecniche sembra legittimo un trattamento che usi gli strumenti matematico-statistici previsti per le variabili cardinali, anche se con qualche cautela. Per questo motivo si dice che le tecniche di scaling danno luogo a variabili quasi-cardinali. Il passaggio dalle proprietà alle variabili avviene per mezzo di definizioni operative, che possono essere di vario tipo: proprietà → operativizzazione → variabili classificazione ordinamento scaling conteggio misurazione 11 Si noti la cumulatività delle caratteristiche dei tre principali tipi di variabili presentati (nominali, ordinali, cardinali) → si tratta di livelli dove ognuno include gli attributi dei livelli inferiori: - fra i valori delle variabili nominali si possono solo instaurare relazioni di eguaglianza e diversità; - fra quelli delle variabili ordinali si possono, oltre alle relazioni di eguaglianza e diversità, stabilire quelle di ordinamento; - fra i valori delle variabili cardinali, oltre alle relazioni menzionate, si possono instaurare quelle legate alla conoscenza della distanza fra i valori. Di conseguenza, è possibile da un livello superiore scendere a uno inferiore. Queste differenze formali tra le variabili, in particolare il fatto che su di esse non siano consentite le stesse operazioni, fanno sì che i tre tipi di variabili debbano essere analizzati con procedure diverse fin dai livelli più elementari. La statistica tradizionale è partita fin dall'inizio dall'assunto che le variabili fossero (solo) cardinali, ed è sulla base di questo presupposto che ha sviluppato tutte le tecniche più sofisticate dell'analisi multivariata. Successivamente, ma solo in anni recenti, sono stati fatti notevoli passi avanti nel trattamento delle variabili nominali. Va aggiunto che le tecniche di analisi dei dati che la statistica ha sviluppato sono destinate o a variabili cardinali o a variabili nominali. Ci sono anche tecniche pensate per trattare contemporaneamente questi due tipi di variabili; mentre rare sono le tecniche finalizzate esplicitamente alle variabili ordinali. Quindi una variabile ordinale può sempre essere trattata come se fosse una variabile nominale, trascurando il fatto che le sue categorie sono ordinate. Naturalmente, se si procede in questo modo si perdono informazioni. La tentazione di trattare, nell'analisi statistica dei dati, le variabili ordinali come se fossero cardinali è fortissima per il ricercatore sociale. Infatti, per la potenza della matematica le tecniche di analisi messe a punto per le variabili cardinali sono più numerose, più solide, più semplici, e permettono analisi assai più sofisticate delle tecniche messe a punto per le variabili nominali. Ma fino a che punto è legittimo assegnare valori numerici alle modalità ordinate di una variabile ordinale e poi trattarli come dei veri numeri? Come scrive Blalock «l'uso di un determinato modello matematico presuppone che i dati siano stati rilevati a un certo livello di misurazione [...] non è corretto usare un sistema matematico che faccia uso di addizioni e sottrazioni quando ciò non è permesso dal metodo di misura». Dall'altra parte abbiamo invece coloro che effettivamente fanno ricerca sociale, e che sistematicamente trattano le variabili ordinali come cardinali, sostenendo che il fatto di perdere informazioni trattando le variabili ordinali come se fossero nominali ha un elevato prezzo: l'ignoranza. Quando si trovasse di fronte a una variabile genuinamente ordinale, il ricercatore dovrà, quasi sempre, scegliere se trattarla con le tecniche delle variabili nominali o con quelle delle variabili cardinali: sappia che se opta per la seconda soluzione egli dovrà interpretare i suoi risultati con estrema cautela. 12 Le variabili dicotomiche possono essere trattate statisticamente con strumenti propri delle variabili cardinali; e questo perché, avendo tali variabili solo due valori, non si pone il problema delle distanze che separano i valori. A causa di questa preziosa caratteristica, talvolta il ricercatore «dicotomizza» variabili a più categorie (politomiche), aggregando modalità dal significato prossimo. Matrice dei dati Il processo di organizzazione del materiale empirico consiste nella sua trasformazione in una matrice di valori, la cosiddetta «matrice dei dati». La matrice dei dati consiste in un insieme rettangolare di numeri, dove in riga abbiamo i casi e in colonna le variabili; in ogni cella derivante dall'incrocio fra una riga e una colonna abbiamo un dato, ossia il valore registrato per una particolare variabile e per un particolare caso. Due sono le condizioni necessarie perché le informazioni afferenti a un certo insieme di casi possano essere organizzate nella forma di matrice-dati: - l'unità d'analisi deve essere sempre la stessa; - su tutti i casi devono essere state rilevate le stesse informazioni. L'operazione di inserimento del materiale empirico grezzo in una matrice-dati viene chiamata «codifica», e avviene con l'ausilio del codice. Il codice è un documento che indica la posizione di ogni variabile nella matrice-dati e assegna ad ogni modalità di ogni variabile un valore numerico. Nella pratica della ricerca, molto spesso il codice è incorporato nel questionario stesso: accanto ad ogni domanda si riporta la posizione della variabile generata dalla domanda stessa sulla riga, e ogni alternativa di risposta è contrassegnata da un numero che corrisponde al valore da registrare in matrice-dati. 13 Ogni riga della matrice-dati corrisponde a un caso (un individuo, un questionario): leggendo una riga si sa come quell'individuo ha risposto alle domande (si può dire che ogni riga fornisce il profilo di un caso). Ogni colonna della matrice corrisponde a una variabile: leggendo una colonna si conosce l'insieme di risposte date a quella domanda da tutti gli intervistati. L'inserimento dei dati a partire dal pacco di questionari dà luogo a una matrice rettangolare di numeri: se i casi sono 1.100 e le variabili 200, si tratterà di una matrice di 1.100 X 200 (1.100 righe per 200 colonne). Tutte le informazioni rilevate per mezzo del questionario si ritrovano nella matrice-dati. La matrice-dati memorizzata su supporto informatico si chiama col termine inglese file (ma il termine è ormai entrato a pieno titolo nella lingua italiana). Questa figura riassume come le proprietà, per mezzo delle definizioni operative, diventino variabili, che corrispondono alle colonne della matrice-dati; come la scelta dell'unità di analisi, unitamente alla specificazione dell'ambito spazio-temporale, definisca la popolazione di riferimento dalla quale si estraggono, per mezzo del campionamento, i casi di una ricerca, che andranno a costituire le righe della matrice-dati; e come gli stati assunti dalle proprietà vengano trasformati in dati, ossia in valori registrati nelle celle della matrice-dati. Operazioni di codifica → ossia di trasformazione delle modalità delle variabili in valori. Si consideri il caso assai comune in cui l'unità d'analisi è l'individuo e i dati sono raccolti tramite un questionario. La prima domanda è una domanda elementare che dà luogo alla creazione di una variabile. Fra le risposte codificate è stata prevista la modalità «non risposta». 14 La domanda 2 produce due variabili: una relativa all'obiettivo più importante, e una al secondo obiettivo più importante. La domanda 3 è una batteria di domande, nel senso che si tratta di un insieme di più domande aventi lo stesso formato di risposta. Per comodità grafica esse sono raggruppate apparentemente sotto un'unica domanda, ma di fatto si tratta di 8 domande differenti, che danno luogo ad altrettante variabili. La domanda 4 ha un formato analogo a quello della domanda 2, in quanto produce due variabili: la prima riguarda il problema ritenuto più importante; la seconda il secondo problema più importante. La domanda 5 contiene sette quesiti diversi. La matrice-dati, di conseguenza, riserva sette colonne a questa domanda, una per ogni variabile e in ciascuna delle quali si registra se il soggetto ha risposto «sì» o «no» al corrispondente atto di protesta. Infine, la domanda 6 è una domanda aperta. L'intervistatore trascrive sul questionario la risposta fornita dall' intervistato; alla fine della rilevazione si leggono tutte le risposte date dagli intervistati, sulla base di tali risposte si individuano delle categorie in cui classificarle e, sulla base di queste categorie, si codificano le risposte. 15 Procedure di memorizzazione dei dati su supporto informatico o di «immissione dati» (data entry), che trasferiscono la matrice numerica su un supporto di tipo informatico leggibile dal computer. L’operazione può avvenire: - in maniera semplice digitando i valori della matrice sulla tastiera di un computer, creando in questo modo un file in formato cosiddetto Ascii. - utilizzando un foglio elettronico o un data-base, soluzione preferibile poiché evita alcuni dei possibili errori di registrazione. - tramite procedure automatizzate di immissione dati: tecniche «Cati» (interviste telefoniche assistite al computer) «Capi» (interviste faccia-a-faccia assistite al computer), nelle quali il questionario viene letto dall'intervistatore direttamente dal video di un computer e la risposta viene immediatamente digitata su tastiera e memorizzata nella matrice-dati. Assieme alla matrice, vanno anche fornite al programma di elaborazione le istruzioni di definizione delle variabili (corrispondenti al codice), che permettono al programma stesso di «leggere» la matrice dei dati. A questo punto la matrice-dati risulta trasformata nel cosiddetto system file (un file che incorpora in sé, oltre alla matrice, anche il codice e le etichette delle variabili e delle loro modalità) ed è pronta per l'analisi statistica. Fonti statistiche A volte il ricercatore può fare a meno di rilevare informazioni in proprio per rispondere ai suoi interrogativi di ricerca, in quanto i dati che gli servono sono già stati rilevati, nella maggioranza dei casi da enti pubblici. L'attività dell'amministrazione pubblica genera dati - sia per effetto della normale attività amministrativa, - sia per mezzo di rilevazioni aventi un esplicito fine conoscitivo. In tutti quei casi in cui il dato statistico è il sottoprodotto di un atto amministrativo, possiamo parlare di rilevazione indiretta. Altre volte invece la produzione del dato avviene per rilevazione diretta: le informazioni vengono espressamente raccolte al fine di conoscere un determinato fenomeno sociale. Un elemento fondamentale che «tradizionalmente» ha contraddistinto le statistiche ufficiali è il fatto che l'unità d'analisi è costituita da un territorio. Anche se all'origine le informazioni sono state rilevate su individui (unità di rilevazione), i dati vengono ricondotti e resi accessibili soltanto a livello aggregato (unità d'analisi). In altre parole, il ricercatore può consultare solo rappresentazioni tabulari di distribuzioni di frequenza. Negli ultimi anni questa situazione ha cominciato a cambiare: sempre più frequentemente i dati provenienti da fonti statistiche ufficiali sono disponibili anche in forma di matrice-dati in cui unità di rilevazione e unità di analisi coincidono. Questo è oggi possibile in Italia, ad esempio, per inchieste campionarie particolari e addirittura per i censimenti. In questo caso il ricercatore può compiere delle cosiddette «analisi secondarie» e applicare tutte le più comuni tecniche di analisi statistica dei dati. Le opportunità di analisi secondaria stanno aumentando grazie ai progressi tecnologici che permettono: - un efficiente archiviazione e trasferimento di dati, - creazione e consolidamento di molti centri di raccolta, 16 - diffusione di prodotti informatici che consentono un agevole trattamento dei dati - vantaggi economici Naturalmente avvalersi delle opportunità offerte dalle fonti statistiche non è privo di limiti: 1. il fatto di doversi servire di dati già esistenti e raccolti con finalità diverse da quelle implicate dal l'interrogativo di ricerca crea situazioni nelle quali la natura dei dati non soddisfa le esigenze del ricercatore. Il ricercatore deve accettare le definizioni operative adottate dagli enti produttori, che spesso non coincidono con quelle che lui avrebbe usato. 2. è facile che le fonti statistiche non esprimano le informazioni in formati immediatamente fruibili per gli specifici intenti del ricercatore, non riportino determinate tabulazioni incrociate, non disarticolino le informazioni in base ad altre variabili interessanti 3. nei paesi sviluppati esiste un elevato numero di enti produttori di dati, il che favorisce ridondanze e sovrapposizioni nelle informazioni. La molteplicità degli enti produttori implica una forte disomogeneità nei dati che essi mettono a disposizione. Ne consegue che il ricercatore deve essere attento non solo quando combina informazioni provenienti da fonti diverse, ma anche quando decide da quale attingere fra più fonti che offrono o stesso prodotto. 4. le statistiche «ufficiali» spesso riguardano proprietà fattuali, riferite a informazioni oggettive e comportamentali, con esclusione delle opinioni, motivazioni, atteggiamenti. 5. i dati statistici ufficiali non sono adatti per l'analisi dei comportamenti individuali. Nel 1989 l'apparato della «statistica ufficiale» in Italia ha subito una trasformazione, con l'istituzione del Sistema statistico nazionale (SISTAN) avente l'obiettivo di coordinare tutte le competenze e le attività di raccolta dei dati nei vari organismi centrali e periferici della pubblica amministrazione. In questo quadro l'Istituto nazionale di statistica (ISTAT) è diventato un organo del SISTAN. L'ISTAT coordina la raccolta di informazioni in molti enti pubblici e ospita nelle sue pubblicazioni i dati statistici più rilevanti prodotti da questi enti. La pubblicazione di base dell'IstAT è l'«Annuario statistico italiano». Un'altra importante pubblicazione periodica è il «Bollettino mensile di statistica», che ha la funzione di pubblicare con tempestività le statistiche che successivamente verranno presentate nei rispettivi annuari. L'ISTAT conduce i censimenti con cadenza decennale. Su argomenti demografici l'ISTAT pubblica gli annuari - «Nascite. Caratteristiche demografiche e sociali», - «Decessi. Caratteristiche demografiche e sociali», - «Popolazione e movimento anagrafico dei comuni», - «Movimento migratorio della popolazione residente», - «Matrimoni, separazioni e divorzi». Nell'area della sanità, assistenza e previdenza, l'IsTAT pubblica tre annuari: - «Cause di morte», - «Statistiche della sanità» 17 - «Statistiche della previdenza, della sanità e dell'assistenza sociale». Inoltre diversi argomenti riguardanti la salute sono stati inseriti nelle Indagini multiscopo sulle famiglie. Gli annuari attinenti alla giustizia e alla criminalità sono due: - «Statistiche giudiziarie civili» - «Statistiche giudiziarie penali». Sempre nell'ambito delle Indagini multiscopo, l'Istat ha anche condotto studi di vittimizzazione per rilevare la criminalità non denunciata alle autorità. Sul sistema scolastico nazionale l'ISTAT pubblica quattro annuari cui si aggiungono le periodiche Indagini sugli sbocchi professionali dei laureati - «Statistiche della scuola materna ed elementare», - «Statistiche della scuola media inferiore», - «Statistiche delle scuole secondarie superiori» - «Statistiche dell'istruzione universitaria» Nel campo più generale delle attività e dei consumi culturali, l'ISTAT pubblica l'annuario «Statistiche culturali». In questi settori, fra gli altri produttori di statistiche vanno ricordati: - per le statistiche sull'istruzione, in particolare sui corsi di formazione professionale e di educazione per adulti, l'Istituto per lo sviluppo della formazione professionale dei lavoratori (ISFOL); - per le statistiche culturali, il ministero dei Beni culturali e ambientali, la SIAE e la RAI. Nel settore del lavoro l'ISTAT pubblica due annuari. - «Forze di lavoro», deriva da una rilevazione campionaria ad hoc che in un certo senso ha costituito il prototipo delle rilevazioni speciali campionarie dell'ISTAT. - «Lavoro e retribuzioni», che riporta dati sulle retribuzioni e sui conflitti di lavoro. Fra gli altri produttori di statistiche in questo campo, vanno menzionati il ministero del Lavoro, la Confindustria, l'Istituto nazionale della previdenza sociale, l'IsFOL, nonché i numerosi osservatori sul mercato del lavoro attivati presso le regioni. Nel settore dei consumi e dei bilanci familiari, la pubblicazione più importante dell'IsTAT è: - l'annuario «I consumi delle famiglie», - l'annuario «Statistiche del turismo» - le periodiche indagini sugli sport, le vacanze e i viaggi. Altre importanti fonti sui consumi e risparmi familiari sono la Banca d'Italia (con l'Indagine sui bilanci delle famiglie italiane effettuata ogni due anni), l'Associazione bancaria italiana, la Banca nazionale del lavoro, il ministero delle Poste. Della produzione e della diffusione delle statistiche elettorali si è sempre tradizionalmente occupato il ministero dell'Interno, piuttosto che l'ISTAT. L'ISTAT si sta facendo comunque carico del problema del collegamento fra dati elettorali e dati sociodemografici. L’indagine multiscopo sulle famiglie italiane costituisce la più importante novità di questi ultimi anni e la più compiuta espressione delle indagini ad hoc su campione, nate con 18 l'obiettivo di esplorare settori della società che non sono documentati dalla normale attività amministrativa degli enti pubblici. L'indagine è stata avviata nel 1987 ed è caratterizzata da una molteplicità di obiettivi e temi: struttura della famiglia, condizioni abitative, caratteristiche delle zone abitative, istruzione, lavoro domestico ed extradomestico, tempo libero e partecipazione sociale, pratica religiosa, reti di relazioni, stili di vita e condizioni di salute, utilizzo dei servizi sanitari, bilanci di tempo, condizione dell'infanzia e degli anziani, microcriminalità. Alla fruizione dei mezzi di comunicazione sono dedicate le indagini curate - dall'Audipress (lettura dei quotidiani e dei periodici), - dall'Audiradio (ascolti radiofonici) - dall'Auditel (fruizione televisiva). A livello europeo va ricordato l'Eurostat, l'ufficio statistico dell'Unione Europea, che svolge compiti di coordinamento e di definizione di standard comuni fra gli uffici statistici dei paesi dell'Unione. Fra i produttori di statistiche a livello internazionale ricordiamo l'Organizzazione per la cooperazione e lo sviluppo economico (OcsE), l'Organizzazione delle nazioni unite e gli enti ad essa collegati: - l'Organizzazione per l'alimentazione e l'agricoltura (FAO), - l'Ufficio internazionale del lavoro (BIT) per le statistiche del lavoro; - l'Organizzazione mondiale della sanità (Oms) per le statistiche sanitarie; - l'Organizzazione delle nazioni unite per l'educazione, la scienza e la cultura (UNESCO) per le statistiche dell'istruzione. Indagini internazionali periodiche su orientamenti valoriali, atteggiamenti, opinione pubblica, ecc. comprendono l'Eurobarometro e le ricerche condotte nell'ambito dell'International Social Survey Program, le European Values Surveys e le World Values Surveys. 19 2. ANALISI MONOVARIATA Una volta costruita la matrice-dati, il ricercatore può cominciare a rispondere ad alcuni interrogativi di ricerca. Lo fa applicando tecniche di analisi statistica, che comportano un'ulteriore riduzione della complessità oltre a quella prodotta dalle tecniche di rilevazione. Posto di fronte a una matrice-dati, il ricercatore deve giungere a una sintesi. Questa sintesi è compensata da un'accentuata possibilità di cogliere le strutture sottesa ai dati. In questo capitolo illustreremo le tecniche di analisi monovariata, che prendono in considerazione una sola variabile per volta. Le tecniche monovariate hanno come punto di partenza la distribuzione di frequenza, in cui ad ogni modalità della variabile viene associata la frequenza con cui essa si presenta nella matrice. Al fine di descrivere le distribuzioni di frequenza, le tecniche di analisi statistica fanno ampio uso di forme di rappresentazione tabulare e grafica, nonché di valori caratteristici che danno informazioni sintetiche su alcune caratteristiche della distribuzione. L'applicabilità delle diverse tecniche di analisi dipende dal tipo di variabile presa in esame. Rappresentazioni tabulari di distribuzioni di frequenza La forma più diffusa di rappresentazione di distribuzione di frequenza è la tabella. Nella sua forma più elementare la rappresentazione tabulare sì articola in due colonne: - nella prima si elencano le modalità della variabile sotto esame, - nella seconda, accanto a ciascuna modalità, il numero di volte che il dato corrispondente compare nella corrispondente colonna della matrice-dati. Ad esempio, se si vuole raffigurare la distribuzione di frequenza riferita alla variabile «titolo di studio»: prima si elencano le modalità previste dalla definizione operativa; poi, per la prima modalità ( «senza titolo») si individua, consultando il codice, il valore corrispondente a quella modalità («1»), si conta il numero di volte che compare quel valore nella colonna della matrice-dati corrispondente alla variabile «titolo di studio» e si trascrive il risultato del conteggio accanto alla modalità; si ripete questa sequenza per ogni rimanente modalità. A meno che il numero totale di casi non sia molto basso, le frequenze assolute non sono di facile interpretazione. Tuttavia, per cogliere meglio l'incidenza delle singole modalità rispetto alla distribuzione complessiva e rispetto alle altre modalità, si ricorre alle frequenze relative, che annullano l'effetto della numerosità dei casi. - Un primo tipo di frequenza relativa è la proporzione, che si ottiene dividendo ogni singola frequenza assoluta per il numero totale di casi della distribuzione. 20 La somma delle proporzioni di tutte le modalità è sempre uguale a 1; di conseguenza tutte le frequenze si collocano entro un campo di variazione che va da O a l ; il che agevola il confronto fra frequenze di modalità diverse. - Un altro, più consueto, modo per relativizzare le frequenze è riportarle a un campo di variazione compreso fra O e 100. Le frequenze percentuali si ottengono moltiplicando le proporzioni per 100, ossia applicando la seguente formula: Quando si quantificano differenze tra due percentuali, occorre fare attenzione ad essere concettualmente e terminologicamente precisi. Il «punto percentuale» è l'unità di riferimento da usare per rilevare differenze fra percentuali. - Se la variabile di cui si vuole rappresentare la distribuzione è di tipo ordinale o cardinale, è possibile avvantaggiarsi della relazione d' ordine sottesa alle sue categorie per calcolare anche un altro tipo di frequenza. La frequenza cumulata di una categoria corrisponde al numero (o alla percentuale) di casi che appartengono a quella categoria o a una categoria precedente. - La frequenza retrocumulata di una categoria corrisponde al numero (o alla percentuale) di casi che appartengono a quella categoria o a una categoria successiva. Di norma il ricercatore dovrebbe attenersi a un criterio di parsimoniosità nella presentazione dei risultati, e pertanto limitarsi a presentare un solo tipo di frequenza. Quindi gli converrà presentare solo le frequenze percentuali, accompagnate però dall'indicazione della base del calcolo delle percentuali, ossia il numero complessivo di casi in valore assoluto. La specificazione del numero di casi sui quali le percentuali sono state calcolate ha due finalità. - La prima è comunicare lo spessore empirico dei risultati. - La seconda finalità è permettere-di risalire comunque alle frequenze assolute. In quale ordine vanno elencate le modalità della variabile? - Se la variabile è ordinale o cardinale, sarà opportuno rispettare la relazione d'ordine sottesa alle sue modalità, che rispecchierà l'ordine dei codici. - Nel caso di una distribuzione riferita a una variabile nominale, il ricercatore potrà decidere, ad esempio, di elencare le categorie in ordine decrescente di frequenza o secondo un qualsiasi altro criterio ritenga funzionale per gli aspetti della distribuzione che desidera porre in risalto. - Quando la variabile è cardinale, è possibile che le modalità siano assai numerose. 21 Prima di procedere alla tabulazione converrà dunque raggruppare le modalità in un numero minore di classi. Quando si riportano frequenze percentuali occorre evitare di specificare un numero eccessivo di valori decimali. La decisione circa il numero di valori decimali da presentare dipende dalla numerosità dei casi e dall' accuratezza della rilevazione. Se i dati sono stati rilevati con un'inchiesta campionaria, è opportuno riportare al massimo un solo valore decimale. Nel calcolo delle frequenze percentuali occorre fare attenzione alla correttezza degli arrotondamenti delle proporzioni e delle percentuali. Se il decimale da eliminare si colloca fra O e 4, si arrotonda per difetto (ossia si tronca, o si trascura l'ultima cifra decimale: 16,73 si arrotonda a 16,7). Se il decimale da eliminare si colloca fra 6 e 9, si arrotonda per eccesso (ossia si aumenta di un'unità la cifra precedente alla cifra decimale da eliminare: 34,27 si arrotonda a 34,3; 25,97 si arrotonda in 26,0). Se il decimale da eliminare è 5, occorre guardare, se è possibile, al decimale successivo: se il valore 16,75 è un arrotondamento di 16,752, si arrotonda in 16,8; se il valore 16,75 è un arrotondamento di 16,748, si arrotonda in 16,7; se 16,75 non è un arrotondamento, ossia tutti i decimali successivi al 5 sono O, allora si può arrotondare sia per difetto che per eccesso. Lo O (zero) è un numero avente dignità pari a quella di tutti gli altri numeri. Pertanto, se si decide di riportare le frequenze relative con un valore decimale, occorre farlo per tutte le frequenze, anche se terminano con lo zero. Dati errati e dati mancanti Prima di procedere alla costruzione di una rappresentazione tabulare, conviene esaminare le distribuzioni di frequenza al fine di effettuare una preventiva «pulizia» dei dati. - Occorre controllare che tutti i dati riportati in una determinata colonna della matrice-dati siano plausibili, appartengano cioè al ventaglio di valori previsti dal codice per la corrispondente variabile. - Un controllo più articolato consiste nel confrontare le distribuzioni di variabili fra loro concatenate per far emergere eventuali incongruenze. - Altri controlli di congruenza si effettuano per mezzo di una tabulazione incrociata di due variabili - occorre accertarsi che la matrice-dati non presenti dei dati mancanti. In alcune situazioni è possibile esaminare le modalità assunte dal caso su altre variabili e inferire da queste lo stato non rilevato. Naturalmente, non sempre è possibile effettuare inferenze di questo tipo, e si corre sempre il rischio di attribuire il caso a una categoria errata È preferibile avere un dato mancante piuttosto che errato. La soluzione più comune è quella di prevedere, sin dalla fase della definizione operativa, una categoria residuale, cui assegnare tutti i casi di cui non è possibile rilevare lo stato, e includerla nel codice per la variabile in questione. Anzi, in alcune situazioni conviene prevedere e tenere distinte più categorie «mancanti». Nelle indagini basate su questionario, si può differenziare fra quattro tipi di dato mancante: a) è previsto che il soggetto non risponda, in quanto la domanda non deve essergli posta («non applicabile»); b) il soggetto non è in grado di rispondere («non sa»); 22 c) il soggetto si rifiuta di rispondere («non risponde»); d) un dato errato, non previsto dal codice, è stato registrato e non è possibile risalire a quello fedele («dato implausibile»). Rappresentazioni grafiche di distribuzioni di frequenza Le distribuzioni di frequenza possono essere rappresentate anche in forma grafica. Tali rappresentazioni sono di grande efficacia comunicativa. Nell'ambito dell'analisi monovariata le rappresentazioni grafiche si basano su un semplice principio: le dimensioni dei segni corrispondenti alle diverse modalità di una variabile sono direttamente proporzionali alle rispettive frequenze di tali modalità. Si possono identificare due tipi di rappresentazioni grafiche: - nelle rappresentazioni lineari i segni sono ordinati da sinistra a destra, o dall'alto in basso; - nelle rappresentazioni circolari, i segni sono ordinati secondo un criterio circolare. Le rappresentazioni lineari vengono sviluppate lungo due dimensioni spaziali: le modalità della variabile vengono disposte lungo una dimensione, e le frequenze vengono rappresentate lungo l'altra tracciando, in corrispondenza di ciascuna modalità, un segno di lunghezza proporzionale alla corrispondente frequenza. I segni sono equidistanti fra di loro. Questa semplice procedura può dare luogo a rappresentazioni anche molto diverse: a) Le modalità vengono disposte lungo la dimensione orizzontale o lungo quella verticale, e di conseguenza i segni vengono sviluppati verticalmente od orizzontalmente. In genere, se il numero di modalità è basso queste ultime vengono disposte lungo la dimensione orizzontale; se invece sono molto numerose vengono disposte verticalmente. b) Con quali segni rappresentare le frequenze? Di solito si ricorre a rettangoli, di base eguale e di lunghezza proporzionale alle frequenze, nel qual caso si ha un diagramma a colonne (se le modalità sono disposte orizzontalmente) o un diagramma a nastri (se le modalità sono disposte verticalmente). I diagrammi a colonne e a nastri possono essere ricondotti entrambi sotto l'etichetta «diagrammi a barre». Se la variabile è ordinale o cardinale, le modalità vanno disposte secondo l'ordine ad esse sotteso. e) Quanto deve essere estesa la scala delle frequenze rappresentabili? Se il grafico riporta frequenze percentuali, ad esempio, esso può essere disegnato in modo tale da riportare tutte le frequenze comprese fra lo 0% e il 100%, oppure in modo tale da accogliere soltanto le frequenze comprese fra lo 0% e la frequenza più elevata fra quelle effettivamente 23 registrate, oppure ancora soltanto le frequenze comprese fra quella più bassa e quella più elevata. Vi sono due tipi basilari di rappresentazioni circolari. Nel diagramma a settori circolari («diagramma a torta») il numero complessivo di casi viene fatto corrispondere all'area di un cerchio, la quale viene suddivisa in un numero di settori pari al numero di modalità. Ogni settore ha una superficie proporzionale alla frequenza della modalità corrispondente. Nel diagramma a raggera, invece, viene fatto partire da un unico punto un numero di raggi pari al numero di modalità. I raggi, che sono disposti a intervalli regolari, hanno una lunghezza proporzionale alla frequenza della modalità corrispondente. Nella scelta tra rappresentazioni lineari e quelle circolari il ricercatore può tenere presenti le seguenti considerazioni: - le rappresentazioni lineari suggeriscono implicitamente che esista un ordine fra le categorie, anche quando tale ordine non esiste; questa percezione è meno marcata nelle rappresentazioni circolari, preferibili per le variabili nominali. - le rappresentazioni lineari agevolano il confronto «visivo» fra due modalità, ma ostacolano la percezione dell'incidenza di una modalità sul totale dei casi; le rappresentazioni circolari, al contrario, facilitano la percezione dell'incidenza di una modalità sul totale, ma rendono più arduo il confronto fra due modalità. - i grafici circolari vanno evitati quando la variabile presenta un elevato numero di modalità. - le rappresentazioni lineari siano di più facile interpretazione per le persone meno esperte. A prescindere dal tipo di rappresentazione grafica prescelta, vi sono anche altre decisioni da prendere: a) Vanno usate le frequenze assolute o quelle relative? La scelta è indifferente dal punto di vista grafico. E’ importante che il tipo di frequenza usato risulti evidente a chi «legge» il grafico, ad esempio inserendovi un'etichetta come «valori assoluti», «%» o«% cum.». Si può anche decidere di riportare, in prossimità ad ogni rettangolo o spicchio, la frequenza ad essa associata. b) Come nelle rappresentazioni tabulari, l'evidenziazione della presenza di dati mancanti è senz'altro consigliabile se permette di interpretare 24 o inquadrare in maniera più efficace la distribuzione fra le categorie sostantive. Per rimarcare la particolare natura di questa modalità, essa può essere evidenziata graficamente. Per le variabili cardinali si può ricorrere all'istogramma, che consiste in un diagramma a colonne contigue, nel quale le basi dei rettangoli sono proporzionali all'ampiezza delle modalità, ed è l'area dei rettangoli ad essere proporzionale alla frequenza. Pertanto, se le modalità di una variabile cardinale sono state aggregate in classi di diversa ampiezza, le basi dei rettangoli sono di lunghezza diversa e occorrerà costruire rettangoli aventi altezza proporzionale al rapporto fra frequenza e ampiezza della classe. Se la variabile è ordinale o cardinale, è possibile rappresentarne la distribuzione con un istogramma di composizione. Il grafico è costituito da un rettangolo diviso in fasce di lunghezza proporzionale alle frequenze delle corrispondenti modalità. L’'istogramma di composizione permette di cogliere meglio l'incidenza di una singola modalità sul totale, ma rende più difficile confrontare due modalità. Inoltre l'istogramma di composizione, come anche la spezzata a gradini, sottolinea la natura cumulativa delle frequenze riferite a una variabile ordinale. Quando le modalità sono particolarmente numerose e la variabile è cardinale conviene rappresentare ogni frequenza con un punto collocato all'estremità dell'istogramma e congiungere questi punti con segmenti (poligono di frequenza). Naturalmente, nella collocazione dei punti occorre rispettare la natura cardinale delle modalità e quindi rendere le distanze fra i punti proporzionali alle distanze fra i valori delle variabili. 25 Si può rappresentare graficamente anche una distribuzione cumulata di frequenza di una variabile cardinale, ricorrendo all'ogiva, in cui i punti corrispondenti alle varie modalità siano collocati a una distanza dall'origine che sia proporzionale alla frequenza cumulata. Grazie alla disponibilità di diversi software di facile uso, oggi si possono comporre grafici anche molto articolati con uno sforzo minimale. Suggeriamo tuttavia di diffidare della tridimensionalità; quest'ultima spesso comporta una distorsione nella percezione dell'incidenza delle diverse modalità. È inoltre sconsigliabile assegnare colori o tratteggi diversi ai vari rettangoli di una rappresentazione lineare. Tendenza centrale La distribuzione di frequenza è una descrizione articolata di una variabile, che specifica quanti casi ricadono in ciascuna categoria della variabile. In molte situazioni è sufficiente avere elementi informativi ancora più sintetici (detti «valori caratteristici») intorno a determinati aspetti della distribuzione. Di tutte le caratteristiche di una distribuzione di frequenza, le più importanti sono due: - la tendenza centrale - la variabilità. La tendenza centrale di una distribuzione è la modalità della relativa variabile verso la quale i casi tendono a gravitare, ossia il «baricentro» della distribuzione. Fra i valori caratteristici che rilevano sinteticamente la tendenza centrale, quella più elementare è la moda, che è la modalità di una variabile alla quale è associata la maggiore frequenza. Si tratta di un valore caratteristico molto povero dal punto di vista informativo. La moda è l'unico valore caratteristico che rileva la tendenza centrale nelle variabili nominali. Le distribuzioni possono presentare anche sottomode, ossia modalità diverse dalla moda che presentano comunque frequenze relativamente elevate. Dunque è possibile distinguere fra distribuzioni «unimodali», «bimodali» e così via, a seconda dell'esistenza di eventuali sottomode e del loro numero. 26 Per le variabili ordinali è possibile rilevare anche un altro valore caratteristico: la mediana. Immaginiamo di disporre tutti i casi in ordine crescente (o decrescente) a seconda del valore assunto su una variabile ordinale o cardinale. Dopo averli ordinati, si prenda il caso che viene a trovarsi al centro della distribuzione. La modalità assunta dalla variabile su questo caso è la mediana della distribuzione. La mediana di una variabile è dunque la modalità del caso che occupa il posto «di mezzo» nella distribuzione ordinata dei·casi secondo quella variabile. Se il numero di casi (N) è dispari, c'è un solo caso centrale: quello che occupa la" posizione (N + 1 )/ 2. Se N è pari ci sono due casi centrali: quelli che occupano le due posizioni N/2 e N/2 + 1. Se questi due casi presentano la stessa modalità, quella modalità è la mediana; se presentano due modalità diverse, occorre stabilire se la variabile è ordinale (nel qual caso la distribuzione ha due mediane) o cardinale (nel qual caso la mediana è eguale alla media dei valori assunti dai due casi). La determinazione della mediana è molto facile se si consulta una tabùlazione che riporta le frequenze cumulate oppure, nell'ambito delle rappresentazioni grafiche, un istogramma di composizione o una spezzata a gradini o un'ogiva: la mediana, infatti, corrisponde alla modalità in corrispondenza della quale le frequenze cumulate superano la soglia del 50%. La media aritmetica («media») è il valore caratteristico più noto fra quelli che rilevano la tendenza centrale delle variabili cardinali, ed è data dalla somma dei valori assunti dalla variabile su tutti i casi divisa per il numero dei casi. La media sulla variabile X è espressa dalla seguente formula: dove X è la variabile, X (trattino sopra) è la media di X, Xi è il valore che essa assume sul caso i e N è il numero totale dei casi. E (sigma) è il segno di sommatoria e indica l'operazione di somma di una successione di numeri. Il risultato finale, si legge «sommatoria di X con i, per i che va da 1 a N», e corrisponde all'espressione X1 + X2 +... + XN. Poiché in una distribuzione di frequenza abbiamo per ogni valore X, della variabile la frequenza con la quale esso si presenta, possiamo calcolare la media sommando i prodotti ottenuti moltiplicando ogni valore per la sua rispettiva frequenza; per cui la formula diventa: 27 dove k è il numero delle modalità della variabile, Xi sono i valori fi le frequenze. Naturalmente, ha senso avvalersi della media soltanto se la variabile è cardinale, in quanto il calcolo richiede che i valori vengano sommati e poi divisi per il numero dei casi: operazioni che si possono effettuare solo se i valori hanno un pieno significato numerico. Se una distribuzione di frequenza riguarda una variabile cardinale, è possibile determinarne moda, mediana e media. Moda, mediana e media, tuttavia, coincidono molto raramente, e in genere conviene avvalersi della media, in quanto ogni singolo dato della distribuzione contribuisce a determinare il suo valore. Vi sono delle situazioni nelle quali è tuttavia consigliabile usare la mediana. La mediana è infatti meno sensibile della media ai valori estremi. E’ opportuno usare la mediana quando le distribuzioni presentano casi che assumono valori estremi. La tendenza centrale di distribuzioni riferite al reddito spesso viene rilevata con la mediana per eliminare l'effetto distorcente della presenza di un numero limitato di percettori di redditi molto elevati. In alternativa, si se vuole eliminare l'effetto distorcente di valori estremi si può prima eliminare un numero predeterminato di dati collocati ai due estremi della distribuzione e poi calcolare la media sui dati rimanenti. Quando ci si avvale di fonti statistiche ufficiali occorre accontentarsi delle sole rappresentazioni di distribuzioni di frequenza che vengono pubblicate. Può accadere 28 di avere accesso, quindi, a una distribuzione riferita a una variabile cardinale in cui le frequenze sono riferite a classi di valori anziché ai singoli valori. In queste situazioni non si possono calcolare i valori caratteristici - come la media - previsti per le variabili cardinali. Tuttavia, questi ultimi si possono stimare se si attribuiscono a tutti i casi appartenenti a una stessa classe il valore centrale fra le modalità in essa aggregate. Naturalmente, si tratta soltanto di una stima approssimativa della media che si sarebbe ottenuta se si fosse potuto disporre di una distribuzione di frequenza più articolata. Variabilità I valori caratteristici che rilevano la tendenza centrale segnalano il «baricentro» di una distribuzione di frequenza, ma nulla ci dicono del modo di collocarsi delle altre modalità attorno a questo centro di gravità. Per descrivere più compiutamente una distribuzione, oltre alla tendenza centrale occorre anche rilevare la sua variabilità. Peraltro, la variabilità si manifesta in maniera diversa a seconda del tipo di variabile preso in esame, ed esiste a questo proposito una grande varietà terminologica. - Una variabile nominale presenta una distribuzione caratterizzata da scarsa variabilità quando quasi tutti i casi si addensano nella sua categoria modale; la variabilità minima si ha quando il 100% dei casi assume la medesima modalità, e in questo caso si parla di massima omogeneità (o squilibrio, o concentrazione). - Di converso, la distribuzione è massimamente eterogenea (o equilibrata, o dispersa) quando i casi sono equidistribuiti fra le modalità, ossia quando ogni modalità raccoglie esattamente lo stesso numero di casi. Sono stati sviluppati diversi valori caratteristici per rilevare l' omogeneità/ eterogeneità di una distribuzione riferita a una variabile nominale. Il più semplice e intuitivo è l'indice di omogeneità (O): dove pi è la proporzione di casi che si trovano nella i-esima categoria della variabile e k è il numero totale di modalità. L'indice di omogeneità è dunque dato dalla somma dei quadrati delle frequenze proporzionali 3. Il valore assunto da questo indice dipende da due fattori: è tanto più elevato quanto più i casi si raccolgono in poche modalità e quanto minore è il numero delle modalità. - L'indice assume il massimo valore quando una proporzione è uguale a 1 e tutte le altre sono eguali a O, e questo valore massimo è sempre = 1 quale che sia il numero di modalità della variabile. - Assume il minimo valore quando tutte le frequenze sono eguali fra loro e quindi eguali a 1/ k. Tale valore minimo, tuttavia, varia a seconda del numero di modalità della variabile ed è eguale, per l'appunto, a 1/ k. In altre parole, l'indice ha un campo di variazione eguale a 1/ k + 1. 29 Di solito è più utile avere un indice di omogeneità che non dipenda dal numero di modalità, che permetta di confrontare la variabilità di distribuzioni riferite a variabili con un diverso numero di categorie. In particolare, è utile avere un cosiddetto «indice relativo», i cui valori presentino un campo di variazione che va da O a 1. L'eliminazione dell'influenza del numero di modalità si ottiene rapportando la differenza fra l'indice di omogeneità («indice di omogeneità assoluta») e il suo valore minimo (1/k) alla differenza fra il valore massimo (1) e il valore minimo (1/k). L'indice di omogeneità relativa (0,,1) dunque si calcola così: dove O è l'indice di omogeneità assoluta e k è il numero di modalità. Si possono anche calcolare i complementi ad 1 degli indici di omogeneità che sono gli indici di eterogeneità assoluta (E = 1 - O) e di eterogeneità relativa (Ere! = 1 - Orei)4 Se i casi vengono divisi in quattro parti di numerosità eguale, le modalità che segnano i confini fra i quattro quarti sono detti quartili. - Il primo quartile (Q1) è quel valore al di sotto del quale si trova il 25% dei casi e al di sopra del quale si trova il 75%; - il secondo quartile coincide con la mediana; - il terzo quartile (Q3) ha il 75% dei casi sotto di sé e il 25 % sopra di sé. Il primo e il terzo quartile delle due distribuzioni contribuiscono a rilevare la loro dispersione. Se la distribuzione è addensata attorno al valore medio, il 50% centrale dei casi si troverà su un arco ristretto di valori, e la distanza fra primo e terzo quartile sarà modesta. Se la distribuzione è molto dispersa, anche il 50% centrale dei casi si distribuirà su un arco piuttosto ampio di valori, e la differenza fra primo e terzo quartile sarà elevata. La differenza fra i valori assunti dai due quartili - ossia la differenza interquartile {Q) - può dunque essere usata per rilevare la dispersione della distribuzione: Se le variabili di cui si analizzano le distribuzioni sono cardinali, una prima idea della loro variabilità si può avere esaminando il loro campo di variazione, ossia la differenza che intercorre fra il valore minimo e il valore massimo. 30 La media aritmetica ha una caratteristica molto importante di cui ci si avvale per la rilevazione della variabilità delle distribuzioni delle variabili cardinali. Per ogni valore della distribuzione si può calcolare il suo scarto dalla media (Xi-Xi). Una distribuzione di una variabile cardinale è tanto più dispersa quanto più i suoi casi presentano valori che sono distanti dalla media, ossia quanto più sono grandi gli scarti dalla media. Un modo apparentemente semplice e diretto di rilevare la dispersione di una variabile cardinale è calcolare la media aritmetica dell'insieme degli scarti. Si tratta, tuttavia, di una procedura inutile in quanto la somma degli scarti dei singoli valori dalla media è sempre eguale a O Si può aggirare tale problema se degli scarti dalla media si considera il valore assoluto (tutti positivi, trasformando i negativi in positivi). Se si sommano i valori assoluti degli scarti dalla media e si divide tale somma per il numero dei casi, si ottiene lo scostamento semplice medio (ssm): Lo scostamento semplice medio non viene normalmente usato per rilevare la variabilità di distribuzioni riferite a variabili cardinali. Infatti il problema costituito dal fatto che la somma degli scarti dalla media è eguale a zero di solito viene aggirato elevando i valori assoluti al quadrato. Si tratta di una soluzione altrettanto efficace per annullare il segno negativo degli scarti presentati dai valori inferiori alla media. Inoltre l'elevazione al quadrato degli scarti conferisce anche un maggior peso agli scarti più consistenti. Se si sommano gli scarti elevati al quadrato, si divide la somma per il numero di casi e poi si estrae la radice quadrata del risultato si ottiene la deviazione standard («scarto quadratico medio»): Il quadrato della deviazione standard è la varianza (S2): 31 Di norma la varianza non viene usata nell'ambito dell'analisi monovariata. Tuttavia la varianza presenta alcune caratteristiche matematiche che la rendono utile nell'analisi delle relazioni fra variabili. Non è possibile confrontare le deviazioni standard di due distribuzioni diverse e affermare che la distribuzione che presenta la deviazione standard più elevata ha una maggiore variabilità perchè: - è possibile che le due distribuzioni si riferiscano a variabili basate su diverse unità di conto o di misura. - qualora le due variabili siano espresse nella stessa unità di conto/misura, può darsi che i valori di una delle distribuzioni siano di grandezza sensibilmente diversa rispetto ai valori dell'altra distribuzione. Se si vogliono confrontare fra di loro le variabilità di distribuzioni aventi medie molto diverse, conviene ricorrere a un valore caratteristico che tenga conto della media. Il coefficiente di variazione ( Cv) fa ciò dividendo la deviazione standard per la media: Un'efficace rappresentazione grafica della distribuzione di una variabile cardinale, che veicola in forma compatta informazioni riguardanti diversi valori caratteristici riferiti sia alla tendenza centrale che alla variabilità, è il boxplot. I confini superiore e inferiore del rettangolo coincidono con il terzo e il primo quartile della distribuzione; l'altezza del rettangolo corrisponde alla differenza interquartile e racchiude il 50% centrale dei casi. Pertanto, quanto più il rettangolo è alto, tanto più la distribuzione è dispersa. La riga orizzontale collocata all'interno del rettangolo designa la media, e l'asterisco corrisponde alla posizione della mediana. Le asticelle che si estendono fuori dal rettangolo arrivano fino al valore minimo e massimo della 32 distribuzione, e quindi l'altezza complessiva del diagramma corrisponde al campo di variazione. Concentrazione Esiste un'importante differenza fra variabili nominali e variabili ordinali e cardinali. - Le variabili nominali sono massimamente disperse quando la distribuzione è equilibrata, ossia ogni categoria raccoglie lo stesso numero di casi. - una variabile ordinale o cardinale che presenti una distribuzione equilibrata non è affatto massimamente dispersa: la massima dispersione si ottiene quando tutti i casi si dividono, equamente, nelle due categorie estreme. Questo diverso modo di manifestarsi della variabilità deriva dal fatto che le modalità di una variabile nominale non stanno in alcuna relazione d'ordine, per cui per esse non ha senso parlare di categorie «estreme». Quando la variabile è cardinale e consiste in quantità posseduta dai casi di una ricerca, allora può interessare stabilire in che misura tali quantità siano concentrate o al contrario equidistribuite tra i casi. - La variabile è equidistribuita se il suo ammontare complessivo A è distribuito in parti eguali fra gli N casi, cioè se ogni caso possiede 1/N di A. - La variabile presenta, al contrario, una concentrazione massima se l'ammontare complessivo A è tutto attribuito a un solo caso. La concentrazione è un modo particolare di guardare alla variabilità, e ha senso parlarne solo quando la variabile cardinale è interpretabile come quantità o ammontari posseduti dai casi ed è possibile immaginare di «trasferire» le quantità da un caso all'altro. Sono stati proposti diversi valori caratteristici per rilevare il grado di concentrazione di una distribuzione. Il rapporto di concentrazione di Gini, il più noto, e altri valori caratteristici simili sono usati per studiare le diseguaglianze nella distribuzione della ricchezza, ma possono essere applicati ad altre situazioni di concentrazione/ diseguaglianza. Il rapporto di concentrazione di Gini si calcola nel seguente modo: si ordinano gli N casi in ordine crescente di valore sulla variabile in esame, e poi si calcolano le proporzioni cumulate dei soggetti e dei redditi. Queste proporzioni vengono designate, rispettivamente, da Pi e q1. Se il reddito fosse equidistribuito le coppie di proporzioni riferite agli stessi casi sarebbero eguali: p1 = q1, p2 = q2 e così via. Se non c'è equidistribuzione, tutti i valori q; sono inferiori ai corrispondenti valori p; (salvo nell'ultima coppia, dove necessariamente PN= qN = 1, tant'è che questa coppia di valori viene esclusa dalla seguente formula). Si calcola il rapporto di concentrazione R di Gini nel seguente modo: 33 Per definizione R assume valori compresi fra O ed 1. - R = O in caso di perfetta equidistribuzione, ossia quando tutti i Pz sono eguali ai corrispondenti q,; - R = 1 in caso di massima concentrazione, ossia quando un p1 è eguale a 1 e tutti gli altri p1 sono eguali a O. - Quando la distribuzione è invece molto dispersa R assume valori intermedi. Serie territoriali e serie storiche L’unità d'analisi può anche non essere l'individuo. Un caso particolarmente importante si dà quando l'unità d'analisi è costituita da un aggregato territoriale (comune, provincia, regione, stato, ecc.). Per le unità di analisi di questo genere ci si avvale spesso di dati tratti da fonti statistiche ufficiali. Il fatto di avvalersi di fonti ufficiali significa che la fase di raccolta delle informazioni spesso si esaurisce nell'individuazione delle fonti, nella scelta dei dati, nella loro acquisizione e nel loro adattamento ai propri scopi. Molte variabili riferite ad aggregati territoriali sono di tipo cardinale. Naturalmente, ad aggregati territoriali possono anche essere associate variabili nominali o ordinali. Le variabili riferite ad aggregati territoriali e basate su conteggi o misurazioni possono essere estremamente fuorvianti se i loro valori non vengono messi in rapporto con la dimensione della popolazione di tali aggregati. I dati riferiti ad aggregati territoriali si presentano spesso in due forme, al fine studiare l'andamento di un fenomeno nel tempo e nello spazio. - Una serie territoriale è una sequenza di valori assunti da una variabile nello stesso momento in diversi aggregati territoriali. - Una serie storica («serie temporale») riporta in sequenza i valori assunti da una variabile su uno stesso aggregato territoriale in tempi diversi. 34 Le tabelle dicono come i valori di questa variabile variano nel tempo o nello spazio. Per rappresentare graficamente una serie storica, si collocano - sull'asse orizzontale del grafico la variabile temporale - sull'asse verticale i valori assunti dalla variabile in esame. In corrispondenza di ogni periodo la variabile assume un solo valore, e quindi la serie storica si rappresenta come una serie di punti uniti da una spezzata. Questa congiunzione dei punti è legittima in quanto la variabile temporale ha natura cardinale. Per rappresentare graficamente una serie territoriale, si ricorre invece a un diagramma a colonne o a una figura analoga, in quanto la variabile «regione» ha natura nominale. Una rappresentazione grafica di grande efficacia comunicativa per le serie territoriali è rappresentata dai cartogrammi. Di fronte a una serie storica o territoriale, o anche a una differenza fra due misure, ci si chiede come poter valutare le variazioni di un fenomeno rilevato in situazioni - temporalmente o territorialmente - diverse. La differenza assoluta fra due grandezze omogenee ha un significato diverso a seconda dell'entità delle grandezze stesse. Questo vale anche per i valori percentuali. Se indichiamo con a e b le due grandezze, possiamo calcolare fra di esse sia la variazione assoluta che quella relativa; dove la seconda viene relativizzata dividendola per quello dei due termini che si assume a riferimento. La variazione è di solito espressa in forma percentuale. 35 Naturalmente la variazione relativa dipende fortemente dal termine preso a riferimento. Nell'analisi delle variazioni relative è quindi bene guardare sempre con attenzione alla base di partenza e diffidare di resoconti in cui vengono presentate solo le variazioni relative senza specificare il termine di riferimento. Quando si esaminano valori percentuali è importante distinguere fra variazione percentuale e variazione di punti percentuali. «Punti percentuali» si riferisce alla variazione assoluta (differenza fra percentuali), «per cento» alla variazione relativa (rapporto fra percentuali). Per esprimere le variazioni nel tempo il ricercatore può estendere il ragionamento sotteso alla distinzione tra variazione assoluta e relativa e avvalersi dei numeri indice. I numeri indice sono sequenze di valori, assunti da una stessa variabile ma riferiti a periodi diversi, che sono stati relativizzati rispetto a un valore della sequenza convenzionalmente preso come riferimento e posto eguale a 100. Si tratta di fare una proporzione: I numeri indice sono utili per mettere in luce le variazioni di una serie temporale rispetto a un periodo assunto come base di riferimento. La stessa procedura può essere applicata anche alle serie territoriali, dove si assume come base di riferimento il valore assunto sulla variabile dall'insieme degli aggregati territoriali. I numeri indice non sono mai negativi: quando l'ammontare è inferiore a quello assunto a riferimento (il valore base) il numero indice assume valori inferiori a 100. I valori assunti numeri indice non dipendono dall'unità di misura o di conto in cui sono espressi; essi sono numeri puri e permettono il confronto fra le variabili più disparate. I numeri indice permettono quindi di confrontare - in rappresentazioni tabulari o grafiche - due serie temporali o territoriali riferite a variabili anche molto diverse fra loro. 36 3. TRASFORMAZIONE DEI DATI Il momento conclusivo della rilevazione delle informazioni nella ricerca sociale che prevede l'uso di strumenti di analisi statistica è rappresentato dalla matrice-dati. Nella matrice-dati il numero di righe corrisponde al numero di casi su cui il ricercatore ha rilevato informazioni; il numero di colonne corrisponde al numero di variabili, ossia al numero di proprietà che il ricercatore ha deciso di operativizzare; i dati contenuti nelle celle della matrice corrispondono a quelli prescritti dalle definizioni operative adottate dal ricercatore. La matrice-dati è modificabile. Mediante un'accorta trasformazione dei dati è possibile generare nuove variabili, che rendono più evidenti alcune informazioni. Aggregazione di valori La definizione operativa di una variabile può prevedere anche un numero molto elevato di modalità. Una rappresentazione tabulare o grafica che riproduce la distribuzione di frequenza con precisione sarebbe troppo articolata per svolgere la sua funzione precipua, ossia offrire una rappresentazione sintetica della distribuzione. Per ovviare a questo problema il ricercatore può adottare due strategie diverse. La prima consiste nell'applicare sin dall'inizio una definizione operativa con relativamente poche modalità. In alternativa, il ricercatore potrebbe adottare la definizione operativa «precisa» e, successivamente, creare una seconda nuova variabile. La nuova variabile contiene dati generati a partire dalla variabile già esistente: le modalità della prima variabile vengono aggregate in un numero minore di intervalli, cui corrispondono le modalità della seconda variabile. Il codice viene modificato di conseguenza e finisce per elencare una nuova variabile assieme alle corrispondenti modalità. La nuova variabile non aggiunge nuove informazioni alla matrice-dati; rende le informazioni presenti fruibili in maniera diversa. Questa operazione si chiama anche «ricodifica», in quanto comporta l'assegnazione di nuovi valori alle modalità di una variabile. La seconda strategia dà al ricercatore maggiori possibilità di scelta, in quanto può servirsi dell'una o dell'altra variabile: se vuole esprimere la tendenza centrale con la media o la dispersione con la deviazione standard, si avvarrà della prima variabile; se vuole descrivere la distribuzione con

Use Quizgecko on...
Browser
Browser