Matrici Elementari - PDF
Document Details
Uploaded by FreedRapture407
UniTo
Tags
Related
Summary
Il documento fornisce una panoramica sulle tipologie di matrici utilizzate nelle tecniche di analisi dei dati. Vengono descritti i concetti di matrici derivate, matrici elementari, e diverse tipologie di comparazione (sincronica e diacronica), illustrando esempi concreti. La descrizione di tipi diversi di matrici e tecniche di analisi è finalizzata allo studio sociale e dei fenomeni sociali.
Full Transcript
LEZIONE 7: TIPOLOGIA MATRICI ELEMENTARI Oltre alla CxV (e CxM) sono impiegate come input delle tecniche di analisi dei dati anche: - matrici derivate da una primitiva CxV (o CxM) mediante opportune operazioni algebriche; - matrici ab origine diverse dalla CxV La data theory si occupa dello...
LEZIONE 7: TIPOLOGIA MATRICI ELEMENTARI Oltre alla CxV (e CxM) sono impiegate come input delle tecniche di analisi dei dati anche: - matrici derivate da una primitiva CxV (o CxM) mediante opportune operazioni algebriche; - matrici ab origine diverse dalla CxV La data theory si occupa dello studio sistematico delle strutture di dati a partire dagli anni ‘40, con i lavori di Raymond Cattell. Seguendo la sistemazione proposta da Ricolfi, ci limiteremo alle sole matrici elementari che rappresentano gran parte dell’input nella data analysis. Matrice dati elementare: è una matrice two-ways e ha entrate singole e permutabili. Entrate singole: ogni entità rappresentata su un’entrata è intesa come unità, sia essa un individuo, un gruppo, una variabile ecc.; ad es. non è singola, bensì multipla, una diade stimoloA-stimoloB la cui relazione è oggetto d’analisi in diverse condizioni. Entrate permutabili: possono essere scambiate perché manca loro un ordine intrinseco. Non sono elementari diverse importanti matrici usate in data analysis o in campi limitrofi (come l’econometria). Es di entrata multipla: con i similarities data (usati ad es. in tecniche di scaling multidimensionale e nella Conjoint Analysis) si chiede agli intervistati se una coppia di oggetti A-B si assomiglia di più rispetto a una seconda coppia. A-C. Coombs (1964) chiama quaternaria questa relazione, per distinguerla da una comune relazione binaria (A assomiglia a C). Esempio: a suo parere, si assomigliano di più gli smartphone Xiaomi e Oppo o gli smartphone Xiaomi e Oneplus? Esempi di matrice a più vie La comparazione è divisa in: sincronica: si procede a rilevare gli stati oggetto di comparazione tenendo ferma la dimensione temporale. Nella ricerca quantitativa si parla di analisi trasversale, o cross-sectional, per indicare quei disegni in cui si studiano uno o più campioni di casi nel medesimo momento o comunque in un intervallo breve, in cui i punti temporali sono considerati analoghi. Tali indagini forniscono un’immagine statica dell’oggetto di studio, puntando l’attenzione sulla comparazione tra categorie di popolazione (si confrontano gli individui per variabili come genere, titoli di studio, età,ecc.) diacronica: le indagini sono finalizzate allo studio del cambiamento e dell’evolvere dei processi sociali. A tal fine è preferibile che i dati siano rilevati più volte, anche se è possibile ricorrere a procedure di surrogazione delle rilevazioni ripetute nel tempo. Il termine longitudinale, con il quale si è soliti denominare queste indagini, comprende al suo interno diversi tipi di ricerche e modalità di raccolta dei dati. Gli studi trasversali ripetuti, detti anche analisi di trend, o repeated cross-sectional, consistono in indagini ripetute nel tempo, tenendo ferme le proprietà da analizzare, su campioni formati da soggetti diversi ma “analoghi”, tratti dalla stessa popolazione di riferimento. Il problema di questi studi sta nel fatto che la necessità di tenere costanti nel tempo le caratteristiche del campione si scontra con il mutamento dei fenomeni sociali: a titolo di esempio, se in un certo periodo storico lo studio della condizione giovanile comporta la selezione di un campione di 16-24enni, in periodi successivi può accadere (come in effetti è avvenuto negli ultimi decenni) che la stessa definizione sociologica di “giovane” debba essere rivista anche dal punto di vista anagrafico. Gli studi longitudinali prospettici, detti anche analisi di panel, raccolgono informazioni su uno stesso gruppo di individui a intervalli regolari, seguendo così le loro esperienze e l’andamento delle loro caratteristiche nel corso del tempo. In questo caso, almeno una parte delle domande rimane costante, mentre si possono prevedere alcune domande specifiche, variabili tra le rilevazioni. Un esempio di panel prospettico a livello italiano è l’Indagine Longitudinale sulle Famiglie Italiane (ILFI). Gli studi longitudinali retrospettivi sono surrogati dei panel veri e propri; in tal caso, il rispondente è sollecitato a ricordare gli eventi passati e a ricostruire il proprio percorso di vita. Le indagini retrospettive sono state definite “quasi-longitudinali”, poiché il loro contributo allo studio dei processi causali è solo parzialmente attendibile, soprattutto a causa delle forti distorsioni presenti nelle risposte basate sulla sola memoria individuale a domande che riguardano fatti avvenuti in passato. Sono frequenti nella ricerca sociale disegni di ricerca longitudinali misti Un esempio classico di matrice a tre o più vie lo troviamo nei panel studies. Un insieme di variabili viene rilevato su un campione di individui (sempre gli stessi) in più occasioni (t k). In pratica si tratta di una CxV replicata. Es matrice con 4 vv rilevate su 160 casi in 3 rilevazioni annuali Oppure le tabelle di contingenza multipla, input dei modelli log-lineari) TIPOLOGIA DELLE MATRICI ELEMENTARI Incrociamo due dicotomie, concernenti rispettivamente: la presenza o viceversa l’assenza di variabili (o di modalità) su almeno una delle due entrate; la relazione tra gli oggetti sulle righe e quelli sulle colonne, relazione simmetrica o viceversa asimmetrica. Otteniamo il seguente spazio degli attributi. 1 1. MATRICI DI PROFILI (CXV, CXM): le colonne rappresentano le proprietà (variabili o modalità di variabili), le righe rappresentano i casi. Specificare lo stato di un caso su una proprietà equivale a definire una relazione di appartenenza, cioè una relazione asimmetrica 1 C: casi; V: variabili; M: modalità ; O: oggetti diversi da variabili e modalità 2. MATRICI DI PRODOTTI SCALARI (VXV, MXM). Sono derivate dalle matrici di profili. Sulle due entrate sono rappresentate variabili o modalità; le singole celle contengono prodotti scalari (ad es. indici di correlazione lineare). Per consolidata convenzione, in analisi dei dati le relazioni tra le variabili vengono studiate mediante indici di prodotto scalare. Il p.s. è il numero (lo scalare) che si ottiene pre-moltiplicando un vettore riga per un vettore colonna con lo stesso numero di elementi; ad esempio: Considereremo le matrici di pp.ss. VarCov e R.* Esse contengono nelle loro celle i prodotti e gli autoprodotti scalari dei vettori colonna della CxV opportunamente trasformati. ➔ Matrici varianze/covarianze VarCov =Ac'·Ac·1/n dove Ac è una CxV con m variabili cardinali in forma compressa e centrate rispetto alla media, n sono i casi; esempio con tre variabili: Le celle sopra la diagonale contengono le stesse informazioni di quelle sotto la diagonale (ridondanza). Il numero di dati non ridondanti in una VarCov è: m·(m+1)/2 Es di VarCov ➔ Matrice R di correlazione lineare R= Z'·Z·1/n dove Z è una CxV con m variabili cardinali in forma compressa, centrate rispetto alla media e uniformate per la deviazione standard In questo caso, anche la diagonale principale è ridondante (le autocorrelazioni sono necessariamente pari a 1). Il numero di dati non ridondanti in una mat. R è: m·(m-1)/2 3. MATRICI DI CONSONANZA (OXO): gli oggetti (intervistati, stimoli) rappresentati sulle due entrate sono connessi con operatori simmetrici (ad es. distanza euclidea). Possono essere 1-mode (sulle entrate c’è lo stesso set di oggetti) o 2-mode (due set distinti di oggetti, es individui x stimoli). ➔ Matrice di consonanza C1: può essere una matrice originaria oppure una matrice derivata dalla CxV. Consideriamo un esempio di matrice di consonanza tra casi derivata da una CxV (per semplicità le variabili sono dummy): ➔ Matrice di consonanza C2: Come esempio scegliamo una matrice individuale: quattro leader politici sono valutati, da ciascun intervistato, per la loro coerenza (consonanza) con quattro valori: impegno, sobrietà ecc. Per ogni intervistato si produce una matrice come questa; si possono poi combinare in un’unica matrice le valutazioni di più intervistati (ad es. calcolando la media). 4. MATRICI DI DOMINANZA (OXO): le entrate sono connesse da operatori asimmetrici: il singolo dato esprime la dominanza di un oggetto su un altro. Possono essere 1-mode (confronti within, tra gli oggetti di un insieme) o 2-mode (confronti between, tra gli oggetti di due insiemi). ➔ Matrice di dominanza D1: Otto stimoli (A, B, …H) vengono presentati a coppie {i,j} : (B-A, C-A, D-A ecc.). Si chiede all’intervistat* se, su una certa caratteristica, lo stimolo i è preferito a j oppure no, poi si procede con la seguente codifica: 1 = ‘ i viene prima di j’ ; 0 = ‘ i viene dopo di j È una matrice Oggetti x Oggetti D1. Gli stimoli potrebbero essere, ad esempio, reati diversi valutati a coppie per la loro gravità. Il meccanismo che ha generato questi dati ha una struttura: per individuarla occorre permutare opportunamente righe e colonne ottenendo la seguente matrice ordinata per grado di dominanza: B ed E sono i più dominati, F e H sono i più dominanti, gli altri stimoli sono in posizione intermedia. In definitiva, la struttura è una scala ordinale a 4 modalità a cui assegniamo gli 8 stimoli Con una serie di assunti e un buon numero di matrici di questo tipo ottenute da un campione di soggetti, Thurstone (1927) ha proposto un modello che permette di passare dal mero ordinamento a una scala di intervalli. ➔ Matrice di dominanza D2: Es Scalogramma di Guttman Si ottiene una scala ordinale congiunta (per soggetti e stimoli) a partire da una matrice binaria di tipo D2, in cui il singolo dato indica il superamento o meno di una I-esima prova da parte di un S-esimo soggetto. Gli «ostacoli» possono essere sia prove di un test di capacità, sia atteggiamenti o comportamenti che possono essere interpretati come prove da affrontare, anche in senso lato, come nell’esempio. Operatori per le relazioni tra oggetti: I prodotti scalari, o operatori codistribuzionali (cosiddetti perché sintetizzano le distribuzioni congiunte di due o più variabili) in genere non si usano per esaminare le relazioni tra oggetti; per queste si usano: operatori non codistribuzionali di consonanza, ad esempio il grado di prossimità tra oggetti; si tratta di operatori simmetrici (la prossimità tra A e B coincide con quella tra B e A); operatori non codistribuzionali di dominanza, ad esempio la relazione di ordine o inclusione tra oggetti; si tratta di operatori asimmetrici (se preferisco C a D non vale il contrario; se l’insieme E include l’insieme F, F non include E). Le distanze sono un caso particolare delle relazioni di prossimità; queste, a differenza delle prime, non sono vincolate al principio geometrico della disuguaglianza triangolare: dAB + dAC > dBC. Tale regola non è mai soddisfatta nelle valutazioni soggettive di prossimità tra oggetti: queste sono cariche di errori, imprecisioni e incoerenze che aumentano al crescere del numero di oggetti da valutare. Alcune tecniche (ad es. il MultiDimensional Scaling - MDS) trasformano relazioni di prossimità in distanze (euclidee, chi quadrato o altro tipo), al fine di rappresentarle in uno spazio geometrico k-dimensionale (preferibilmente 2 dimensioni). Tecniche di analisi dati che fanno uso di matrici di cons/dom