Condizionalità, Normalizzazione e Deflazione (PDF)
Document Details
Uploaded by FreedRapture407
UniTo
Tags
Related
- Statistical Analysis of Twin Data PDF
- Scientific Research Methods and Statistical Application (June 2024) PDF
- Scientific Research Methods and Statistical Application (June 2024) PDF
- Understanding Life Through Data Test Revision PDF
- Analysis & Presentation of Quantitative Data PDF
- Data Analysis in Psychology - ANOVA Models PDF
Summary
This document discusses data conditionality and techniques for normalizing and deflating data in matrices. It covers row and column conditional data, and the use of min-max and z-score normalization. The text also mentions how to identify outliers and calculate Pearson's correlation.
Full Transcript
LEZIONE 7: CONDIZIONALITA’, NORMALIZZAZIONE E DEFLAZIONE Condizionalità dei dati entro una matrice La data conditionality indica quali confronti possiamo fare tra i dati inseriti nelle celle della matrice. In una matrice in cui i dati sono dello stesso tipo e tutti confrontabili tra loro, si parla d...
LEZIONE 7: CONDIZIONALITA’, NORMALIZZAZIONE E DEFLAZIONE Condizionalità dei dati entro una matrice La data conditionality indica quali confronti possiamo fare tra i dati inseriti nelle celle della matrice. In una matrice in cui i dati sono dello stesso tipo e tutti confrontabili tra loro, si parla di unconditional data e unconditional matrix. Come vedremo, alcuni input delle tecniche di analisi dei dati sono matrici unconditional. Altri input sono di tipo: - row conditional: I dati sono confrontabili solo per riga: un ‘4’ nella prima cella di un record può essere confrontato con un ‘5’ di un’altra cella dello stesso record, ma non con il valore di una qualunque cella di un altro record. - column conditional: I dati sono confrontabili solo per colonna. In precedenza, abbiamo detto che il termine dataframe è sinonimo di CxV, ma alla luce del concetto di conditionality possiamo fare un’ulteriore distinzione. In un dataframe in cui i dati non sono column conditional, le colonne contengono quasi-variabili: dovremmo indicarlo come CxP, Casi per Proprietà. Un dataframe in cui i dati sono confrontabili solo per colonna si dice column conditional. Le colonne contengono variabili: possiamo parlare di CxV in senso proprio, ma non possiamo fare confronti tra variabili o applicare applicare quelle tecniche di analisi che presuppongono una scala comune tra le variabili. →Per combinare con operazioni algebriche più variabili cardinali in indici, la porzione interessata della CxV deve essere unconditional. Per rendere row-conditional una matrice (o una sua parte) può essere necessario ricorrere alla normalizzazione delle variabili, ossia ri-scalarle in modo omogeneo per poterle confrontare. Tra i tipi più usati nella ricerca sociale: - la normalizzazione min-max - la standardizzazione zeta score - Per rendere column-conditional una matrice CxP, o una sua parte, talvolta si ricorre alla deflazione: questa è una sorta di standardizzazione alla rovescia, perché ri-scala i valori dei profili invece che quelli delle variabili. a) Normalizzazione mix max Si considerino due variabili, X1 e X2 che assumono valori interi rispettivamente da 0 a 10 e da 0 a 100. Per combinarle in un indice dobbiamo prima omogeneizzare il loro campo di variazione. Un modo è quello di trasformare X1 e X 2 in X’1´ e X’ 2 ´ con la formula: Nella normalizzazione min-max assoluta il minimo e il massimo sono quelli teorici, ossia definiti a priori. Nella normalizzazione min-max relativa sono quelli empirici, rilevati nel campione. È anche possibile una normalizzazione min-max ibrida. b) Standardizzazione z-score di una variabile cardinale (Negli indici cardinali si combinano due o più variabili componenti cardinali un operatore matematico (tipicamente la somma o il conteggio) oppure statistico (tipicamente la mediana o la media aritmetica). Le variabili devono avere il requisito della omogeneità scalare: se, come spesso capita, non sono state misurate con le stesse scale, vanno omogeneizzate, ossia rese equivalenti nei loro campi di variazione, prima di procedere alla loro combinazione. La procedura di trasformazione dei dati più diffusa in tal senso è la standardizzazione). Una variabile standardizzata, che indichiamo con Z, si ottiene mediante centratura (al numeratore) e uniformazione (al denominatore) della variabile originaria. I valori di Z sono detti punteggi standardizzati o z- scores. Ad esempio, un punto standard 3.01 significa che il valore osservato in quel caso dista 3.01 deviazioni standard dalla media della distribuzione complessiva. Come per gli altri tipi di normalizzazione, la standardizzazione lascia inalterate le distanze relative tra i casi osservati. b.1) Impiego della standardizzazione per costruire un indice sintetico In matrice CxV abbiamo tre variabili, X1, X2 e X3, che vogliamo sintetizzare in un indice sintetico «capitale umano». In questo esempio invece dopo averle standardizzate, assegniamo alle variabili un peso semantico, ossia un diverso grado di contribuzione all’indice. Se due indicatori da combinare insieme nell’indice sintetico, pur avendo una scala omogenea, hanno un rapporto inverso rispetto alla proprietà indicata (cioè ci si aspetta che all’aumentare del primo il secondo regolarmente diminuisca), prima di combinarli occorre dar loro lo stesso orientamento effettuando per l’uno o in alternativa l’altro una inversione di polarità semantica. b.2) Impiego della standardizzazione per individuare gli outliers Nell’analisi monovariata i valori nelle code della distribuzione si considerano outliers: quelli oltre i limiti indicati in rosso a dx e sx rappresentano lo 0.3% del totale dei casi. Possono essere individuate anche soglie diverse (quelle indicate nella tabella o altre). b.3) Standardizzazione e indice di correlazione di Pearson (→excel calcolo pearson) Normalizzazione e curva gaussiana Alcune tecniche di analisi dei dati (dette «parametriche») per funzionare al meglio richiedono variabili che presentino il più possibile una distribuzione normale (o «distribuzione di gauss» o «gaussiana»). Le normalizzazioni che abbiamo considerato non prendono il nome dalla curva teorica detta «distribuzione normale». Si tratta di procedure con cui le variabili vengono ri-scalate entro un range predefinito e comune: ogni normalizzazione in questo senso (quelle che abbiamo visto e altre) modifica solo il campo di variazione, non le distanze relative tra i casi. In altre parole, non cambiano la forma della distribuzione; la standardizzazione non rende gaussiana la distribuzione di una variabile che non lo è. Quando abbiamo variabili con distribuzioni a campana unimodale ma asimmetriche (skewed) possiamo forzarle ad assumere forma gaussiana applicando (a seconda dei casi) vari operatori: logaritmi, radici quadrate ecc. La distribuzione di Y riportata qui a fianco è detta «log-normale»: la distribuzione log(Y) assume forma gaussiana. Un’alternativa è la standardizzazione normalizzante, una procedura ideata in psicometria per «gaussianizzare» distribuzioni a campana irregolari, al fine di applicare tecniche di analisi parametriche, ossia che presuppongono la normalità dei dati. Essa consiste nel far uso dei ranghi percentili per sostituire i punteggi grezzi (osservati) in punteggi standardizzati forzandoli al contempo ad assumere la forma della curva normale. c) Deflazione: una ‘standardizzazione’ dei casi La deflazione dei dati è una sorta di standardizzazione dei profili (casi), rispetto alle medie e alle deviazioni standard di riga. Si applica a variabili cardinali autoancoranti con molte modalità. La centratura rispetto alla media di profilo depura i dati dall’inflazione additiva (il parametro sigma nell’equazione). L’uniformazione con la dev.std di profilo filtra i dati dall’inflazione moltiplicativa (il parametro alfa nell’equazione). Per distinguere le posizioni effettive degli intervistati dagli stili di risposta, e quindi applicare la deflazione, gli item devono essere numerosi e su temi eterogenei. Esempio Marco tende a dare punti molto alti, Elisa molto bassi. Federica e Giovanni hanno la stessa media ma la prima dà punti diversificati, il secondo concentrati. Già da uno sguardo d’insieme si capisce che solo in apparenza Marco, Federica e Giovanni hanno elevata e uguale fiducia negli industriali e che Elisa ha quella più bassa. Centratura: Per neutralizzare l’inflazione additiva, le valutazioni date da ogni intervistato vengono centrate rispetto al punteggio medio espresso dallo stesso soggetto … ad es. il 70 attribuito da Marco diventa -15: un valore inferiore a quello degli altri tre. Perché punteggio medio di Marco è 85, quindi si centra ogni valore. Es industriali 85-70=-15 e così via Uniformazione: Dividendo infine ogni punteggio centrato per la dev.std. di profilo, neutralizziamo l’inflazione moltiplicativa di ogni intervistato. (es -15/9.8=-1.5). Elisa e Giovanni mostrano il grado di fiducia più alto negli industriali, Marco il più basso. Con i dati grezzi Elisa mostrava il grado di fiducia più basso ***CALCOLO R DI PEARSON(FILE EXCEL) n n sxy 1 xi − x yi − y 1 rxy = = ∑( )⋅( ) rxy = ∑ Z1𝑖 ⋅ Z2𝑖 sx sy n sx sy n i=1 i=1 Z1= (voce spesa pubb regione-media)/deviazione standard Z2= (voce n° di residenti/media)/deviazione standard Z1*Z2 per ogni riga →Correlazione tra spesa pubblica totale e popolazione residente: - Fare la somma di Z1*Z2 - Dividere la somma/n →Correlazione tra spesa pubblica e superficie - Calcolare Z3 (riga km-media/dev standard) - Fare Z1*Z3 - Fare la somma di questi prodotti - Dividere la somma per n