Analisi Discriminante PDF
Document Details
Uploaded by ContrastyMiami
A. Pollice
Tags
Summary
Questo capitolo introduce l'analisi discriminante, che fa parte dell'analisi statistica multivariata. Vengono descritti i metodi e gli sviluppi di analisi discriminante lineare di Fisher. Contiene la teoria e le formule relative all'argomento.
Full Transcript
Capitolo 6 Analisi discriminante L’analisi statistica multivariata comprende un corpo di metodologie stati- stiche che permettono di analizzare simultaneamente misurazioni riguardanti diverse caratteristiche (variabili qualitative o quantitative) di un insieme di individui in esame. Gli obiettivi...
Capitolo 6 Analisi discriminante L’analisi statistica multivariata comprende un corpo di metodologie stati- stiche che permettono di analizzare simultaneamente misurazioni riguardanti diverse caratteristiche (variabili qualitative o quantitative) di un insieme di individui in esame. Gli obiettivi principali delle metodologie di analisi multivariata sono riassumibili nella sintesi delle osservazioni ovvero nella semplificazione della loro struttura (riduzione del numero delle variabili), nell’ordinamento e nel raggruppamento (classificazione) di osservazioni, nello studio delle interdipendenze tra le variabili, nella formulazione e verifica di ipotesi operative. Le diverse tecniche di analisi multivariata possono essere distinte a se- conda che facciano o meno riferimento ad un modello distributivo assunto per le osservazioni e alla base degli sviluppi inferenziali. In questo senso le tecniche collegate allo studio della dipendenza (modello lineare generale, modelli lineari generalizzati) si contrappongono ad un insieme di metodo- logie giustificate prevalentemente da argomenti logico-intuitivi note sotto il nome di metodi di analisi dei dati. Sono questi dei metodi esplorativi (L. Fabbris,1991) ovvero di statistica descrittiva multidimensionale (L. Lebart, A. Morineau, J.P. Fénelon, 1982). Un tale approccio porta a procedure di analisi euristiche, ovvero di carattere intuitivo-analogico, i cui risultati devono essere controllati e convalidati in un secondo tempo (logica del tro- vare), e si contrappone all’approccio confermativo per il quale la verifica della sussistenza di assunzioni effettuate prima ancora della rilevazione dei dati viene condotta sulla base di metodi statistico inferenziali (logica del giustificare). La scelta di uno dei due approcci dipende sia dagli obiettivi del ricercatore che dalle informazioni disponibili riguardo alla distribuzione delle variabili in esame, ovvero dalla possibilità di controllare sperimen- 1 A. Pollice - SM Cap. 6: Analisi discriminante 2 talmente l’osservazione dei fenomeni. Per questo motivo l’analisi dei dati è tradizionalmente collegata alle applicazioni in ambito socio-economico, men- tre i metodi modellistico-inferenziali vengono maggiormente utilizzati nelle scienze sperimentali. 6.1 Funzione discriminante lineare di Fisher Per analisi discriminante si intende un corpo di metodologie che, consideran- do un universo campionario k-dimensionale X suddiviso in p gruppi o sotto- popolazioni X1 ,... , Xp , permettono di assegnare una generica osservazione x ad uno dei p gruppi. Uno tra i primi a parlare di analisi discriminante multivariata fu R. A. Fisher (1936) con riferimento all’attribuizione di alcuni reperti fossili alla categoria dei primati o a quella degli umanoidi in base a diverse misurazioni effettuate sugli stessi. Nell’approccio di Fisher l’obiettivo dell’analisi discri- minante è quello di individuare la categoria o gruppo di appartenenza di un’osservazione multidimensionale in base alla conoscenza campionaria del comportamento dei diversi gruppi. Si suppone di disporre di un training (o learning) set formato da n osservazioni k-dimensionali raggruppate in p categorie (gruppi o classi) e di volerlo utilizzare per costruire un classificato- re, allo scopo di determinare la categoria di appartenenza di un’osservazione k-dimensionale non classificata. Il metodo proposto da Fisher è un metodo non-parametrico (o meglio distribution-free), ovvero non richiede di effettuare alcuna assunzione sulla forma distributiva delle p popolazioni da cui vengono estratti i p campioni k-dimensionali X1 ,... , Xp che formano il training set. L’assegnazione del- l’osservazione non classificata x viene effettuata tramite una combinazione lineare W = a0 X delle k componenti della variabile X rilevata, tale da ren- dere massima la separazione (o discriminazione) tra i p campioni. Il criterio che viene utilizzato per definire la combinazione lineare, ovvero il vettore k-dimensionale dei coefficienti a, consiste pertanto nel pretendere che sia massima la differenza tra le medie di W nei p campioni, in modo da rendere meno ambigua la classificazione dell’osservazione w = a0 x. Il training set è dunque costituito da p campioni X1 ,... , Xp di nume- rosità nj da ciascuna sottopopolazione Xj con j = 1,... , p: x11j · · · x1kj Xj = ..... = [x ] (6.1) . ihj xnj 1j · · · xnj kj A. Pollice - SM Cap. 6: Analisi discriminante 3 con i = 1,... , nj , h = 1,... , k e j = 1,... , p. Siano inoltre 1 0 X̄j = X un = (X̄1j ,... , X̄kj )0 (6.2) nj j j il vettore delle medie campionarie del j-esimo campione ed 1 Sj = (Xj − unj X̄j0 )0 (Xj − unj X̄j0 ) = [Shlj ] (6.3) nj la matrice delle varianze e covarianze campionarie del j-esimo cam- pione (nelle espressioni precedenti h, l = 1,... , k e j = 1,... , p). Complessivamente, posto n = pj=1 nj sia X = (X10 ,... , Xp0 )0 la ma- P trice n × k di tutte le osservazioni disponibili ed inoltre sia 1 0 X̄ = X un = (X̄1 ,... , X̄k )0 (6.4) n il vettore delle medie campionarie complessive ed 1 S= (X − un X̄ 0 )0 (X − un X̄ 0 ) = [Shl ] (6.5) n la matrice delle varianze e covarianze campionarie calcolate in base a tutti i p campioni. Dalla combinazione lineare delle colonne della matrice X tramite il vettore k-dimensionale a si ottiene il vettore n-dimensionale W = Xa (6.6) con media e varianza campionarie date da 1 0 1 W̄ = W un = a0 X 0 un = a0 X̄ (6.7) n n 1 2 SW = (Xa − un a0 X̄)0 (Xa − un a0 X̄) = a0 Sa (6.8) n Il generico elemento (h, l)-esimo della matrice S può essere espresso come somma di due componenti: p nj 1 XX Shl = (xihj − X̄h )(xilj − X̄l ) = n j=1 i=1 p X nj p 1X = Shlj + nj (X̄hj − X̄h )(X̄lj − X̄l ) (6.9) n n j=1 j=1 A. Pollice - SM Cap. 6: Analisi discriminante 4 Pertanto la matrice di varianze e covarianze S può essere scomposta nel modo seguente S = S(w) + S(b) (6.10) dove S(w) indica la matrice delle varianze e covarianze all’interno dei p campioni (within) data da p X nj S(w) = Sj (6.11) n j=1 mentre S(b) è la matrice di varianze e covarianze tra i p campioni (between). Ne discende la seguente scomposizione della varianza campionaria di W: 2 SW = a0 Sa = a0 S(w) a + a0 S(b) a (6.12) Si voglia ora determinare a in modo tale da massimizzare le differenze tra le medie di W nei p campioni. Ciò implica la massimizzazione della varian- za between a0 S(b) a. Ovviamente quanto maggiori in valore assoluto sono gli elementi del vettore a, tanto più elevato è il valore della forma quadratica. Quindi affinché il problema della determinazione del massimo assoluto di a0 S(b) a rispetto ad a sia ben definito, si considera un vincolo sulla dimen- sione di a dato dall’espressione a0 Sa = SW 2 = 1. Tale vincolo corrisponde a pretendere che W abbia varianza unitaria. Pertanto per la determinazione di a bisogna risolvere il seguente problema di massimo vincolato: maxa a0 S(b) a ( (6.13) a0 Sa = 1 La funzione lagrangiana prende la forma seguente, dove λ è il moltiplicatore di Lagrange £(a, λ) = a0 S(b) a − λ(a0 Sa − 1) (6.14) Il problema di massimo vincolato si traduce nella soluzione del sistema ∂ £(a,λ) = 2S(b) a − 2λSa = o λ = a0 S(b) a ( ∂a = (6.15) ∂ £(a,λ) = a0 Sa − 1 = 0 a0 Sa = 1 ∂λ si noti che la prima equazione del sistema può essere espressa nella forma di equazione caratteristica (o equazione agli autovalori) S −1 S(b) a = λa dalla quale risulta come λ sia uno degli autovalori di S −1 S(b) ed a l’autovettore A. Pollice - SM Cap. 6: Analisi discriminante 5 ad esso associato. Inoltre, affinché si verifichi λ = maxa a0 S(b) a, bisogna scegliere tra gli autovalori di S −1 S(b) quello che assume valore massimo. La variabile W(1) = a0(1) X (6.16) definita tramite l’autovettore a(1) associato al maggiore degli autovalori λ1 corrisponde dunque alla combinazione lineare delle componenti della varia- bille k-dimensionale di partenza che separa maggiormente i p campioni ed è detta prima funzione discriminante lineare. L’autovalore λ1 equivalente alla varianza between della variable W(1) è detto potere discriminante di W(1) e misura la capacità di W(1) di separare le medie dei p campioni. La definizione della seconda funzione discriminante lineare W(2) pre- vede che questa soddisfi la condizione di massimo e il vincolo precedenti, ed inoltre che sia incorrelata con W(1). In tal caso W(2) = a0(2) X (6.17) dove il vettore a(2) è dato dalla soluzione del problema di massimo vincolato maxa(2) a0(2) S(b) a(2) a0(2) Sa(2) = 1 (6.18) 0 a(1) Sa(2) = 0 Indicando con µ1 e 2µ2 i due moltiplicatori di Lagrange, la funzione lagran- giana è data da £(a(2) , µ1 , µ2 ) = a0(2) S(b) a(2) − µ1 (a0(2) Sa(2) − 1) − 2µ2 a0(1) Sa(2) (6.19) in questo caso la soluzione del problema di massimo vincolato è ottenuta risolvendo il sistema ∂ £(a(2) ,µ1 ,µ2 ) ∂a(2) = 2S(b) a(2) − 2µ1 Sa(2) − 2µ2 Sa(1) = o ∂ £(a,µ1 ,µ2 ) ∂µ1 = a0(2) Sa(2) − 1 = 0 (6.20) ∂ £(a,µ1 ,µ2 ) = a0 Sa = 0 ∂µ2 (1) (2) Dopo qualche passaggio algebrico si ottiene: S −1 S(b) a(2) = µ1 a(2) (6.21) A. Pollice - SM Cap. 6: Analisi discriminante 6 Dall’espressione precedente µ1 = λ2 risulta essere il secondo maggiore au- tovalore della matrice S −1 S(b) , mentre a(2) è l’autovettore corrispondente e tale che a0(2) Sa(2) = 1. Si possono individuare tante funzioni discriminanti lineari quanti sono gli autovalori non nulli della matrice S −1 S(b) , ossia un numero pari al rango della matrice stessa g = r(S −1 S(b) ). In genere si considera un numero t < g di funzioni discriminanti, interrompendo l’analisi quando il potere discri- minante della (t + 1)-esima funzione discriminante lineare, ossia il valore del (t + 1)-esimo autovalore di S −1 S(b) , diviene trascurabile. Una misura del potere discriminante complessivo delle prime t funzioni discriminanti è data dal rapporto Pt Pt q=1 λq q=1 λq Pg = (6.22) q=1 λq tr(S −1 S(b) ) Regola di classificazione: nel caso in cui si considerino t funzioni di- scriminanti lineari, per ciascuna di esse, ovvero per q = 1,... , t, si possono calcolare il valore w(q) = a0(q) x e la media W̄(q),j di W(q) nel j-esimo gruppo. L’osservazione x è assegnata al gruppo j ∗ se si ha: t X t X |w(q) − W̄(q),j ∗ | = min |w(q) − W̄(q),j | (6.23) j q=1 q=1 Dal punto di vista geometrico l’analisi discriminante consiste nel rap- presentare le p nuvole k dimensionali di nj punti (i p gruppi) in uno spazio euclideo di dimensione t < k tale da evidenziare opportunamente le distan- ze tra i gruppi. L’output dell’analisi discriminante deve perciò includere la dimensione t del nuovo riferimento (ovvero del modello discriminante), la posizione di ciascuna dimensione del modello discriminante W(q) rispet- to al riferimento originario (i vettori a(q) ), la posizione dei p campioni di osservazioni nel sottospazio delle variabili discriminanti (le medie W̄(q),j ). 6.2 Analisi discriminante di massima verosimiglianza Per la popolazione k-dimensionale valga l’assunzione distributiva seguente: il j-esimo gruppo abbia distribuzione pj (x) per j = 1,... , p. 6.2.1 Completa specificazione delle distribuzioni dei gruppi nella popolazione Assumiamo in prima istanza che le p distribuzioni k-dimensionali siano com- pletamente specificate nella forma e nei parametri (ipotesi poco realistica, A. Pollice - SM Cap. 6: Analisi discriminante 7 ma efficace dal punto di vista teorico). L’obiettivo sia quello di classificare l’osservazione x nel gruppo per il quale la verosimiglianza è massima. In tal caso x viene assegnata alla j ∗ -esima sottopopolazione se vale pj ∗ (x) = max pj (x) (6.24) j essendo pj (x) la verosimiglianza dell’osservazione x classificata nel j-esimo gruppo, con j = 1,... , p. Si assuma adesso la normalità dei gruppi nella popolazione k-dimensionale: pj (x) = Nk (µj , Σj ) j = 1,... , p (6.25) ovvero k 1 1 ln pj (x) = − ln(2π) − ln |Σj | − (x − µj )0 Σ−1 j (x − µj ) (6.26) 2 2 2 e posto τj = − 21 ln |Σj | si ottiene la regola di classificazione seguente: l’osservazione x è assegnata alla j ∗ -esima sottopopolazione se vale 1 0 −1 1 0 −1 τj ∗ − (x − µj ∗ ) Σj ∗ (x − µj ∗ ) = max τj − (x − µj ) Σj (x − µj ) (6.27) 2 j 2 L’espressione in parentesi quadra è detta funzione discriminante quadratica perché il vettore x appare nella forma quadratica. Qualora si assuma la omoschedasticità dei p gruppi nella popolazione, ovvero Σ1 = · · · = Σp = Σ con τ1 = · · · = τp = τ = − 21 ln |Σ|, la funzione discriminante quadratica diventa 1 1 τ − x0 Σ−1 x + x0 Σ−1 µj − µ0j Σ−1 µj (6.28) 2 2 quindi posto αj = − 21 µ0j Σ−1 µj la (6.27) coincide con αj ∗ + x0 Σ−1 µj ∗ = max αj + x0 Σ−1 µj (6.29) j L’espressione in parentesi quadra è detta funzione discriminante lineare perché il vettore x appare nella forma lineare. Si può dimostrare che la (6.29) coincide con la (6.23) quando t = g, ovve- ro che sotto l’ipotesi di omoschedasticità l’analisi discriminante di massima verosimiglianza coincide con l’analisi discriminante di Fisher considerando tutte le possibili funzioni discriminanti. A. Pollice - SM Cap. 6: Analisi discriminante 8 6.2.2 Parametri incogniti Supponiamo ora che i parametri delle distribuzioni normali k-dimensionali dei gruppi X1 ,... , Xp siano incogniti. In tal caso considerando la matrice X = (X10 ,... , Xp0 )0 contenente tutte le osservazioni campionarie si possono calcolare le medie X̄j e la matrice di varianze e covarianze within del cam- pione S(w). Sostituendo queste stime nella funzione discriminante lineare si ottiene 1 0 −1 0 −1 1 0 −1 0 −1 − (X̄j ∗ ) S(w) X̄j ∗ + x S(w) X̄j ∗ = max − X̄j S(w) X̄j + x S(w) X̄j (6.30) 2 j 2 6.3 Analisi discriminante bayesiana (cenni) Nella statistica bayesiana si assume generalmente di poter attribuire delle probabilità a priori a ciò che costituisce l’oggetto dell’inferenza (ai parame- tri nell’inferenza parametrica). Si parla di analisi discriminante bayesiana se è possibile, grazie a conoscenze preesistenti relative al fenomeno in esa- me, assegnare delle probabilità a priori π1 ,... , πp ai gruppi, in modo tale che πj = Pr(x ∈ Xj ) sia la probabilità a priori che l’osservazione x non classificata provenga dal j-esimo pruppo. Se, come nel paragrafo 6.2, con p1 ,... , pp si indicano le distribuzioni completamente specificate del caratte- re X nei p gruppi, è possibile utilizzare il teorema di Bayes per calcolare la probabilità a posteriori di ciascun gruppo. Le probabilità a posteriori consistono nell’aggiornamento delle probabilità a priori, effettuato tramite le osservazioni campionarie e pertanto integrano l’informazione disponibile prima dell’osservazione dei dati (ovvero le probabilità a priori) con quella contenuta nei dati stessi. Per il teorema di Bayes la probabilità che, condi- zionatamente al valore osservato, l’osservazione x sia generata dalla j-esima popolazione è data per j = 1,... , p da p(Xj |x) = Pr(x ∈ Xj |x) = Pr(x ∈ Xj ) Pr(x|x ∈ Xj ) = = Pr(x) πj pj (x) = Pp (6.31) j=1 πj pj (x) La regola di classificazione consiste nell’attribuire x alla sottopopolazione che ha maggiore probabilità di averla generata, ovvero nel determinare il valore di j ∗ tale che p(Xj ∗ |x) = max p(Xj |x) (6.32) j A. Pollice - SM Cap. 6: Analisi discriminante 9 Questo approccio all’analisi discriminante gode di notevoli proprietà che lo rendono ottimale da più punti di vista (Mardia, Kent, Bibby, 1979, Anderson, 1984). 6.4 Minimizzazione del costo atteso di un’errata classificazione (cenni) Un metodo alternativo per l’analisi discriminante è dovuto a Welch (1939). Per semplicità si considerano p = 2 gruppi della popolazione k-dimensio- nale: X1 e X2 con distribuzioni rispettivamente p1 e p2. Sia Ω lo spazio campionario, ovvero lo spazio k-dimensionale dei possibili valori di x ed Ω = Ω1 ∪Ω2 una sua bipartizione tale che se x ∈ Ω1 , allora x viene assegnata al primo gruppo, viceversa se x ∈ / Ω1. Dette ancora π1 = Pr(x ∈ X1 ) e π2 = Pr(x ∈ X2 ) le probabilità a priori dei due gruppi, la probabilità complessiva di una classificazione errata è data da Pr[(x ∈ Ω1 ) ∩ (x ∈ X2 )] + Pr[(x ∈ / Ω1 ) ∩ (x ∈ X1 )] = = Pr(x ∈ X2 ) Pr[x ∈ Ω1 |x ∈ X2 ] + Pr(x ∈ X1 ) Pr[x ∈ / Ω1 |x ∈ X1 ] = Z Z = π2 p2 (x)dx + π1 1 − p1 (x)dx = Ω1 Ω1 Z = π1 + π2 p2 (x) − π1 p1 (x)dx (6.33) Ω1 Affinché tale probabilità sia di dimensioni ridotte l’integrale nell’ultima espressione, ovvero la funzione integranda, deve essere minore di zero. In altri termini la probabilità di classificazione errata è minima quando Ω1 contiene elementi tali da soddisfare la condizione p1 (x) π2 π2 p2 (x) − π1 p1 (x) < 0 =⇒ > (6.34) p2 (x) π1 La regola di classificazione porta dunque ad assegnare x alla prima sotto- popolazione X1 se si verifica la condizione precedente e ad X2 se vale p1 (x) π2 < (6.35) p2 (x) π1 Si assuma ora che c(1|2) e c(2|1) siano rispettivamente la perdita (o il costo) che si determina assegnando erroneamente l’osservazione x alla sotto- popolazione X1 e alla sottopopolazione X2. La perdita attesa complessiva A. Pollice - SM Cap. 6: Analisi discriminante 10 è dunque data da Z c = c(2|1)π1 + c(1|2)π2 p2 (x) − c(2|1)π1 p1 (x)dx (6.36) Ω1 Tale costo risulta minimo quando Ω1 contiene elementi tali da soddisfare la condizione p1 (x) c(1|2)π2 c(1|2)π2 p2 (x) − c(2|1)π1 p1 (x) < 0 =⇒ > (6.37) p2 (x) c(2|1)π1 La regola di classificazione consiste nell’assegnare l’osservazione x ad X1 se vale la condizione precedente e ad X2 se invece vale p1 (x) c(1|2)π2 < (6.38) p2 (x) c(2|1)π1 6.5 Validazione della regola di classificazione - Sti- ma della probabilità di errata classificazione (cenni) 6.5.1 Metodo parametrico Siano p1 e p2 le distribuzioni completamente specificate dei gruppi X1 e X2 della popolazione k-dimensionale X. La probabilità complessiva di errata classificazione è data da Z π1 + π2 p2 (x) − π1 p1 (x)dx (6.39) Ω1 Nel caso in cui la forma distributiva delle due sottopopolazioni sia nota, mentre i loro parametri θ1 e θ2 vengono stimati tramite i dati campionari l’espressione precedente diventa Z π1 + π2 p2 (x|θ̂2 ) − π1 p1 (x|θ̂1 )dx (6.40) Ω1 Il valore di quest’ultimo stimatore dipende fortemente dalle probabilità a priori π1 e π2 e dalla sussistenza delle assunzioni distributive. 6.5.2 Metodi non parametrici In questo caso non viene assunto nessun modello distributivo alla base della stima della probabilità di errata classificazione. A. Pollice - SM Cap. 6: Analisi discriminante 11 Tassi di errore apparenti Anche detto metodo di risostituzione, consiste nel riclassificare le osservazio- ni dei due campioni estratti da ciascuna delle sottopopolazioni tramite la regola di classificazione prescelta. Il tasso di errore è ottenuto calcolando la frazione di osservazioni classificate erroneamente (m1 + m2 )/n dove m1 ed m2 indicano rispettivamente il numero di osservazioni del primo campione assegnate alla seconda popolazione ed il numero di osservazioni del secon- do campione assegnate alla prima. Il principale difetto di questo metodo di stima consiste nel fatto che gli stessi individui vengono utilizzati sia per definire la regola di classificazione e per valutarla. Il metodo dei tassi di er- rore apparenti porta ad una stima distorta (troppo ottimistica) del tasso di errore. Infatti poiché sono le osservazioni dei due campioni a determinare la regola di decisione, la probabilità che esse siano classificate in modo erroneo è minima. Sample splitting (cross-validation) Ciascun campione viene suddiviso in due parti di cui una viene utilizzata per definire la regola di classificazione e l’altra per valutarla, calcolando la proporzione degli individui classificati in modo sbagliato. Tale metodo è ritenuto poco economico dal punto di vista dell’utilizzo ottimale dei dati a disposizione. Leave one out (cross-validation) Si prendono in considerazione n1 −1 osservazioni del primo campione e tutte le n2 osservazioni del secondo per determinare la regola di classificazione. In base ad essa si classifica l’osservazione esclusa dal primo campione. Il procedimento esposto viene ripetuto escludendo volta per volta ciascuna osservazione del primo e successivamente ciascuna osservazione del secondo campione. La stima del tasso di errore è ottenuta dividendo per n il numero di osservazioni assegnate a una popolazione diversa da quella di provenienza. Capitolo 7 Analisi delle componenti principali e della correlazione canonica 7.1 Analisi delle componenti principali Lo studio di media, variabilit ed interdipendenze relative a k variabili os- servate su n individui richiede il calcolo di k medie, k varianze e k(k − 1)/2 covarianze campionarie. In tutto un numero pari a 2k + k(k − 1)/2 di indici, che cresce in modo parabolico all’aumentare del numero k delle variabi- li considerate, causando problemi legati principalmente all’interpretazione degli indici stessi. Se le k variabili fossero incorrelate ciò ridurrebbe la considerazione alle sole medie e varianze delle variabili (2k indicatori) ed inoltre ciascuna varia- bile potrebbe essere esaminata singolarmente senza ambiguità. Inoltre l’uso di variabili incorrelate come covariate in un modello di dipendenza lineare ha degli indubbi vantaggi: è possibile ricondurre lo studio del modello di regressione multipla a quello di k modelli di regressione semplice. L’indice di determinazione multiplo è dato in tal caso dalla somma degli indici di determinazione semplici e la varianza del modello multiplo è partizionabile in k componenti associate alle k covariate. Sfortunatamente è raro che le colonne di una matrice dati risultino tra loro incorrelate: un insieme di variabili incorrelate è praticamente ottenibille solo tramite una trasformazione delle variabili osservate. L’analisi delle componenti principali risponde all’esigenza di rappresen- tare un fenomeno k-dimensionale tramite un numero inferiore o uguale a k 1 A. Pollice - SM Cap. 7: Componenti principali e correlazione canonica 2 di variabili incorrelate, ottenute trasformando le variabili osservate. L’ana- lisi delle componenti principali consiste nell’individuare delle combinazioni lineari delle variabili inizialmente osservate, che siano incorrelate tra loro ed abbiano varianza massima (in modo da non disperdere informazioni). Il problema di ridurre la dimensionalità di un data-set fu proposto ini- zialmente da F. Galton (1869) con lo scopo di classificare un insieme di soggetti criminali in base a 12 misure di altrettante caratteristiche antro- pometriche fortemente correlate tra loro. Successivamente vennero forniti i primi argomenti a sostegno della massimizzazione delle varianze delle va- riabili trasformate, sia da un punto di vista teorico (K. Pearson, 1902) che applicativo in ambito psicometrico ed educazionale (T.L. Kelly). La versio- ne attuale della teoria delle componenti principali è dovuta ad H. Hotelling (1933). 7.1.1 Componenti principali campionarie Sia X un universo campionario k-dimensionale di cui si osservino n osserva- zioni indipendenti k-dimensionali rappresentate dalla matrice x11 · · · x1k X = ..... (7.1) . xn1 · · · xnk e sintetizzate tramite media e matrice di varianze e covarianze campionarie, rispettivamente date da X̄ = X 0 un /n ed S = (X − un X̄ 0 )0 (X − un X̄ 0 )/n. Indicando con a1 un vettore k-dimensionale di coefficienti costanti, si voglia determinare il vettore di n elementi e1 = Xa1 (7.2) ottenuto come combinazione lineare delle k colonne della matrice X e avente varianza massima. Si osservi come la varianza Var(e1 ) = a01 Sa1 sia funzione crescente dei valori degli elementi di a1. Affinché l’individuazione del vettore a1 che massimizza detta varianza sia un problema ben posto, si introduce un vincolo sulla dimensione di a1 dato da a01 a1 = 1, che consiste nel pretendere che il vettore a1 abbia norma unitaria. La prima componente principale viene dunque ottenuta risolvendo il seguente problema di massimo vincolato maxa1 a01 Sa1 ( (7.3) a01 a1 = 1 A. Pollice - SM Cap. 7: Componenti principali e correlazione canonica 3 che dà luogo alla funzione lagrangiana £(a1 , λ) = a01 Sa1 − λ(a01 a1 − 1) (7.4) e viene risolto tramite il sistema ( ∂ ∂a1 £(a1 , λ) = 2Sa1 − 2λa1 = o (7.5) ∂ ∂λ £(a1 , λ) = a01 a1 − 1 = 0 Osservando le due equazioni del sistema si nota come a1 corrisponda all’autovettore di norma unitaria associato ad un autovalore λ della matrice S. D’altra parte poiché la varianza che si vuole massimizzare è data da Var(e1 ) = a01 Sa1 = λa01 a1 = λ (7.6) la prima componente principale e1 = Xa1 risulta essere definita dall’au- tovettore a1 associato al più grande degli autovalori di S, indicato con λ1. La determinazione della seconda componente principale e2 = Xa2 (7.7) avviene in modo analogo, con l’aggiunta della condizione di incorrelazione con e1. Bisogna dunque individuare il vettore a2 che rende massima la varianza di e2 sotto i vincoli di unitarietà della norma di a2 e di incorrelazione tra e1 ed e2 0 maxa2 a2 Sa2 a02 a2 = 1 (7.8) 0 a2 Sa1 = 0 La funzione lagrangiana è data da £(a2 , λ, ν) = a02 Sa2 − λ(a02 a2 − 1) − νa02 Sa1 (7.9) e annullando le derivate parziali rispetto all’incognita e ai due moltiplicatori si ottiene ∂ £(a2 , λ, ν) = 2Sa2 − 2λa2 − νSa1 = o ∂a2 ∂ 0 ∂λ £(a2 , λ, ν) = a2 a2 − 1 = 0 (7.10) ∂ 0 ∂ν £(a2 , λ, ν) = a2 Sa1 = 0 A. Pollice - SM Cap. 7: Componenti principali e correlazione canonica 4 Con qualche passaggio si dimostra che anche a2 è autovettore di norma unitaria associato ad uno degli autovalori della matrice S. Inoltre essendo Var(e2 ) = a02 Sa2 = λa02 a2 = λ (7.11) l’autovalore che definisce la seconda componente principale non può che coincidere con il secondo più grande autovalore di S indicato con λ2. Allo stesso modo è possibile definire un numero di componenti principali pari al rango k della matrice S (se S è definita positiva, allora ha rango k). Se a1 ,... , ak sono gli autovettori di norma unitaria associati ai k autova- lori λ1 ≥ λ2 ≥ · · · ≥ λk della matrice S, allora le k possibili componenti principali sono date da e1 = Xa1 ,... , ek = Xak (7.12) le loro varianze sono Var(e1 ) = λ1 ≥ · · · ≥ Var(ek ) = λk (7.13) ed inoltre, dette Xj per j = 1... , k le colonne della matrice X, k X k X Var(ej ) = tr(S) = Var(Xj ) (7.14) j=1 j=1 In altri termini la somma delle varianze delle componenti principali è uguale alla somma delle varianze campionarie delle variabili originarie. 7.1.2 Proprietà campionarie sotto l’assunzione di normalità della popolazione Nell’ipotesi che la variabile aleatoria X abbia distribuzione normale k-dimen- sionale con E(X) = µ e Cov(X) = Σ, la matrice di varianze e covarianze campionarie S è lo stimatore di massima verosimiglianza di Σ. Per la proprietà di invarianza degli stimatori di massima verosimiglian- za, se θ̂ è stimatore di massima verosimiglianza del parametro θ, allora φ(θ̂) è a sua volta stimatore di massima verosimiglianza di φ(θ), se e solo se la tra- sformazione φ è biunivoca. Di conseguenza λ1 ed a1 ottenuti dalla seguente trasformazione biunivoca di S ( Sa1 = λ1 a1 (7.15) a01 a1 = 1 A. Pollice - SM Cap. 7: Componenti principali e correlazione canonica 5 sono stimatori di massima verosimiglianza dei parametri λ̃1 ed ã1 definiti dalla stessa trasformazione biunivoca di Σ ( Σã1 = λ̃1 ã1 (7.16) ã01 ã1 = 1 Il risultato appena enunciato vale solo se Σ è definita positiva, ovvero se è dotata di k autovalori strettamente positivi distinti λ̃1 > · · · > λ̃k. Infatti in tal caso gli autovettori associati ã1 ,... , ãk sono unici e la trasformazione (7.16) è biunivoca. Distribuzione campionaria asintotica di autovalori e autovettori Nell’ipotesi che il vettore aleatorio X abbia distribuzione Nk (µ, Σ) e che Σ sia dotata di k autovalori distinti, valgono le seguenti proprietà asintotiche (Anderson, 1984): 1. gli autovalori di S sono asintoticamente normali, non distorti e con- sistenti: ! 2λ̃2j lim λj ∼ N λ̃j , j = 1,... , k (7.17) n→∞ n 2. gli autovalori di S sono asintoticamente indipendenti; 3. gli autovettori di S sono asintoticamente normali e non distorti k X λ̃ h lim aj ∼ Nk ãj , λ̃j ãh ã0h j = 1,... , k (7.18) n→∞ ( λ̃ − λ̃ ) 2 h(6=j)=1 j h 7.1.3 Problemi applicativi Unità di misura I risultati dell’analisi delle componenti principali dipendono dall’unità di misura in cui sono espressi i dati di partenza. Infatti se Xj∗ = cj Xj , essendo Xj la j-esima colonna della matrice X e cj una costante per j = 1,... , k, si ha Var(Xj∗ ) = c2j Var(Xj ) = c2j Sj2 (7.19) Cov(Xj∗ Xh∗ ) = cj ch Cov(Xj Xh ) = cj ch Sjh (7.20) quindi un cambiamento di scala nei dati modifica la matrice di varian- ze e covarianze campionarie con i suoi autovalori e autovettori. L’analisi A. Pollice - SM Cap. 7: Componenti principali e correlazione canonica 6 delle componenti principali è dunque influenzata dalla dimensione dei da- ti e dalle unità di misura in cui sono espressi. Allo scopo di evitare tale indeterminatezza l’ACP viene spesso condotta sulle variabili standardizzate X1 − un X̄1 Xk − un X̄k Y1 = p 2 ,... , Yk = q (7.21) S1 Sk2 In tal caso la matrice di varianze e covarianze campionarie di Y = (Y1 ,... , Yk ) coincide con la matrice R dei coefficienti di correlazione campionari tra le colonne di X (ma anche di Y ), e l’ACP viene condotta calcolando gli autovalori e autovettori della matrice 1 r12 · · · r1k r21 1 · · · r2k R=. (7.22) ...... ..... rk1 rk2 · · · 1 Interpretazione delle componenti principali L’analisi delle componenti principali consiste nella ricerca di variabili latenti o inosservabili che determinano in modo fondamentale il fenomeno in studio. Di principale importanza è dunque l’interpretazione delle stesse componenti in base ai coefficienti che le mettono in relazione con le variabili rilevate. Posto aj = (a1j ,... , akj )0 per j = 1,... , k, la j-esima componente principale ha la forma ej = a1j X1 + · · · + akj Xk (7.23) Quindi ahj può essere interpretato come il peso della variabile Xh nella determinazione della componente j-esima. Quanto maggiore è ahj in valore assoluto, tanto più ej è caratterizzata dalla variabile Xh. Detta ēj = e0j un /n la media campionaria della j-esima componente prin- cipale ej , è possibile calcolare la covarianza tra questa e la h-esima variabile Xh , per j, h = 1,... , k 1 Cov(ej , Xh ) = (ej − un ēj )0 (Xh − X̄h un ) = · · · = λj ahj (7.24) n Il coefficiente di correlazione tra ej e Xh è quindi dato da s Cov(ej , Xh ) λj ahj λj rej Xh = q =q = ahj (7.25) Var(e )S 2 λ S2 Sh2 j h j h A. Pollice - SM Cap. 7: Componenti principali e correlazione canonica 7 L’espressione precedente misura la quota della variabilità di Xh spiegata dalla j-esima componente principale. Se si operap con le variabili standar- dizzate, poiché è Var(Yh ) = 1, allora rej Yh = ahj λj. Inoltre, essendo le ej incorrelate, la quota di variabilità di Xh spiegata da un insieme G di componenti principali è misurata dalla somma seguente X 1 X p rej Xh = q ahj λj (7.26) j∈G Sh2 j∈G Ovviamente se G contiene tutte le componenti principali la somma (7.26) vale 1. Scelta del numero di componenti principali L’analisi delle componenti principali produce una sintesi dei dati rilevati se tramite un numero inferiore a k di componenti si riesce a riprodurre una buona parte della variabilità contenuta nelle variabili osservate X1 ,... , Xk (cosa che succede quando i più piccoli autovalori di S o di R hanno valori trascurabili). Detta kj=1 Sj2 la varianza totale di X e poiché come si è visto P k X k X Sj2 = Var(ej ) (7.27) j=1 j=1 allora a Var(ej ) = λj si può attribuire il significato di misura della quota di varianza totale spiegata dalla j-esima componente principale. Quindi l’indice λ1 + · · · + λq λ1 + · · · + λq Iq = = (7.28) λ1 + · · · + λk tr(S) misura la quota di varianza totale spiegata dalle prime q componenti principali e fornisce un’indicazione della qualità della descrizione del col- lettivo ottenibile da queste (0 ≤ Iq ≤ 1). In caso di utilizzo di variabili standardizzate Iq = (λ1 + · · · + λq )/tr(R) = (λ1 + · · · + λq )/k. Generalmente viene fissata una soglia I ∗ che indica la frazione della va- rianza totale che si vuole sia spiegata dalle componenti principali. In tal caso il numero di componenti da considerare viene scelto in modo che q sia il più piccolo valore per cui Iq > I ∗ (spesso I ∗ ' 0, 9). Un altro criterio richiede la costruzione di un grafico (denominato scree graph) in cui vengano rappresentati i punti (j, λj ) per j = 1,... , k uniti da segmenti. Il valore di q (sull’asse delle ascisse) viene scelto in modo tale che A. Pollice - SM Cap. 7: Componenti principali e correlazione canonica 8 l’andamento del grafico sia decrescente a sinistra di q e pressoché costante o debolmente decrescente alla sua destra (criterio piuttosto soggettivo). Sotto l’ipotesi di normalità della variabile X vi sono due test che possono essere usati per decidere il numero di componenti principali da considerare. Nella popolazione le ultime k − q componenti principali sono trascurabili se il rapporto λ̃q+1 + · · · + λ̃k (7.29) λ̃1 + · · · + λ̃k è di dimensioni ridotte. Se con γ si indica un numero piccolo a piacere, per verificare il sistema di ipotesi H0 : λ̃q+1 +···+λ̃k = γ λ̃1 +···+λ̃k (7.30) H1 : q+1 +···+λ̃k > γ λ̃ 1 λ̃ +···+λ̃ k si considera la statistica test λq+1 + · · · + λk U= (7.31) λ1 + · · · + λk Poiché gli autovalori λj hanno distribuzione asintotica normale, si può concludere (Mardia, Kent, Bibby, 1979) che anche U è asintoticamente normale lim U ∼ N (γ, VU ) (7.32) n→∞ con !2 2 tr(S 2 ) λ2q+1 + · · · + λ2k VU = γ− (7.33) (n − 1)[tr(S)]2 λ21 + · · · + λ2k Si vuole infine considerare il cosiddetto test di isotropia, che serve per verificare se le ultime k − q componenti apportano verosimilmente lo stesso contributo in termini di varianza totale spiegata H0 : λ̃q+1 = · · · = λ̃k = λ∗ ( (7.34) H1 : gli autovalori sono diversi Nell’applicazione di questo test si comincia considerando q = 0 e si procede aumentando q sinchè H0 non viene accettata. La funzione test per la veri- fica dell’isotropia ricavata tramite il criterio del rapporto di verosimiglianze generalizzato è data dall’espressione k ! ∗ L(X̄, Σ̂ ) X −2 ln = · · · = n (k − q) ln λ̄ − ln λj (7.35) L(X̄, S) j=q+1 A. Pollice - SM Cap. 7: Componenti principali e correlazione canonica 9 che si distribuisce asintoticamente come una χ2 con m = (k − q + 2)(k − q − 1)/2 gradi di libertà. 7.2 Analisi della correlazione canonica Si supponga che per un collettivo di n unità statistiche si siano osservati due gruppi di k ed m variabili corrispondenti ad altrettanti aspetti di un fenomeno in esame. Lo studio delle relazioni di interdipendenza tra i due gruppi di variabili costituisce l’obiettivo dell’analisi della correlazione ca- nonica, proposta da H. Hotelling (1938) allo scopo di analizzare i legami tra le caratteristiche fisiologiche (variabili antropometriche) e quelle mentali (risposte a tests psicologici) di un insieme di individui. Lo studio della correlazione tra le variabili di un gruppo e quelle dell’al- tro richiederebbe il calcolo di k × m coefficienti di correlazione semplice tra le variabili dei due gruppi accoppiate, di k(k − 1)/2 ed m(m − 1)/2 coeffi- cienti di correlazione semplice all’interno di ciascun gruppo, dei coefficienti di correlazione multipla tra le singole variabili di un gruppo e tutte o parte delle variabili dell’altro gruppo. Nella stessa ottica che ha portato allo studio delle componenti principa- li, il metodo proposto per affrontare lo studio delle interdipendenze tra due gruppi di variabili consiste nell’individuare un doppio sistema di variabili la- tenti che riproducano la correlazione tra i due gruppi di variabili osservate al netto di quella presente al loro interno. Dalla rappresentazione originaria fornita dai due gruppi di variabili osservate si ottengono due gruppi di varia- bili artificiali che siano incorrelati al loro interno e massimamente correlati tra loro. 7.2.1 Determinazione delle componenti canoniche Si considerino le due variabili X e Y rispettivamente di dimensione k ed m che, osservate su un collettivo di n individui, danno luogo alle matrici dati x11 · · · x1k y11 · · · y1m X = ..... Y = ..... (7.36) . . xn1 · · · xnk yn1 · · · ynm caratterizzate dai seguenti vettori di medie campionarie X̄ = n1 X 0 un = (X̄1 ,... , X̄k )0 (7.37) Ȳ = n1 Y 0 un = (Ȳ1 ,... , Ȳm )0 A. Pollice - SM Cap. 7: Componenti principali e correlazione canonica 10 e dalle matrici di varianze e covarianze campionarie 1 SX = (X − un X̄ 0 )0 (X − un X̄ 0 ) n 1 SY = (Y − un Ȳ 0 )0 (Y − un Ȳ 0 ) (7.38) n 1 SXY = (X − un X̄ 0 )0 (Y − un Ȳ 0 ) = SY0 X n Siano U e V vettori n-dimensionali ottenuti come combinazioni lineari delle colonne delle matrici X ed Y rispettivamente U = Xa V =Yb (7.39) con a e b vettori di k ed m coefficienti, le medie di U e V sono date da: Ū = a0 X̄ V̄ = b0 Ȳ (7.40) le varianze di U e V e la covarianza sono date da: SU2 = a0 SX a SV2 = b0 SY b (7.41) 0 0 SU V = a SXY b = b SY X a il coefficiente di correllazione tra U e V è dato da: a0 SXY b ρU V = √ (7.42) a0 SX a b0 SY b Le variabili latenti U e V (i vettori a e b) sono definite in modo tale da mas- simizzare il coefficiente di correlazione ρU V , e poiché esso è invariante per trasformazioni lineari delle variabili, ciò implica l’introduzione dei consueti vincoli che in questo caso riguardano l’unitarietà delle varianze delle varia- bili artificiali U e V. Ancora una volta la definizione delle variabili latenti è ottenuta risolvendo un problema di massimo vincolato maxa a0 SXY b maxb a0 SXY b (7.43) a0 SX a = 1 0 b SY b = 1 Indicando con ν/2 ed η/2 i moltiplicatori, la funzione lagrangiana è data da ν η £(a, b, ν, η) = a0 SXY b − (a0 SX a − 1) − (b0 SY b − 1) (7.44) 2 2 A. Pollice - SM Cap. 7: Componenti principali e correlazione canonica 11 quindi il sistema che ne deriva è ∂ ∂a £(a, b, ν, η) = SXY b − νSX a = o ∂ £(a, b, ν, η) = S 0 a − ηS b = o ∂b XY Y (7.45) ∂ ∂ν £(a, b, ν, η) = a0 SX a − 1 = 0 ∂ = b0 SY b − 1 = 0 ∂η £(a, b, ν, η) Dalla risoluzione del sistema si ottengono i risultati seguenti: Covarianza ν = η = Cov(U, V ) Formule di transizione: 1 −1 a= S SXY b ν X 1 −1 b= S SY X a ν Y Equazioni caratteristiche: −1 SX SXY SY−1 SY X a = ν 2 a −1 SY−1 SY X SX SXY b = ν 2 b −1 Si deduce che ν 2 = λ è un autovalore di E1 = SX SXY SY−1 SY X come −1 −1 di E2 = SY SY X SX SXY e che a e b sono gli autovettori corrispondenti e rispettivamente tali che a0 SX a = 1 e b0 SY b = 1. Le due matrici E1 ed E2 hanno un numero di autovalori non nulli pari al rango e poiché SX e SY devono essere invertibili, allora necessariamente r(SX ) = k e r(SY ) = m, mentre r(SXY ) = r(SY X ) = r ≤ min(k, m), quindi complessivamente r(E1 ) = r(E2 ) = r ≤ min(k, m) (7.46) √ Inoltre, poiché è Cov(U, V ) = a0 SXY b = ν = λ, gli autovettori a1 e b1 che corrispondono al più grande degli autovalori di E1 (ovvero di E2 ) in- dicato con λ1 individuano le combinazioni lineari delle colonne di X ed Y che risultano massimamente correlate tra loro, dette prime componenti canoniche U1 = Xa1 V1 = Y b1 (7.47) A. Pollice - SM Cap. 7: Componenti principali e correlazione canonica 12 Si definisce invece prima correlazione canonica la quantità p ρU1 V1 = SU1 V1 = λ1 (7.48) In modo analogo si possono definire le coppie componenti canoniche successive. Siano U2 = Xa2 V2 = Y b2 (7.49) e si vogliano determinare i vettori a2 e b2 in modo tale che la correlazione tra U2 e V2 sia massima e che U1 e U2 siano incorrelate, e cosı̀ pure V1 e V2. Problema di massimo vincolato maxa2 a02 SXY b2 max a0 S b b2 2 XY 2 a02 SX a2 = 1 (7.50) b02 SY b2 = 1 a01 SX a2 = 0 0 b1 SY b2 = 0 Considerando ora come moltiplicatori ν/2, η/2, γ e δ si ottiene la seguente espressione per la funzione lagrangiana £(a2 , b2 , ν, η, γ, δ) = (7.51) 0 ν 0 η 0 0 0 = a2 SXY b2 − (a2 SX a2 − 1) − (b2 SY b2 − 1) − γa1 SX a2 − δb1 SY b2 2 2 La soluzione del problema di massimo vincolato è data dal sistema ∂ ∂a2 £(a2 , b2 , ν, η, γ, δ) = SXY b2 − νSX a2 − γSX a1 = o ∂ ∂b2 £(a2 , b2 , ν, η, γ, δ) = SY X a2 − ηSY b2 − δSY b1 = o ∂ £(a2 , b2 , ν, η, γ, δ) = a02 SX a2 − 1 = 0 ∂ν (7.52) ∂ £(a , b , ν, η, γ, δ) = b0S b −1=0 ∂η 2 2 2 X 2 ∂γ £(a2 , b2 , ν, η, γ, δ) = a01 SX a2 = 0 ∂ ∂ 0 ∂δ £(a2 , b2 , ν, η, γ, δ) = b1 SY b2 = 0 √ Anche in questo caso, posto ν = η = λ, si ottengono le due equazioni caratteristiche ( −1 SX SXY SY−1 SY X a2 = λa2 (7.53) SY−1 SY X SX −1 SXY b2 = λb2 A. Pollice - SM Cap. 7: Componenti principali e correlazione canonica 13 e poiché si dimostra in modo analogo a quanto già visto che λ coincide ancora con la funzione da massimizzare, allora detto λ = λ2 il secondo maggiore autovalore delle matrici E1 ed E2 ed a2 e b2 rispetivamente gli autovettori corrispondenti e tali da soddisfare a02 SX a2 = 1 e b02 SY b2 = 1, la seconda coppia di variabili canoniche è definita da U2 = Xa2 V2 = Y b 2 (7.54) mentre la seconda correlazione canonica è data da p ρU2 V2 = SU2 V2 = λ2 (7.55) Si noti che oltre ad essere SU1 U2 = 0 e SV1 V2 = 0, valgono anche SU1 V2 = a01 SXY b2 = γ = 0 (7.56) SU2 V1 = a02 SXY b1 = δ = 0 In generale la h-esima coppia di componenti canoniche consiste nelle com- binazioni lineari Uh = Xah Vh = Y bh (7.57) tali da essere massimamente correlate, posto che SUh U1 = · · · = SUh Uh−1 = 0 (7.58) SVh V1 = · · · = SVh Vh−1 = 0 Si ricava facilmente che ah e bh sono gli autovettori associati all’h-esimo autovalore λh delle matrici E1 ed E2 e tali che a0h SX ah = 1 e bh SY bh = 1. Inoltre l’autovalore λh coincide con il quadrato del coefficiente di correlazione canonica tra Uh e Vh. Quindi se r = r(SXY ) ≤ min(k, m), l’analisi della correlazione canonica consiste nel trasformare le k colonne di X e le m colonne di Y in r coppie di vettori (U1 , V1 ),... , (Ur , Vr ) (7.59) inoltre, posto√U = (U1√ ,... , Ur ) e V = (V1 ,... , Vr ), si ha che SU2 = SV2 = Ir e SU V = diag( λ1 ,... , λr ). Le r correlazioni canoniche misurano pertanto l’associazione tra i due insiemi di variabili quando tutte le correlazioni entro gli insiemi sono state rimosse. Nelle applicazioni finalizzate allo studio dell’interdipendenza tra due va- riabili multidimensionali, l’analisi della correlazione canonica consente di A. Pollice - SM Cap. 7: Componenti principali e correlazione canonica 14 ridurre la dimensione delle osservazioni. Analogamente a quanto detto per l’analisi delle componenti principali, i suoi risultati possono essere interpre- tati analizzando i valori dei coefficienti che individuano le variabili canoniche. Inoltre la rappresentazione grafica delle osservazioni nel riferimento (Uj , Vj ) per j = 1,... , r può servire come strumento diagnostico per l’individuazione di quelle osservazioni multidimensionali che presentano valori anomali. E’ possibile calcolare componenti e correlazioni canoniche in base alle matrici di correlazione, piuttosto che in base alle matrici di varianze e co- varianze. In tal caso gli elementi dei vettori aj e bj (per j = 1,... , r) sono adimensionali. 7.2.2 Proprietà campionarie sotto l’assunzione di normalità (cenni) Si ponga W = (X0 , Y0 )0 con W ∼ Nk+m (µW , ΣW ), essendo rispettivamente µX ΣX ΣXY µW = ΣW = (7.60) µY ΣY X ΣY Si assuma di osservare n replicazioni indipendenti di W. Come è noto gli stimatori di massima verosimiglianza delle matrici ΣX , ΣXY , ΣY e ΣY X sono dati dalle corrispondenti matrici di varianze e covarianze campionarie, pertanto E1 ed E2 risultano essere gli stimatori di massima verosimiglianza di 1 = Σ−1 −1 −1 −1 X ΣXY ΣY ΣY X ed 2 = ΣY ΣY X ΣX ΣXY. Nel caso in cui gli r autovalori λ̃1 ,... , λ̃r di 1 ed 2 siano tutti distinti, i loro stimatori di mas- sima verosimiglianza coincidono con gli autovalori λ1 ,... , λr delle matrici E1 ed E2. In questo caso anche gli autovettori ãj e b̃j corrispondenti a λ̃j e tali che ã0j ΣX ãj = b̃0j ΣY b̃j = 1 sono stimati da aj e bj , autovettori di E1 ed E2 corrispondenti a λj e tali che a0j SX aj = b0j SY bj = 1. Nel caso in cui gli autovalori di 1 ed 2 non siano tutti distinti, i risultati appena enunciati perdono validità, ossia λ1 ,... , λr non sono più gli stimatori di massima vero- simiglianza di λ̃1 ,... , λ̃r , anche se continuano ad essere stimatori consistenti (ciò vale anche in assenza dell’assunzione di normalità di W). 7.2.3 Verifica di ipotesi Sotto l’assunzione distributiva di normalit è possibile costruire delle pro- cedure per la verifica della significatività delle componenti canoniche. In primo luogo si può verificare l’ipotesi che sia nullo λ̃1 , il maggiore degli au- tovalori di 1 ed 2 , ovvero che siano nulli tutti gli autovalori, ovvero che sia A. Pollice - SM Cap. 7: Componenti principali e correlazione canonica 15 r = r(1 ) = r(2 ) = r(ΣXY ) = 0, e cioè ΣXY = O il che equivale all’assenza di correlazione tra X ed Y H0 : λ̃1 = 0 H0 : ΣXY = O ≡ (7.61) H1 : λ̃1 6= 0 H1 : ΣXY 6= O Il test del rapporto di verosimiglianze generalizzato per verificare questa ipotesi è già stato ricavato nel capitolo 2 ed è dato dall’espressione n/2 |S| λ= (7.62) |SX ||SY | con SX SXY S= (7.63) SY X SY ed inoltre lim −2 ln λ ∼ χ2km (7.64) n→∞ Nel caso in cui l’ipotesi nulla suddetta sia respinta, può volersi verificare la significatività di un dato numero di autovalori di 1 ed 2 , ovvero la significatività dell’ipotesi che il rango di ΣXY assuma un certo valore r0 H0 : r(ΣXY ) = r0 (7.65) H1 : r(ΣXY ) > r0 con r0 costante e tale che 1 < r0 < min(k, m), ovvero H0 : λ̃1 > · · · > λ̃r0 > 0, λ̃h = 0, ∀h > r0 (7.66) H1 : 1 ed 2 hanno più di r0 autovalori distinti diversi da 0 Per la verifica di questa ipotesi, posto k ≥ m, viene utilizzato un test dovuto a Bartlett (1939) e dato dall’espressione r X 1 γ = − n − (m + k + 3) ln(1 − λ2j ) (7.67) 2 j=r0 +1 Sotto l’ipotesi nulla la distribuzione campionaria asintotica di γ è data da lim γ ∼ χ2p (7.68) n→∞ con p = (k − r0 )(m − r0 ). Capitolo 8 Analisi fattoriale In generale la correlazione tra due variabili aleatorie X1 e X2 può risultare dall’associazione di entrambe con una terza variabile F. La correlazione parziale misura l’associazione tra X1 e X2 al netto dell’effetto lineare di F su ciascuna delle due variabili. Se il coefficiente di correlazione parziale rX1 X2 |F ha un valore prossimo allo 0, allora F spiega quasi completamente la relazione tra X1 e X2 (ammesso che rX1 X2 abbia un valore significativamente diverso da 0). A livello multivariato, partendo da una variabile aleatoria X k-dimensionale, se esiste un insieme F di variabili (il meno numeroso possibile) tale che tutte le correlazioni parziali tra gli elementi di X per determinati valori degli elementi di F sono significativamente nulle, allora gli elementi di F spiegano completamente l’interdipendenza tra gli elementi di X. L’incorrelazione condizionata è una condizione necessaria affinché l’insieme F di variabili condizionanti offra una spiegazione adeguata della correlazione tra le componenti della X. L’obiettivo dell’analisi fattoriale è quello di spiegare l’interdipendenza esistente all’interno di un insieme numeroso di variabili tramite un numero esiguo di fattori non osservabili incorrelati tra loro. Mentre l’analisi delle componenti principali opera una trasformazione sintetica delle variabili os- servate, l’analisi fattoriale consiste nella stima di un modello che riproduce la struttura della covarianza tra le stesse. Lo studio della relazione tra k variabili tramite m fattori comuni a tutte le variabili e k fattori specifici di ciascuna variabile si è sviluppato a partire dalle idee di F. Galton (1898) e K. Pearson e grazie alle prime applicazioni in ambito psicometrico (C. Spearman, 1904). Più tardi, con il calcolo delle stime di massima verosi- miglianza dei fattori (D.N. Lawley, 1940), la metodologia fu completamente formalizzata dal punto di vista inferenziale. 1 A. Pollice - SM Cap. 8: Analisi fattoriale 2 Nell’analisi fattoriale ciascuna variabile osservata viene espressa come funzione lineare di un certo numero m di fattori comuni, responsabili della correlazione con le altre variabili, e di un solo fattore specifico, responsabile della variabilità della variabile stessa Xj = µj + λj1 F1 + · · · + λjm Fm + Uj j = 1,... , k (8.1) Questo modello somiglia solo apparentemente a quello di regressione mul- tipla, infatti i fattori comuni F1 ,... , Fk non sono osservabili: tutto ciò che giace a destra del segno di uguaglianza è dunque incognito. 8.1 Il modello fattoriale Sia X una variabile aleatoria k-dimensionale con vettore di medie e matrice di varianze e covarianze rispettivamente µ e Σ. Si consideri il seguente modello X = µ + ΛF + U (8.2) dove Λ è una matrice k × m di costanti dette pesi fattoriali o factor loa- dings, F è il vettore aleatorio m-dimensionale dei fattori comuni ed U quel- lo k-dimensionale dei fattori specifici, sui quali vengano fatte le seguenti assunzioni: (i) E(F) = o (8.3) 0 (ii) Cov(F) = E(FF ) = Im (8.4) (iii) E(U) = o (8.5) 0 (iv) Cov(U) = E(UU ) = Ψ = diag(ψ1 ,... , ψk ) (8.6) 0 (v) E(FU ) = O (8.7) Si assume dunque che i fattori comuni abbiano media zero, varianza unitaria e siano tra loro incorrelati, mentre i fattori specifici abbiano media zero, varianza ψj con j = 1,... , k, e siano incorrelati tra loro e con i fattori comuni. Osservando la (8.1) si può notare come in questo modello, poiché i fattori specifici sono tra loro incorrelati, l’interdipendenza tra le variabili sia completamente spiegata dai fattori comuni. Si suole assumere per comodità che µ = o, il che corrisponde a considera- re le variabili Xj come ottenute dagli scarti dalle medie µj per j = 1,... , k. In tal caso X = ΛF + U (8.8) A. Pollice - SM Cap. 8: Analisi fattoriale 3 ovvero, indicando con λj la j-esima riga della matrice Λ, m X Xj = λj F + Uj = λjh Fh + Uj j = 1,... , k (8.9) h=1 La varianza di ciascuna delle componenti di X è pertanto data da m X Var(Xj ) = λ2jh + ψj (8.10) h=1 Pm 2 dove la quantità h=1 λjh = cj denominata comunalità della j-esima varia- bile corrisponde alla quota della varianza di Xj spiegata dai fattori comuni, per j = 1,... , k. Di conseguenza ψj è la parte residua della varianza di Xj non spiegata dai fattori comuni, ed è denominata specificità di Xj. Inoltre, nell’ipotesi che le componenti di X abbiano media nulla, la covarianza tra Xj ed Xl è data da E(Xj Xl ) = E[(λj F + Uj )(λl F + Ul )0 ] = λj E(FF0 ) λ0l + λj E(FUl0 ) + E(Uj F0 ) λ0l + E(Uj Ul0 ) = | {z } | {z } | {z } | {z } =Im =O =O =O = λj λ0l (8.11) Quindi, se è valido il modello fattoriale, la covarianza tra Xj ed Xl è comple- tamente spiegata dai fattori comuni. Complessivamente si ha che la matrice di varianze e covarianze di X è data da Σ = E(XX0 ) = E[(ΛF + U)(ΛF + U)0 ] = Λ E(FF0 ) Λ0 + Λ E(FU0 ) + E(UF0 ) Λ0 + E(UU0 ) | {z } | {z } | {z } | {z } =Im =O =O =Ψ 0 = ΛΛ + Ψ (8.12) ed inoltre le covarianze tra i fattori e le variabili coincidono con i pesi fattoriali Cov(X, F) = E(XF0 ) = E[(ΛF + U)F0 ] = Λ (8.13) Nel modello dell’analisi fattoriale la matrice Λ non risulta univocamente definita. Tale matrice è infatti non identificabile poiché non esiste una soluzione unica alla determinazione dei pesi fattoriali. Se infatti si opera una rotazione ortogonale dei fattori tramite la matrice ortonormale Q di ordine m, si ottiene X = Λ QQ0 F + U (8.14) |{z} =Im A. Pollice - SM Cap. 8: Analisi fattoriale 4 Nell’espressione precedente Q0 F sono i fattori ruotati ortogonalmente, men- tre ΛQ sono i pesi fattoriali dei fattori ruotati. In questo caso si ha dunque Σ = ΛΛ0 + Ψ = ΛQQ0 Λ0 + Ψ = Λ∗ Λ0∗ + Ψ (8.15) Alle stesse matrici Σ e Ψ possono corrispondere diverse matrici di punteggi fattoriali. La matrice Λ è pertanto determinata a meno della moltiplicazione a destra per una matrice ortonormale. Il problema della non identificabilità di Λ viene generalmente risolto imponendo dei vincoli alla rotazione. Tra i vincoli più diffusi vi è quello che consiste nell’imporre che la matrice Λ0 Ψ−1 Λ sia diagonale con gli elementi ordinati in modo decrescente Λ0 Ψ−1 Λ = diag(b1 ,... , bm ) con b1 > · · · > bm (8.16) Considerazioni riconducibili all’impostazione bayesiana portano alla defini- zione di questo vincolo. Infatti se X ∼ Nk (o, Σ) e la distribuzione a priori dei fattori è F ∼ Nm (o, Im ), allora la distribuzione di X condizionata ad F è X|F ∼ Nk (ΛF, Ψ), mentre la distribuzione a posteriori di F è data da F|X ∼ Nm Λ0 Σ−1 X, [Λ0 Ψ−1 Λ + Im ]−1 (8.17) Quindi nel caso in cui Λ0 Ψ−1 Λ sia diagonale, gli elementi del vettore F sono indipendenti a posteriori. Due vincoli, alternativi a quello già presentato, per garantire l’identifica- bilità di Λ, consistono nel pretendere che la matrice Λ0 Ψ−1 Λ sia triangolare superiore oppure che Λ0 [diag(σ1 ,... , σk )]−1 Λ sia diagonale. 8.2 Stima del modello 8.2.1 Metodo dei fattori principali Quello di Thompson (1934) o dei fattori principali è un metodo di stima non parametrico, che non richiede alcuna assunzione distributiva sulla variabile k-dimensionale X. I parametri incogniti del modello fattoriale sono µ, Σ, Λ e Ψ. Si osservino n replicazioni indipendenti X1 ,... , Xn della variabile X tramite le quali si calcolino medie, varianze e covarianze campionarie rappresentate dal vettore X̄ = (X̄1 ,... , X̄k )0 e dalla matrice S 2. Indicando con Sj la radice quadrata della varianza campionaria di Xj per j = 1,... , k, si ottiene la seguente espressione per le osservazioni campionarie standar- dizzate, la cui matrice di varianze e covarianze campionaria coincide con la A. Pollice - SM Cap. 8: Analisi fattoriale 5 matrice di correlazione campionaria R delle Xij Xij − X̄j Yij = i = 1,... , n j = 1,... , k (8.18) Sj Il metodo dei fattori principali procede iterativamente secondo i seguenti punti (i) Si calcolano le stime iniziali delle comunalità cj per j = 1,... , k. Due metodi utili a tale scopo consistono nel considerare il quadrato del coefficiente di correlazione multipla, ovvero il maggiore dei coefficienti di correlazione semplice tra ciascuna variabile e le altre k − 1; (ii) Viene calcolata una matrice di correlazione ridotta R − Ψ̂ sostituendo le comunalità stimate agli elementi (unitari) sulla diagonale di R. Tale matrice può sempre essere diagonalizzata poiché è definita positiva e a rango pieno k, R − Ψ̂ = AΓA0 (8.19) dove Γ e A sono rispettivamente la matrice diagonale degli autovalori e la matrice degli autovettori normalizzati (ortonormale) di R − Ψ̂. (iii) Dette Γ1 e A1 rispettivamente la matrice diagonale dei primi (più grandi) m autovalori di R− Ψ̃ e quella degli autovettori corrispondenti, si ottiene la seguente approssimazione della matrice di correlazione ridotta R − Ψ̃ ∼ A1 Γ1 A01 (8.20) (iv) Poiché R − Ψ = ΛΛ0 (8.21) dalla (8.20) si ricava l’espressione seguente per lo stimatore della matrice dei pesi fattoriali 1 Λ̂ = A1 Γ12 (8.22) (v) Detto λ̂jh l’elemento generico della matrice Λ̂ per j = 1,... , k e h = 1,... , m, le stime delle k comunalità sono date da m X ĉj = λ̂2jh j = 1,... , k (8.23) h=1 A. Pollice - SM Cap. 8: Analisi fattoriale 6 Il procedimento illustrato viene ripetuto iterativamente partendo dalle nuove stime delle comunalità, finché l’algoritmo non converge, in altri ter- mini finchè due successive determinazioni delle matrici Λ̂ e Ψ̂ non risultano somiglianti. La matrice R̂ = Λ̂Λ̂0 contiene le correlazioni riprodotte dai fattori co- muni, mentre Ψ̂ = R − R̂ è la matrice delle differenze tra le correlazioni campionarie e quelle riprodotte. Tanto più piccoli sono i suoi elementi, tanto meglio i fattori comuni riproducono la matrice osservata. 8.2.2 Metodo della massima verosimiglianza Se si assume la normalità della X, è noto come il massimo della funzione di logverosimiglianza rispetto a µ sia dato da nk n n `(X̄, Σ) = − ln 2π − ln |Σ| − tr(Σ−1 S) (8.24) 2 2 2 e sostituendo Σ = ΛΛ0 + Ψ la logverosimiglianza può essere espressa in funzione dei parametri incogniti del modello fattoriale per ottenerne le stime vincolate alla condizione Λ0 Ψ−1 Λ = diag(b1 ,... , bm ) con b1 > · · · > bm n n `(Λ, Ψ) = − ln |ΛΛ0 + Ψ| − tr[(ΛΛ0 + Ψ)−1 S] (8.25) 2 2 Derivando l’espressione precedente rispetto a Λ e Ψ e ponendo le derivate uguali a zero, si ottengono, dopo qualche passaggio, le due equazioni di verosimiglianza Λ̂(Im + Λ̂0 Ψ̂−1 Λ̂) = S Ψ̂−1 Λ̂ ( (8.26) Ψ̂ = diag(S − Λ̂Λ̂0 ) Il sistema (precedente) non ammette una soluzione analitica essendo com- posto da due equazioni matriciali implicite in Λ̂ e Ψ̂. E’ necessario pertanto l’uso di procedimenti iterativi che talvolta possono presentare problemi di convergenza (Lawley, 1947). Un procedimento efficiente articolato in due passi (Joreskog, 1967) parte in modo analogo al metodo dei fattori principali, con la considerazione di una stima iniziale Ψ̂ delle specificità. (i) Al primo passo, dette Θ ed Ω rispettivamente la matrice diagonale degli m autovalori maggiori di Ψ̂−1/2 S Ψ̂−1/2 disposti in ordine decre- scente e la matrice degli autovettori corrispondenti, si ottiene Ψ̂−1/2 S Ψ̂−1/2 = ΩΘΩ0 (8.27) A. Pollice - SM Cap. 8: Analisi fattoriale 7 e ponendo S = Λ̂Λ̂0 + Ψ̂ nella relazione precedente, dopo qualche passaggio si ottiene una prima stima di Λ Λ̂ = Ψ̂1/2 Ω(Θ − Im )1/2 (8.28) (ii) Il secondo passo prevede la determinazione della stima di Ψ̂ che mas- simizza `(Λ̂, Ψ) rispetto a Ψ. Il procedimento continua iterativamente sino alla convergenza. Le proprietà asintotiche godute in generale dagli stimatori di massima verosimiglianza consentono di fare inferenza sul numero m di fattori comuni da considerare (test del rapporto di verosimiglianze generalizzato; O. Vitali, 1993). I risultati ottenuti tramite il metodo della massima verosimiglianza possono essere ricavati anche minimizzando la correlazione parziale tra le variabili (W.G. Howe, 1955; D.F. Morrison, 1967). 8.3 Rotazione dei fattori Obiettivo dell’analisi fattoriale è l’individuazione delle dimensioni fonda- mentali di un fenomeno descritto da k variabili. In altri termini l’analisi fattoriale cerca di verificare se e in che misura ciascuna delle k variabili co- stituisce una ripetizione della descrizione operata dalle k − 1 rimanenti, e se è possibile sostituire con la stessa efficacia un numero m ≤ k di fattori non osservati. Dal punto di vista metodologico ciò corrisponde a stimare i fattori comu- ni (quelli specifici si ottengono per differenza) e la matrice delle correlazioni tra fattori e variabili. Ma come si è già detto la scomposizione della matrice di varianze e covarianze Σ secondo il modello fattoriale non è unica, infatti per qualsiasi matrice ortonormale Q valgono la (8.14) e la (8.15), da cui si deduce come diverse matrici di pesi fattoriali spieghino la stessa quota di varianza. Esistono un’infinità di trasformazioni ortogonali che portano alla medesima quota di variabilità delle variabili spiegata dai fattori. La rotazione dei fattori consiste proprio nell’identificazione dei fattori estratti in termini delle variabili originarie, ovvero nello scegliere una delle possibili trasformazioni ortogonali della matrice dei pesi fattoriali. Il criterio di scel- ta si basa sulla semplicità della matrice Λ (Thurstone, 1947), ovvero sulla vicinanza dei suoi elementi ai valori 0 e 1. Infatti quanto più ciò si verifi- ca tanto più semplice risulta l’interpretazione dei fattori comuni in termini delle variabili. In altre parole l’identificazione dei fattori risulta semplificata A. Pollice - SM Cap. 8: Analisi fattoriale 8 se ciascuno di essi è fortemete correlato con un numero limitato di variabili (ed è poco correlato con le altre). A seconda che i fattori ruotati risultino o meno incorrelati si distingue tra metodi di rotazione ortogonale e obliqua dei fattori. Rotazione ortogonale: metodo Quartimax (J. Neuhaus e C. Wringley,1954) Gli elementi della matrice Λ delle covarianze tra variabili e fattori sono modificati in modo che sia massima la varianza dei loro quadrati (misura della semplicità di Λ) subordinatamente alla condizione che rimangano costanti le comunalità delle variabili max V = max 1 Pm Pk λ4 − 1 Pm Pk λ2 2 h i Q km h=1 j=1 jh km h=1 j=1 jh (8.29) c2 = Pm λ2 = C j = 1,... , k j h=1 jh j Lasciando inalterata la somma dei quadrati (e quindi la varianza) delle righe, la matrice Λ è semplificata in modo tale che le covarianze tra i quadrati di elementi appartenenti a righe diverse di Λ siano massime. Pertanto il metodo Quartimax amplifica la differenziazione tra le righe di Λ ed opera una semplificazione all’interno delle stesse individuando soluzioni fattoriali in cui ciascuna variabile (riga) è legata a pochi fattori (colonne) che rendono più agevole l’attribuzione dei fattori comuni alle variabili. Rotazione ortogonale: metodo Varimax (H.F. Kaiser,1958) Il metodo Varimax tende piuttosto che a semplificare le righe di Λ (come il Quartimax), a semplificarne le colonne. E’ questo il metodo più comunemente utilizzato poiché permette di semplificare della struttura dei fattori in termini delle variabili e non viceversa. Consente di amplificare le correlazioni più alte di ciascun fattore e di ridurre quel- le più basse, agevolandone l’interpretazione. La varianza dei quadrati dei coefficienti λjh è massimizzata per colonna anziché per riga P 2 max V = max Pm 1 Pk 4 1 k 2 V h=1 k j=1 λjh − k j=1 λjh (8.30) 2 Pm cj = h=1 λ2jh = Cj j = 1,... , k A. Pollice - SM Cap. 8: Analisi fattoriale 9 Rotazione obliqua: metodo Oblimax La massimizzazione del metodo Quartimax è equivalente alla condizione Pk Pm 4 j=1 h=1 λjh max VO = max Pk Pm (8.31) 2 j=1 h=1 λjh Utilizzando tale condizione senza il vincolo sulla costanza delle comunalità, si ottengono soluzioni fattoriali con fattori non ortogonali. 8.4 Stima dei punteggi fattoriali Si definiscono punteggi fattoriali i valori assunti dai fattori comuni (variabili latenti, non osservabili) in corrispondenza delle osservazioni campionarie. Tali punteggi possono essere stimati in due modi. Stimatore di Bartlett La matrice n × m dei punteggi fattoriali F viene considerata un parametro incognito (anche se ha in effetti natura casuale). Sia Fi una sua riga di m elementi. Poiché è Xi |Fi ∼ Nk (µ + ΛFi , Ψ) (8.32) allora la funzione di logverosimiglianza calcolata tramite un’unica osserva- zione k-dimensionale Xi è data per i = 1,... , n da k 1 1 `(Fi ) = − ln(2π) − ln |Ψ| − (Xi − µ − ΛFi )0 Ψ−1 (Xi − µ − ΛFi ) (8.33) 2 2 2 Ponendo l’espressione precedente uguale a zero, si ottiene uno stimatore corretto dei punteggi fattoriali: F̂i = (Λ0 Ψ−1 Λ)−1 Λ0 Ψ−1 (Xi − µ) (8.34) Stimatore di Thompson - metodo bayesiano Sia per i = 1,... , n ΛΛ0 + Ψ Λ Xi µ ∼ Nk+m , (8.35) Fi o Λ0 Im Come in tutti i metodi di impostazione bayesiana le inferenze sui para- metri (considerati variabili aleatorie) vengono condotte condizionatamete ai dati osservati. Poiché è Fi |Xi ∼ Nm con E(Fi |Xi ) = Λ0 (ΛΛ0 + Ψ)−1 (Xi − µ) (8.36) A. Pollice - SM Cap. 8: Analisi fattoriale 10 si considera come stimatore di Fi proprio F̂i = E(Fi |Xi ), il valore atteso della distribuzione a posteriori. Lo stimatore di Thompson pur essendo distorto è associato a un errore medio di previsione E[(F̂ − F)(F̂ − F)0 ] inferiore a quello associato allo stimatore di Bartlett (è in altri termini più accurato). I due stimatori portano comunque a valori simili. Capitolo 9 Analisi dei gruppi Partendo da un collettivo multidimensionale, l’analisi dei gruppi mira ad assegnarne le unità a categorie non definite a priori, formando dei gruppi di osservazioni omogenei al loro interno ed eterogenei tra loro. L’obiettivo ultimo è dunque lo stesso dell’analisi discriminante, ma in questo caso non vi sono informazioni sul numero e le caratteristiche dei gruppi nella popola- zione. Mentre nell’ambito delle scienze sperimentali i raggruppamenti sono generalmente preesistenti al processo di classificazione e vengono individuati semplicemente con l’assegnazione delle osservazioni (analisi discriminante), nelle scienze sociali questi sono spesso il prodotto stesso del procedimento di classificazione. L’individuazione delle strutture di raggruppamento insite nei dati corrisponde all’esigenza di agevolare l’interpretazione della realtà (momento essenziale del procedimento scientifico). Dal punto di vista ap- plicativo le motivazioni per la definizione di gruppi omogenei all’interno di un collettivo sono molteplici: Ricerca tipologica o individuazione di gruppi di unità con caratteri- stiche distintive; Stratificazione di popolazioni da sottoporre a campionamento; Definizione di sistemi di classificazione o tassonomie; Ricostruzione di valori mancanti tramite le informazioni desunte dal gruppo di appartenenza individuato tramite i dati disponibili; Sintesi delle osservazioni. Fu K. Pearson che affrontò per primo lo studio della classificazione dal punto di vista statistico, sul finire del secolo XIX. Da allora ai giorni no- stri gli algoritmi di clustering si sono moltiplicati e differenziati nei diversi 1 A. Pollice - SM Cap. 9: Analisi dei gruppi 2 ambiti applicativi. In particolare dalla seconda metà degli anni ’50 alcune delle tecniche di raggruppamento hanno ricevuto una più ampia trattazione teorico-metodologica grazie alla corrispondenza con la teoria dei grafi (Mi- gnani e Montanari, 1994). Successivamente, di pari passo agli sviluppi delle tecnologie di calcolo, si è posta maggiore attenzione agli aspetti algoritmi- ci delle tecniche di raggruppamento. Attualmente si dispone di molteplici soluzioni alternative per l’analisi dei gruppi. Quasi tutte le tecniche conside- rano una matrice di dissomiglianza che contiene le informazioni riguardanti il grado di dissomiglianza tra le diverse unità statistiche. In genere la ma- trice di dissomiglianza deriva da calcoli effettuati sulla matrice dati. Vi sono diversi criteri, a seconda che le variabili rilevate siano, quantitative, qualitative, binarie o miste. Variabili quantitative In questo caso la dissomiglianza tra unità coincide con la distanza tra le stesse. Diverse sono le forme di distanze che vengono considerate nella pra- tica. Sia X una matrice dati n×k, Xi il vettore k-dimensionale della i-esima osservazione ed xih il suo elemento generico. Sia inoltre S −2 l’inversa della matrice di varianze e covarianze campionarie. Distanza city-block o di Manhattan k X dij = |xih − xjh | (9.1) h=1 Distanza euclidea k " # 21 X dij = (xih − xjh )2 (9.2) h=1 Distanza di potenza o di Minkowsky " k # r1 X dij = |xih − xjh |r (9.3) h=1 Distanza di Mahalanobis dij = (Xi − Xj )0 S −2 (Xi − Xj ) (9.4) Nelle prime tre distanze le variabili aventi maggiore variabilità hanno un peso maggiore nella misura della dissomiglianza tra le unità. Per evitare questo inconveniente è preferibile considerare le osservazioni standardizzate oppure utilizzare la distanza di Mahalanobis. A. Pollice - SM Cap. 9: Analisi dei gruppi 3 Variabili dicotomiche Si assuma ora che ciascuna xih possa assumere valori 0 o 1 per i = 1,... , n e h = 1,... , k. La dissomiglianza tra due osservazioni Xi e Xj può essere rappresentata tramite la seguente tabella Xi Xj 1 0 1 a b 0 c d in cui a = numero di variabili che valgono 1 per entrambe le osservazioni; b = numero di variabili che valgono 1 per la i-esima e 0 per la j-esima osservazione; c = numero di variabili che valgono 0 per la i-esima e 1 per la j-esima osservazione; d = numero di variabili che valgono 0 per entrambe le osservazioni. Ovviamente con a + b + c + d = k. Questa rappresentazione può essere sinte- tizzata tramite due indici di dissomiglianza: il coefficiente di dissomiglianza semplice e il coefficiente di Jaccard. Il coefficiente di dissomiglianza semplice. E’ dato dalla proporzione delle variabili che risultano discordanti: b+c dij = (9.5) k Il coefficiente di Jaccard risulta più indicato per variabili dicotomiche asimmetriche, che indicano la presenza di una data caratteristica. In tal caso l’assenza della caratteristica da entrambe le unità non dovrebbe contribuire ad aumentarne il grado di somiglianza: b+c dij = (9.6) a+b+c Variabili politomiche In analogia con quanto detto a proposito del coefficiente di dissomiglinaza semplice, indicando con cij la frazione delle variabili che assumono lo stesso valore per le unità i-esima e j-esima, si ha dij = 1 − cij (9.7) A. Pollice - SM Cap. 9: Analisi dei gruppi 4 Variabili miste Se vengono rilevate variabili di natura diversa (qualitative, quantitative, binarie) la perdita di informazioni che implicherebbe la riduzione di tutte le variabili alla scala di precisione inferiore può essere evitata applicando l’indice di Gower (1971): Pk sijh dij = 1 − h=1 (9.8) k dove se la h-esima variabile è quantitativa ed R(h) è il suo campo di variazione, si ha |xih − xjh | sijh = 1 − (9.9) R(h) mentre se è qualitativa 1 se la h-esima variabile ha la stessa modalità sijh = per le osservazioni i-esima e j-esima; (9.10) 0 altrimenti. 9.1 Tecniche gerarchiche di analisi dei gruppi Con questo nome si fa riferimento ai criteri per la creazione di partizioni annidate dell’insieme di osservazioni di partenza. Tali criteri permettono di esplorare la struttura di raggruppamento con riferimento a livelli variabili di omogeneità all’interno dei gruppi. Un elemento cruciale per la comprensio- ne del funzionamento delle tecniche gerarchiche è la rappresentazione grafica della struttura di raggruppamento tramite diagrammi ad albero o dendro- grammi (Fig. 9.1). In questi dagrammi le linee orizzontali rappresentano lunione di due cluster e la loro posizione sullasse delle ordinate indica la distanza alla quale i cluster vengono aggregati. Sezionando il dendrogram- ma in corrispondenza di un certo livello di dissomiglianza si ottiene una partizione in gruppi disgiunti e omogenei dell’insieme di unità. Un crite- rio consiste nel sezionare il dendrogramma in corrispondenza del massimo scarto tra i livelli di prossimità ai quali avvengono le aggregazioni. La con- siderazione delle sole partizioni annidate, piuttosto che di tutte le partizioni possibili, riduce considerevolmente i tempi dell’analisi. D’altro canto un er- rore commesso nella fase iniziale della classificazione non può essere messo in discussione nelle fasi successive. Vengono definiti algoritmi aggregativi quelli che procedono per aggre- gazioni successive di unità, ovvero dalle foglie alla radice del diagramma A. Pollice - SM Cap. 9: Analisi dei gruppi 5 150 100 Cluster Dendrogram Height 50 0 New York Texas Tennessee West Virginia Pennsylvania Nevada Vermont New Mexico Washington Wyoming New Jersey Kentucky Delaware Hawaii Iowa South Dakota New Hampshire Colorado Nebraska California Arizona Alabama Louisiana Illinois Michigan Alaska Mississippi South Carolina Oregon Oklahoma Virginia Rhode Island Massachusetts Georgia Idaho Montana Ohio Utah Indiana Kansas Connecticut Maine Minnesota Wisconsin Florida Missouri