Capítulo 18. Análisis Multivariante PDF
Document Details
Uploaded by Deleted User
Lucía Manzorro Castrillón
Tags
Summary
This document provides a concise overview of multivariate analysis (AM). It covers fundamental concepts including population parameters like mean vectors and covariance matrices, and sample statistics such as mean vectors, sample variance and covariances. The document is suitable for undergraduate-level study.
Full Transcript
ón ill Capı́tulo 18 r Análisis multivariante st Ca El análisis mul...
ón ill Capı́tulo 18 r Análisis multivariante st Ca El análisis multivariante (AM) es la parte de la estadı́stica y del análisis de datos que estudia, analiza, representa e interpreta los datos que resulten de observar un número p > 1 de variables estadı́sticas sobre una muestra de n o individuos. Las variables observables son homogéneas y correlacionadas, sin que alguna predomine sobre las demás. La información estadı́stica en AM es rr de carácter multidimensional, por lo tanto la geometrı́a, el cálculo matricial y las distribuciones multivariantes juegan un papel fundamental. zo En el AM observamos un conjunto p variables aleatorias X1 ,... , Xp , de forma que trabajaremos con el vector aleatorio X = (X1 ,... , Xp )0. an Parámetros poblacionales M Vector de medias: Si denotamos a la media de la variable Xi como E(Xi ) = µi , el vector de medias de las p variables será: E(X1 ) µ1 a.. . E(X) = = µ = .. . cı́ E(Xp ) µp Lu La matriz de covarianzas simétrica p × p: Σ = (σjk )j,k=1,...,p siendo σjk = Cov(Xj , Xk ) = E((Xj − µj )(Xk − µk )) = E(Xj Xk ) − µj µk σj2 = σjj = Cov(Xj , Xj ) = V ar(Xj ) 1 2 σjk La matriz de correlaciones: R = (ρjk )j,k=1,...,p = σj σk j,k=1,...,p ón Estadı́sticos muestrales ill Vamos a estudiar ahora los principales estadı́sticos muestrales de la m.a.s. (X 1 ,... , X n ). r El vector de medias se define como st 1P n i=1 Xi1 n n X1 1X .... = 1 Xt 1 (1 = (1,... , 1)t ) X= Xi = = .. n Ca n n n i=1 1 n P Xip Xp n i=1 Cuasivarianza muestral de la j-ésima componente o n 1 X 1 σ̂j2 (Xij − X j )2 = Sjj 1 ≤ j ≤ p rr = σ̂jj = n − 1 i=1 n−1 zo Cuasicovarianza muestral entre las componentes j y k n 1 X 1 σ̂jk = (Xij − X j )(Xik − X k ) = Sjk 1 ≤ j 6= k ≤ p n − 1 i=1 n−1 an La matriz de varianzas y covarianzas muestrales Σ̂ p × p simétrica M y semifinida positiva será: n n ! 1 1 X 1 X t Σ̂ = (σ̂jk )j,k=1,...,p = S= (X i −X)(X i −X)t = X i X ti − nXX n−1 n − 1 i=1 n−1 a i=1 cı́ Propiedades: Lu Σ̂ es simétrica, semidefinida positiva (s.d.p.). Los autovalores son reales (simétrica) y positivos (s.d.p.) (λ̂1 ≥ λ̂2 ≥... ≥ λ̂p ≥ 0) CAPÍTULO 18. ANÁLISIS MULTIVARIANTE 3 Los autovectores son ortogonales (êti êi = 0, i 6= j) ón Sean ê1 , ê2 ,... , êp los autovectores unitarios ortogonales y Ê = (ê1 ,... , êp ) ill Ê es una matriz ortogonal (Êt Ê = ÊÊt = Ip ) Teorema de descomposición espectral r 1. Êt Σ̂Ê = Λ̂ = diag{λ̂1 , λ̂2 ,... , λ̂p } st Pp 2. Σ̂ = ÊΛ̂Êt = i=1 λ̂i êi êti Ca Las correlaciones muestrales se definen como σ̂jk ρ̂jk = ρ̂jj = 1 σ̂j σ̂k o Matrices de datos rr Supongamos n individuos ω1 ,... , ωn y p variables X1 ,... , Xp. Sea xij = Xj (ωi ) la observación de la variable Xj sobre el individuo ωi. La matriz de datos zo multivariantes es x11 · · · x1j · · · x1p an ............ ... X = xi1 · · · xij · · · xip ......... .. .... M xn1 · · · xnj · · · xnp Las filas de X se identifican con los individuos y las columnas de X con las a variables. cı́ 18.1. Análisis factorial Lu El objetivo del Análisis Factorial (AF) es describir, si es posible, la estructura de covarianzas entre diversas variables en términos de un número reducido de 4 18.1. ANÁLISIS FACTORIAL variables latentes, no observables, llamadas factores. ón El AF se sustenta en el siguiente argumento: Si las variables observables pueden agruparse a través de sus correlaciones (altas correlaciones dentro de los grupos y bajas entre variables de distintos grupos) parece lógico pensar que cada ill grupo de variables representa una variable simple subyacente (o factor) que es responsable de las correlaciones observadas, aunque dicho factor no sea observable. r st 18.1.1. Modelo factorial ortogonal Sea X un vector aleatorio (observable) p-dimensional, X ∼ (µ, Σ). Ca El modelo factorial postula que el vector aleatorio X depende linealmente de “un número reducido” de variables aleatorias no observables F1 ,... , Fm , denominadas factores comunes y p fuentes de variación adicionales ε1 ,..., εp denominados errores aleatorios o factores especı́ficos: o m rr X X i − µi = lij Fj + εi , i = 1,... , p ⇔ X − µ = |{z} L F + ε |{z} |{z} |{z} |{z} j=1 (p×1) (p×m) (m×1) (p×1) (p×1) (18.1) zo La matriz L = (lij ) se denomina matriz de cargas factoriales. lij es la carga factorial de la i-ésima variable sobre el j-ésimo factor. an Los factores comunes pueden estar relacionados con todas las variables origina- les, mientras que cada factor especı́fico está relacionado con una única variable original. Tanto los factores comunes como los factores especı́ficos son no observables. M Se asumen las siguientes hipótesis: E(F ) = 0, Cov(F ) = E(F F t ) = Im a cı́ E(ε) = 0, Cov(ε) = E(εεt ) = Ψ = diag(Ψ1 ,... , Ψp ) Cov(F , ε) = E(F ε) = 0 Lu Proposición 18.1. Bajo las hipótesis del modelo: 2 2 2 t σii = lPi1 +... + lim + Ψi Σ = LL + Ψ ⇔ (18.2) σik = m i=1 lij lkj CAPÍTULO 18. ANÁLISIS MULTIVARIANTE 5 ón Cov(X, F ) = L ⇔ (lij ) = Cov(Xi , Fj ) (18.3) 2 La cantidad h2i = li1 2 +... + lim se llama comunalidad de la variable Xi. La ill cantidad Ψi es la varianza especı́fica. Luego, para cada variable tenemos que: variabilidad = comunalidad + varianza especı́fica. r La comunalidad es la parte de la variabilidad de las variables sólo explicada por los factores comunes. st 18.1.2. Métodos de estimación (problema muestral) Ca Sea x1 ,... , xn una muestra aleatoria de X ∼ (µ, Σ) y sea Σ̂ su cuasivarianza muestral. o El problema muestral consiste en: rr Dado (Σ̂, m) −→ determinar −→ (L̂, Ψ̂) : Σ̂ ≈ L̂L̂t + Ψ̂ Los métodos más usuales son: el método de las componentes principales, el zo método del factor principal y el método de máxima verosimilitud. A modo de ejemplo, vamos a plantear el método de las componentes principales. an Método de componentes principales M Consideramos la descomposición espectral de la matriz Σ = pj=1 λj ej etj Si P √ √ p m = p se satisface Σ = LLt siendo L = λ1 e 1 λ2 e 2... λp ep tene- mos factorización exacta pero no útil (tantos factores como variables iniciales). a El objetivo es m < p. cı́ Si los últimos p−m autovalores son pequeños, puede despreciarse pj=m+1 λj ej etj P obteniéndose la factorización √ Lu √λ 1 e 1 Ψ 1 0... 0 √ √ λ2 e 2 0 Ψ2... 0 t p Σ≈ λ1 e1 λ2 e2... λp ep +.... = LL +Ψ ....... p. ... λp e p 0 0... Ψp 6 18.1. ANÁLISIS FACTORIAL Pm 2 donde Ψi = σii − j=1 lij , i = 1,... , p. ón Esta descomposición aplicada a Σ̂ proporciona la solución de las CP. ill 18.1.3. Rotación ortogonales y oblı́cuas Con la matriz L̂ intentamos interpretar los factores comunes. Si esto no es r posible, buscamos una mejor interpretación realizando rotaciones. st Las cargas factoriales obtenidas a través de una transformación ortogonal de las cargas iniciales tienen la misma capacidad para reproducir la matriz de Ca covarianza (o correlación). Rotaciones ortogonles o Sea L̂ la (p × m)-matriz estimada de cargas factoriales obtenida por alguno de los métodos anteriores, y T una (m×m)-matriz ortogonal (Tt T = TTt = Im ). rr La matriz L̂∗ = L̂T es una (p × m)-matriz de cargas rotada. En particular, mantiene idéntica factorización de la matriz de covarianza (o correlación): zo Σ̂ ≈ L̂L̂t + Ψ̂ = L̂TTt L̂t + Ψ̂ = L̂∗ (L̂∗ )t + Ψ̂ y por tanto, la matriz de residuos tampoco se ve modificada: an h i t ∗ ∗ t Φ̂ = Σ̂ − (L̂L̂ + Ψ̂) = Σ̂ − L̂ (L̂ ) + Ψ̂ M Existen diversos procedimientos como Quartimax o Varimax. a Rotaciones oblı́cuas cı́ La estimación de L corresponde siempre a factores incorrelados, pero pode- mos preguntarnos si existe una solución con factores correlados que tenga una Lu interpretación más interesante. Matemáticamente esto implica definir nuevos factores F ∗ = HF , donde H es una matriz no singular que puede interpretarse, en general, como un giro oblicuo. La nueva matriz de varianzas y covarianzas de los factores será Cov(F ∗ ) = HH0. CAPÍTULO 18. ANÁLISIS MULTIVARIANTE 7 Existen diversos procedimientos para obtener rotaciones oblicuas, como el Quartmin, Oblimax, Promax, etc. ón ill 18.1.4. Puntuaciones factoriales El desarrollo realizado hasta el momento ha tenido por objetivo estimar L y r Ψ. st Teniendo en cuenta que los factores son variables no observable, un pro- blema de interés es estimar los valores de los factores (puntuaciones fac- toriales) en cada una de los n elementos muestrales, o bien, sobre un nuevo Ca individuo. Método de mı́nimos cuadrados ponderados (Barlett) o rr Para cada observación muestral el modelo factorial teórico es X k − µ = LF k + εk (E[εk ] = 0; V [εk ] = Ψ = diag(ψi )), k = 1, 2,... , n (18.4) zo Si µ, L y εk son conocidos, (18.4) puede considerarse como un modelo de re- gresión con parámetros desconocidos F k. an Barlett: estimar F k mediante mı́nimos cuadrados ponderados (distintas va- rianzas): M p X 1 2 t εki = εtk Ψ−1 εk = mı́n X k − µ − LF k Ψ−1 εk = mı́n X k − µ − LF k mı́n Fk i=1 ψi Fk Fk a La solución del problema de minimización viene dado por: cı́ f k = Lt Ψ−1 L Lt Ψ−1 X k − µ Lu Por tanto, un estimador de F k es −1 F̂ k = L̂t Ψ̂−1 L̂ L̂t Ψ̂−1 X k − X , k = 1, 2,... , n 18.2. REDUCCIÓN DE LA DIMENSIÓN Y ANÁLISIS DE 8 COMPONENTES PRINCIPALES Método de regresión ón Supone hipótesis de normalidad de los factores comunes F y los factores es- pecı́ficos ε. ill Por las propiedades de la distribución normal, la lı́nea de regresión de F sobre X − µ es E[F |X = x] = Lt Σ−1 (x − µ) = Lt (LLt + Ψ)−1 (x − µ) r st y verifica Cov(F |X = x) = Im − Lt Σ−1 L = Im − Lt (LLt + Ψ)−1 L Ca Dada una observación X k , se proponen como estimadores de las puntuaciones factoriales F k : F̂ k = L̂t (L̂L̂t + Ψ̂)−1 (X k − X), k = 1,... , n o (18.5) rr F̂ k = L̂t Σ̂−1 (X k − X) (18.6) con L̂ y Ψ̂ los estimadores de máxima verosimilitud. zo La primera expresión (18.5) es más correcta que (18.6), pero depende del núme- ro de factores considerados. an 18.2. Reducción de la dimensión y análisis de M componentes principales a El objetivo del Análisis de Componentes Principales (ACP) es determinar un espacio de dimensión “reducida” que represenea adecuadamente un conjunto cı́ de n observaciones p-dimensionales. De esta forma, el ACP pretende sustituir las variables originales por un núme- Lu ro pequeño de combinaciones lineales de las variables originales, incorreladas y “perdiendo” poca información. Además, el ACP puede revelar relaciones insospechadas inicialmente y proporcionar interpretaciones que se obtendrı́an analizando las variables originales. CAPÍTULO 18. ANÁLISIS MULTIVARIANTE 9 Sea x1 , · · · , xn una m.a. de X = (X1 , · · · , Xp )0 ∼ (µ, Σ). Σ̂ matriz de varianzas- ón covarianzas muestrales con autovalores λ̂1 ≥ · · · ≥ λ̂p y autovectores unitarios ortogonales Ê = (ê1 , · · · , êp ). ill 18.2.1. Componentes principales (muestrales) r Definición 18.1. Se define la i-ésima componente principal muestral como la st variable transformada êti x, i = 1,... , p. Definición 18.2. Las puntuaciones correspondientes a la i-ésima componente Ca principal son t y 1i êi x1 .. .. y (i) = . = . = Xêi , i = 1,... , p y ni êti xn o rr siendo, por tanto, las puntuaciones de las p componentes principales xt1 ê1... xt1 êp Y = ....... = XÊ = (y ,... , y ) zo .. (1) (p) xtn ê1... xtn êp Definición 18.3. Se denomina transformación por componentes principales an t xt1 ê1... xt1 êp y1 ....... = XÊ = ... Y=. . M t t t xn ê1... xn êp yn y i = Êt xi , i = 1,... , n Propiedad 18.1. a Como Ê es una matriz ortogonal se mantienen las distancias entre los datos cı́ originales y los datos transformados. Propiedad 18.2. La matriz de varianzas-covarianzas de y i = Êt xi , i = 1,... , n Lu será Σ̂y = Êt Σ̂Ê = Λ̂ = diag{λ̂1 ,... , λ̂p } Propiedad 18.3. La varianza muestral de la i-ésima componente principal será σ̂y2 = σ̂ê2t x = λ̂i ∀i = 1,... , p (i) i 10 18.3. ANÁLISIS FACTORIAL DE CORRESPONDENCIAS Propiedad 18.4. La covarianza muestral entre las i-ésima y j-ésima compo- ón nentes principales será σ̂y(i) ,y(j) = σ̂êti x,êtj x = 0 ∀i 6= j ill Propiedad 18.5. p p p X X X σ̂x2(j) = tr(Σ̂) = λ̂i = σ̂y2(i) r j=1 i=1 i=1 st Propiedad 18.6. El coeficiente de correlación muestral entre y(i) y x(j) viene dado por p êij λ̂i Ca r(y(i) , x(j) ) = σ̂x(j) Teorema 18.1. 1. La 1a CP muestral es la combinación lineal (normali- zada) de máxima varianza o σ̂y2 = σ̂ê2t x = sup σ̂t2t x (1) 1 {t∈Rp :tt t=1} rr 2. La 2a CP muestral es la combinación lineal de máxima varianza incorre- lada con la 1a CP zo σ̂y2 = σ̂ê2t x = sup σ̂t2t x (2) 2 {t∈Rp :tt t=1,tt Σ̂ê1 =0} an 3. La i-ésima CP muestral verifica σ̂y2 = σ̂ê2t x = sup σ̂t2t x , i = 1,... , p M (i) i {t∈Rp :tt t=1,tt Σ̂ê s =0,s=1,...,i−1} λ̂i a La variabilidad explicada por la i-ésima componente principal es Pp s=1 λ̂s cı́ 18.3. Análisis factorial de correspondencias Lu El análisis de correspondencias es una técnica descriptiva para representar tablas de contingencia. Constituye el equivalente de componentes principales y coordenadas principales para variables cualitativas. CAPÍTULO 18. ANÁLISIS MULTIVARIANTE 11 El análisis de correspondencias es un procedimiento para resumir la informa- ón ción contenida en una tabla de contingencia. Puede interpretarse como una manera de representar las variables en un espacio de dimensión menor, de for- ma análoga a componentes principales, pero definiendo la distancia entre los ill puntos de manera coherente con la interpretación de los datos y en lugar de utilizar la distancia euclı́dea utilizamos la distancia ji-cuadrado. Consideramos dos variables categóricas (A, B) con n y p modalidades respec- r tivamente. Se define Nij como el número de elementos que presentan Ai ∩ Bj , de manera que Nij ∼ B(N, P (Ai ∩ Bj )). st En adelante trabajaremos con la matriz F de frecuencias relativas cuyos ele- mentos son fij = Nij /N i = 1,... , n y j = 1,... , p. La matriz F puede consi- Ca derarse por filas o por columnas. Vamos a presentar primero el análisis por filas de esta matriz, que será simétrico al análisis por columnas, que estudiaremos a continuación. o rr Proyección por filas zo Vamos a analizar la matriz de frecuencias relativas, F, por filas. Entonces las n filas pueden tomarse como n puntos en el espacio Rp. Vamos a buscar una an representación de estos n puntos en un espacio de dimensión menor que nos permita apreciar sus distancias relativas. Al representar el conjunto de las filas (puntos) debemos dar más peso a aquellas filas que contienen más datos. M Llamaremos R a la matriz de frecuencias relativas condicionadas al total de la fila, que se obtiene con: R = D−1 f F, donde Df es la matriz diagonal n×n Df = diag(f1· ,... , fn· ). Esta operación transforma la matriz original de frecuencias a relativas, F, en otra matriz cuyas casillas por filas suman uno. cı́ Llamaremos r0i a la fila i de la matriz R de frecuencias relativas condicionadas por filas, que puede considerarse un punto (o un vector) en el espacio Rp. Como la suma de los componentes de r0i es uno, todos los puntos están en un Lu espacio de dimensión Rp−1. Queremos proyectar estos puntos en un espacio de dimensión menor de manera que las filas que tengan la misma estructura estén próximas, y las que tengan una estructura muy diferente, alejadas. Para ello, vamos a calcular la distancia entre dos filas ra , rb. Utilizaremos la distancia ji-cuadrado (distancia entre distribuciones de probabilidad), de manera que la 12 18.3. ANÁLISIS FACTORIAL DE CORRESPONDENCIAS distancia entre ambas filas vendrá dada por ón p X (raj − rbj )2 d (ra , rb ) = χ2 = (ra − rb )0 Dc−1 (ra − rb ) f·j ill j=1 donde Dc es una matriz diagonal con términos f·j. Podemos construir una matriz de datos Z definida por r −1/2 FDc−1/2 st Z = Df ( ) f cuyos componentes son zij = p ij y que estandariza las frecuencias re- Ca fi· f·j lativas en cada casilla por el producto de las raı́ces cuadradas de las frecuencias relativas totales de la fila y la columna, y escribir el problema de encontrar el vector a como el problema de maximizar m = a0 Z0 Za sujeto a la restric- ción a0 a = 1. Este es el problema resuelto en componentes principales, cuya o solución es D−1/2 F0 D−1 f FDc −1/2 a = λa rr c y a debe ser un vector propio de la matriz Z0 Z y λ su valor propio. La matriz Z0 Z tiene como mayor valor propio siempre el 1 y como vector propio zo 1/2 Dc −1/2 Entonces, proyectando la matriz Y = Df−1 F Dc sobre la dirección a encon- an trada: yf (a) = Ya = D−1 f FDc −1/2 a M y el vector yf (a) es la mejor representación de las filas de la tabla de contin- gencia en una dimensión. Análogamente, si extraemos el vector propio ligado al siguiente mayor valor propio obtenemos una segunda coordenada y pode- a mos representar las filas en un espacio de dimensión dos. Las coordenadas de la representación de cada fila vendrán dadas por las filas de la matriz cı́ −1/2 Cf = YA2 = D−1 −1/2 f FDc A 2 = Df ZA2 Lu donde A2 = [a1 a2 ] contiene en columnas los dos vectores propios Z0 Z. La matriz Cf es n × 2 y las dos coordenadas de cada fila proporcionan la mejor representación de las filas de la matriz F en un espacio de dos dimensiones. El procedimiento se extiende sin dificultad para representaciones en más dimen- siones, calculando vectores propios adicionales de la matriz Z0 Z. CAPÍTULO 18. ANÁLISIS MULTIVARIANTE 13 Proyección por columnas ón Podemos aplicar a las columnas de la matriz F un análisis equivalente al de las filas. Las columnas serán ahora puntos en Rn. En este caso, las direcciones ill de proyección son los vectores propios de la matriz −1/2 −1/2 ZZ0 = Df FD−1 0 c F Df r Como Z0 Z y ZZ0 tienen los mismos valores propios no nulos, esa matriz tendrá st también un valor propio unidad ligado al vector propio 1. Llamando b al vector propio ligado al mayor valor propio distinto de la unidad de ZZ0 , la Ca mejor representación de las columnas de la matriz en un espacio de dimensión uno vendrá dada por −1/2 yc (b) = Y0 b = D−1 0 c F Df b y, análogamente, la mejor representación en dimensión dos de las columnas de o la matriz vendrá dada por las coordenadas definidas por las filas de la matriz rr −1/2 Cc = Y0 B2 = D−1 0 c F Df B2 = D−1/2 c Z0 B2 donde B2 = [b1 b2 ] contiene en columnas los dos vectores propios ligados a los zo valores propios mayores de ZZ0 y menores que la unidad. La matriz Cc es p × 2 y cada fila es la mejor representación de las columnas de la matriz F en un espacio de dos dimensiones. an M a cı́ Lu