Método Análisis de Componentes Principales PDF
Document Details
Uploaded by Deleted User
Esade
null
null
Tags
Summary
Este documento presenta material temático sobre el análisis de componentes principales, incluyendo motivaciones, métodos, ejemplos, y análisis de datos sociodemográficos.
Full Transcript
BLOQUE 6: INTERDEPENDENCIA 6.1. Motivación 6.2. Análisis de Componentes Principales: Método Retención de las componentes Interpretación – Rotación Ejemplos 6.3. Análisis de Clúster 6.1. MOTIVACIÓN Consideremos un mismo fenómeno medido con muchas variables Da...
BLOQUE 6: INTERDEPENDENCIA 6.1. Motivación 6.2. Análisis de Componentes Principales: Método Retención de las componentes Interpretación – Rotación Ejemplos 6.3. Análisis de Clúster 6.1. MOTIVACIÓN Consideremos un mismo fenómeno medido con muchas variables Datos Antropomórficos 6.1. MOTIVACIÓN Aspectos comunes a este tipo de datos: ALTA CORRELACIÓN Datos Antropomórficos 6.1. MOTIVACIÓN Hasta ahora hemos enfrentado el análisis de datos multivariante con el objetivo de explicar una de las variables (VD) a partir de la información que podían proporcionar el resto de las variables (VI’s). Pero, en ocasiones, no se tiene especial interés en explicar o predecir alguna de las variables en particular, sino que lo que interesa es conocer más a fondo el fenómeno que las variables y observaciones están describiendo. Por ejemplo, si estamos interesados en un fenómeno demográfico y recogemos datos de diversos indicadores de esta índole referidos a determinados países podremos construir una matriz como la que se muestra en la Tabla 1. 6.1. MOTIVACIÓN Tabla 1: valores de 8 indicadores sociodemográficos sobre una muestra de 109 países. 6.1. MOTIVACIÓN La siguiente tabla nos muestra las correlaciones entre las 8 variables registradas en la muestra de 109 países. Se observa la existencia de altísimas correlaciones en valor absoluto entre prácticamente cualquier par de las variables originales. Correlation Matrix Mortalidad infantil (muertes por Tasa de Habitantes Tasa de Esperanza 1000 Número natalidad Log(10) en mortalidad Alfabetizac de vida nacimientos promedio (por 1.000 de PIB_ ciudades (por 1.000 ión (%) femenina vivos) de hijos habitantes) CAP (%) habitantes) Correlation Alfabetización (%) 1,000 ,865 -,901 -,866 -,870 ,731 ,654 -,485 Esperanza de vida ,865 1,000 -,962 -,847 -,865 ,833 ,766 -,703 femenina Mortalidad infantil (muertes por 1000 -,901 -,962 1,000 ,844 ,870 -,824 -,744 ,636 nacimientos vivos) Número promedio de -,866 -,847 ,844 1,000 ,975 -,713 -,608 ,424 hijos Tasa de natalidad (por 1. -,870 -,865 ,870 ,975 1,000 -,783 -,635 ,384 000 habitantes) Log(10) de PIB_CAP ,731 ,833 -,824 -,713 -,783 1,000 ,785 -,401 Habitantes en ciudades ,654 ,766 -,744 -,608 -,635 ,785 1,000 -,523 (%) Tasa de mortalidad (por -,485 -,703 ,636 ,424 ,384 -,401 -,523 1,000 1.000 habitantes) 6.1. MOTIVACIÓN Hemos hablado de nuestro interés en el fenómeno demográfico para a continuación utilizar ocho variables específicas, pero: a. ¿Qué significa la expresión fenómeno demográfico? b. ¿cómo se mide? Posiblemente en este ejemplo no sea fácil definir claramente el significado del llamado fenómeno demográfico y mucho menos encontrar procedimientos y variables adecuadas para su medición. En su lugar, encontramos múltiples indicadores más o menos relacionados con el fenómeno real que estamos analizando. Este tipo de situaciones se produce de manera habitual en el mundo de las ciencias sociales donde se trabaja usualmente con conceptos como desarrollo económico, satisfacción del cliente, clima laboral, posicionamiento de una marca, sensibilidad al precio, etc… pero en cambio, no se dispone de definiciones operativas de los mismos que permitan su medición de manera precisa e inequívoca. …/… 6.1. MOTIVACIÓN Muy posiblemente la complejidad real del problema sea bastante menor que la aparente, en este caso se han obtenido 8 variables, pero muy fácilmente se hubieran podido hallar un número bastante mayor de ellas sin que esto cambie la naturaleza o la complejidad objetiva del problema real. Es decir, el disponer de más variables o indicadores de un fenómeno no necesariamente significa que el fenómeno sea más complejo o tenga mayor dimensionalidad. Después de estas reflexiones resulta bastante obvio interpretar el fenómeno correlacional observado entre las distintas variables. Este resultado estadístico confirma que los indicadores comparten una parte muy importante de información; esto es, a pesar de ser variables distintas, están midiendo un mismo fenómeno, quizá desde perspectivas diferentes. De lo anterior, podemos decir que la información total proporcionada por el conjunto de las 8 variables puede ser resumida o sintetizada. Estamos ante una situación donde existe mucha información redundante o duplicada. …/… 6.1. MOTIVACIÓN El objetivo de las llamadas técnicas de análisis de la interdependencia se centra en la identificación de la estructura subyacente a este tipo de matrices de información redundante. Son técnicas que pretenden reducir la complejidad de la información y encontrar una manera más simple, sencilla y nítida de expresar un fenómeno complejo a partir del análisis de la información compartida (en general, covarianzas o correlaciones) entre las variables que originalmente se utilizaron para describir el citado fenómeno. En el caso en que todas las variables sean cuantitativas, para decidir la técnica adecuada, se deberá tener en cuenta distintos aspectos del objetivo del estudio: ACP: Disminuir la dimensión (número de variables, por tener información compartida). Clúster: Clasificar las distintas observaciones según sus comportamientos análogos o no en las variables consideradas. 6.2. ACP: MÉTODO Aspectos comunes de los datos presentados: Las variables contienen información redundante. En cierta forma, las variables explican lo mismo Alta correlación entre ellas Podríamos explicar el fenómeno con menos variables, aunque perdamos algo de información. En estadística, información es sinónimo de varianza. Si no hay varianza no hay información. En estadística, compartir información es sinónimo de alta correlación. 6.2. ACP: MÉTODO El objetivo de la técnica multivariante de Análisis en Componentes Principales (ACP) es la reducción de la dimensión. No hay variables explicativas ni explicadas Las variables son numéricas (escala) Queremos reducir el número de variables perdiendo la mínima información original Podemos construir nuevas variables NO correlacionadas (componentes) Sólo con algunas de ellas (componentes) retendremos buena parte de la información original 6.2. ACP: MÉTODO ACP es una técnica de análisis de la interdependencia que, a partir de la descripción de un fenómeno complejo en términos de m variables intercorrelacionadas medidas sobre n observaciones, pretende “condensar” esta información y conseguir una descripción más simple del mismo fenómeno (utilizando un número menor de variables llamadas componentes) perdiendo en este proceso la menor cantidad de información posible. Esto lo convierte en un método muy útil de aplicar previo a la utilización de otras técnicas estadísticas tales como regresión, clustering, etc. 6.2. ACP: MÉTODO 6.2. ACP: MÉTODO PC1 y PC2 retienen por si solos un elevado porcentaje de la información total contenida en las m variables originales 6.2. ACP: MÉTODO El método de ACP permite por lo tanto “condensar” la información aportada por múltiples variables en solo unas pocas componentes. Esto lo convierte en un método muy útil de aplicar previa utilización de otras técnicas estadísticas tales como regresión, clustering, etc. 1. Las variables originales deben ser medidas mediante escalas de intervalo o de razón, es decir, se requieren escalas cuantitativas. 2. El espacio definido por las variables originales, donde se representan los individuos, se conoce como “espacio original”. 3. El ACP es de utilidad si, a partir de las variables originales, se requiere derivar a un espacio de menor dimensión, que se suele denominar “espacio reducido”. Es en este sentido que el ACP es una técnica de reducción de la dimensión. 4. Las variables que definen el espacio reducido se denominan “componentes” y resultan de combinaciones lineales o funciones lineales de las variables originales. Así, las componentes no son observables; o sea, son latentes. 5. La solución hallada mediante ACP depende de la estructura de dependencia lineal entre las variables originales, tanto si se parte de la matriz de correlaciones como de la de covariancias. 6.2. ACP: MÉTODO Supóngase que existe una muestra con n individuos cada uno con p variables (Y1, Y2, …, Yp), es decir, el espacio muestral tiene p dimensiones. ACP permite encontrar un número de componentes subyacentes (C