Analyse en Composantes Principales (ACP) - PDF
Document Details
Faculté des Sciences et Techniques, Mohammedia
2024
Abdeljalil SETTAR
Tags
Summary
These lecture notes cover the analysis of principal components (ACP) with the goal of summarizing data into a smaller subset of variables, preserving its structure and relationships between them. It discusses concepts, practical applications, and R software usage.
Full Transcript
Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Analyse des données Analyse en Composantes Principales (ACP) Abdeljalil SETTAR...
Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Analyse des données Analyse en Composantes Principales (ACP) Abdeljalil SETTAR [email protected] Code Classroom : gyjlt3h Faculté des Sciences et Techniques, Mohammedia LST/SDID Session automne 2024 A.SETTAR (FSTM) Analyse des données Session automne 2024 1 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Plan du chapitre 1 Motivation 2 Présentation et déscription des données 3 Objectifs, problème et solution 4 Pratique de l’ACP (normée) Ajustement du nuage des individus Ajustement du nuage des variables 5 Application sous R A.SETTAR (FSTM) Analyse des données Session automne 2024 2 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) L’Analyse en Composantes Principales (ACP) est la méthode de base en statistique exploratoire multidimensionnelle (ou analyse des données) : Multidimensionnelle : l’analyse porte sur plusieurs variables (quantitatives). Exploratoire : descriptive (par opposition à inférentielle) A.SETTAR (FSTM) Analyse des données Session automne 2024 3 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) En ACP les données se présentent dans un tableau X à n lignes et p colonnes où : Chaque ligne représente un individu (profil individu). Chaque colonne représente une variable. Les variables sont quantitatives : la matrice X est constituée de valeurs numériques A.SETTAR (FSTM) Analyse des données Session automne 2024 4 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Un individu ei′ = (xi1 , xi2 ,... , xip ) est un vecteur (profil) de Rp. L’ensemble des vecteurs ei , i = 1,... , n constitue le nuage des individus. Une variable X j = (x1j , x2j ,...., xnj )′ de moyenne x j et de variance σj2 est un vecteur (profil) de Rn. L’ensemble des vecteurs X j , j = 1,... , p constitue le nuage des variables. On définit le profil individu moyen comme le centre de gravité du nuage des variables n 1X ′ g = x 1, x 2,... , x p ou xj = xj n i=1 i A.SETTAR (FSTM) Analyse des données Session automne 2024 5 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Objectifs L’objectif général de l’ACP est de mener une étude exploratoire aussi bien des individus que des variables. Les deux voies principales de cette exploration sont : Un bilan des ressemblances entre individus. Un bilan des liaisons entre variables. A.SETTAR (FSTM) Analyse des données Session automne 2024 6 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Problème - Solution Les nuages des individus et des variables ne sont pas visualisables ! On cherche à « réduire » le nombre p de variables en préservant au maximum la structure du nuage (la variabilité des données) , afin de le représenter le plus fidèlement possible. L’ACP vise à projeter les données dans un sous-espace approprié, de dimension plus faible (2 ou 3), préservant la topologie du nuage (les distances entre les individus et les corrélations entre variables). Autrement dit, on cherche à définir k nouvelles variables combinaisons linéaires des p variables initiales qui feront perdre le moins d’information possible. A.SETTAR (FSTM) Analyse des données Session automne 2024 7 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Ajustement du nuage des individus Notion d’inertie La variabilité (dispersion) des données représente l’information (structure) ou l’inertie du nuage des individus par rapport à son centre de gravité mesurée par : n X p p 1X 2 xij − x j = X Ig = σj2 n i=1 j=1 i=1 Xj − Xj Par centrage-réduction des variables X j tel que Z j =. Dans σj ce cas : g =O Ig = p g ′ = (0, 0,... , 0) En effet, étant donné que V Z j = 1, on obtient : p X Ig = V(Z j ) = p j=1 A.SETTAR (FSTM) Analyse des données Session automne 2024 8 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Ajustement du nuage des individus Exemple Une étude sur des fournisseurs de matériel informatique a conduit à apprécier le service, la qualité et le prix de 4 fournisseurs. Un expert a noté les 4 entreprises avec des notes allants de -3 à 3. Les résultats sont consignés dans le tableau des données suivant : Ig = (1.5811)2 + (2.2361)2 + (1.2247)2 ≃ 9 A.SETTAR (FSTM) Analyse des données Session automne 2024 9 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Ajustement du nuage des individus Après centrage-réduction des variables, on obtient : Ainsi on peut vérifier que : 1 2 3 Z =Z =Z =0 V(Z 1 ) = V(Z 2 ) = V(Z 3 ) = 1 Ig = 3 A.SETTAR (FSTM) Analyse des données Session automne 2024 10 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Ajustement du nuage des individus Construction factorielle On appelle : Sous espace factoriel Fk ⊂ Rp : Le sous espace de projection du nuage des individus préservant au maximum son inertie Ig. Premier axe factoriel ∆1 : Le premier axe formant Fk et portant la plus grande part de l’inertie totale Ig. Première composante factorielle (principale) Y 1 : Le vecteur (variable) des coordonnées des individus selon le premier axe factoriel ∆1. A.SETTAR (FSTM) Analyse des données Session automne 2024 11 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Ajustement du nuage des individus Recherche des axes factoriels Le premier axe ∆1 est la droite passant par g = O de direction normée u1 : le vecteur propre (normé) de R associé à la plus grande valeur propre λ1. La part (en %) de l’inertie totale Ig portée par ∆1 est : λ1 × 100% λ1 + λ2 +... + λp On justifiera par la suite que : Ig = λ1 + λ2 +... + λp (1) (conservation de l’information !) A.SETTAR (FSTM) Analyse des données Session automne 2024 12 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Ajustement du nuage des individus Recherche des axes factoriels Le deuxieme axe ∆2 est la droite passant par g de direction u2 orthogonale à u1. Il s’agit du vecteur propre (normé) de R associé à la deuxième plus grande valeur propre λ2. La part (en %) de l’inertie totale Ig portée par ∆2 est : λ2 × 100% λ1 + λ2 +... + λp A.SETTAR (FSTM) Analyse des données Session automne 2024 13 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Ajustement du nuage des individus Exemple On calcule la matrice de corrélation des variables Z 1 , Z 2 , Z 3 puis on détermine ses vecteurs propore par une diagonalisation : A.SETTAR (FSTM) Analyse des données Session automne 2024 14 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Ajustement du nuage des individus Exemple Calculons les parts d’inertie expliqués (portés) par chaque axe, notamment ∆1 : On vérifie d’après (1) que 2.255 + 0.745 + 0 = 3 = Ig. L’inertie (relative) captée par le premier axe ∆1 est λ1 = 2.255 2.255 répresentant une part de × 100% = 75.17% de l’inertie totale. 3 Le plan factoriel formé de ∆1 et ∆2 capte un cumul d’inertie de 75.17% + 24.83% = 100%. A.SETTAR (FSTM) Analyse des données Session automne 2024 15 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Ajustement du nuage des individus Détermination des composantes principales Une part de l’information Zi = (zi1 , zi2 ,...., zip ) sur l’individu i est résumée sur l’axe ∆1 par yi1 , sa coordonnée sur ∆1. Le reste de l’information Zi = (zi1 , zi2 ,...., zip ) sur l’individu i est résumée sur l’axe ∆2 par yi2 , sa coordonnée sur ∆2. Les coordonnées (yi1 , yi2 ) est la projection du vecteur Zi sur le plan factoriel (∆1 , ∆2 ). On a : Y = ZU ⇔ Y k = Zuk ⇔ yi1 = Zi.u1 et yi2 = Zi.u2 A.SETTAR (FSTM) Analyse des données Session automne 2024 16 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Ajustement du nuage des individus Le vecteur Y 1 = (y11 , y21 ,... , yn1 ) des projections de l’ensemble des individus forme une nouvelle variable dite la première composante (facteur) principale. Le vecteur Y 2 = (y12 , y22 ,... , yn2 ) des projections de l’ensemble des individus forme une nouvelle variable dite la première composante (facteur) principale. A.SETTAR (FSTM) Analyse des données Session automne 2024 17 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Ajustement du nuage des individus Propriétés 1 Réduction des variables : chaque composante principale est une combinaison linéaire centrée des variables initiales (et donc une variable) : p Y k = uk1 Z 1 + uk2 Z 2 +... + ukp Z p = j X uk Z j j=1 2 Conservation et séparation de l’information : V(Y k ) = λk et Cov (Y k , Y l ) = 0 ∀k ̸= l 3 Corrélation maximale : Chaque Y k est maximalement corrélée à toutes les variables Z j , j = 1,... , p et on a : p 1X 2 k j λk avec r (Y k , Z j ) = λk ukj p r (Y , Z ) = p j=1 p A.SETTAR (FSTM) Analyse des données Session automne 2024 18 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Ajustement du nuage des individus Exemple Par exemple, Les coordonnées de E1 après projection sur le plan factoriel (∆1 , ∆2 ) est (−2.0017, 0.2445). 1 2 3 Y = Y = Y = 0. V(Y 1 ) = λ1 = 2.255, V(Y 2 ) = λ2 = 0.745 et V(Y 3 ) = λ3 = 0 A.SETTAR (FSTM) Analyse des données Session automne 2024 19 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Ajustement du nuage des individus Projection du nuage des individus A.SETTAR (FSTM) Analyse des données Session automne 2024 20 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Ajustement du nuage des individus Contribution d’un individu à la formation d’un axe factoriel A partir du tableau des composantes principales (slide 20), la contribution du i ème individu à la formation du k ème axe principale est donnée par : (yik )2 cik = nλk Par exemple, la contribution du 1 er individu à la formation du 2 ème axe 0.24452 factoriel est : c12 = × 100% = 2.01% 4 × 0.745 A.SETTAR (FSTM) Analyse des données Session automne 2024 21 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Ajustement du nuage des individus Remarque La part d’inertie captée par le k ème axe factoriel est : n 1 X k λk = V(Y ) = (yik )2 i=1 n Donc, chaque individu i contribue à la formation de cet axe par 1 k 2 (y ) , ce qui représente par rapport λk : n i 1 k 2 (y ) (y k )2 n i = i := cik λk nλk Les individus qui contribuent le plus à la formation de ∆k sont ceux les plus excentrés dans la direction de ∆k. (voir le tableaux des projections) A.SETTAR (FSTM) Analyse des données Session automne 2024 22 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Ajustement du nuage des individus Qualité de représentation d’un individu par un axe factoriel A partir du tableau des composantes principales (slide 20), la qualité de représentation du i ème individu par le k ème axe est mesurée par : (yik )2 (yik )2 qik = = ||Yi ||2 (yi1 )2 + (yi2 )2 + (yi3 )2 +... + (yip )2 Par exemple, la qualité de représentation du 1 er individu par le 2 ème axe 0.24452 factoriel est : q12 = = 0.0147 −2.00172 + 0.24452 A.SETTAR (FSTM) Analyse des données Session automne 2024 23 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Ajustement du nuage des individus Remarques La qualité de représentation du i ème individu par le k ème axe qik représente le "carré" du cosinus entre le vecteur projeté de l’individu i et le k eme axe factoriel. Les individus les mieux représentés sur ∆k sont ceux les plus éloignés du centre O (et donc un cos 2 proche de 1) déformant le moins possible le nuage des individus (voir le tableaux des projections). A.SETTAR (FSTM) Analyse des données Session automne 2024 24 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Ajustement du nuage des individus Qualité de représentation d’un individu par le plan factoriel La qualité de représentation du i ème individu par le plan factoriel (Y 1 , Y 2 ) est additive : qi1,2 = qi1 + qi2 Par exemple, la qualité de représentation du 1er individu par le plan factoriel est : q11,2 = q11 + q12 = 0.9835 + 0.0147 = 1 A.SETTAR (FSTM) Analyse des données Session automne 2024 25 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Ajustement du nuage des individus Etant donné que cos 2 (θ) mesure la qualité de représentation d’un individu par le plan factoriel, on remarque que : Figure – cos 2 (θ) = cos 2 (θ1 ) + cos 2 (θ2 ) A.SETTAR (FSTM) Analyse des données Session automne 2024 26 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Ajustement du nuage des variables La visualisation du nuage des variables comme partie de Rn porte sur les corrélations entre elles. Une bonne projection de ce nuage sur un sous espace convenable préserve au maximum les corrélations entre les variables. A.SETTAR (FSTM) Analyse des données Session automne 2024 27 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Ajustement du nuage des variables Projection du nuage des variables On montre que le sous espace factoriel de projection du nuage des variables de base (vk ) est le même que celui du nuage des individus 1 de base (uk ) à une norme près √ tel que : λk 1 vk = √ Y k (2) λk De même que, on montre que : 1 ek uk = √ Y (3) λk Il s’agit d’une dualité des projections du nuage des individus et du nuage des variables : la projection d’un individu est une combinaison linéaire des projections de toutes les variables et vice versa. A.SETTAR (FSTM) Analyse des données Session automne 2024 28 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Ajustement du nuage des variables Projection du nuage des variables l’information Z j = (z1j , z2j ,... , znj )′ sur la variable Z j est résumée donc sur l’axe ∆1 par yej1 la coordonnée yej1 est la projection du vecteur Z j sur ∆1. On montre que : 1 ′ yej1 = √ Z j Y 1 (∗) n λk A.SETTAR (FSTM) Analyse des données Session automne 2024 29 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Ajustement du nuage des variables Projection du nuage des variables A.SETTAR (FSTM) Analyse des données Session automne 2024 30 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Ajustement du nuage des variables Dualité : formules de transition Les expression (2) et (3) entrainent deux expressions dites de transition : De l’espace des variables à l’espace des individus : p 1 e k = √1 X yik = Zi uk = √ Zi Y z j yek (4) λk λk j=1 i j De l’espace des individus à l’espace des variables : n 1 j′ 1 ′ 1 X j k yejk = Z vk = √ Z j Y k = √ z yi (5) n n λk n λk i=1 i A.SETTAR (FSTM) Analyse des données Session automne 2024 31 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Ajustement du nuage des variables Contribution d’une variable à la formation d’un axe factoriel A partir du tableau des coordonnées factorielles des variables (slide 26), la contribution de la j eme variable à la formation du k eme axe principale est donnée par : (yejk )2 cejk = λk Par exemple, la contribution de la 3ème variable à la formation du premier (ye 1 )2 (0.7525)2 axe est ce31 = 3 = × 100% = 25.11% λ1 2.255 A.SETTAR (FSTM) Analyse des données Session automne 2024 32 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Ajustement du nuage des variables Qualité de représentation d’une variable par un axe factoriel A partir du tableau des coordonnées factorielles des variables (slide 26), la qualité de représentation de la j ème variable par le k ème axe est mesurée par : qejk = (yejk )2 Par exemple, la qualité de représentation de la 3ème variable par le premier axe est qe31 = (ye31 )2 = (0.7525)2 = 0.5662 A.SETTAR (FSTM) Analyse des données Session automne 2024 33 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Ajustement du nuage des variables Qualité de représentation d’une variable par le plan factoriel La qualité de représentation de la j ème variable par le plan factoriel (Y 1 , Y 2 ) est additive : qej1,2 = qej1 + qej2 Par exemple, la qualité de représentation de la 3ème variable par le plan factoriel est qe31,2 = qe31 + qe32 = 0.5662 + 0.4338 = 1 A.SETTAR (FSTM) Analyse des données Session automne 2024 34 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Ajustement du nuage des variables Représentation simultannée des nuages (Biplot) A.SETTAR (FSTM) Analyse des données Session automne 2024 35 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Ajustement du nuage des variables Interprétation des résultats à partir du cercle des corrélations, en particulier les angles de projection, on visualise : Une forte corrélation négative de la qualité X 2 au service X 3 et légerement moins forte au prix X 1. Ceux-ci est confirmés par les corrélations observées valant respectivement −0.849 et −0.73, tandis que les variables prix X 1 et service X 3 sont faiblement corrélées avec un angle de projection proche de 90◦ reflétant ainsi la corrélation observée valant 0.258. ▷ Pour la première composante : Une forte corrélation négative entre la composante Y 1 et la qualité X 2 faisant toutes les deux un angle proche de 180◦. En effet on vérifie que r (Y 1 , Z 2 ) = −0.9995 (= ye21 ). Les variables prix X 1 et service X 3 sont sensiblement corrélées à Y 1 avec une corrélation positive à X 1 de r (Y 1 , Z 1 ) = 0.8306 et légèrement moins intense à X 3 de r (Y 1 , Z 3 ) = 0.7525. A.SETTAR (FSTM) Analyse des données Session automne 2024 36 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Ajustement du nuage des variables On peut dire alors que plus la valeur de Y 1 augmente, plus la qualité X 2 est significativement dépréciée et plus le service X 3 et le prix X 1 sont appréciés et vice versa. ▷ Pour la deuxième composante : Absence de corrélations notablement fortes entre Y 2 et les variables en question à l’exception de la variable service X 3 relativement la plus corrélée à Y 2 avec une corrélation positive de r (Y 2 , Z 3 ) = 0.6586 = ye32. La corrélation négative de Y 2 à la variable prix X 1 valant −0.5569 est trompeuse étant mal représentée par le deuxième axe factoriel (qe12 = 0.3102) contrairement au service X 3 qui est outre sa valeur de corrélation à Y 2 , sa contribution pour le deuxième axe et sensiblement importante valant 58.22% étant équitablement bien répresenté par chaque axe. On peut dire donc que Y 2 varie dans le même sens d’appréciation du service X 3. A.SETTAR (FSTM) Analyse des données Session automne 2024 37 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Ajustement du nuage des variables ▷ Nommage des axes factoriels : à partir du biplot on peut visualiser que : Le premier axe oppose E1 à E4 par rapport à la qualité X 2 et le prix X 1 auquelles il est corrélé. En effet, E1 est appréciée en terme de qualité (au sens décroissant de Y 1 ) et dépréciée en terme de prix (au sens croissant de Y 1 ). A l’opposé, E4 est dépréciée en terme de qualité (au sens croissant de Y 1 ) et appréciée en terme de prix (au sens croissant de Y 1 ). Autrement dit, le premier axe oppose les entreprises en terme de startégie de positionnement dans le marché entre la differenciation (bonne qualité à prix élevé) et la réduction des coûts (qualité standard à prix bas). On peut dire que Y 1 représente la startégie de positionnement des entreprises (fournisseurs) dans le marché. A.SETTAR (FSTM) Analyse des données Session automne 2024 38 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Ajustement du nuage des variables Le deuxième axe représente manifestement le service X 3 opposant ainsi E4 étant apprécié (au sens croissant de Y 2 ) à E3 étant déprécié (au sens croissant de Y 2 ). Justement, E4 est la plus appréciée avec une note de 2 alors que E3 et la plus dépréciée avec une note de −1. Remarque : Vu la corrélation assez forte du service X 3 (0.7525) en ignorant sa contribution à la formation du deuxième axe (58.22%), on aurait pu se contenter d’une interprétation unidimensionnelle de cette ACP se basant uniquement sur le premier axe, qui conserve désormais son interprétation comme discriminante de la stratégie de positionnement. A.SETTAR (FSTM) Analyse des données Session automne 2024 39 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Application sous R "Une agence bancaire est un point de contact important entre les clients et la banque. En plus de fournir des services bancaires traditionnels tels que les dépôts, les retraits et les prêts, les agences bancaires peuvent également jouer un rôle crucial dans la gestion des relations avec les clients et la promotion des produits et services bancaires. Dans le contexte actuel, la majorité des firmes importantes analyse la “data” et quel que soit le secteur (sport, économique, social...). Les banques gèrent des données importantes sur les clients, les transactions et les activités financières. La collecte, l’analyse et l’utilisation de ces données peuvent fournir de précieuses informations aux banques pour mieux comprendre les besoins de leurs clients, leurs comportements, améliorer leur expérience utilisateur, et à optimiser leurs opérations et leur rentabilité. Les banques utilisent ces données pour créer des modèles d’analyse prédictive qui leur permettent d’anticiper les besoins des clients et de développer des produits et des services personnalisés en conséquence." A.SETTAR (FSTM) Analyse des données Session automne 2024 40 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) On dispose d’une base de données concernant 37 client d’une banque choisis à partir de ses agences. L’objectif est de comprendre et expliquer en fonction de l’analyse de plusieurs variables les différences et les similitudes de clientèle dans ces agences. Les cinq variables d’analyse sont : − X 1 = "age" : l’âge du client. − X 2 = "anciennete mois" : l’ancienneté du client au niveau de l’agence. − X 3 = "mt rentabilite" : le montant de rentabilité du client. (l’ensemble des opérations débitrices du compte – à l’exception des mouvements exonérés comme la perception de l’échéance d’un crédit ou les mouvements entre les comptes d’une même entreprise) − X 4 = "mt epargne disponible" : le montant d’épargne disponible du client. − X 5 = "identifiant" : le nombre de client dans l’agence. A.SETTAR (FSTM) Analyse des données Session automne 2024 41 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) A.SETTAR (FSTM) Analyse des données Session automne 2024 42 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Centrage-réduction des données Figure – Les donées après centrage-réduction. A.SETTAR (FSTM) Analyse des données Session automne 2024 43 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Matrice de corrélation Figure – Matrice de corrélation. A.SETTAR (FSTM) Analyse des données Session automne 2024 44 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Vecteurs/Valeurs propres de la matrice de corrélation Figure – Valeurs propres (eigen$values) et vecteurs propores (eigen$vectors) de la matrice de corrélation. A.SETTAR (FSTM) Analyse des données Session automne 2024 45 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Les parts d’inertie par axes factoriels Figure – Les parts d’inertie par axes factoriels A.SETTAR (FSTM) Analyse des données Session automne 2024 46 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Les composantes prinicipales Figure – Les deux premières composantes prinicipales A.SETTAR (FSTM) Analyse des données Session automne 2024 47 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Contribution des individus... Figure – Contribution des individus par rapport aux deux premiers axes factoriels A.SETTAR (FSTM) Analyse des données Session automne 2024 48 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Qualité de représentation des individus Figure – Qualité de représentation des individus par chacun des deux premiers axes factoriels A.SETTAR (FSTM) Analyse des données Session automne 2024 49 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Qualité de représentation des individus Figure – Qualité de représentation des individus par le plan factoriel A.SETTAR (FSTM) Analyse des données Session automne 2024 50 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Représentation des variables A.SETTAR (FSTM) Figure – Représentation Analyse des donnéesdes variables Session automne 2024 51 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Contribution des variables... Figure – Contribution des variablesAnalyse A.SETTAR (FSTM) par des rapport données aux deux premiers axes factoriels Session automne 2024 52 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Qualité de représentation des variables A.SETTAR (FSTM) Analyse des données Session automne 2024 53 / 54 Motivation Présentation et déscription des données Objectifs, problème et solution Pratique de l’ACP (normée) Qualité de représentation des variables Figure – Qualité de représentation des variables par les deux premiers axes factoriels A.SETTAR (FSTM) Analyse des données Session automne 2024 54 / 54