Réduction de dimension : Analyse en Composantes Principales (ACP) PDF

Document Details

DivineObsidian2485

Uploaded by DivineObsidian2485

Université Virtuelle du Burkina Faso

Florian Landry SAWADOGO

Tags

ACP Analyse en Composantes Principales Réduction de dimension Data Analysis

Summary

These notes detail data analysis techniques using the principal component analysis (ACP) method. The document explains how ACP is used to reduce dimensionality and how to interpret the results. The analysis is applied to temperature data in Europe.

Full Transcript

Réduction de dimension : Analyse en Composantes Principales (ACP) Florian Landry SAWADOGO Université Virtuelle – Burkina Faso (UV-BF) L3 Data Analyse de données Fl...

Réduction de dimension : Analyse en Composantes Principales (ACP) Florian Landry SAWADOGO Université Virtuelle – Burkina Faso (UV-BF) L3 Data Analyse de données Florian Landry SAWADOGO UV-BF L3 Analyse de données 1 / 39 Introduction ► L’ Analyse en Composantes Principales (ACP) s’applique à des tableaux croisant des individus (lignes) et des variables quantitatives (colonnes). méthode ancienne et très répandue ⇔ implémentée dans la plupart des logiciels simple à mettre en oeuvre ⇔ aucun codage préalable des données ► Principales limites : ne permet pas de traiter des variables qualitatives permet uniquement de détecter d’éventuelles liaisons linéaires entre variables Jekaterina Dmitrijeva 2 / 39 Choix de la métrique ► Le choix de la métrique est essentiel car celle-ci va influencer la mesure des distances entre individus. ► En pratique, les métriques communément utilisées en ACP sont en nombre réduit : métrique usuelle : matrice identité I ◦ la distance dépend de l’unité de mesure et de la dispersion des variables ◦ conduit à privilégier les variables les plus dispersées, pour lesquelles les différences entre individus sont les plus fortes, et à négliger les différences entre les autres variables. 1Σ n métrique réduite : matrice diagonale des inverses des variances empiriques s 2= (x − xj ) 2 ¯ xj n i=1 1Σ n ij (avec ¯xj = xij ) n i=1 ◦ permet de s’affranchir de l’arbitraire des unités de mesure ◦ rétablit l’équilibre entre variables qui présentent alors toutes la même variabilité (variance unitaire) et, de ce fait, la même influence dans le calcul des distances entre individus Jekaterina Dmitrijeva 3 / 39 ► Remarques : centrer les données ne modifie pas la forme du nuage ◦ revient à considérer xij − ¯xj au lieu de xij ◦ géométriquement, le barycentre du nuage (de coordonnées ¯xj , j = 1,...p ) coïncidera avec l’origine du repère l’opération de réduction modifie la forme du nuage en harmonisant sa variabilité dans toutes les directions des vecteurs de base ◦ revient à considérer xij − ¯xj au lieu de xij − ¯xj s xj ◦ accorde la même importance à chaque variable ⇒ indispensable lorsque les variables ne s’expriment pas dans les mêmes unités de mesure ⇒ on travaille habituellement sur données centrées réduites et on parle alors d’ ACP normée Jekaterina Dmitrijeva 4 / 39 Nuage des individus ► On considère par la suite : 1 des individus de même poids : mi = n des données centrées-réduites : x ij → xij − ¯xj sx j ► Objectif : fournir des images planes approchées du nuage des individus situé dans l’espace Rp en pratique, cela revient à chercher une suite d’axes factoriels sur lesquels on projette le nuage ◦ chaque axe est choisi de façon à rendre maximale l’inertie par rapport à l’origine (confondue avec le centre de gravité du fait du centrage) ◦ on impose à chaque axe d’être orthogonal à ceux précédemment définis les axes factoriels apparaissent comme les directions telles que les distances entre points projetés ressemblent le plus possible aux distances entre points homologues du nuage des individus. Jekaterina Dmitrijeva 5 / 39 Matrice d’inertie et inertie totale en ACP normée ► L’analyse factorielle du nuage des individus nous conduit à rechercher les vecteurs propres us et les valeurs propres λ s de la matrice d’inertie X0MX de terme général : n 1Σ (xij − ¯xj) − (x − ¯x ) ik k = n i=1 sxj sxk sxj xk rjk où rjk = désigne le coefficient de corrélation linéaire entre les variables X j et X. k sx j sx k la matrice d’inertie se confond avec la matrice de corrélations l’inertie totale du nuage est égale au nombre de variables actives : I = p Remarque : lorsque les variables ne sont pas réduites ◦ la matrice d’inertie est la matrice de variance-covariance p ◦ I = Tr(V) = Σ Var(Xj ) j=1 Jekaterina Dmitrijeva 6 / 39 Composantes Principales ► La coordonnée de l’individu i sur l’axe s, notée cis, est égale à : Σp cis = e′i u s = xij sj u j=1 ► Soit Cs = (c1s,..., cis,..., cns) le vecteur des coordonnées des n individus sur l’axe us : Cs = Xus La variable Cs est une combinaison linéaire des variables d’origine appelée composante principale de rang s Jekaterina Dmitrijeva 7 / 39 ► Propriétés : Les variables d’origine étant centrées, les composantes principales Cs sont également centrées. La variance de la composante principale de rang s est égale à l’inertie du nuage projeté sur l’axe s Var(Cs ) = λs = Is chacun des axes us étant obtenu comme l’axe conservant le maximum d’inertie, au rang s, les Cs sont donc de variance maximale. Les composantes principales sont non corrélées deux à deux. cov(C , C ) = λ u 'u = 0 ⇒ corr(C , C ) = 0 s t t s t s les vecteurs propres étant orthogonaux t par construction ⇒ l’ACP normée remplace les variables d’origine par de nouvelles variables appelées pr composantes incipales centrées, de variance maximale, non corrélées deux à deux et s’exprimant comme combinaison linéaire des variables d’origine. Jekaterina Dmitrijeva 8 / 39 Nuage des variables ► Le choix de la distance dans Rn consiste à affecter à chaque dimension un coefficient égal au poids de chaque individu. ► Dans le cas général où ces poids sont identiques, la distance utilisée est, au coefficient 1/n près, la distance euclidienne usuelle. ► Avec cette distance, les vecteurs représentant les variables centrées ont les propriétés suivantes : lorsque les variables sont centrées-réduites, chaque variable a pour longueur 1 ◦ le nuage des variables est alors situé dans une hypersphère de rayon 1 ◦ lorsque les variables sont seulement centrées, leur longueur est égale à leur écart-type le cosinus de l’angle formé par les vecteurs représentant deux variables j et k est égal au coefficient de corrélation entre ces deux variables ◦ représenter le nuage des variables permet de visualiser l’ensemble des corrélations (i.e. la matrice de corrélation) ◦ afin de visualiser les angles entre variables, on représente celles-ci non pas par des points mais par des vecteurs Jekaterina Dmitrijeva 9 / 39 ► L’ACP applique au nuage des variables la même démarche qu’au nuage des individus afin d’obtenir une représentation approchée des corrélations entre variables. le critère satisfait dans le choix des axes est exactement le même que pour le nuage d’individus (inertie projetée maximale) mais il prend une signification différente du fait que le nuage n’est pas centré (son centre de gravité n’est pas à l’origine) et que tous les points sont situés sur la sphère unité ◦ ce sont les angles entre les vecteurs représentant les variables qui sont peu déformés par les projections (et non les distances entre les points du nuage) ◦ en maximisant l’inertie à l’origine du nuage projeté, le plan (v1 , v2 ) rend maximum la somme des cosinus carrés des angles entre les vecteurs et leur projection. Jekaterina Dmitrijeva 10 / 39 ►Les vecteurs vs(s = 1,...S) appartiennent à l’espace Rn et peuvent par conséquent être considérés comme de nouvelles variables. les variables étant centrées-réduites, leur projection sur vs est égale à leur coefficient de corrélation avec cette variable. rechercher l’axe v1 d’inertie maximale équivaut à chercher la combinaison linéaire la plus liée à l’ensemble des p variables vs est la nouvelle variable la plus corrélée à l’ensemble des variables initiales (avec la contrainte d’orthogonalité aux vt déjà trouvés). ⇒ on met ainsi en évidence une suite de variables synthétiques, non corrélées entre et elles, résumant au mieux l’ensemble des variables (actives) d’origine. Jekaterina Dmitrijeva 11 / 39 ► Dualité : Les q premiers axes factoriels du nuage des variables sont engendrés par les composantes principales du nuage des individus : v = 1 s √ C λs s vs est dite composante principale normée de rang s. De même, les facteurs principaux du nuage des variables engendrent les axes principaux du nuage des individus : u = 1 s √ D λs s Jekaterina Dmitrijeva 12 / 39 ► Relations de transition : p Cs (i) = √ 1 Σ xij − Ds (j) ¯xλj s j=1 sjx n Ds (i) = 1 √ 1 Σ xij − Cs (i) n¯xj λs i=1 sxj un individu est situé du côté des variables pour lesquelles il prend de fortes valeurs et à l’opposé des variables pour lesquelles il prend de petites valeurs. en ACP, le graphique des individus et celui des variables sont à la fois optimaux en eux-mêmes et se servent mutuellement d’aides à l’interprétation. une représentation superposée des individus et des variables reste toutefois déconseillée ◦ problème de la représentation sur un même graphique de points de nature différentes, évoluant dans des espaces différents. ◦ la présence simultanée d’individus et de variables sur un même plan engendre des proximités pouvant suggérer des idées qui ne se vérifient pas dans les données. Jekaterina Dmitrijeva 13 / 39 Coordonnée d’une variable j sur l’axe s ► En ACP normée, les variables se trouvent sur une hypersphère de rayon unité centrée à l’origine (dans Rn) ⇒ la distance des points-variables à l’origine est égale à 1. ► Par projection sur un plan factoriel, les variables se trouvent donc à l’intérieur d’un cercle de rayon unité appelé "cercle des corrélations" ► A partir des formules de transition, on peut montrer que la coordonnée d’une variable j sur l’axe factoriel de rang s est égale au coefficient de corrélation entre cette variable et la composante principale Cs de rang correspondant. djs = corr(Xj, Cs) Jekaterina Dmitrijeva 14 / 39 Contribution de la variable j à l’inertie de l’axe s ► La contribution d’une variable à l’inertie d’un axe est égale au carré de la coordonnée correspondante du vecteur propre. d2js CTRs(j) = λs = u2js en pratique, on retient pour l’interprétation les variables dont la contribution est supérieure à la 1 contribution moyenne. p en ACP normée, ce sont les variables qui sont proches du cercle qui contribuent le plus. Jekaterina Dmitrijeva 15 / 39 Qualité de représentation de la variable j sur l’axe s ► En ACP normée, la qualité de représentation d’une variable sur un axe est égale au carré de la coordonnée de cette variable sur l’axe. qlts(j) = cos2 θjs = d2js une variable est d’autant mieux représentée sur un axe qu’elle est proche du bord du cercle des corrélations et de l’axe ; d’autant plus mal représentée qu’elle est proche de l’origine. les variables qui contribuent le plus à l’axe sont aussi celles qui sont le mieux représentées et inversement. Jekaterina Dmitrijeva 16 / 39 ► Qualité de représentation sur un plan factoriel : on interprète les proximités de variables bien représentées sur le plan (⇔ proches du bord du cercle des corrélations) ► Si deux variables sont bien représentées sur un plan factoriel, leur proximité donne une approximation de leur corrélation. deux variables proches sont corrélées positivement deux variables qui s’opposent sont corrélées négativement deux variables orthogonales sont non corrélées Jekaterina Dmitrijeva 17 / 39 Une propriété spécifique de l’ACP normée : l’effet taille ► La transformation subie par les données n’a pas la même signification dans les deux espaces dans Rp , le centrage du nuage correspond à une translation du barycentre à l’origine ◦ l’individu moyen est projeté à l’origine des axes ◦ les individus vont se répartir des deux côtés des axes dans Rn , cette transformation n’a pas le même effet car l’origine n’est pas confondue avec le point moyen. ◦ dans certains cas, l’ensemble des variables peut donc se retrouver d’un même côté d’un axe ⇒ effet taille ◦ une telle disposition apparaît lorsque toutes le variables sont corrélées positivement entre elles ◦ si pour un individu, une variable prend une valeur forte, toutes les autres variables prennent également des valeurs fortes ⇒ l’axe correspondant peut s’interpréter comme un gradient opposant les éléments "faibles" aux éléments "forts". Jekaterina Dmitrijeva 18 / 39 Application : données température (Husson et al. ) Problématique et description des données ► Objet : étudier le climat des différents pays d’Europe ► On dispose pour cela : des températures moyennes mensuelles (en degrés Celsius) des principales capitales européennes et de certaines grandes villes. de la température moyenne annuelle et de l’amplitude thermique (différence entre la moyenne mensuelle maximum et la moyenne mensuelle minimum) observée dans chaque ville. de deux variables quantitatives de positionnement géographique (latitude et longitude) ainsi qu’une variable qualitative renseignant l’appartenance à une région de l’Europe (4 modalités : Europe du Nord, du Sud, de l’Est et de l’Ouest). Jekaterina Dmitrijeva 19 / 39 Jan. Feb. Mar. Apr. May Jun. Jul. Aug. Sep. Oct. Nov. Dec. Moy. Ampli. Lat. Long. Reg. Amsterda 2.9 2.5 5.7 8.2 12.5 14.8 17.1 17.1 14.5 11.4 7 4.4 9.9 14.6 52.2 4.5 Ouest m Athènes 9.1 9.7 11.7 15.4 20.1 24.5 27.4 27.2 23.8 19.2 14.6 11 17.8 18.3 37.6 23.5 Sud Berlin -0.2 0.1 4.4 8.2 13.8 16 18.3 18 14.4 10 4.2 1.2 9.1 18.5 52.3 13.2 Ouest Bruxelles 3.3 3.3 6.7 8.9 12.8 15.6 17.8 17.8 15 11.1 6.7 4.4 10.3 14.4 50.5 4.2 Ouest Budapest -1.1 0.8 5.5 11.6 17 20.2 22 21.3 16.9 11.3 5.1 0.7 10.9 23.1 47.3 19 Est Copenhagu -0.4 -0.4 1.3 5.8 11.1 15.4 17.1 16.6 13.3 8.8 4.1 1.3 7.8 17.5 55.4 12.3 Nord e Dublin 4.8 5 5.9 7.8 10.4 13.3 15 14.6 12.7 9.7 6.7 5.4 9.3 10.2 53.2 6.1 Nord Helsinki -5.8 -6.2 -2.7 3.1 10.2 14 17.2 14.9 9.7 5.2 0.1 -2.3 4.8 23.4 60.1 25 Nord Kiev -5.9 -5 -0.3 7.4 14.3 17.8 19.4 18.5 13.7 7.5 1.2 -3.6 7.1 25.3 50.3 30.3 Est Cracovie -3.7 -2 1.9 7.9 13.2 16.9 18.4 17.6 13.7 8.6 2.6 -1.7 7.7 22.1 50 19.6 Est Lisbonne 10.5 11.3 12.8 14.5 16.7 19.4 21.5 21.9 20.4 17.4 13.7 11.1 15.9 11.4 38.4 9.1 Sud Londres 3.4 4.2 5.5 8.3 11.9 15.1 16.9 16.5 14 10.2 6.3 4.4 9.7 13.5 51.4 0 Nord Madrid 5 6.6 9.4 12.2 16 20.8 24.7 24.3 19.8 13.9 8.7 5.4 13.9 19.7 40.2 3.4 Sud Minsk -6.9 -6.2 -1.9 5.4 12.4 15.9 17.4 16.3 11.6 5.8 0.1 -4.2 5.5 24.3 53.5 27.3 Est Moscou -9.3 -7.6 -2 6 13 16.6 18.3 16.7 11.2 5.1 -1.1 -6 5.1 27.6 46.2 1.5 Est Oslo -4.3 -3.8 -0.6 4.4 10.3 14.9 16.9 15.4 11.1 5.7 0.5 -2.9 5.6 21.2 59.5 10.5 Nord Paris 3.7 3.7 7.3 9.7 13.7 16.5 19 18.7 16.1 12.5 7.3 5.2 11.2 15.3 48.5 2.2 Ouest Prague -1.3 0.2 3.6 8.8 14.3 17.6 19.3 18.7 14.9 9.4 3.8 0.3 9.2 20.6 50 14.2 Est Reykjavik -0.3 0.1 0.8 2.9 6.5 9.3 11.1 10.6 7.9 4.5 1.7 0.2 4.6 11.4 64.1 21.6 Nord Rome 7.1 8.2 10.5 13.7 17.8 21.7 24.4 24.1 20.9 16.5 11.7 8.3 15.4 17.3 41.5 12.3 Sud Sarajevo -1.4 0.8 4.9 9.3 13.8 17 18.9 18.7 15.2 10.5 5.1 0.8 9.4 20.3 43.5 18.3 Sud Sofia -1.7 0.2 4.3 9.7 14.3 17.7 20 19.5 15.8 10.7 5 0.6 9.6 21.7 42.4 23.2 Est Stockholm -3.5 -3.5 -1.3 3.5 9.2 14.6 17.2 16 11.7 6.5 1.7 -1.6 5.8 20.7 59.2 18 Nord Anvers 3.1 2.9 6.2 8.9 12.9 15.5 17.9 17.6 14.7 11.5 6.8 4.7 10.3 15 51.1 4.2 Ouest Barcelone 9.1 10.3 11.8 14.1 17.4 21.2 24.2 24.1 21.7 17.5 13.1 10 16.2 15.1 41.2 2.2 Sud Bordeaux 5.6 6.7 9 11.9 15 18.3 20.4 20 17.6 13.5 8.5 6.1 12.7 14.8 44.5 0.3 Ouest Edimbourg 2.9 3.6 4.7 7.1 9.9 13 14.7 14.3 12.1 8.7 5.3 3.7 8.3 11.8 55 3 Nord Francfort 0.2 1.8 5.4 9.7 14.3 17.5 19 18.3 14.8 9.8 4.9 1.7 9.8 18.8 50.1 8.4 Ouest Genève 0.1 1.9 5.1 9.4 13.8 17.3 19.4 18.5 15 9.8 4.9 1.4 9.7 19.3 46.1 6.1 Ouest Gènes 8.7 8.7 11.4 13.8 17.5 21 24.5 24.6 21.8 17.8 12.2 10 16.1 15.9 44.3 9.4 Sud Milan 1.1 3.6 8 12.6 17.3 21.3 23.8 22.8 18.9 13.1 6.9 2.6 12.6 22.7 45.3 9.2 Sud Palerme 10.5 11.5 13.3 16.9 20.9 23.8 24.5 22.3 22.3 18.4 14.9 12 16.6 14 38.1 13.1 Sud Séville 10.7 11.8 14.1 16.1 19.7 23.4 26.7 26.7 24.3 19.4 14.5 11.2 18.2 16 37.2 5.6 Sud St. -8.2 -7.9 -3.7 3.2 10 15.4 18.4 16.9 11.5 5.2 -0.4 -5.3 4.5 26.6 59.6 30.2 Est Pétersbg. Zurich -0.7 0.7 4.3 8.5 12.9 16.2 18 17.2 14.1 8.9 3.9 0.3 8.7 18.7 47.2 8.3 Ouest Jekaterina Dmitrijeva 20 / 39 Choix de l’analyse ► Choix des éléments actifs : Etude des villes ◦ objectif : appréhender la variabilité des températures mensuelles d’un pays à l’autre de façon multidimensionnelle (prise en compte simultanée des 12 mois de l’année). ◦ un pays sera représenté par le climat de sa capitale (afin de ne pas accorder plus de poids aux pays pour lesquels plusieurs villes sont renseignées) ⇒ individus actifs : capitales ; individus supplémentaires : autres villes. ◦ deux villes seront d’autant plus proches qu’elles présentent le même ensemble de températures mensuelles (ici, le carré de la distance entre deux villes est la somme des carrés des douze différences entre leurs températures moyennes mensuelles). Jekaterina Dmitrijeva 21 / 39 Etude des variables ◦ objectif : apprécier la liaison entre les variables (températures mensuelles) à partir des individus actifs (les 23 capitales) ◦ on s’intéresse aux profils de température des villes ⇒ variables actives : températures ; variables supplémentaires : latitude, longitude, température moyenne et amplitude annuelles, région ◦ deux variables sont corrélées positivement si les villes les plus chaudes selon l’une sont les plus chaudes selon l’autre ⇒ peut-on résumer l’ensemble de ces liaisons par l’intermédiaire (d’un petit nombre) de variables synthétiques ? Jekaterina Dmitrijeva 22 / 39 ► Faut-il standardiser les variables ? lorsque les unités de mesure diffèrent d’une variable à l’autre, le recours à la réduction est systématique (ce n’est pas le cas ici, mais les écarts-types varient suffisamment peu d’un mois à l’autre pour que la réduction des variables n’influence les résultats). ne pas réduire revient à considérer qu’un écart de 1 degré entre deux villes a la même importance quel que soit le mois considéré (que ce soit un mois où les écarts entre les températures des 23 capitales sont plutôt faibles ou au contraire importants). en réduisant, cette différence est d’autant plus amplifiée qu’elle apparaît au cours d’un mois où les températures varient peu d’une ville à l’autre ⇒ on standardise les variables (revient à accorder le même poids à chaque mois) Jekaterina Dmitrijeva 23 / 39 Résultats de l’ACP normée ► Indicateurs d’inertie ◦ l’inertie totale est égale au nombre de variables actives (ici 12). ◦ les deux premiers facteurs expriment respectivement 82.9% et 15.4% de l’inertie totale (soit 98.3%) ce qui justifie de s’y limiter ⇔ à partir de deux variables synthétiques, on résume presque toute l’information apportée par les douze variables initiales. Jekaterina Dmitrijeva 24 / 39 ► Le nuage des individus > res$ind $coord Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Amsterdam 0.22693852 -1.371378702 -0.10439354 -0.282792759 -0.225234980 Athènes 7.60067204 0.930375742 0.56142895 -0.286557237 0.121284086 Berlin -0.28785832 0.016454075 - 0.29060835 -0.055593051 -0.141777442 Bruxelles 0.63117358 -1.177217640 -0.15204276 0.017069866 -0.118080300 Budapest 1.66802839 1.712697730 -0.49898331 0.112436553 0.147493796 Copenhague -1.46239513 -0.492056307 0.44036858 -0.176716151 0.001359796 Dublin -0.50524137 -2.673496925 - 0.17850939 0.029911177 0.199489106 Helsinki -4.03629712 0.462039367 0.59318909 -0.244444751 0.058755870 Kiev -1.71222008 2.007597607 - 0.17067034 Minsk -0.112807425 0.046761788 -0.07227015 -0.183341936 0.066896667 -3.23789748 1.391289730 Cracovie Moscou -1.25865727 2.182015808 -3.46261171 0.874989077 -0.30130242 -0.27396329 -0.005382798 0.036537296 -0.022272155 0.075779200 Lisbonne Oslo 5.59928833 -1.554345838 -3.30598698 0.310053024 -0.27035193 0.29530945 -0.137240393 0.057997452 0.190608834 0.068558517 Londres Paris 0.05764006 1.41971350 -0.897598545 -0.11032749 -1.573766723 -0.079067225 - -0.184884193 0.08467398 Prague 0.052014838 0.698041163 -0.10900287 0.166383037 -0.24257136 0.100375201 0.119810451 Madrid Reykjavik 4.06406743 -4.70406435 -2.957197699 -0.05789842 0.697664862 0.195366437 0.102746920 Rome 0.46179949 5.38200124 -0.076738822 0.662933274 0.293698723 0.18926869 -0.012589110 0.077649640 Sarajevo 0.16345193 0.319489453 -0.36458614 0.073615022 -0.204664346 Sofia 0.41781097 0.795074460 -0.24086374 0.047803563 -0.195020427 Stockholm -3.14855331 0.005577557 0.87265235 0.057860775 -0.142293659 $cos2 Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Amsterdam 0.02474831 9.037408e-01 0.005236924 3.842958e-02 2.437815e-02 Athènes 0.97830645 1.465844e-02 0.005337778 1.390573e-03 2.491028e-04 Berlin 0.32789958 1.071347e-03 0.334194626 1.222994e-02 7.954220e- 02 Bruxelles 0.21639751 7.527801e-01 0.012557007 1.582759e-04 7.573725e-03 Budapest Dublin 0.03411320 0.46337591 9.551775e-01 4.885264e-01 0.004258404 0.041466618 1.195616e-04 2.105434e-03 5.318181e-03 3.623048e-03 Helsinki Copenhague 0.95654320 0.80588015 1.253419e-02 9.123692e-02 0.020659730 0.073075813 3.508325e-03 1.176775e-02 2.026940e-04 6.967684e- Kiev 07 0.41732984 5.737380e-01 0.004146449 1.811489e-03 3.112737e-04 Cracovie 0.64509341 3.117546e-01 0.030562745 5.436012e-04 2.019910e-04 Lisbonne 0.92554429 7.132255e-02 0.002157697 5.560264e-04 9.930003e-05 Londres 0.00131785 9.824220e-01 0.002843919 1.073178e-03 1.098084e-02 Madrid 0.93424771 2.753176e-02 0.012062772 2.485878e-02 3.330968e-04 Minsk 0.84071389 1.552234e-01 0.000418832 2.695539e-03 3.588649e-04 Moscou 0.71081284 2.822692e-01 0.005382114 1.717765e-06 3.404456e-04 Oslo 0.97838231 8.605543e-03 0.007806583 3.252313e-03 4.207549e-04 Paris 0.69481859 2.777373e-01 0.004196019 2.155078e-03 1.178337e-02 Prague 0.01987080 8.148950e-01 0.098405324 1.684971e-02 2.400651e- 02 Reykjavik 0.71527677 2.826756e-01 0.000108358 1.233751e-03 3.412442e-04 Rome 0.99549987 2.964543e-03 0.001231151 5.446829e-06 2.072204e- 04 Sarajevo 0.07819664 2.987590e-01 0.389052585 1.586138e-02 1.226005e-01 Sofia 0.18627345 6.745387e-01 0.061906201 2.438439e-03 4.058369e- 02 Stockholm 0.92423563 2.900338e-06 0.070997512 3.121254e-04 1.887694e-03 Jekaterina Dmitrijeva 25 / 39 $contrib Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Amsterdam 0.022509389 4.425554e+00 0.3752909 9.079967206 1.320027e+01 Athènes 25.249412071 2.036899e+00 10.8545150 9.323317492 3.827531e+00 Berlin 0.036216364 6.370885e-04 2.9082851 0.350904333 5.230285e+00 Bruxelles 0.174118494 3.261117e+00 0.7960720 0.033083230 3.627989e+00 Budapest 1.216057639 6.902625e+00 8.5741849 1.435366347 5.660549e+00 Copenhague 0.934709699 5.697475e-01 6.6781085 3.545685387 4.811256e-04 Dublin 0.111569397 1.681947e+01 1.0973444 0.101581521 1.035498e+01 Helsinki 7.120549993 5.023550e-01 12.1173352 6.784364061 8.982839e-01 Kiev 1.281346111 9.484319e+00 1.0030831 1.444851066 5.689751e-01 Cracovie 0.692408290 1.801599e+00 2.5846726 0.151572536 1.290730e-01 Lisbonne 13.702914482 5.685231e+00 2.5169800 2.138511623 8.752435e-01 Londres 0.001452098 5.828188e+00 0.2468998 0.307186563 7.203261e+00 Madrid 7.218867870 1.145372e+00 7.3439161 49.898483504 1.532291e+00 Minsk 4.582193987 4.554996e+00 0.1798617 3.816553334 1.164448e+00 Moscou 5.240284554 1.120388e+01 3.1262670 0.003289757 1.494208e+00 Oslo 4.776937527 2.262167e-01 3.0031395 4.125093151 1.223021e+00 Paris 0.880944827 1.895907e+00 0.4191682 0.709807693 8.894277e+00 Prague 0.005193057 1.146608e+00 2.0262818 1.143932947 3.735085e+00 Reykjavik 9.671498999 2.057849e+01 0.1154394 4.333588025 2.746937e+00 Rome 12.660033938 2.029817e-01 1.2336114 0.017994418 1.568881e+00 Sarajevo 0.011676896 2.401960e-01 4.5774239 0.615291054 1.089922e+01 Sofia 0.076296912 1.487539e+00 1.9978537 0.259458701 9.896264e+00 Stockholm 4.332807405 7.320502e-05 26.2242659 0.380116049 5.268442e+00 $dist Amsterdam Athènes Berlin Bruxelles Budapest Copenhague Dublin 1.4425652 7.6844809 0.5026994 1.3568214 2.4503985 1.6290316 2.7355058 Helsinki Kiev Cracovie Lisbonne Londres Madrid Minsk 4.1269655 2.6504515 1.5670981 5.8201507 1.5877837 4.2046503 3.5313355 Moscou Oslo Paris Prague Reykjavik Rome Sarajevo 4.1070138 3.3423109 1.7031974 0.7732683 5.5620667 5.3941521 0.5845155 Sofia Stockholm 0.9680646 3.2750633 Jekaterina Dmitrijeva 26 / 39 Individuals factor map (PCA) Moscou Kiev Budapest 2 Minsk Est St. Pétersbourg Milan Athènes Prague Sofia Madrid 1 Helsinki Cracovie Sarajevo Séville Berlin Rome Dim 2 (15.40%) Genève Gènes Francfort 0 Stockholm Oslo Sud Zurich Paris Palerme Barcelone Copenhague Ouest Anvers Bordeaux -1 Nord Bruxelles Amsterdam Londres Lisbonne -2 Edimbourg Dublin -3 Reykjavik -5 0 5 10 Dim 1 (82.90%) Jekaterina Dmitrijeva 27 / 39 Contribution des individus ◦ Le premier axe est essentiellement dû à 8 villes (Athènes, Lisbonne, Rome, Reykjavik, Madrid, Helsinki, Moscou et Minsk) qui totalisent 85% de son inertie. ◦ Le deuxième axe est dû pour deux-tiers (65%) à 5 villes (Reykjavik, Dublin, Moscou, Kiev, Budapest). Qualité de représentation des individus ◦ hormis Berlin et Sarajevo, toutes les capitales sont très bien représentées sur le premier plan factoriel ⇒ la proximité des villes dans le plan traduit donc une proximité réelle dans l’espace complet (et non une déformation due à l’opération de projection). ◦ la différence entre les températures mensuelles de Berlin/Sarajevo et les températures mensuelles moyennes des 23 capitales n’est pas totalement expliquée sur ce plan ( ⇒ consulter le troisième axe) Distance au point moyen ◦ permet de repérer les individus "extrêmes" du point de vue de leurs coordonnées. ◦ ici, les villes les plus extrêmes du point de vue de l’ensemble de leurs températures mensuelles se trouvent être celles qui contribuent le plus au premier axe (Athènes, Lisbonne, Rome, Reykjavik, Madrid, Helsinki, Moscou et Minsk). Jekaterina Dmitrijeva 28 / 39 ► Le nuage des variables > res$var $coord Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Janvier 0.8424506 -0.53135762 6.776712e-02 1.168876e-02 0.031619528 Février 0.8842848 -0.45583250 -3.466272e-03 8.371472e-02 0.043624508 Mars 0.9450521 -0.28731281 -1.207952e-01 7.781832e-02 -0.043317269 Avril 0.9738876 0.09956500 -1.982562e-01 2.486767e-02 0.016577380 Mai 0.8698517 0.45781159 -1.560861e-01 -7.682512e-02 0.0312883350.9916246 -0.08476471 -6.661858e-05 -7.173534e-02 -0.059633790 Octobre Juin Novembre 0.8333141 0.9523567 -0.28941418 0.54532195 4.422075e-024.954763e-02 -6.973744e-029.575733e-05 -0.002706470 0.0585090540.8731191 -0.47286559 Décembre 8.480816e-02 -6.829538e-02 0.021123796 Juillet 0.8441626 0.50866195 1.536892e-01 4.360395e-02 0.003553866 $cor Août Dim.1 0.9092443 Dim.2 0.40192442 Dim.38.750079e-02 Dim.4 4.439218e-02 Dim.5 -0.036429060 Janvier 0.8424506 -0.53135762 6.776712e-02 1.168876e-02 0.031619528 Février Septembre 0.8842848 0.9856254 -0.45583250 0.15253617 -3.466272e-03 2.262618e-02 8.371472e-02 0.043624508 5.193042e-03 -0.043630460 Mars 0.9450521 -0.28731281 -1.207952e-01 7.781832e-02 -0.043317269 Avril 0.9738876 0.09956500 -1.982562e-01 2.486767e-02 0.016577380 Mai 0.8698517 0.45781159 -1.560861e-01 -7.682512e-02 0.031288335 Juin 0.8333141 0.54532195 4.954763e-02 9.575733e-05 0.058509054 Juillet 0.8441626 0.50866195 1.536892e-01 4.360395e-02 0.003553866 Août 0.9092443 0.40192442 8.750079e-02 4.439218e-02 -0.036429060 Septembre 0.9856254 0.15253617 2.262618e-02 5.193042e-03 -0.043630460 Octobre 0.9916246 -0.08476471 -6.661858e-05 -7.173534e-02 -0.059633790 Novembre 0.9523567 -0.28941418 4.422075e-02 -6.973744e-02 -0.002706470 Décembre 0.8731191 -0.47286559 8.480816e-02 -6.829538e-02 0.021123796 Jekaterina Dmitrijeva 29 / 39 $cos2 Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Janvier 0.7097230 0.282340915 4.592383e-03 1.3 66271e-04 9.997946e-04 Février 0.7819596 0.207783268 1.201504e-05 7.0 08155e-03 1.903098e-03 Mars 0.8931235 0.082548649 1.459148e-02 6.0 55690e-03 1.876386e-03 Avril 0.9484570 0.009913188 3.930551e-02 6.1 84011e-04 2.748095e-04 Mai 0.7566419 0.209591455 2.436286e-02 5.9 02099e-03 9.789599e-04 Juin 0.6944124 0.297376030 2.454967e-03 9.1 69466e-09 3.423309e-03 Juillet 0.7126106 0.258736979 2.362036e-02 1.9 01305e-03 1.262996e-05 Août 0.8267252 0.161543240 7.656389e-03 1.9 70666e-03 1.327076e-03 Octobre Septembre 0.9833194 0.023267284 0.9714575 0.007185057 5.119442e-04 4.438035e-09 2.6 5.1 96769e-05 45958e-03 1.903617e-03 3.556189e-03 Novembre 0.9069833 0.083760565 1.955475e-03 4.8 63310e-03 7.324982e-06 Décembre 0.7623370 0.223601871 7.192425e-03 4.6 64259e-03 4.462148e-04 $contrib Dim.1 Dim.2 Dim.3 Janvier 7.134508 Dim.4 15.2810946 3.637364e+00 Dim.5 3.567 898e-01 5.98342273 Février 7.860668 11.2458224 9.516430e-03 1.830 119e+01 11.38937776 Mars 8.978146 4.4677680 1.155707e+01 1.581 391e+01 11.22951624 Avril 9.534387 0.5365300 3.113164e+01 1.614 901e+00 1.64463940 Mai 7.606161 11.3436865 1.929643e+01 1.541 282e+01 5.85873440 Juin 6.980597 16.0948378 1.944439e+00 2.394 526e-05 20.48731569 Juillet 7.163535 14.0035823 1.870833e+01 4.965 091e+00 0.07558593 Août 8.310674 8.7431803 6.064187e+00 5.146 222e+00 7.94209075 Septembre 9.765600 1.2592917 4.054817e-01 7.042 377e-02 11.39248596 Octobre 9.884842 0.3888757 3.515114e-06 1.343 822e+01 21.28255345 Novembre 9.117472 4.5333604 1.548820e+00 1.270 011e+01 0.04383747 Décembre 7.663411 12.1019702 5.696708e+00 1.218 030e+01 2.67044021 Jekaterina Dmitrijeva 30 / 39 > res$quanti.sup $coord Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Moyenne 0.9975483 -0.06845254 0.004566805 -3.575494e-06 0.002369337 Amplitude -0.3140756 0.94441398 0.039188355 5.742427e-03 -0.034458137 Latitude -0.8515506 -0.31201801 0.233498045 -5.809333e-02 0.093961136 Longitude -0.2031203 0.41964826 0.111328617 -2.657783e-01 0.096255634 $cor $cor Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Moyenne 0.9975483 -0.06845254 0.004566805 -3.575494e-06 0.002369337 Amplitude -0.3140756 0.94441398 0.039188355 5.742427e-03 -0.034458137 Latitude -0.8515506 -0.31201801 0.233498045 -5.809333e-02 0.093961136 $cos2 Longitude -0.2031203 0.41964826 0.111328617 -2.657783e-01 0.096255634 $cos2 Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Moyenne 0.99510271 0.00468575 2.085571e-05 1.278416e-11 5.613758e-06 Amplitude 0.09864347 0.89191777 1.535727e-03 3.297546e-05 1.187363e-03 Latitude 0.72513838 0.09735524 5.452134e-02 3.374835e-03 8.828695e-03 Longitude 0.04125787 0.17610466 1.239406e-02 7.063808e-02 9.265147e-03 Jekaterina Dmitrijeva 31 / 39 > res$quali.sup $coord Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Est - 1.0992214 1.3802437 -0.2572321 -0.0006256493 0.034207046 Nord -2.4435569 -0.9884068 0.2686340 0.0149430227 0.064999941 Ouest 0.4974918 -0.8574352 -0.1643430 -0.1000957922 - 0.167494229 Sud 4.5618962 0.1373766 0.1155118 0.0600323112 - 0.004894398 $cos2 Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Est 0.3797241 0.5987000663 0.0207944802 1.230155e-07 3.677299e-04 Nord 0.8499535 0.1390662460 0.0102724038 3.178536e-05 6.014177e- 04 Ouest 0.2323311 0.6901414045 0.0253535084 9.405180e-03 2.633511e- 02 Sud 0.9981689 0.0009051878 0.0006399795 1.728556e-04 1.148978e- 06 $v.test Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Est - 1.0812425 3.1502604 -2.2459487 -0.009919028 0.82098532 Nord -2.4035900 -2.2559342 2.3455009 0.236906293 1.56002942 Ouest 0.3394596 -1.3575510 -0.9953829 -1.100824611 - 2.78858470 Sud 3.5755516 0.2498407 0.8036386 0.758373112 - 0.09360064 $dist Est Nord Ouest Sud 1.783820 Jekaterina Dmitrijeva 2.650482 1.032125 4.566079 32 / 39 Variables factor map (PCA) 1.0 Amplitude Juin Juillet 0.5 Longitude Mai Aoû t Dim 2 (15.40%) Septembre A 0.0 vr Octobre il Novembre Moyenne Latitude Mars Décembre Février -0.5 Janvier -1.0 -1.0 -0.5 0.0 0.5 1.0 Dim 1 (82.90%) Jekaterina Dmitrijeva 33 / 39 Coordonnées des variables ◦ rappel : en ACP normée, les variables qui contribuent le plus à l’axe sont aussi celles qui sont le mieux représentées et inversement ⇒ examen attentif des coordonnées. ◦ les variables étant bien projetés sur le premier plan, l’angle entre deux variables donne une très bonne approximation de l’angle dans l’espace ( ⇔ corrélations entre variables) : ainsi les variables novembre et mars apparaissent très corrélées tandis que la corrélation entre janvier et juin est proche de 0. ◦ les 12 variables actives sont corrélées fortement et positivement au premier axe (et donc liées entre elles) ⇒ effet taille ◦ le deuxième axe apparaît plus spécifiquement corrélé aux mois de mai à juillet et novembre à mars. Jekaterina Dmitrijeva 34 / 39 ► Premier axe Toutes les variables actives ont une coordonnée de même signe ⇒ axe "température moyenne annuelle" ◦ certaines villes ont de fortes températures quel que soit le mois de l’année, d’autres de faibles températures quel que soit le mois de l’année ⇔ certaines villes sont plus chaudes que d’autres tout au long de l’année ◦ le coefficient de corrélation de 0.998 entre l’axe et la variable illustrative de même nom confirme notre interprétation ◦ les mois de septembre, octobre et avril apparaissent plus étroitement liés que les autres au premier axe : ils représentent mieux les températures annuelles. ◦ la latitude apparaît également fortement liée au premier facteur : la corrélation de -0.85 signifie que les villes qui sont plus au sud (latitude plus faible) ont une coordonnée plus élevée sur le premier axe et sont donc des villes plus chaudes. Jekaterina Dmitrijeva 35 / 39 Compte tenu des relations entre les coordonnées des individus et celles des variables, on s’attend à trouver les villes chaudes du côté des coordonnées positives et les villes froides du côté des coordonnées négatives. ◦ c’est bien ce que l’on observe : l’axe 1 oppose Athènes, Lisbonne, Rome et Madrid (coordonnées positives) à Reykjavik, Helsinki, Moscou et Minsk (coordonnées négatives) ◦ cette opposition se retrouve dans les données : quel que soit le mois de l’année, les températures mesurées à Athènes, Lisbonne, Rome et Madrid se situent au-dessus de la moyenne calculée sur les 23 capitales tandis que celles mesurées à Reykjavik, Helsinki, Moscou et Minsk se situent au-dessous. ◦ Reykjavik a la plus faible coordonnée sur cet axe mais cela ne permet pas de conclure que c’est la capitale la plus froide, quel que soit le mois (cela n’est vrai que 7 mois sur 12) ⇒ c’est la ville la plus froide sur l’ensemble de l’année. ◦ La faible coordonnée, sur le premier axe, d’Amsterdam, Berlin, Dublin, Londres, Prague, Sarajevo ou Sofia indique quant à elle que sur l’ensemble de l’année la température de ces villes est moyenne (sans pour autant l’être pour chacun des 12 mois). Les modalités Nord et Sud caractérisent également le premier axe ◦ la modalité Sud a une coordonnée positive ⇒ les villes du Sud ont des températures plus chaudes toute l’année ◦ la modalité Nord a une coordonnée négative ⇒ les villes du Nord ont des températures plus froides toute l’année Jekaterina Dmitrijeva 36 / 39 ► Deuxième axe La "belle saison" (mai-juillet) est opposée à la "mauvaise saison" (novembre-mars) ◦ à température moyenne annuelle égale ( ⇔ à premier facteur fixé), certaines villes sont plutôt chaudes à la "belle saison" et plutôt froides à la "mauvaise saison" ◦ inversement, à température moyenne annuelle égale, d’autres sont plutôt froides à la "belle saison" et plutôt chaudes à la "mauvaise saison". L’amplitude thermique annuelle est liée à cet axe comme le confirme la corrélation de 0.944 observée entre cette variable et le deuxième facteur ◦ les valeurs les plus fortes de cette variable sont observées pour les villes les plus continentales (haut de l’axe) ◦ les valeurs les plus faibles sont observées pour les villes proches de l’Atlantique (bas de l’axe) ◦ la longitude est liée à cet axe mais liaison reste modérée (corrélation de 0.42) Jekaterina Dmitrijeva 37 / 39 Compte tenu des relations de transition, on sait que les coordonnées des villes ayant une forte amplitude thermique sont positives tandis que celles des villes à faible amplitude sont négatives. ◦ Kiev, Moscou ou Budapest ont des valeurs (centrées-réduites) plutôt plus élevées pendant la "belle saison" et plutôt faibles pendant la "mauvaise saison". ◦ à l’opposé, des villes comme Dublin ou Reykjavik ont des valeurs plutôt plus faibles pendant la "belle saison" et douces pendant la "mauvaise saison". Cet axe individualise nettement les villes océaniques à faible amplitude thermique des villes continentales à forte amplitude thermique ◦ les températures des villes océaniques (Dublin, Reykjavik) sont dans l’ensemble moyennes ou faibles (1er axe) et sont très faibles pendant la "belle saison". ◦ les températures des villes continentales (Kiev, Moscou, Budapest) sont dans l’ensemble moyennes ou faibles et sont très faibles à la "mauvaise saison" et élevés à la "belle saison" Les modalités Est et Nord caractérisent également le deuxième axe ◦ la modalité Est a une coordonnée positive ⇒ les villes de l’Est ont des amplitudes thermiques importantes ◦ la modalité Nord a une coordonnée négative ⇒ les villes du Nord ont des amplitudes thermiques faibles Jekaterina Dmitrijeva 38 / 39 Conclusion Bilan des liaisons entre températures : ◦ corrélations positives entre les différentes températures mensuelles ◦ deux périodes : la "belle" et la "mauvaise" saison L’ensemble des températures peut être résumé par deux variables synthétiques : la température moyenne annuelle et l’amplitude thermique A partir du premier plan factoriel, on peut proposer la typologie suivante : ◦ villes d’Europe du Sud : températures élevées tout au long de l’année ◦ villes d’Europe de l’Ouest : températures moyennes toute l’année ◦ villes d’Europe du Nord : températures froides surtout l’été ◦ villes d’Europe de l’Est : températures froides surtout l’hiver Jekaterina Dmitrijeva 39 / 39 Sources R pour la statistiques et la science des données – François HUSSON Introduction au Data Mining– DMITRIJEVA Jekaterina Jekaterina Dmitrijeva

Use Quizgecko on...
Browser
Browser