Analyse de données multidimensionnelle – Test d’évaluation 2022/2023 (PDF)

Document Details

WellPositionedNovaculite5827

Uploaded by WellPositionedNovaculite5827

2023

Tags

principal component analysis data analysis multidimensional analysis statistics

Summary

This document is a past exam paper for a multidimensional data analysis course, from the 2022/2023 academic year. It includes theory questions and a practical application focusing on how student engineers allocate their free time. The questions cover topics like principal component analysis (PCA) and factor analysis. This paper is likely aimed at intermediate to advanced students taking an undergraduate level course in data analysis or statistics.

Full Transcript

# Analyse de données multidimensionnelle ## Test d’évaluation - 2022/2023 - Durée : 1H30min ### Instructions utiles : 1. Répondez directement sur la feuille avec un stylo bleu, noir ou vert (pas de rouge et pas de crayon) 2. Pour les questions à choix multiple, entourez la(les) lettre(s) correspo...

# Analyse de données multidimensionnelle ## Test d’évaluation - 2022/2023 - Durée : 1H30min ### Instructions utiles : 1. Répondez directement sur la feuille avec un stylo bleu, noir ou vert (pas de rouge et pas de crayon) 2. Pour les questions à choix multiple, entourez la(les) lettre(s) correspondante(s) à la(les) bonne(s) réponse(s). 3. La note zéro est donnée pour pas de réponse ou un choix faux. Exemples: - S'il faut répondre A, vous n'aurez la note complète que si vous répondez A et uniquement A. - S’il faut répondre A et C pour une question à 1 point, et vous répondez : - uniquement A : 0,5pt, uniquement C : 0,5pt, A et C : 1pt, autres choix : 0 4. Ne justifiez pas votre réponse, sauf si vous trouvez la notion : Justifier… ## I. Analyse en Composante Principales : Théorie ### 1. Laquelle des formulations suivantes est correcte : A. L’ACP est une méthode factorielle qui permet de décrire la variabilité de *p* variables quantitatives en réduisant le nombre d’individus. B. L’ACP est une méthode de classification automatique qui permet de décrire la variabilité de *p* variables quantitatives en réduisant le nombre de variables. C. L’ACP est une méthode descriptive qui permet de décrire la variabilité de *p* variables quantitatives en réduisant le nombre de variables. D. L’ACP est une méthode descriptive qui permet de décrire la variabilité de *p* variables qualitatives en réduisant le nombre d’individus. ### 2. En Analyse en Composantes Principales, A. les variables qui ont une forte moyenne on plus d’importance dans l’analyse. B. les variables sont toujours réduites si elles sont dans des unités différentes. C. les variables ne sont jamais réduites si les variables ont la même unité. D. toutes les variables ont le même poids dans le processus de réduction. ### 3. Pour la représentation des variables en ACP, lesquelles des formulations suivantes sont correctes: A. Une variable proche du centre du cercle est bien représentée. B. Un graphe du cercle de corrélations permet de visualiser la matrice des corrélations entre variables. C. Le graphe du cercle de corrélations permet d’interpréter le graphe des individus. D. Le cosinus de l’angle entre les flèches représentant deux variables dans l’espace global est égal au coefficient de corrélation linéaire entre les deux variables. ### 4. En Analyse en Composantes Principales (ACP) normée d’un tableau de données X à *n* individus et *p* variables : A. La représentation graphique des variables se fait à l’intérieur d’un cercle de corrélation. B. La somme des valeurs propres (l’information à résumer) est égale à *p*. C. Les coordonnées des points variables sur le plan factoriel sont différentes des corrélations (variables/facteurs). D. Les variables à synthétiser ont obligatoirement des unités différentes ou des variances très différentes. ## II. ACP en pratique : Répartition du temps hebdomadaire libre On s’intéresse ici à la manière dont des élèves ingénieurs en fin de cursus de l’école Polytechnique Fédérale de Lausanne répartissent le temps libre hebdomadaire. Ils figurent dans les dossiers du Travail Pratique de fin d’études. Lettres définissant les domaines d’études: 1. Génie Civil (GC) 2. Génie Electrique (GE) 3. Génie Informatique (GI) 4. Sciences de l’Information et des Systèmes (SIG) 5. Ingénierie de l’Hydraulique et de l’Environnement (IIE) 6. Ingénierie de la Ville et des Transports (IV) 7. Météorologie (MET) Dunn les domaines d’études, nous nous intéressons aux sous-populations filles (F) et garçons (M). Pour chaque filière et pour chaque genre, on observe et on condense le temps consacré à diverses activités par un individu (des données agrégées par individu). On observe des associations entre le temps consacré à diverses activités par un individu. En fait, les individus représentent une moyenne pour un groupe d’individus observés. **La signification des variables est comme suit (c’est un tableau des catégories des activités).** - MedSoc : Médias Sociaux ( *Facebook*, *Twitter*, *Whatsapp*, etc.) - FreqMed : Fréquentation des médias (TV, *Radio*, Jeux Vidéo, etc.) - LecActArt : Lecture, activités artistiques - ActPleinAir : Activité de plein air (promenades, randonnée, etc.) et sport - Visite : Visite de famille et des amis - ActSocBenev : Activités sociales et bénévolats - RevPrepCours : Révision et préparation des cours, Réalisation des travaux dirigés et pratique - Deplacement : Déplacements à pied, en voiture ou à l’aide du transport en communs - Repos : Repos chez soi - Autres : Autres activités personnelles (Cinéma, Café, etc.) On lit par exemple sur la première ligne du tableau de données que le groupe MGC (élèves Ingénieurs garçons de la Génie Civil) consacre en moyenne 16,68% du temps libre hebdomadaire aux Médias Sociaux, 3,97% à l’activité *Fréquentation des médias*, 24,0% pour les activités de *Révision et préparation des cours*, etc. | Filière | MedSoc | FreqMed | LecActArt | ActPleinAir | Visite | ActSocDenev | RevPrepCours | Deplacement | Repos | Autres | |---|---|---|---|---|---|---|---|---|---|---| | MGC | 16.68 | 3.97 | 6.72 | 8.38 | 7.27 | 7.7 | 24.9 | 5.73 | 12.72 | 7.1 | | FGC | 17.47 | 2.37 | 6.51 | 3.7 | 8.65 | 8.23 | 30.51 | 4.22 | 12.49 | 0.01 | ## II.1 Statistiques élémentaires sur les variables (Moyenne, Ecart-type et Corrélations) | Statistiques | moyenne | écart-type | |---|---|---| | MedSoc | 19.674 | 3.420 | | FreqMed | 4.904 | 3.747 | | LecActArt | 6.386 | 2.610 | | ActPleinAir | 6.151 | 3.037 | | Visite | 6.964 | 2.080 | | ActSocBenev | 9.576 | 5.282 | | RevCours | 23.333 | 7.117 | | Deplacement | 5.742 | 1.558 | | Repos | 11.651 | 2.447 | | Autres | 5.841 | 1.427 | | MedSoc | MedSoc | FreqMed | LecActArt | ActPleinAir | Visite | ActSocBenev | RevCours | Deplacement | Repos | Autres | |---|---|---|---|---|---|---|---|---|---|---| | MedSoc | 1.0 | 0.5 | 0.5 | -0.2 | -0.2 | -0.4 | 0.6 | 0.9 | 0.9 | 0.9 | | FreqMed | 0.5 | 1.0 | 0.3 | 0.1 | -0.5 | -0.2 | -0.0 | -0.0 | 1.0 | -0.1 | | LecActArt | 0.5 | 0.3 | 1.0 | 0.0 | 0.1 | 0.4 | 0.7 | 0.4 | 0.1 | 0.1 | | ActpleinAir | -0.2 | 0.1 | 0.0 | 1.0 | 0.0 | 0.4 | 0.1 | 0.9 | 0.3 | 0.3 | | Visite | -0.2 | -0.5 | 0.1 | 0.0 | 1.0 | 0.3 | 0.9 | 0.0 | 0.3 | 0.3 | | ActSocBenev | -0.4 | -0.2 | 0.4 | -0.4 | 0.3 | 1.0 | 0.1 | 0.1 | 0.4 | 0.4 | | RevCours | 0.6 | -0.0 | 0.7 | 0.1 | 0.2 | 0.1 | 1.0 | 0.4 | 0.3 | -0.1 | | Deplacement | 0.9 | 0.3 | 0.4 | 0.9 | 0.4 | 0.1 | 0.4 | 1.0 | 0.4 | 0.3 | | Repos | 0.9 | 1.0 | 0.1 | 0.3 | 0.3 | 0.4 | 0.3 | 0.3 | 1.0 | -0.1 | | Autres | 0.9 | -0.1 | 0.1 | 0.3 | 0.3 | 0.4 | -0.1 | -0.1 | 0.2 | 1.0 | ## II.2 Résultats de l’ACP ### a) Les valeurs propres | elgenvalue | percentage of variance | cumulative peresitage of variance | |---|---|---| | comp 1 | 3.0941540 | 30.9416403 | 30.94184 | | comp 2 | 2.1264627 | 21.2646269 | 52.20647 | | comp 3 | 1.5345417 | 15.3454174 | 67.55188 | | comp 4 | 1.1532562 | 11.5325019 | 79.08445 | | comp 5 | 0.8217820 | 8.2178197 | 87.30227 | | comp 6 | 0.5003727 | 5.0037266 | 92.30590 | | comp 7 | 0.3767299 | 3.7672986 | 96.07329 | | comp 8 | 0.2332866 | 2.3528664 | 98.42616 | | comp 9 | 0.1551670 | 1.5516699 | 99.97783 | | comp 10 | 0.0022172 | 0.0221721 | 100.00000 | ### b) Projection des variables et des individus sur les plans factoriels F(1,2) et F(1,3). **Figure 1 : Cercle de corrélation F(1,2)** - Cercle de corrélation F(1,2) - Le cercle représente les corrélations entre les variables et les axes factoriels. - Chaque variable est représentée par une flèche. - La longueur de la flèche est proportionnelle à la corrélation entre la variable et l’axe factoriel correspondant. - Plus la flèche est longue, plus la variable contribue à l’axe factoriel. - Les variables qui sont proches l’une de l’autre sur le cercle sont fortement corrélées. - Les variables qui sont éloignées l’une de l’autre sur le cercle sont faiblement corrélées. - Dans le cas de la Figure 1, les variables *MedSoc*, *ActSocBenev*, *RevCours*, *Deplacement*, *Repos* et "Autres" sont fortement corrélées entre elles. - Les variables *Visite* et *LecActArt* sont moins corrélées à ces autres variables. - Les variables *LecActArt*, *Visite*, *ActPleinAir* et *FreqMed* sont faiblement corrélées entre elles et contribuent peu aux axes factoriels. - La variable *MedSoc* est la plus corrélée au premier axe factoriel. - La variable *RevCours* est la plus corrélée au deuxième axe factoriel. **Figure 2 : Projection des individus F(1,2)** - Graphe des Indices F(1,2) - Les individus sont représentés par des points. - La position d’un point sur le graphe représente les coordonnées de l’individu sur les axes factoriels. - Plus l’individu est proche de l’origine, moins il est représenté par les axes factoriels. - Les individus qui sont proches l’un de l’autre sur le graphique sont similaires en termes de leurs valeurs sur les axes factoriels. - Dans le cas de la Figure 2, les individus *MGE*, *FGE*, *FG* et *FGC* sont similaires en termes de leurs valeurs sur les axes factoriels. - Les individus qui sont proches du premier axe factoriel sont caractérisés par un faible temps consacré aux Médias Sociaux, à la *Fréquentation des médias*, aux activités sociales et caritatives, à la *Révision et préparation des cours*, et aux *Autres* activités personnelles. - Les individus qui sont proches du deuxième axe factoriel sont caractérisés par un temps élevé consacré à la *Révision et préparation des cours* et à la *Fréquentation des médias*. **Figure 3 : Cercle de corrélation F(1,3)** - Cercle de corrélation F(1,3) - Cercle de corrélation F(1,3) similaire à F(1,2) - La variable *ActPleinAir* est la plus corrélée au premier axe factoriel. - La variable *Repos* est la plus corrélée au troisième axe factoriel. **Figure 4 : Projection des individus F(1,3)** - Graphe des Indices F(1,3) - Graphe des individus similaire à F(1,2) - Les individus *FGE* et *MGE* sont similaires en termes de leurs valeurs sur les axes factoriels, caractérisés par un faible temps consacré aux Médias Sociaux et à la *Fréquentation des médias*. - Les individus *FGC* et *FGI* sont similaires en termes de leurs valeurs sur les axes factoriels, caractérisés par un temps élevé consacré à la *Révision et préparation des cours*. ### c) Diagramme de Cattel - Scree plot - Le diagramme de Cattel représente les valeurs propres en fonction de leur rang. - Le nuage de points représente les valeurs propres. - La ligne droite horizontale représente la moyenne des valeurs propres. - Le nombre d’axes factoriels à retenir est égal au nombre de valeurs propres qui sont supérieures à la moyenne. - Dans ce cas, on peut retenir 3 axes factoriels. ### d) Coordonnées, contributions et cos2 | Variables | Dim.1 ctr | cos2 | Dim.2 ctr | cos2 | Dim.3 ctr | cos2 | |---|---|---|---|---|---|---| | MedSoc | 0.7 | 15.7 | 0.5 | 4.8 | -0.3 | 5.2 | | FreqMed | 0.7 | 17.3 | 0.6 | 15.4 | -0.6 | 19.7 | | LecActArt | -0.2 | 2.0 | 0.1 | 0.6 | 0.4 | 10.8 | | ActpleinAir | 0.1 | 0.1 | 0.6 | 14.7 | 0.5 | 19.5 | | Visite | -0.5 | 7.5 | 0.2 | 1.9 | 0.1 | 0.3 | | ActSocBenev | -0.9 | 25.6 | 0.8 | 28.9 | -0.5 | 15.3 | | RevCours | 0.3 | 3.8 | 0.1 | 0.4 | 0.7 | 33.5 | | Deplacement | 0.2 | 1.0 | 0.2 | 10.2 | 0.0 | 0.1 | | Repos | 0.6 | 8.0 | 0.5 | 10.2 | -0.2 | 3.1 | | Autres | 0.5 | 8.0 | 0.2 | 1.0 | 0.0 | 0.1 | ## III. Analyser les résultats de l’ACP (pages 3 et 4) et répondez aux questions suivantes (5 à 11): ### 5. Pour obtenir les résultats, nous avons diagonalisé: A. la matrice des observations centrées B. la matrice de corrélation C. la matrice de variance-covariance D. la matrice des observations réduites ### 6. Combien d’axes retiendrez-vous si on utilise le critère de Kaiser? Justifier. Le critère de Kaiser consiste à ne retenir que les axes factoriels dont la valeur propre est supérieure à 1. D’après le tableau des valeurs propres (page 3), on peut retenir 3 axes factoriels. ### 7. Quel est le pourcentage de variance expliqué par le plan F23? Le plan F23 représente les deux axes factoriels 2 et 3. Le pourcentage de variance expliqué par ce plan est 15.3454174 + 11.5325019 = 26.8779193 %. ### 8. La projection de l’individu « FGI » sur l’axe horizontal (Figure 2 page 3) correspond à : A. la corrélation entre «FUI> est le 1er axe factoriel B. la corrélation entre «FCI> est le 2ème axe factoriel C. la coordonnée de «FGI> sur le 1er axe factoriel D. la coordonnée de «FGI> sur le 2ème axe factoriel La projection de l’individu « FGI » sur l’axe horizontal (Figure 2 page 3) correspond à la coordonnée de «FGI> sur le 1er axe factoriel. ### 9. Donner, en une phrase, une interprétation du premier axe factoriel Le premier axe factoriel représente le temps hebdomadaire libre consacré aux activités liées aux loisirs, à la *Fréquentation des médias*, aux activités sociales et caritatives, à la *Révision et préparation des cours*, et aux *Autres* activités personnelles. ### 10. Donner, en une phrase, une interprétation du deuxième axe factoriel Le deuxième axe factoriel représente le temps hebdomadaire libre consacré à la *Révision et préparation des cours*, à la *Fréquentation des médias*, et aux activités de plein air. ### 11. Comparer les groupes d’élèves ingénieurs suivants en termes de répartition de leur temps hebdomadaire libre: - FHET vs FIHE: - Les individus *FHET* et *FIHE* sont similaires en termes de leur temps hebdomadaire libre, caractérisés par un temps élevé consacré à la *Révision et préparation des cours*, et un un faible temps au *Repos*. - MSIG vs MGI: - Les individus *MSIG* et *MGE* sont similaires en termes de leur temps hebdomadaire libre, caractérisés par un temps élevé consacré à la *Révision et préparation des cours*. - FGI vs MGI: - Les individus *FGI* et *MGI* sont similaires en termes de leur temps hebdomadaire libre, caractérisés par un temps élevé consacré à la *Révision et préparation des cours*. ## IV. Analyse Factorielle de Correspondance (AFC): Théorie et pratique ### 12. Parmi les objectifs de l’Analyse Factorielle de Correspondance simple A. réduire le nombre d’individus à analyser et les répartir en *k* classes B. analyser la corrélation linéaire entre deux variables quantitatives C. étudier la corrélation entre les variables qualitatives D. rechercher de nouveaux axes qui expliquent la liaison entre deux variables qualitatives (départ avec *k* << *p*) ### 13. Quel est le nombre maximum d’axes factoriels à retenir en AFC entre deux variables qualitatives à *n* et *p* modalités ? A. *n* B. *p* C. *min(n,p)* D. *min(n-1,p-1)* ### 14. La contribution d’une modalité à l’inertie totale est égale à : A. l’inertie de la modalité sur l’inertie totale (inertie calculée par rapport au centre de gravité G) B. la somme des inerties de la modalité sur les axes factoriels C. le produit du poids de la modalité et sa distance du centre de gravité G D. la distance de la modalité du centre de gravité G ### 15. La somme de toutes les valeurs propres A. est supérieure strictement à l’inertie totale B. mesure l’intensité de la liaison entre les deux variables qualitatives C. est égale à la somme des distances des modalités du centre de gravité G D. est égale à la somme des contributions des profils lignes à l’inertie totale ## Analyser les résultats de l’AFC (page 7) et répondez aux questions suivantes (16 à 22) ### 16. Les deux variables qualitatives étudiées sont-elles statistiquement liées ? Justifier. Oui les deux variables qualitative sont statistiquement liées, car la valeur de la *p-value* est très faible, étant donné qu’elle est inférieure à 0,05. Cela signifie que l’on peut rejeter l'hypothèse nulle selon laquelle les deux variables sont indépendantes. ### 17. Quel est le pourcentage d’inertie expliqué par le plan F1,2 ? Le plan F1,2 représente les deux axes factoriels 1 et 2. Le pourcentage de variance expliqué par ce plan est 56.2 + 35.2 = 91,4% ### 18. Quelle est la modalité la mieux représentée sur le plan F1,2 parmi : A. Anxiété B. Hôpital C. Maladie D. Tumeur La modalité la mieux représentée sur le plan F1,2 par rapport à la valeur du *cos²* est *Maladie*. ### 19. Lors du premier confinement, les participants italiens ont vu «Covid19» comme «Danger» ? A. Vrai B. Faux C. Semblables D. Dissemblables E. Non liées On peut dire que les participants italiens ont vu «Covid19» comme «Danger», car la modalité *Danger* est fortement corrélée avec la modalité *Covid19*. ### 20. Que peut-on dire des deux modalités «Grippe» et «Médicaments» ? A. liées B. inversement liées C. Semblables D. dissemblables E. Non liées Les deux modalités «Grippe» et «Médicaments» sont dissemblables car elles sont faiblement corrélées. ### 21. Donner, en une phrase, une interprétation du premier axe factoriel? Le premier axe factoriel représente le degré de dangerosité perçu par les participants italiens, allant des modalités les plus dangereuses ( *Covid19*, *Maladie*, *Tumeur*) aux modalités les moins dangereuses ( *Grippe*, "Fièvre", *Anxiété*). ### 22. Donner, en une phrase, une interprétation du deuxième axe factoriel? Le deuxième axe factoriel représente les modalités associées à la prise de *Médicaments* et à la *Guérison*, allant des modalités les plus associées à la *Guérison* ( *Tumeur*, *Maladie*), aux modalités les plus associées à la prise de *Médicaments* ( *Grippe*, *Fièvre* ).

Use Quizgecko on...
Browser
Browser