L'Enquête : Analyse Des Données PDF
Document Details
Uploaded by StaunchSulfur4701
Institut National de Statistique et d'Economie Appliquée
2024
Mustapha Berrouyne
Tags
Summary
This document is an analysis of data from surveys, with a focus on multivariate statistical analysis and the theoretical aspects of principal component analysis. It covers topics such as introducing multivariate analysis, describing datasets, univariate analysis, and factorial methods, ultimately leading to the extraction and interpretation of data for decision-making. The document includes methodology, objectives, and a summary of statistical results.
Full Transcript
Royaume du Maroc L’E Haut Commissariat auNQUÊTE Plan : ANALYSE DES DONNÉES Institut National de Statistique et d’Economie Appliquée DONNÉES D’ENQUÊTES : ANALYSE STATISTIQUE MULTIVARIEE...
Royaume du Maroc L’E Haut Commissariat auNQUÊTE Plan : ANALYSE DES DONNÉES Institut National de Statistique et d’Economie Appliquée DONNÉES D’ENQUÊTES : ANALYSE STATISTIQUE MULTIVARIEE ASPECTS THÉORIQUE DE L’ANALYSE EN COMPOSANTES PRINCIPALES Professeur Mustapha Berrouyne Ingénieur En Chef Principal Statisticien Démographe Chercheur Septembre-Décembre 2024 CONTENU 1. INTRODUCTION 2. DESCRIPTION DES BASES DONNEES 3. EFFECTUER UNE ANALYSE UNIVARIÉ Prof. Mustapha Berrouyne 2 Analyse Statistique Multivariée Qu’est-ce que l’analyse des données ? Etude exploratoire Prof. Mustapha Berrouyne 3 Analyse Statistique Multivariée 1. INTRIODUCTION L'analyse multivariée, ou analyse des données est un ensemble de techniques exploratoires d'analyse de données multidimensionnelles, dont la fonction principale est de mettre en évidence les structures pertinentes de ces données. Ces techniques tentent de dégager les paramètres caractéristiques de ces données multidimensionnelles et d'apporter des éléments de réponse à des questions de type : - Existe-t-il des corrélations entre les variables ? - Quels sont les variables qui discriminent le plus les individus ? - Existe-t-il des caractères globaux ? Prof. Mustapha Berrouyne 4 Analyse Statistique Multivariée 1. INTRIODUCTION Ces techniques d'analyse multivariée ont pour objectif, à partir d'un gros tableau de données, de : - extraire les informations essentielles pour des fins de description et d'une synthèse (méthodes factorielles); Prof. Mustapha Berrouyne 5 Analyse Statistique Multivariée 1. INTRIODUCTION - dégager des groupes homogènes d'individus ou de variables (méthodes de classifications). Prof. Mustapha Berrouyne 6 Analyse Statistique Multivariée 2. OBJECTIFS L'objet de ce chapitre est de décrire les techniques d’analyse de données multidimensionnelles pour la prise de décision. - Découvrir les principaux outils statistiques d’analyse des données. - Savoir exprimer les hypothèses d’étude en terme statistique. - Reconnaître la méthode appropriée pour chaque problème. - Interpréter et exploiter les résultats de chaque méthode. - Utiliser le logiciel SPSS pour la mise en œuvre des différentes méthodes d’analyse des données. Prof. Mustapha Berrouyne 7 Analyse Statistique Multivariée 2. OBJECTIFS Prof. Mustapha Berrouyne 8 Analyse Statistique Multivariée 3. METHODES FACTORIELLES ❖ PRINCIPE Une analyse factorielle sert à résumer et à hiérarchiser l'information contenue dans un tableau de n lignes (les individus) et p colonnes (les variables). Les n individus sont décrits par un nuage de p variables. Elle permet de réaliser des typologies, i.e. constituer des groupes d'individus plus semblables entre eux. Prof. Mustapha Berrouyne 9 Analyse Statistique Multivariée 3. METHODES FACTORIELLES ❖ PRINCIPE ✓ RESUMER L'INFORMATION ? L'information représentée par un nuage correspond à la dispersion des n points. Produire un résumé de cette information consiste à projeter ces points dans un espace de dimension inférieure à p. Les axes de ce sous-espace de dimension réduite sont dits "axes factoriels" ou "facteurs". Prof. Mustapha Berrouyne 10 Analyse Statistique Multivariée 3. METHODES FACTORIELLES ❖ PRINCIPE ✓ RESUMER L'INFORMATION ? Réduire les dimensions du tableau initial nécessite le calcul de distances entre les éléments de ce tableau. Selon le type des variables que l'on cherche à synthétiser, la distance à utiliser ne sera pas la même. Si les variables sont de type échelle, une distance euclidienne standard peut s'appliquer. Si les variables sont nominales, on utilisera une distance de type Khi-deux. A chaque type de variables va correspondre une analyse statistique particulière. Prof. Mustapha Berrouyne 11 Analyse Statistique Multivariée 3. METHODES FACTORIELLES ❖ PRINCIPE ✓ RESUMER L'INFORMATION ? Prof. Mustapha Berrouyne 12 Analyse Statistique Multivariée 3. METHODES FACTORIELLES ✓ RESUMER L'INFORMATION ? Résultat de l’ACP : Visualisation des données 13 Prof. Mustapha Berrouyne 13 Analyse Statistique Multivariée 3. METHODES FACTORIELLES ✓ Hiérarchiser l'information ? Les facteurs sont hiérarchisés de sorte que : - le 1er axe concentre le maximum de l'information : ▪ c'est l'axe qui explique la plus grande variabilité du nuage de points (inertie expliquée) dans un espace à une dimension; ▪ mais il laisse des résidus (de l'information) - le 2e axe concentre le maximum de l'information restante ; ▪ il est orthogonal au premier (par construction) ▪ c'est l'axe de la plus grande dimension résiduelle du nuage de points ▪ associé au 1er axe, c'est le meilleur résumé dans un espace à deux dimensions; ▪ mais il laisse aussi des résidus - le 3e axe prend encore une part d'information moindre ; ▪ il est orthogonal au deux premiers (toujours par construction) Prof. Mustapha Berrouyne 14 Analyse Statistique Multivariée 3. METHODES FACTORIELLES ❖ ANALYSE EN COMPOSANTES PRINCIPALES ✓ PRINCIPE Chercher un ensemble réduit de variables non corrélées, combinaisons linéaires des variables initiales résumant avec précision les données. ✓ CONSTRUCTION DES FACTEURS : Principe On cherche des combinaisons linéaires des p variables X1, X2, …, Xp, telles que : - la première aura la plus grande variance possible ; - la seconde ne sera pas corrélée avec la première et aura la plus grande variance possible parmi celles qui restent ; - la troisième ne sera corrélée ni avec la première, ni avec la seconde et aura la plus grande variance possible parmi celles qui restent ; - ainsi de suite, jusqu'à un maximum de p combinaisons linéaires. Prof. Mustapha Berrouyne 15 Analyse Statistique Multivariée 3. METHODES FACTORIELLES ❖ ANALYSE EN COMPOSANTES PRINCIPALES ✓ CONSTRUCTION DES FACTEURS : Formulation mathématique Le barycentre du nuage des n points représentant les n individus en fonction des p variables X1, X2, …, Xp est donné par : 𝟏 𝒏 𝑿 = (𝑿𝟏 , 𝑿𝟐 , … , 𝑿𝒑 ) avec 𝑿𝒋 = 𝒊=𝟏 𝑿𝒊𝒋 𝒏 Prof. Mustapha Berrouyne 16 Analyse Statistique Multivariée 3. METHODES FACTORIELLES ❖ ANALYSE EN COMPOSANTES PRINCIPALES ✓ CONSTRUCTION DES FACTEURS : Formulation mathématique Prof. Mustapha Berrouyne 17 Analyse Statistique Multivariée 3. METHODES FACTORIELLES ❖ ANALYSE EN COMPOSANTES PRINCIPALES ✓ CONSTRUCTION DES FACTEURS : Formulation mathématique Prof. Mustapha Berrouyne 18 Analyse Statistique Multivariée 3. METHODES FACTORIELLES ❖ ANALYSE EN COMPOSANTES PRINCIPALES ✓ CONSTRUCTION DES FACTEURS : Formulation mathématique La matrice des covariances des variables (X1, X2, …, Xp) est : Prof. Mustapha Berrouyne 19 Analyse Statistique Multivariée 3. METHODES FACTORIELLES ❖ ANALYSE EN COMPOSANTES PRINCIPALES ✓ CONSTRUCTION DES FACTEURS : Formulation mathématique L'objectif est d'ajuster le nuage des n individus par un sous-espace dont le choix s'effectue de façon à obtenir sur un graphique une représentation visuelle le plus fidèle possible des proximités qui existent entre les n individus vis-à-vis des p variables (X1, X2, …, Xp). Lorsque les n individus sont affectés de poids identiques 1/n, l'inertie relative au nuage des n individus est définie par la trace de la matrice des covariances . Chercher le sous-espace permettant de déformer le moins possible les distances en projection entre les individus, revient à trouver le sous-espace où la projection de la trace de la matrice des covariances est maximale. La projection de l'inertie relative au nuage des n individus dans un sous- espace est donnée par : 𝐮′ 𝐮 où u est un vecteur de ce sous-espace. Prof. Mustapha Berrouyne 20 Analyse Statistique Multivariée 3. METHODES FACTORIELLES ❖ ANALYSE EN COMPOSANTES PRINCIPALES ✓ CONSTRUCTION DES FACTEURS : Formulation mathématique Le problème se réduit donc à maximiser la forme quadratique 𝐮′ 𝐮 sous la contrainte 𝐮′ 𝐮 = 𝟏. La recherche du maximum implique l'annulation des dérivées du Lagrangien : 𝐋 = 𝐮′ 𝐮 − (𝐮′ 𝐮) 𝐮 = 𝐮 Par conséquent, le sous-espace recherché correspond à celui engendré par les vecteurs propres de la matrice , appelés axes principaux de ce sous-espace. Prof. Mustapha Berrouyne 21 Analyse Statistique Multivariée 3. METHODES FACTORIELLES ❖ ANALYSE EN COMPOSANTES PRINCIPALES ✓ CONSTRUCTION DES FACTEURS : Formulation mathématique On arrive donc à la définition complète de la méthode de l'analyse en composantes principales. La combinaison linéaire des p variables (X1, X2, …, Xp) qui maximise la variabilité du nuage des n individus est donnée par X v1 où v1 est le vecteur propre associé à la plus grande valeur propre 𝟏 𝒅𝒆 𝒍𝒂 𝒎𝒂𝒕𝒓𝒊𝒄𝒆 . La variabilité associée représente ainsi la proportion 𝟏 de la variabilité totale. Cette valeur est une mesure de la capacité de l'axe X v1 à expliquer l'inertie totale, elle sera d'autant plus importante que 𝟏 s'approche de 1. Le vecteur v1 est le premier axe principal des données. Prof. Mustapha Berrouyne 22 Analyse Statistique Multivariée 3. METHODES FACTORIELLES ❖ ANALYSE EN COMPOSANTES PRINCIPALES ✓ CONSTRUCTION DES FACTEURS : Formulation mathématique Les questions auxquelles l'analyse factorielle permet de répondre sont : - Combien de facteurs sont nécessaires pour donner une représentation juste et parcimonieuse des données ? - Quelle est la nature de ces facteurs ? comment peut-on les interpréter ? - Quelle proportion de la variance des données peut être expliquée par un certain nombre de dimensions majeures ? - La structure factorielle est-elle la même pour divers groupes? Prof. Mustapha Berrouyne 23 Analyse Statistique Multivariée 3. METHODES FACTORIELLES ❖ ANALYSE EN COMPOSANTES PRINCIPALES ✓ EVALUATION DE L'ACP : ETUDE DES CORRELATIONS ENTRE VARIABLES L'ACP permet de bien réduire la dimension p lorsqu'il existe des corrélations entre les variables utilisées dans l'analyse. L'étude de l'existence des corrélations entre les variables se fait on se basant sur des critères appliquées à : La matrice des corrélations entre les variables de l'analyse. Quand les variables sont fortement corrélées, alors il est pertinent de chercher à synthétiser l'information en réduisant le nombre de variables en quelque facteurs deux à deux non corrélés. Prof. Mustapha Berrouyne 24 Analyse Statistique Multivariée 3. METHODES FACTORIELLES ❖ ANALYSE EN COMPOSANTES PRINCIPALES ✓ EVALUATION DE L'ACP : ETUDE DES CORRELATIONS ENTRE VARIABLES Les principales critères adoptés pour évaluer la corrélation entre les variables utilisées dans l'ACP sont au nombre de trois : Le coefficient KMO (Kaiser Meyer Olkin) : 𝟐 𝒓 𝒊 𝒋 𝒊𝒋 𝑲𝑴𝑶 = 𝟐 𝟐 𝒓 𝒊 𝒋 𝒊𝒋 + 𝒂 𝒊 𝒋 𝒊𝒋 avec 𝒓𝒊𝒋 sont les corrélations totales et 𝐚𝒊𝒋 les corrélations partielles. Ce critère nous permet de poursuivre l'ACP si le coefficient KMO est proche de 1, c'est-à-dire lorsque les corrélations partielles sont faibles. On souhaite dans ce cas que les corrélations soient expliquées par d'autres variables que celles concernées. Il ne serait pas intéressant d'étudier des variables unquement corrélées deux à deux. Prof. Mustapha Berrouyne 25 Analyse Statistique Multivariée 3. METHODES FACTORIELLES ❖ ANALYSE EN COMPOSANTES PRINCIPALES ✓ EVALUATION DE L'ACP : ETUDE DES CORRELATIONS ENTRE VARIABLES Les principales critères adoptés pour évaluer la corrélation entre les variables utilisées dans l'ACP sont au nombre de trois : Le test de sphéricité de Bartlett : Ce test permet de tester l'hypothèse nulle selon laquelle la matrice des corrélations R est égale à la matrice identité. 𝐇𝟎 : 𝐑 = 𝐦𝐚𝐭𝐫𝐢𝐜𝐞 𝐢𝐝𝐞𝐧𝐭𝐢𝐭é contre 𝐇𝟏 : 𝐑 ≠ 𝐦𝐚𝐭𝐫𝐢𝐜𝐞 𝐢𝐝𝐞𝐧𝐭𝐢𝐭é On cherche à savoir si les variables sont corrélées entre elles. La sphéricité implique un nuage de points qui se dilate dans tous les sens. Les points sont alors représentés par une sphère. La statistique du test se présente comme suit : 𝟐𝒑 + 𝟓 𝑺𝑩 = 𝒏 − 𝟏 − 𝑳𝒏(|𝒅𝒆𝒕 𝑹 | 𝟔 sous 𝐇𝟎 SB 𝟐𝒑(𝒑+𝟏) 𝟐 Prof. Mustapha Berrouyne 26 Analyse Statistique Multivariée 3. METHODES FACTORIELLES ❖ ANALYSE EN COMPOSANTES PRINCIPALES ✓ EXTRACTION DES FACTEURS : NOMBRE DE FACTEURS REQUIS ? Il existe plusieurs techniques d'extractions de facteurs, la plus connue et la plus utilisée étant l'analyse en composantes principales. Cette méthode détermine les facteurs principaux en constituant des combinaisons linéaires non corrélées deux à deux des variables initiales. La matrice ne peut avoir au maximum que p valeurs propres non nulles. Les axes factoriels sont donc donnés par : 𝑭𝒋 = 𝒗𝒋𝟏 𝐗 𝟏 + 𝒗𝒋𝟐 𝐗 𝟐 + … + 𝒗𝒋𝒑 𝐗 𝐩 avec 𝒗𝒋 = (𝒗𝒋𝟏 , 𝒗𝒋𝟐 , … , 𝒗𝒋𝒑 ) est le vecteur propre normalisé associé à la valeur propre 𝒋 de la matrice . La variabilité expliquée par l'axe factoriel 𝑭𝒋 est égale 𝒋. Prof. Mustapha Berrouyne 27 Analyse Statistique Multivariée 3. METHODES FACTORIELLES ❖ ANALYSE EN COMPOSANTES PRINCIPALES ✓ EXTRACTION DES FACTEURS : NOMBRE DE FACTEURS REQUIS ? Pour des raisons statistiques, on choisit de travailler avec la matrice des covariances des variables (X1, X2, …, Xp). Mais comme il s'agit de donner une définition aux composantes principales il faut que les échelles de mesures des variables (X1, X2, …, Xp) soient compatibles. Il faut donc travailler avec des données standardisées, c'est- à-dire avec la matrice des corrélations R. Il est possible d'extraire autant d'axes factoriels que de variables de départ (p). Cependant, pour dégager les axes factoriels à extraire permettant de réduire la dimension de travail avec le moins possible de perte d'informations contenues dans les données, on se base sur les deux règles suivantes : Dans le cas des données standardisées, les axes à extraire sont ceux qui correspondent aux valeurs propres supérieures à 1. Le pouvoir explicatif des axes factoriels extraits doit être proche de l'inertie initial du nuage (80% ou 90%). Prof. Mustapha Berrouyne 28 Analyse Statistique Multivariée 3. METHODES FACTORIELLES ❖ ANALYSE EN COMPOSANTES PRINCIPALES Prof. Mustapha Berrouyne 29 Analyse Statistique Multivariée