Analyse des données Préliminaire PDF

Document Details

Uploaded by Deleted User

Faculté des Sciences et Techniques de Mohammedia

2024

Abdeljalil SETTAR

Tags

data analysis statistical analysis multidimensional analysis data science

Summary

This document is a lecture or presentation on preliminary data analysis. It covers topics like data types, statistical characters, objectives of the analysis, and data tables. The document is intended for students in a science faculty in a Moroccan university.

Full Transcript

Généralités et typologie Analyse statistique multidimensionnelle Analyse des données Préliminaire Abdeljalil SETTAR...

Généralités et typologie Analyse statistique multidimensionnelle Analyse des données Préliminaire Abdeljalil SETTAR [email protected] Code Classroom : gyjlt3h Faculté des Sciences et Techniques, Mohammedia LST/SDID Session automne 2024 A.SETTAR (FSTM) Analyse des données Session automne 2024 1 / 20 Généralités et typologie Analyse statistique multidimensionnelle Plan du chapitre 1 Généralités et typologie Types des données Type de caractères statistiques Objectif(s) Tableaux de données 2 Analyse statistique multidimensionnelle Moyenne, matrice de variance-covariance et matrice de corrélation Centrage-réduction A.SETTAR (FSTM) Analyse des données Session automne 2024 2 / 20 Généralités et typologie Analyse statistique multidimensionnelle Types des données L’ensemble des techniques et des procédés quantitatives appliquées à des données (statistiques) permettant de révéler et comprendre leur structure. Toute analyse de données dépend de l’obectif(s) ciblé(s) et le type des données disponibles A.SETTAR (FSTM) Analyse des données Session automne 2024 3 / 20 Généralités et typologie Analyse statistique multidimensionnelle Types des données On distingue : Données transversales : sexe, moyenne du DEUST, filière... des étudiants de la licence SDID. Données temporelles : Chiffre d’affaire mensuel d’une entreprise. Données longitudinales (de panel) : état de santé d’un groupe de malades qui suivent un traitement médicale. A.SETTAR (FSTM) Analyse des données Session automne 2024 4 / 20 Généralités et typologie Analyse statistique multidimensionnelle Type de caractères statistiques Donnée : Ce qu’on observe comme valeur (modalité) d’un caractère étudié chez un individu appartenant à une population ciblée. Décrire une donnée commence par l’identification de : - La population ciblée (Les étudiants d’une faculté, les ménages d’une résidence , les entreprises productrices du beurre...) - L’individu (unité statistique)(étudiant, ménage, entreprise...) - Le caractère étudié : Qualitatif nominal (type de technologie utilisée dans la production) Qualitatif ordinal (niveau de difficulté d’un examen selon les étudiants qu’ils l’ont passé) Quantitatif discrèt (nombre de modules validés) Quantitatif continu (regroupé par classes) (Âge, Salaire) A.SETTAR (FSTM) Analyse des données Session automne 2024 5 / 20 Généralités et typologie Analyse statistique multidimensionnelle Objectif(s) Toute analyse de données a pour objectif(s) : ∗ Exploratoire : univariée, bivariée et multidimensionnelle. ∗ Prédictive : modèles de régression, séries chronologiques.. A l’ère de l’intelligence artificielle, le jargon a changé : apprentissage automatique (machine learning), apprentissage supervisé/non supervisé, data mining... A.SETTAR (FSTM) Analyse des données Session automne 2024 6 / 20 Généralités et typologie Analyse statistique multidimensionnelle Tableaux de données Tableau de données brutes − Population ciblée : {e1 , e2 ,... , en }. − Variables étudiées : X 1 , X 2 ,... , X p. X1 X2... Xn e1 x11 x12... xnp e2 x21 x22... x2p............... ei xi1 xi2... xip............... en xn1 xn2... xnp Table – Tableau de données brutes (Individus × vaiables) A.SETTAR (FSTM) Analyse des données Session automne 2024 7 / 20 Généralités et typologie Analyse statistique multidimensionnelle Tableaux de données Exemple On dipose des informations sur 8 étudiants par rapport à leur sexe, le nombre d’années d’obtention du DEUST et sa moyenne. Les données brutes sont fournies comme suit : ’Sexe’ ’Nombre d’années DEUST’ ’Moyenne DEUST’ X1 X2 X3 e1 H 2 12.54 e2 H 2 11.37 e3 F 2 12.07 e4 H 3 11.74 e5 F 2 13.04 e6 F 3 11.22 e7 F 2 10.41 e8 H 3 11.96 A.SETTAR (FSTM) Analyse des données Session automne 2024 8 / 20 Généralités et typologie Analyse statistique multidimensionnelle Tableaux de données Paramètres d’analyse statistique Données brutes Données agrégées 1 Pn 1 Pn Pn Moyenne x xi i=1 ni xi = i=1 fi xi n i=1 n 1 Pn 1 Pn Pn Variance V(X ) x2 − x2 2 2 i=1 ni xi − x = 2 i=1 fi xi − x 2 n i=1 i n Covariance 1 Pn 1 Pp Pq Cov (X , Y ) xi yi − x y nij xi yj − x y n i=1 n i=1 j=1 Rq : En cas de données regroupées par classes, xi et yj sont remplacées par les centres de chaque classe. A.SETTAR (FSTM) Analyse des données Session automne 2024 9 / 20 Généralités et typologie Analyse statistique multidimensionnelle Tableaux de données Tableau de contingence Exemple On s’intéresse aux salaires mensuels en 103 DH X ainsi que l’ancienneté en année Y d’un échantillon de 50 employés. Les données sont représentées dans un tableau dit de contingence. [2, 5[ [5, 10[ [10, 20[ [4, 7[ 5 8 11 24 [7, 10[ 4 7 10 21 [10, 13[ 0 2 3 5 9 17 24 50 A.SETTAR (FSTM) Analyse des données Session automne 2024 10 / 20 Généralités et typologie Analyse statistique multidimensionnelle Tableaux de données Analyse de la dépendance statistique La covariance d’un couple de variables (X , Y ) est un indicateur de dépendance statistique entre X et Y. i.e., Cov (X , Y ) ̸= 0 ⇒ X et Y ne sont pas independantes → X et Y sont donc liées MAIS pas forcément linéairement ! ! La covariance est également un indicateur du sens de monotonie d’une variable par rapport à l’autre. i.e., Cov (X , Y ) > 0 : X ↗⇔ Y ↗ Cov (X , Y ) < 0 : X ↗⇔ Y ↘ A.SETTAR (FSTM) Analyse des données Session automne 2024 11 / 20 Généralités et typologie Analyse statistique multidimensionnelle Tableaux de données Dépendance statistique linéaire La condition Cov (X , Y ) ̸= 0 indique l’existence d’une liaison statistique (positive ou négative) entre X et Y. Est-t-elle linéaire ? Coefficient de corrélation linéaire (ou coefficient de Pearson) Le coefficient de corrélation linéaire d’un couple de variables (X , Y ), noté r (X , Y ), est défini par : Cov (X , Y ) r (X , Y ) = σX σY On a : −1 ≤ r (X , Y ) ≤ 1 (*) r (X , Y ) ≥ 0 ⇔ Cov (X , Y ) ≥ 0 A.SETTAR (FSTM) Analyse des données Session automne 2024 12 / 20 Généralités et typologie Analyse statistique multidimensionnelle Tableaux de données Dépendance statistique linéaire Coefficient de corrélation linéaire Conséquences (*) fournit une mesure de l’intensité de la liaison linéaire entre X et Y , i.e., plus |r | est proche de 1, plus la dépendance linéaire est forte et plus |r | est proche de 0, plus la dépendance linéaire est faible. r = 0 indique l’absence d’une liaison linéaire mais cela ne contredit pas l’existence éventuelle d’une liaison non linéaire ! La présence de corrélation linéaire forte entre X et Y permet d’établir un modèle de régression linéaire Y = a + bX ou X = aY + b pour des fins d’explication et de prédiction (analyse prédictive). A.SETTAR (FSTM) Analyse des données Session automne 2024 13 / 20 Généralités et typologie Analyse statistique multidimensionnelle Tableaux de données Visualisation graphique du nuage des points A.SETTAR (FSTM) Analyse des données Session automne 2024 14 / 20 Généralités et typologie Analyse statistique multidimensionnelle Tableaux de données Tableau de proximité Il s’agit d’un tableau (matrice) symétrique de distance (d(ei , ej )) entre les individus 2 à 2 d’une population {e1 ,... , en } décrite par un ensemble de variables statistiques. Il est utilisé pour des fins de classification (clustring), i.e, construction de sous groupes homogènes relativement aux variables étudiées. e1 e2... ej... e8 e1 0....... e2. 0........................ ei... d(ei , ej ).................... e8..... 0 Table – Tableau de proximité d’une population de 8 individus A.SETTAR (FSTM) Analyse des données Session automne 2024 15 / 20 Généralités et typologie Analyse statistique multidimensionnelle Moyenne, matrice de variance-covariance et matrice de corrélation Cas de p variables quantitatives, p ≥ 2 Définition Soit X = (X 1 , X 2 ,... , X p ) une matrice de données aléatoires. On appelle : Vecteur moyen g : 1 2 p g = (X , X ,... , X )′ Si chacun des couples (X j , X k ), admet une covariance, la matrice de variance-covariance de X la matrice symétrique :   V(X 1 ) Cov (X 1 , X 2 ) Cov (X 1 , X 3 )... Cov (X 1 , X p ) .  V(X 2 ) Cov (X 2 , X 3 )... Cov (X 1 , X p )  ΣX =  ..........  .....  .... V(X p ) A.SETTAR (FSTM) Analyse des données Session automne 2024 16 / 20 Généralités et typologie Analyse statistique multidimensionnelle Centrage-réduction Remarques et formulation matricielle On note par g le vecteur moyen des variables X 1 , X 2 ,... , X p. On a g = X ′ D1 où 1 = (1... 1)′ ∈ Rn où D désigne la matrice des poids donnée par : n X D = diag(p1 , p2 ,... , pn ) avec pi = 1 i=1 La matrice des variables X 1 , X 2 ,... , X p après un centrage-réduction est donnée par Z = (X − 1g ′ ) diag (1/σ1 ,... , 1/σp ) q avec σj = V (X j ). A.SETTAR (FSTM) Analyse des données Session automne 2024 17 / 20 Généralités et typologie Analyse statistique multidimensionnelle Centrage-réduction Si les variables X 1 , X 2 ,... , X p sont centrées, alors ΣX = X ′ DX ′ En particulier V(X j ) = X j DX j. Si les variables X 1 , X 2 ,... , X p sont réduites et indépendantes, alors ΣX = Ip A.SETTAR (FSTM) Analyse des données Session automne 2024 18 / 20 Généralités et typologie Analyse statistique multidimensionnelle Centrage-réduction Application 1 Soit ΣX la matrice de variance-covariance de trois variables statistiques X 1 , X 2 et X 3 donnée par :   64.9 33.2 −24.4 . 56.4.   . 0 75.6 1 Compléter la matrice ΣX et interpréter ses valeurs. 2 Donner R, la matrice de corrélation associée à ΣX et interpréter ses valeurs. A.SETTAR (FSTM) Analyse des données Session automne 2024 19 / 20 Généralités et typologie Analyse statistique multidimensionnelle Centrage-réduction Application 2 On considère la matrice des données X formée à partir des variables (colonnes) X 1 , X 2 et X 3   −2 3 −1 −1 1 0 X =    2 −1 −1  1 −3 2 1 1 On suppose que D = In , (pi = ), ∀ i n n 1 Calculer g le vecteur moyen de X 1 , X 2 et X 3. 2 Calculer ΣX la matrice de variance-covariance de X. En déduire sa matrice de corrélation R. 3 Donner la matrice Z des données centrées réduites, puis calculer sa matrice de variance-covariance ΣZ A.SETTAR (FSTM) Analyse des données Session automne 2024 20 / 20