Statistiques à Deux Dimensions PDF
Document Details
Uploaded by Deleted User
Tags
Related
Summary
Ce document explore les statistiques descriptives à deux dimensions, y compris les tableaux de contingence et la corrélation. Il explique la variation simultanée des variables et discute des notions de covariance et de coefficient de corrélation.
Full Transcript
II.2. Statistiques descriptives à deux dimensions La statistique descriptive à deux dimensions a essentiellement pour but de mettre en évidence une éventuelle variation simultanée des deux variables, que nous appellerons alors liaison. Dans certains cas, cette liaison peut être considérée a priori c...
II.2. Statistiques descriptives à deux dimensions La statistique descriptive à deux dimensions a essentiellement pour but de mettre en évidence une éventuelle variation simultanée des deux variables, que nous appellerons alors liaison. Dans certains cas, cette liaison peut être considérée a priori comme causale, une variable X expliquant l’autre Y ; dans d’autres, ce n’est pas le cas, et les deux variables jouent des rôles symétriques. Dans la pratique, il conviendra de bien différencier les deux situations et une liaison n’entraîne pas nécessairement une causalité. La série statistique est alors une suite de n couples des valeurs prises par les deux variables sur chaque individu : (x1, y1),.............,(xn, yn). L'effectif associe à l'observation (xi, yj) est noté nij. Et sa fréquence notée : fij=nijn. Les résultats sont regroupés dans un tableau appelé tableau de contingence. 1- Deux variables qualitatives 1-1- Tableau de contingence des effectifs On s'intéresse à une éventuelle relation entre X : le sexe de n=200 personnes et Y : la couleur des yeux. X/Y Bleu Vert Marron Total Homme n11= 10 n12 = 50 n13 = 20 n1. = 80 Femme n21= 20 n22 = 60 n23 = 40 n2. = 120 Total n.1= 30 n.2 = 110 n.3 = 60 n.. = 200 n1 , n2 et n 1, n 2, n 3 sont appelés effectifs marginaux. n11+n12+n13=n1 , n21+n22+n23=n2 , n11+n21=n 1, n12+n22=n 2, n13+n23=n 3, n11+n12+n13+n21+n22+n23=n. 1 1-2- Tableau de contingence des fréquences X/Y Bleu Vert Marron Total Homme f11= 0.05 f12 = 0.25 f13 = 0.10 f1. = 0.40 Femme f21= 0.10 f22 = 0.30 f23 = 0.20 f2. = 0.60 Total f.1= 0.15 f.2 = 0.55 f.3 = 0.30 1 f1 , f2 et f 1, f 2, f 3 sont appelées fréquences marginales. fij=nij/n, fi =ni /n, f j=n j/n f11+f12+f13=f1 , f21+f22+f23=f2 , f11+f21=f 1, f12+f22=f 2, f13+f23=f 3, f11+f12+f13+f21+f22+f23=1. 2- Deux variables quantitatives La corrélation La corrélation est la netteté ou l’intensité de la relation existante entre deux séries de données. 1. Notion de covariance Nous notons par Cov (X, Y) la covariance entre les variables X et Y. La covariance est un paramètre qui donne la variabilité de X par rapport à Y. La covariance se calcule par l’expression suivante : 𝐶𝑜𝑣(𝑋,𝑌)=𝑥𝑦̅̅̅̅̅̅−𝑥̅̅̅𝑦̅̅̅=1𝑁ΣΣ𝑛𝑖𝑗𝑥𝑖𝑦𝑗−𝑥̅̅̅ 2 2. Le coefficient de corrélation Pour des variables quantitatives, choisissez le coefficient de corrélation de Pearson ou Spearman. Coefficient de corrélation de Pearson (r) : pour les données avec une distribution normale. Rho de Spearman (ρ) : pour les données qui ne suit pas la loi normale. Propriétés Si le coefficient de corrélation est positif, les points du nuage sont alignés le long d'une droite croissante. Dans ce cas X et Y évoluent dans le même sens (figure 1). Si le coefficient de corrélation est négatif, les points sont alignés le long d'une droite décroissante. Dans ce cas X et Y évoluent dans des sens opposés (figure 1). Si le coefficient de corrélation est nul ou proche de zéro, il n'y a pas de dépendance linéaire (figure 1). Figure 1 : Exemples de diagrammes de dispersion avec différentes valeurs de coefficient de corrélation. 3. Droite de régression L’idée est de transformer un nuage de point en une droite. Celle-ci doit être la plus proche possible de chacun des points. On cherchera donc à minimiser les écarts entre les points et la droite. Cette méthode vise à expliquer un nuage de points par une droite qui lie y à x (figure 2). y = ax + b avec 3 a = cov(X, Y)/Var(X); 𝑏 = 𝑦̅ − 𝑎𝑥 Figure 2 : La droite la plus proche possible de chacun des points. Exemple d’application : La fécondité du poisson Scorpaenichtys marmoratus s’avère être un paramètre fastidieux à définir. Afin de simplifier une étude sur la dynamique de population de cette espèce, le nombre y d’œufs (en milliers) présent chez 11 femelles matures a été compté en relation avec leur poids (kg). Poids X Nombre d’œufs Y 14 61 17 37 24 65 25 69 27 54 33 93 34 87 37 89 40 100 41 90 42 97 1. Calculer le coefficient de corrélation r, quelle conclusion en tirez-vous ? 2. Déterminer l’équation de la droite de régression y en x. 3. Combien d’œufs pondue prévoyez-vous pour une femelle pèse 50 kg ? 4