Statistique Appliquée MIIEL 2024-2025 PDF

Document Details

AmazedSynergy4526

Uploaded by AmazedSynergy4526

Département des Sciences de Gestion

2025

Abdenbi EL MARZOUKI

Tags

statistical analysis data mining statistics master's degree

Summary

This document is part of a Master's degree program in Management and Innovation in the field of Engineering(MIIEL), focusing on statistical analysis, specifically on bi-variate analysis and analysis of variance (ANOVA) methods. It presents theoretical concepts and tables related to descriptive statistics, contingency tables, and conditional distributions.

Full Transcript

Département des Sciences de Gestion Master MIIEL Statistique et Datamining Pr. Abdenbi EL MARZOUKI Année universitaire 2024-2025 Analyse des données 1- Analyse bi-variée 2- Analyse de la variance ANOVA ´Télécharger Python : Allez sur le si...

Département des Sciences de Gestion Master MIIEL Statistique et Datamining Pr. Abdenbi EL MARZOUKI Année universitaire 2024-2025 Analyse des données 1- Analyse bi-variée 2- Analyse de la variance ANOVA ´Télécharger Python : Allez sur le site officiel de Python [python.org] ´https://www.python.org et téléchargez la dernière version. ´ Télécharger gratuitement le logiciel R depuis le site du CRAN (Comprehensive R Archive Network) : [cran.r- project.org] ´https://cran.r-project.org I - Analyse des séries statistiques à deux dimensions Contrairement à l’analyse unidimensionnelle de la population où celle-ci est étudiée selon un seul caractère, le traitement statistique se fera maintenant sur la base de deux caractères X et Y. Ces séries statistiques doubles seront pondérées ou non et sur lesquels nous pouvons mener différentes analyses suivant le besoin. Deux points sont à traiter dans ce chapitre, le tableau de 4 contingence et la corrélation. Statistique Descriptive 2 Mr. A. El Marzouki 1- Le tableau à double entrée Lorsqu’il s’agit de l’étude d’une population en fonction de deux variables (X,Y), les observations peuvent se présenter sous forme de tableau de contingence. Ce tableau croise les modalités de la variable X (en ligne) avec les modalités de la variable Y (en colonne). 5 Statistique Descriptive 2 Mr. A. El Marzouki a. Présentation d’un tableau à double entrée 6 Soit une population de N individus classés selon deux caractères X (le revenu par exemple) et Y (la consommation). Ainsi, le couple (X, Y) forme une variable statistique à deux dimensions qu’on peut mettre dans un tableau à double entrée. Statistique Descriptive 2 Mr. A. El Marzouki Tableau de contingence : Distribution de la population selon X et Y, 7 Tableau 1: Données théoriques Y y1 y2... yj … yp Colonne marginale X ni. x1 n11 n12 … n1j … n1p n1. x2 n21 n22 … n2j … n2p n2. … … … …... … … … xi ni1 ni2 … nij ou fij=nij/N … nip ni. … … … … … … … … xk nk1 nk2 … nkj … nkp nk. Ligne n.1 n.2 … n.j … n.p N=n.. marginale n.j Statistique Descriptive 2 Mr. A. El Marzouki X représente les salaires et Y la consommation toutes les deux en milliers de DH Y [1-3[ [3-5[ [5-7[ Colonne marginale X 2000 4000 6000 ni. [4-8[ 6000 0 2 1 3 [8-10[ 9000 1 3 2 6 [10-12[ 11000 1 2 0 3 Ligne marginale n.1 n.2 n.3 N=n..=12 n.j 2 7 3 Soit une population de 20 micro entreprises étudiées en fonction des nombres d’articles X et Y vendus en une journée 9 Y 2 4 6 8 X 3 2 1 0 1 4 0 1 2 3 6 1 1 0 2 8 2 0 1 1 10 0 1 0 1 Statistique Descriptive 2 Mr. A. El Marzouki Soit une population de 20 micro entreprises étudiées en fonction des nombres d’articles X et Y vendus en une journée Y en 103 2 4 6 8 ni. X en 103 3 2 1 0 1 4 4 0 1 2 3 6 6 1 1 0 2 4 8 2 0 1 1 4 10 0 1 0 1 2 n.j 5 4 3 8 20 10 X = 5,6 103 & Y = 5,4103 dh V ( X ) = 5,24 10 6 & V (Y ) = 6,0410 6 Statistique Descriptive 2 Mr. A. El Marzouki Exemple Tableau 2 : Distribution de 50 étudiants selon la filière X et les notes Y 11 Y [0;6[ [6;10[ [10;14[ [14;20[ Total. X 3 8 12 17 Filière A 13 3 2 1 19 Filière B 5 5 1 2 13 Filière C 1 2 3 0 6 Filière D 5 4 2 1 12 Total 24 14 8 4 50 1. Calculer la moyenne marginale de Y et son écart type 2. Donner la distribution conditionnelle de Y/ X=x3, et calculer sa moyenne k et son écart type. Varinte r 2 åf i. ( yi - y ) hY / X = = i =1 p Vartot å j =1 f. j ( y j - y ) 2 Statistique Descriptive 2 Mr. A. El Marzouki Exemple Tableau : Distribution marginale Y 12 Y [0;6[ [6;10[ [10;14[ [14;20[ Total. 3 8 12 17 Total 24 14 8 4 50 Tableau : Distribution marginale X ni. X Filière A 19 Filière B 13 Filière C 6 Filière D 12 Total 50 Statistique Descriptive 2 Mr. A. El Marzouki Exemple 13 Tableau : Distribution conditionnelle Y/ X=FA Y/X=x1 [0;6[ [6;10[ [10;14[ [14;20[ Total. 3 8 12 17 Filière A 13 3 2 1 19 Y1 barre= 5,47 Statistique Descriptive 2 Mr. A. El Marzouki 14 Y barre=6,96 ; V(Y)=19,96 Y1 barre Y2 barre Y3 barre Y4 barre 5,47 7, 77 9,17 7,33 0,38*(y1-ybar)2= 0,84 0,26*..=0,1 0,12*..=0,58 0,24*..=0,03 7 Statistique Descriptive 2 Mr. A. El Marzouki b. Distributions marginales 15 Le tableau de contingence, présenté précédemment, contient deux distributions marginales, la variable X prise indépendamment du caractère Y et celui-ci pris indépendamment de X. c. Distributions conditionnelles La distribution conditionnelle X sachant que Y=yj (notée X/ Y=yj) est constituée par les individus possédant la modalité yj et toutes les modalités de X. Statistique Descriptive 2 Mr. A. El Marzouki 16 Ainsi, à partir du tableau précédent, on compte 2 distributions marginales et autant de distributions conditionnelles qu’il y a de modalités de X et de Y (au total 8 distributions conditionnelles). Les 4 couples (xi; ni.) définissent la distribution marginale X. Les 4 couples (yj; n.j) définissent la distribution marginale Y. Y [0;6[ [6;10[ [10;14[ [14;20[ Total. 3 8 12 17 Total 24 14 8 4 50 Filière A Filière B Filière C Filière D Total. X Total 19 13 6 12 50 Statistique Descriptive 2 Mr. A. El Marzouki Tableau 3: Distribution conditionnelle de Y pour X prenant la modalité filière C: 17 Y/X=filière C 3 8 12 17 Total. Total 1 2 3 0 n3.=6 Cette distribution peut être réécrite sous la forme de fréquences conditionnelles: nij n3 j n3 j f j/i = Où i=3 et j=1,2,3 et 4 f j/3 = = ni. n3. 6 Tableau 4: Distribution conditionnelle de Y pour X prenant la modalité filière C: Y/X=filière C 3 8 12 17 Total. Total 0,17 0,33 0,5 0 f./i=3=1 La moyenne et la variance conditionnelle de Y/X=x3: 4 4 y3 = å f j / 3 y j = 09,15 et V3 = å f j / 3 ( y j - y3 ) 2 = 10,9275 j =1 j =1 s 3 = 3,31 Statistique Descriptive 2 Mr. A. El Marzouki Tableau 5: Distribution conditionnelle de X pour y prenant la modalité 17: 18 X/Y=17 F. A F. B F. C F. D Total. Total 1 2 0 1 n.4=4 Cette distribution peut être réécrite sous la forme de fréquences conditionnelles: nij ni 4 ni 4 fi / j = Où j=4 et i=1,2,3 et 4 fi / 4 = = n. j n.4 4 Tableau 6 : Distribution conditionnelle de X pour y= 17 : X/Y=17 F. A F. B F. C F. D Total. Total 0,25 0,50 0 0,25 f./j=4=1 Si X a été une variable quantitative, alors la moyenne et la variance conditionnelle X/Y=y4 seraient: 4 4 X 4 = å f i / 4 xi et V4 ( X ) = å f i / 4 ( xi - x4 ) 2 i =1 j =1 X = å f. j x j & Y = å f.i yi 2. Les caractéristiques d’un couple de variables 19 a- Moyenne d’une somme de deux variables statistiques X +Y = X +Y "a, b, c Î Â ax + by + c = ax + by + c b- Covariance entre deux variables statistiques * Cas de Données groupées dans un tableau de contingence (covariance pondérée) k p åå n i =1 j =1 ij ( xi - X )( y j - Y ) Cov ( X , Y ) = N k p k p = åå f i =1 j =1 ij ( xi - X )( y j - Y ) = åå f i =1 j =1 ij xi y j - XY Statistique Descriptive 2 Mr. A. El Marzouki * Cas de Données individuelles 20 1 n Cov ( X , Y ) = å ( xi - X )( yi - Y ) n i =1 n = å i =1 f i xi yi - XY * Propriétés de la covariance 1. cov(X,Y)=cov(Y,X) 2. cov(X,X)=var(X) 3. var(X+Y)=var(X)+var(Y)+2cov(X,Y) 4. Pour les réels a, b, c: var(aX+bY+c)=a2var(X)+ b2var(Y)+2ab*cov(X,Y) Statistique Descriptive 2 Mr. A. El Marzouki 3. Corrélation 21 Quand il s’agit de mettre en évidence le lien qui peut exister entre deux variables quantitatives X et Y on utilise le coefficient de corrélation linéaire ρxy. Mais lorsqu’il s’agit de déterminer le degré de liaison entre une variable qualitative X et une autre quantitative Y, on choisit dans ce cas le rapport de corrélation hY/X. Cette corrélation est détectée à l’aide d’un autre moyen le khi deux c si les variables sont toutes les deux qualitatives. Statistique Descriptive 2 Mr. A. El Marzouki a. Le coefficient de corrélation linéaire 22 La mesure de la liaison linéaire entre deux variables quantitatives est assurée par le calcul d’un coefficient de corrélation linéaire, noté ρ: cov( X , Y ) r ( X ,Y ) = s ( X )s (Y ) * Cas de Données groupées k p åån ij ( xi - x )( y j - y ) r = k i =1 j =1 P ån i =1 i. ( xi - x ) 2 ån i =1.j ( yi - y ) 2 Statistique Descriptive 2 Mr. A. El Marzouki * Cas de Données individuelles 23 n å (x i - x )( yi - y ) rˆ = rXY = n i =1 n ; n=k å (x i =1 i - x) 2 å(y i =1 i - y) 2 Ce coefficient peut s’écrire sous la forme: n n n n å xi yi - å xi å yi r̂ = rXY = n i =1 n i =1 n i =1 n n å xi - (å xi ) 2 n å yi - ( å yi ) 2 2 2 i =1 i =1 i =1 i =1 Statistique Descriptive 2 Mr. A. El Marzouki 24 Ce coefficient est compris entre -1 et 1: Proche de 1, les variables sont corrélées positivement; Proche de -1, les variables sont corrélées négativement; Proche de 0, les variables ne sont pas corrélées. Statistique Descriptive 2 Mr. A. El Marzouki b. L’ajustement linéaire 25 Dans ce chapitre nous allons essayer de déterminer la forme de la fonction f qui ajuste au mieux les observations (xi,yj). Il s’agit d’établir une relation entre Y et X de forme linéaire ou non linéaire. Quand cette forme s’avère analytique, la méthode utilisée pour réaliser l’ajustement (détermination des coefficients de régression) est la méthode des moindres carrés. Cette dernière consiste à minimiser la somme des carrés des écarts des points observés à la droite de régression. Statistique Descriptive 2 Mr. A. El Marzouki i- Droite de régression de Y en X Supposons 26 n individus décrits en fonction de la consommation (Y) et du revenu (X). Le nuage des points des couples (xi,yi) montre un aspect linéaire qu’on peut mettre sous la forme de y=ax+b. Les valeurs des paramètres a et b de cette relation doivent être recherchées de telle sorte que la droite soit le plus proche possible du nuage des points. Pour cela on définit le résidus: ei= yi – axi - b ; i=1,…,n. Min Σ e2i= Min Σ (yi – axi – b)2=Min f(a,b) y yi --------------------------------------------. axi +b -------------------------------------------- ei { Y=ax+b |... |.. |. |. | | x Figure 1:Nuage des points et MCO xi Statistique Descriptive 2 Mr. A. El Marzouki La méthode des moindres carrés ordinaires MCO permet de rechercher les valeurs de a et de b. Cette méthode se base sur la minimisation des carrés des résidus: 27 n f ( a, b) = å i = e 2 i =1 å i ( y - i axi - b ) 2 Les conditions du premier ordre: ¶f ¶f =0 ; =0 ¶a ¶b Les équations normales: ìå xi ( yi - axi - b ) = 0 ï i í ïå ( yi - axi - b ) = 0 î i a et b sont les inconnues et la résolution a donné: Statistique Descriptive 2 Mr. A. El Marzouki k å (x 28 i - x )( yi - y ) i =1 Cov ( X , Y ) = n a = k V (X ) å (x i =1 i - x) 2 n b = Y - aX ˆ y i = axi + b Statistique Descriptive 2 Mr. A. El Marzouki ii- Régression de X en Y 29 x = a' y + b' k å (x i i i - x )( yi - y ) Cov ( X , Y ) i =1 a = ' = n V (Y ) k å(y i =1 i - y) 2 b = X - aY ' ' n ' ˆi = x ˆi + a y b ' Statistique Descriptive 2 Mr. A. El Marzouki Exercice 1: 30 Le directeur commercial du Groupe BETA vous a chargé de lui établir une liaison entre le bénéfice (Y) et le chiffre d'affaires (X). Pour vous faciliter la tache, il vous a donné les informations suivantes : Le groupe est composé de 30 entreprises ; le coefficient de corrélation r(X,Y)=0,98 ; les écart-types s(X)=2,64 s (Y) ; Le bénéfice total réalisé par le groupe est égal à 33 millions de DH et le chiffre d'affaires a atteint une somme totale de 132 millions de DH. 1- Déterminez l'équation de la droite de régression de Yen X par la méthode des moindres carrés ordinaires. 2- Quel serait le bénéfice réalisé par une entreprise si elle a pu faire 2 millions de DH de chiffre d'affaires? Statistique Descriptive 2 Mr. A. El Marzouki Exercice 2: Une 31 fabrique produit deux types de pièce différents. Sur une dizaine de jour, les ventes journalières x et y, respectivement, de la 1ère pièce et de la 2ème, ont été comme suite : å x = 540 dh ; å y = 785 dh On sait en outre, que : å x2 = 29426 ; å y2 = 71459 ; å x y =42836 1. Calculer l’intensité de liaison entre les ventes journalières de la 1ère pièce et les ventes journalières de la 2ème pièce. Commenter. 2. Quelle serait la valeur des ventes journalières de la 2ème pièce si celle de la 1ère est de 55 dh ? Statistique Descriptive 2 Mr. A. El Marzouki Exercice 3: Années x: Indice du pouvoir d'achat Y: Salaire moyen 2001 32 293 329 2002 296 336 2003 296 334 2004 302 337 2005 311 340 2006 314 346 2007 315 347 2008 322 349 2009 326 352 2010 331 351 SOMME 3106 3421 1. Donner l’équation de la droite de régression de Y en X et de X en Y 2. si X= 305, quel serait le montant du salaire moyen correspondant? 3. Si Y= 338 quel serait l’indice du pouvoir d’achat correspondant? Statistique Descriptive 2 Mr. A. El Marzouki 33 V(x)= 162,44 ; V(Y)= 56,89 ; ∑xy=1063491 Y= 0,5715X+ 164,59 et X=1,6319Y- 247,7 Statistique Descriptive 2 Mr. A. El Marzouki Exercice: Dans son rapport de stage de fin d’étude, une étudiante a été chargée d’établir le lien éventuel entre salaires et âges de 200 cadres d’une entreprise. En quatre jours, elle a pu collecter les données qu’elle les a mise sous forme d’un tableau à double entrée avec les xi représentant l’âge34 et yj le salaire mensuel en mille dirhams (103Dh) yj [6 ;10[ [10;14[ [14;18[ [18;22[ [22;26[ [26;30[ [30;34[ [34;38[ xi Centre de 8 12 16 20 24 28 32 36 ni classe [22 ;28[ 25 5 4 1 0 0 0 0 5 15 [28 ;34[ 31 4 5 8 6 3 2 1 0 29 [34 ;40[ 37 0 2 8 10 9 6 4 2 41 [40 ;46[ 43 1 2 6 8 10 8 6 2 43 [ 46;52[ 49 0 0 2 4 8 6 8 4 32 [ 52;58[ 55 0 0 1 7 10 10 8 4 40 n j 10 13 26 35 40 32 27 17 200 1-Que représente la colonne ni ?Quel est l’âge moyen et le salaire moyen des cadres de l’Ese? 2- Donnez les valeurs n 5 ; n4 ;n45 ; n. 3- Calculez et donnez les significations de f5 ; f 7 ; f24; f(i=3/j=4) ; f(j=3/i=4) 4- Dégagez la distribution conditionnelle de X selon le salaire mensuel variant entre 14000 et 18000 Dh. Calculez et explicitez la moyenne correspondante. 5- En dégageant la distribution conditionnelle de Y selon X=x4 ; calculez et explicitez la moyenne correspondante. Les deux variables sont indépendantes si et seulement si ni.n. j f ij = f i. f. j Û nij = n Deux variables quantitatives Cov ( X , Y ) r ( X ,Y ) = s ( X )s (Y ) Le rapport de corrélation k Varinter å f i. ( yi - y ) 2 hY / X = = i =1 p Vartot å j =1 f. j ( y j - y ) 2 Variance totale=Variance interclasse + Variance intra-classe k Varint raclasse = å f i.Vari ( y ) i =1 Variables Qualitatives H0= pas de lien entre les deux variables H1: il existe une liaison entre les variables (nij - n i j )* 2 ( fij - f i j ) * 2 c =å 2 * = Nå * i, j n ij i, j f ij ni.n. j nij* nij* = et f *ij = f i. f. j = N N Khi deux tabulé au niveau alpha et (p-1)(k-1) ddl 2-ANALYSE DE LA VARIANCE En analyse de la variance, nous cherchons à expliquer les variations d’une variable métrique Y par un ou plusieurs facteurs explicatifs nominaux. Le principe de l'analyse de variance consiste à tester l'égalité des moyennes de J populations normales dans lesquelles nous supposons que les variances sont égales. L’analyse de la variance permet de tester les hypothèses suivantes : ´ Ho: m1 = m2 =... = mJ ´ H1: au moins une des moyennes est différente des autres. Quand l'hypothèse de l'égalité des moyennes est rejetée, les méthodes de comparaisons multiples permettent de déterminer où se situent en réalité les différences importantes. A titre d’exemple, nous étudierons la satisfaction d’un cadre à l’égard d’une mesure de motivation selon les différentes caractéristiques de cette motivation (l’environnement du travail, la promotion, etc.). Analyse de la variance à un facteur Elle permet de traiter les différences de moyennes d’une variable dépendante quantitative Y lorsque la variable indépendante à plus de deux modalités. Ainsi, le rendement d’un cadre d’une entreprises peut il être expliqué par le diplôme. Le test est vérifié par le test F sous SPSS. Soit une population de 26 salariés d’une entreprise étudiée en fonction du rendement (Y) et du diplôme (X). Cette dernière a quatre modalités Techniciens sans qualification, Techniciens qualifiés, Techniciens spécialisés et Techniciens spécialisés supérieurs. Problème: Est-ce que ces salariés arrivent-ils à donner le même rendement malgré qu’ils possèdent des diplômes différents? Analyse de la variance à un facteur La réponse à cette question consiste donc à construire un test d’hypothèses. H0: le rendement moyen des différents groupes de salariés est le même, H1: le contraire de H0, autrement dit, le type du diplôme influence significativement le rendement des salariés de cette entreprise Il s’agit donc du test de l’analyse de la variance ANOVA (analysis of variance) à un facteur Analyse de la variance à un facteur Pour mener convenablement ce test deux conditions doivent être respectées: 1- Normalité de la variable dépendante Rendement 2- Homogénéité de la variance du rendement dans les différents groupes (test de Levene) (en cas d’hétérogénéité nous devrions utiliser la statistique corrigée de Welch, Brown-Forsythe) Analyse de la variance à un facteur La démarche ANOVA à un facteur sur SPSS -Saisir les données - Tester la normalité des données: Analyse, Stat Descr, Explorer, diagrammes de répartition gaussienne ou Analyse, tests non paramétriques à un échantillon - Tester l’homogénéité de la variance : Analyse, comparer les moyennes, ANOVA à un facteur, Post Hoc, Duncan, Tukey, Bonferroni au cas où la variance est homogène sinon le test de Brown-Forsythe, Welch qui seront activés. - Commentaires 45 Introduction: § Dans cet exposé, nous allons voir comment peut-on procéder à l’analyse ANOVA à 1 facteur entre des échantillons indépendants par le biais du logiciel SPSS et quels sont les résultats à mettre sur le rapport final ? Définition: § ANOVA est l’abréviation de ANalysis Of VAriance. L’ANOVA est une méthode d’analyse bivariée. C’est-à-dire le croisement de 2 variables de nature différente. L’analyse de variance, à un facteur (One way ANOVA), appelée ANOVA est une technique permettant de savoir si une variable dépendante Y (variable à expliquer) est en relation avec une seule variable indépendante X (variable explicative). En d’autres termes, inférer une relation ente X et Y. 46 Hypothèses: vL’hypothèse nulle: H0 : µ1 = µ2 = µ3 =µ... → Les moyennes de la population sont égales. vL’hypothèse alternative: H1 : µ1 ≠ µ2 ≠ µ3 ≠ µ… → Au moins une moyenne est différente. C’est-à-dire qu’au moins une moyenne n’est pas égale aux autres. 47 Qu’est ce que l’ANOVA? v Le rejet de H0 : signifie qu’il y a une grande probabilité qu’au moins il y a une différence entre les groupes. L’analyse Post Hoc est nécessaire pour nous indiquer où se situe la différence entre la ou les moyennes. v Exemple 1: Variable indépendante (qualitative): ü Niveau social (à 3 niveaux) - Classe supérieure - Classe moyenne - Classe inférieure Variable dépendante (quantitative): ü Satisfaction des services hôteliers 48 vExemple 2: § Variable indépendante (qualitative): ü Le niveau de formation - DEUG - Licence - Master Variable dépendante (quantitative): ü Le salaire 49 q La variable dépendante est une variable numérique ou quantitative. q La variable indépendante est appelée aussi facteur. C’est une variable catégorielle ( discrète, qualitative ou nominale). Exemple le sexe, statut professionnel. q On utilise l’ANOVA quand notre test d’analyse comporte plus de 2 groupes (variable indépendante ) et que la variable dépendante est quantitative. En termes plus simples, ANOVA vise à comparer des moyennes sur plusieurs échantillons afin de déterminer s'il existe des preuves que les moyennes des échantillons associées sont significativement différentes. q ANOVA est un test paramétrique ( la moyenne, l’écart-type). 50 Conditions d’utilisation: v Les groupes sont indépendants et aléatoirement tirés de leur population respective, il n’y a ni relation entre les observations à l’intérieur d’un groupe, ni relation entre les observations entre les groupes. v Il n'y a pas de relation entre les sujets ou mesures de chaque échantillon. Cela signifie que les sujets ou les mesures du 1er échantillon ne peuvent pas être aussi dans le 2ème échantillon ou le 3ème et ainsi de suite. v Les échantillons doivent suivent une loi normale, une normalité parfaite n’est pas exigée. vSi les échantillons de grande taille, une violation de la normalité peut donner des valeurs de signification assez précises. v Les données de la variable dépendante présentent des variances identiques (recours au test de Levene surtout si la taille des groupes n’est pas identique). Si le test est significatif sig. < 0,05 , on doit faire, donc, appel au test Brown-Forsythe ou le Welch Robust F.. v Lorsque la normalité, l’homogénéité des variances ne sont pas respectées, on peut utiliser le test non paramétrique de Kruskal-Wallis. 51 Démarche: q Identification du facteur (la variable indépendante) et on sélectionne les données. q Test de normalité. q Test d’homogénéité des variances. q On pose les hypothèses: § Ho= Les moyennes égales. § H1= Au moins une moyenne est différente des autres. 52 Logiciel SPSS 53 54 Question de recherche : Est-ce que les revenus des individus varient en fonction du niveau d’éducation ? Test d’hypothèse : L’hypothèse nulle H0 L’hypothèse alternative H1 ´ Les moyennes des revenus des différents ´ Au moins une moyenne des revenus des diplômés sont égales. différents diplômés n’est pas égales aux autres. Niveau Bac µ1 ´ µ1 ≠ µ2 ≠ µ3 ≠ µ4 Bac+2 µ2 ´ Ou µ1 ≠ µ2 Bac+3 µ3 ´ Ou µ2 ≠ µ3 ( µi ≠ µj ) Bac+5 µ4 ´ Ou µ3 ≠ µ4 Avec i , j = 1,2,3,4 ´ µ1 = µ2 = µ3 = µ4 ´ Ou µ1 ≠ µ3 ´ Ou µ1 ≠ µ4 ´ Ou µ2 ≠ µ4 55 Affichage des variables : — Niveau d’éducation est une variable indépendante (Qualitative). — Revenu est une variable dépendante (Quantitative). 56 Vérification de la condition de normalité : 57 On place : — La variable dépendante « Revenu », dans « Liste variables dépendantes » — La variable indépendante « Niveau d’éducation », dans « Liste des facteurs ». 58 Appuyer sur « Diagramme » Cocher: Graphe de répartition gaussien avec tests. 59 Significations qui sont globalement supérieurs à 0,05 L’hypothèse de normalité est confirmée. 60 Analyse d’ANOVA : Analyse Comparer les moyennes ANOVA 1 facteur 61 On place : — La variable dépendante « Revenu », dans « Liste variables dépendantes » — La variable indépendante « Niveau d’éducation », dans « Critère ». 62 Appuyer sur « Option » Cocher: Ø Caractéristiques : Statistiques descriptives Ø Test d’homogénéité de variance Ø Diagrammes des moyennes 63 Cliquer sur « Post Hoc » Cocher: Ø Bonferroni, Tukey et Duncan Ø Niveau de signification:0,05 64 Traitement des données et interprétations des résultats obtenus sous SPSS 65 1. Analyse descriptive : — Niveau bac (µ 1 =100250; N = 12) — Bac+2 (µ 2= 119500 ; N = 12) — Bac+3 (µ 3 = 108750 ; N = 12) — Bac+5 (µ 4 = 126750; N = 12) 66 2. Test d’homogénéité des variances: — Signification = 0,931 > 0,05 67 P La condition de normalité est vérifiée selon le test de Kolmogorov-Smirnov. P La condition d’homogénéité des variances est vérifiée selon le test de Levene. Analyse ANOVA 68 3. Tableau ANOVA : § Signification = 0,000 < 0,05 § F(3,44) = 10,628 § Les moyennes des revenus des différents § ddl (degré de liberté ) 3 et 44 Mesure de F diplômés sont différentes. =10,628 69 4. Test Post Hoc : — La différence des moyennes de chaque binôme est statiquement significative entre: « Niveau Bac et Bac+2 » , « Niveau Bac et Bac+5 » , « Bac+3 et Bac+5 ». ( Sig

Use Quizgecko on...
Browser
Browser