Synthèse Statistiques PDF 2021-2022
Document Details
Uploaded by Deleted User
UMONS
2021
UMONS
Lucy Beyens
Tags
Summary
This document is a synthesis of statistical analysis, including descriptive and inferential statistics, from a course at UMONS in 2021-2022. It examines data presentation, different types of data, and various statistical measures.
Full Transcript
Bases pour l'analyse statistique descriptive et inférentielle Lucy Beyens UMONS Cette synthèse a entièrement été rédigée 2021 - 2022 sur base du cours de Bases Pour l'Analyse Statistique Descripti...
Bases pour l'analyse statistique descriptive et inférentielle Lucy Beyens UMONS Cette synthèse a entièrement été rédigée 2021 - 2022 sur base du cours de Bases Pour l'Analyse Statistique Descriptive et Inférentielle 2021-22 donné par Mme. Bruyninckx. Lucy Beyens Synthèse : Statistiques Chapitre 1 : statistique descriptive (descriptive statistics) 1. Présenter et organiser les données recueillies 1.1. Tableau de données Le tableau de données permet d’organiser et de présenter les données simplement. 1.2. Ensembles et tableaux de données 1.2.1. Ensemble homogène (homogeneous population) Un ensemble homogène est un ensemble de données recueillies à l’occasion d’une seule prise de mesure. Ex. : Résultats des élèves d’une classe au test de math. 1.2.2. Ensemble hétérogène (heterogeneous population) Un ensemble hétérogène est un ensemble de données recueillies à l’occasion de deux prises de mesure parallèles. Les ensembles peuvent être : Indépendants Des groupes sont dits indépendants si, a priori, il n'y a aucune raison d'associer les données d’un groupe à celles de l’autre. Le nombre de données du premier groupe peut être différent de celui du second groupe. Ex. : Résultats des élèves de deux classes différentes au test de math. 1 Lucy Beyens Synthèse : Statistiques Appareillés Des groupes sont dits appareillés si on peut associer chaque donnée d'un groupe à une seule donnée d'un autre groupe. Le nombre de données du premier groupe doit être identique à celui du second groupe : on travaille avec des paires de données. Ex. : Résultats des élèves d’une classe au test de math et au test de français. Hybrides Les groupes sont hybrides s'ils possèdent certains éléments communs. Ce type d’ensemble ne se prête généralement pas aux traitements statistiques. 1.2.3. Effectifs L’effectif total (N) est égal au nombre de données. 1 groupe 2 groupes indépendants 2 groupes appareillés Nombre d’objets de mesure par groupe 𝑁 𝑁1𝑁2 𝑁𝑥𝑁𝑦 1.2.4. Données (data) Les données sont notées Xi. 1.3. Différents types de données Données métriques (numerical data) Les données métriques proviennent de mesures, ou de comptages, effectués sur les éléments de l'ensemble. Elles peuvent être : o Continues (sans interruption) ; o Discrètes (précises). Données non métriques (non numerical data) Les données non métriques proviennent d’un processus de classement ou de répartition. 2 Lucy Beyens Synthèse : Statistiques Elles peuvent être : Ordinales par rang C’est un classement individuel et ordonné. Chaque élément est caractérisé par un nombre correspondant à sa place dans le classement. Lorsque deux ou plusieurs valeurs sont identiques, leur rang est égal à la moyenne des rangs de ces valeurs. Ex. : Classement des élèves par ordre de tailles. Xi Rang 155 1 160 2 162 3.5 162 3.5 170 5 176 6 182 7 187 8 Ordinales par catégories Ce sont des données réparties en classes mutuellement exclusives et ordonnées. La caractérisation d'une catégorie se fait par le dénombrement de ses éléments (cet effectif est toujours un nombre entier). Les données ordinales peuvent également faire l’objet de présentations sous la forme de pourcentages. Ex. : Les tailles des poissons répartis en : « gros », « moyen » et « petit ». Nominales Ce sont des données réparties en classes mutuellement exclusives mais pas ordonnées, pas hiérarchisées. La caractérisation d'une catégorie se fait par le dénombrement de ses éléments (cet effectif est toujours un nombre entier). Les données nominales peuvent également faire l’objet de présentations sous la forme de pourcentages. Ex. : Les élèves d’une classe répartis en fonction de leur couleur de cheveux. 3 Lucy Beyens Synthèse : Statistiques Rappel Ordinales par rang Métriques Classes individuelles, hiérarchisées Données Ordinales par catégories Non métriques Classes mutuellement exclusives, hiérarchisées Nominales Classes mutuellement exclusives, pas hiérarchisées 1.4. Comment présenter les données ? Situation 1 : petits effectifs (N50) Lorsque l’effectif de l’échantillon augmente et que le nombre de valeurs possibles est supérieur à 20 ou 25, le groupement des données en classes métriques s'avère plus commode que la présentation sous la forme d'une suite ordonnée. Graphiquement, les données groupées en classes seront représentées par un histogramme : représentation graphique des données métriques groupées en classes, constituée d’un ensemble de rectangles. 1.5.1 Notions de base Domaine de la variable On appelle domaine de la variable, l’ensemble de toutes les données théoriquement observables. Ex. : Cotes de 0 à 10 (précision = 1). D.V. = {0,1,2,3,4,5,6,7,8,9,10} Etendue des données On appelle étendue des données, l'écart (donc, la différence) entre la plus grande et la plus petite valeur réellement observées. Ex. : 7 9 10 4 5 3 5 8 6 6 E.D. = 10 - 3 = 7 Nombre de valeurs possibles On appelle nombre de valeurs possibles, le nombre de valeurs différentes que peuvent prendre les données réelles à l'intérieur de l'étendue des données. Il peut être calculé comme suit : etendue des donnees +1 precision de la mesure 6 Lucy Beyens Synthèse : Statistiques 1.5.2. Représentation graphique des données métriques en classes Limites de classe On appelle limites de classe (lk) les valeurs extrêmes des données de chaque classe. Les limites de classes sont toujours des données de la distribution Bornes de classe On appelle borne de classe (Bk) la valeur située entre la limite supérieure d'une classe et la limite inférieure de la classe suivante. Centres de classe On appelle centre de classe (Ck) la valeur qui se situe au centre de la classe ; c’est la moyenne des deux bornes entre lesquelles il se trouve. Intervalle de classe L’intervalle de classe(ik) représente l’amplitude de chaque classe (c’est-à-dire Bs - Bi). Effectifs de classe On appelle effectif de classe (fk) le nombre de données comprises dans une classe. Proportions d’effectifs La proportion d’effectif (pk) d’une classe est égale à l’effectif de la classe divisé par l’effectif total : fk pk = N Ex. : Dans un auditoire de 200 étudiants, il y en a 60 dont la taille est comprise entre 1.70 m et 1.75 m. Quelle 60 proportion représentent ces étudiants ? pk = 200 =.30 = 30% Densités d’effectifs La densité d’effectif (yk) d’une classe est égale à la proportion d’effectif de la classe divisée par l’intervalle de celle-ci : pk yk = ik 7 Lucy Beyens Synthèse : Statistiques Présentation numérique des données groupées en classes Construction de l’histogramme L’histogramme est la représentation graphique des données groupées en classes. Il est constitué d’un ensemble de rectangles ayant comme base (sur l'axe d’abscisse), l'amplitude (notée ik) de la classe et comme hauteur (sur l’axe d’ordonnée) la densité d’effectifs (notée yk) de la classe. Rappel La présentation numérique et la représentation graphique dépend du type de données : Données non métriques o Ordinales par rang On attribue un nombre correspondant au rang de chaque donnée. Pas de représentation graphique. o Ordinales par catégories On procède au dénombrement des données dans chaque catégorie hiérarchisée et on calcule les proportions d’effectifs. La représentation graphique est hiérarchisée (rectangle). o Nominales On procède au dénombrement des données dans chaque catégorie et on calcule les proportions d’effectifs. La représentation graphique n’est pas hiérarchisée (disque). 8 Lucy Beyens Synthèse : Statistiques Données métriques o Données brutes Données présentées sans aucun souci d’ordonnancement. o Suite ordonnée Données présentées sous la forme d’une suite ordonnée par ordre croissant ou décroissant; chaque donnée est associée à un effectif. Représentation graphique “en bâtonnets”. o Données groupées en classe (N>50) Données groupées en classes métriques. Pour chacune des classes, on précise intervalle, bornes, limites, centres et effectifs. Leur représentation graphique est l’histogramme. Suite ordonnée (N 60, ce sera une note u. 4. Calculer les bornes de l’IC à partir de ces valeurs en les intégrant dans la formule générique : Bis = Paramètreest ± z × Sindice Ex. : 50 adolescents ont été interrogés par questionnaire sur leurs usages des médias sociaux. Les données récoltées ont permis de montrer qu’ils passaient en moyenne 73 minutes par jour sur ces réseaux (avec un écart type de 12 minutes). Les enquêteurs cherchent à généraliser cette moyenne à la population, avec 95% de chance d’avoir raison dans leur estimation. N=50 L=49 m = 73 σ = 12 m ̅ est = 73 12 Sm = = 1.71 √49 z = t = 2.02 Bi = 73 − 2.02 × 1.71 = 69.55 Bs = 73 + 2.02 × 1.71 = 76.45 Etant donné les caractéristiques de l’échantillon de départ, il y a 95% de chance que les adolescents passent en moyenne entre 69.55 et 76.45 minutes par jour sur les réseaux sociaux. La même enquête a été reproduite sur un échantillon de 500 adolescents. La moyenne vaut 78 pour un écart type de 17 minutes. On souhaite inférer à 95% sur la moyenne de la population. N=500 L=499 m = 78 σ = 17 m ̅ est = 78 17 Sm = =.76 √499 z = u = 1.96 Bi = 78 − 1.96 ×.76 = 76.51 Bs = 78 + 1.96 ×.76 = 79.49 Etant donné les caractéristiques de l’échantillon de départ, il y a 95% de chance que les adolescents passent en moyenne entre 76.51 et 79.49 minutes par jour sur les réseaux sociaux. 67 Lucy Beyens Synthèse : Statistiques Déterminer un intervalle de confiance autour d’un écart type 1. Déterminer le paramètre estimé de la distribution d’échantillonnage de l’écart type : N ̅est = σ × √ σ L 2. Déterminer l’erreur type sur l’indice de la distribution d’échantillonnage de l’écart type : σest ̅̅̅̅̅ Sσ = √2 × N 3. Déterminer la note z en fonction du taux de confiance accordé à l’IC (la probabilité) : comme on n’infère que sur les écarts types d’échantillons dont N > 100, ce sera toujours une note u. 4. Calculer les bornes de l’IC à partir de ces valeurs en les intégrant dans la formule générique : Bis = Paramètreest ± z × Sindice Ex. : On souhaite inférer à 98% sur l’écart type du temps passé quotidiennement sur les réseaux sociaux par les jeunes de la population francophone du pays. N=500 L=499 m = 78 σ = 17 500 ̅est = 17 × √ σ = 17.0170 499 17.0170 Sσ = =.5381 √2 × 500 z = u = 2.33 Bi = 17.0170 − 2.33 x.5381 = 15.7632 Bs = 17.0170 − 2.33 x.5381 = 15.7632 Etant donné les caractéristiques de l’échantillon de départ, il y a 98% de chance que l’écart type du temps passé quotidiennement sur les réseaux sociaux par les adolescents francophones du pays soit compris entre 15.76 et 18.27 minutes. 68 Lucy Beyens Synthèse : Statistiques Déterminer un intervalle de confiance autour d’une proportion 1. Déterminer le paramètre estimé de la distribution d’échantillonnage des proportions : p ̅ est = p 2. Déterminer l’erreur type sur l’indice de la distribution d’échantillonnage des proportions : √p × (1 − p) Sp = N 3. Déterminer la note z en fonction du taux de confiance accordé à l’IC (la probabilité) : comme on n’infère que sur les proportions d’échantillons dont N > 100, ce sera toujours une note u. 4. Calculer les bornes de l’IC à partir de ces valeurs en les intégrant dans la formule générique : Bis = Paramètreest ± z × Sindice Ex. : En sachant que dans un échantillon de 500 adolescents, 127 ont une consommation quotidienne des réseaux sociaux jugée nocive pour leur développement, on cherche à estimer, avec 90% de chance d’avoir raison, la proportion d’adolescents de la population potentiellement concernée par ce risque. N=500 L=499) p =.2540 p ̅ est =.2540 √. 2540 × (1 −.2540) Sp = =.0195 500 z = u = 1.645 Bi =.2540 − 1.645 x.0195 =.2219 Bs =.2540 + 1.645 x.0195 =.2861 Etant donné les caractéristiques de l’échantillon de départ, il y a 90% de chance qu’il y ait entre 22.19% et 28.61% des adolescents francophones du pays qui soient concernés par le risque lié à une consommation quotidienne abusive des réseaux sociaux. 69 Lucy Beyens Synthèse : Statistiques 3.3. Tests d’hypothèse (hypothesis testing) Les tests d’hypothèse permettent de déterminer si les variations observées entre les données sont dues au hasard ou à une cause systématiquement présente. Ce sont des méthodes qui permettent de comparer : o Un échantillon à une population connue (tests de conformité) ; o Deux ou plusieurs échantillons entre eux (tests d’homogénéité). 3.3.1. Tests de conformité (test of conformity) Les tests de conformité permettent de vérifier si un échantillon peut être considéré comme extrait d’une population donnée vis-à-vis d'un paramètre. 3.3.2. Tests d’homogénéité (test of homogeneity) Les tests d’homogénéité permettent de vérifier si plusieurs échantillons peuvent être considérés comme extraits d’une même population vis-à-vis d'un paramètre. 3.3.3. Principes En statistiques, un test d'hypothèse est une démarche consistant à rejeter ou à accepter une hypothèse statistique. 1. Poser une hypothèse (énoncé formulé au départ) 2. Application du test statistique Accepter (confirmer) l’hypothèse Rejeter (infirmer) l’hypothèse 3.3.4. Hypothèse nulle (null hypothesis) L’hypothèse de base en statistique est de considérer que les différences entre les indices statistiques que le test permet de comparer sont dues au hasard. Les indices comparés sont statistiquement semblables ; La différence entre ces valeurs est statistiquement nulle et due au hasard. Notation : H0 Formulations de l’hypothèse nulle : Selon que l’on applique un test de conformité ou un test d’homogénéité, la formulation de l’hypothèse nulle sera différente puisque les questions que l’on se pose avec ces deux types de tests ne sont pas les mêmes. Test de conformité L’échantillon est, par rapport à l’indice comparé, conforme à la population théorique considérée. Test d’homogénéité Les deux échantillons sont issus de populations identiques, à tout le moins en ce qui concerne l’indice comparé. 70 Lucy Beyens Synthèse : Statistiques 3.3.5. Intervalle de confiance (I.C.) (Confidence interval) Lorsqu’on interprète un test statistique, on obtient toujours deux probabilités complémentaires : o La probabilité que l’hypothèse nulle soit fausse c’est-à-dire la probabilité de rejeter l’hypothèse nulle P(RH0) ; o La probabilité que l’hypothèse nulle soit vraie c’est-à-dire la probabilité d’accepter l’hypothèse nulle P(AH0). Accepter H0 : o C’est confirmer l’hypothèse nulle posée au départ ; o C’est accepter que : - Les différences observées soient dues au hasard, soient statistiquement nulles, ne soient pas statistiquement significatives ; - L’échantillon soit extrait d’une population théorique considérée par un indice statistiquement égal et qu’il soit donc représentatif de cette population (test de conformité) ; - Les deux échantillons soient issus d’une même population quant à l’indice considéré (test d’homogénéité). Rejeter H0 : o C’est infirmer l’hypothèse nulle posée au départ ; o C’est accepter que : - Les différences observées ne soient pas dues au hasard mais bien à une cause systématiquement présente ; les différences ne soient pas statistiquement nulles, sont statistiquement significatives ; - L’échantillon ne soit pas extrait d’une population théorique considérée par un indice statistiquement égal et qu’il ne soit donc pas représentatif de cette population (test de conformité) ; - Les deux échantillons ne soient pas issus d’une même population quant à l’indice considéré (test d’homogénéité). Un intervalle de confiance autour d’un paramètre est une surface délimitée par une borne inférieure et une borne supérieure. La surface se trouvant à l’extérieur de ces deux bornes représente la probabilité notée α que l’hypothèse nulle soit vraie. C’est donc aussi la probabilité que les éléments comparés soient statistiquement égaux et que les différences existantes soient dues au hasard. La surface à l’intérieur de ces deux bornes représente la probabilité notée 1-α que l’hypothèse nulle soit fausse. C’est donc aussi la probabilité que les éléments comparés soient statistiquement différents et que les différences existantes soient dues à une cause systématiquement présente. 71 Lucy Beyens Synthèse : Statistiques 3.3.6. Test à deux issues (two-tailed test) Lorsqu'on ne peut pas spécifier une direction particulière pour l'hypothèse, on dit que le test est à deux issues. Dans ce cas, il n’y a aucune raison de penser que, si une différence existe, elle devrait avoir lieu dans un sens plutôt que dans l’autre. Le hasard (α) a deux issues : à gauche ou à droite. 72 Lucy Beyens Synthèse : Statistiques 3.3.7. Test à une issue (one-tailed test) Lorsqu'on peut spécifier une direction particulière pour l'hypothèse, on dit que le test est à une issue. Dans ce cas, on a toute raison de penser que, si une différence existe, elle devrait avoir lieu dans un sens déterminé. Le hasard (α) n’a qu’une issue : soit à gauche, soit à droite. 3.3.8. Transformer un résultat pour un test à 1 issue en un résultat pour un test à 2 issues Pour transformer un résultat pour un test à 1 issue en un résultat pour un test à 2 issues, il suffit de doubler la probabilité du hasard (α). 73 Lucy Beyens Synthèse : Statistiques 3.3.9. Transformer un résultat pour un test à 2 issues en un résultat pour un test à 1 issue Pour transformer un résultat pour un test à 2 issues en un résultat pour un test à 1 issue, il suffit de diviser par 2 la probabilité du hasard (α). 3.3.10. Comment décider si le résultat d’un test est globalement significatif ? (conventional levels of significance) Par convention, on considère généralement : 3.3.11. Le test F de Snedecor Le test F de Snedecor est un test statistique qui compare les variances de deux échantillons indépendants de données métriques. C’est donc un test d’homogénéité. L’hypothèse nulle (H0) peut être formulée de manières différentes : o Il n’y a pas de différence significative entre les variances des résultats des deux échantillons. o La différence entre les variances des résultats des deux échantillons est due à une cause aléatoire, au hasard. o Les deux échantillons sont statistiquement homogènes quant aux variances de leurs résultats. o Les deux échantillons proviennent d’une même population statistique quant aux variances de leurs résultats. Cette hypothèse nulle sera testée au moyen d’un rapport F à une issue. Dans chacun des deux échantillons, on calcule ̅̅̅̅̅̅ 2 σ1est et ̅̅̅̅̅̅ σ22est et selon les cas, on applique la formule du F appropriée. Ensuite, on interprète la valeur du F dans la table du F de Snedecor en utilisant les degrés de liberté approprié. 74 Lucy Beyens Synthèse : Statistiques En pratique Tester l’homogénéité des variances de deux échantillons indépendants 1. Déterminer les statistiques descriptives des échantillons (effectifs, moyennes, écarts types). 2. Poser l’hypothèse nulle sur la différence des variances (H0) : o Il n’y a pas de différence significative entre les variances des résultats des deux échantillons. o La différence entre les variances des résultats des deux échantillons est due à une cause aléatoire, au hasard. o Les deux échantillons sont statistiquement homogènes quant aux variances de leurs résultats. o Les deux échantillons proviennent d’une même population statistique quant aux variances de leurs résultats. 3. Déterminer la variance estimée de chaque échantillon : ̅̅̅̅̅ N σ2est = σ2 × L 4. Calculer le F de Snedecor : ̅̅̅̅̅̅ 2 σ1est F= 2 ̅̅̅̅̅̅ σ 2est Toujours avec la variance estimée la plus grande au numérateur. 5. Déterminer les degrés de liberté pour l’interprétation du F (L1 étant toujours calculé sur l’échantillon présentant la plus grande variance estimée) : L1 = N − 1 Et L2 = N − 1 6. Déterminer les valeurs critiques des IC du F grâce aux tables pour les valeurs de L1 et de L2 : o Par la ligne du haut, on entre dans la table par la valeur de L1 ; o Par la colonne de gauche, on entre dans la table par la valeur de L2 ; o À l’intersection, on trouve la valeur critique du F pour le taux de confiance. 7. Situer le F calculé entre ces valeurs et déterminer les valeurs d’α et de 1-α. 8. Interpréter le résultat du test en fonction de ces probabilités d’accepter et de rejeter H0. 9. Statuer sur la significativité de la différence entre les variances et conclure. Ex. : Deux groupes de sujets ont présenté la même épreuve, notée sur 20. Leurs résultats sont les suivants : N1 = 29 m1 = 15.80 σ1 = 2.74 N2 = 41 m2 = 14.75 σ2 = 2.81 Leurs résultats se dispersent-ils de manière homogène ? Formulation de l’hypothèse nulle : Il n’y a pas de différence significative entre les variances des résultats des deux échantillons. 75 Lucy Beyens Synthèse : Statistiques Application du test F de Snedecor : ̅̅̅̅̅̅ 2 29 σ1est = 2.742 × = 7.78 28 ̅̅̅̅̅̅ 41 σ22est = 2.812 × = 8.09 40 8.09 F= = 1.04 7.78 Détermination des degrés de liberté : L1 = 40 L2 = 29 Détermination des valeurs critiques dans les tables de Snedecor : Détermination des probabilités d’accepter et de rejeter l’H0 (en situant le F calculé parmi les IC) : (1-α) <.90 et α >.10 Il y a donc plus de 10% de chance d’AH0 et moins de 90% de chance de RH0. Le test est donc globalement non significatif (pas de différences entre les variances). Conclusion : Il y a plus de 10% de chance que la différence entre les variances des résultats des deux échantillons soit due à une cause aléatoire, que les échantillons proviennent d’une même population statistique. ET Il y a moins de 90% de chance que la différence entre les variances des résultats des deux échantillons soit due à une cause systématique, que les échantillons proviennent de populations statistiques différentes. On peut donc considérer que les variances des deux échantillons sont statistiquement égales et que les deux distributions se dispersent de manière homogène. 76 Lucy Beyens Synthèse : Statistiques 3.3.12. Le test t de Student pour échantillons indépendants Le test t de Student est un test statistique qui compare les moyennes de deux échantillons indépendants de données métriques. C’est donc un test d’homogénéité. L’hypothèse nulle (H0) peut être formulée de manières différentes : o Il n’y a pas de différence significative entre les moyennes des résultats des deux échantillons. o La différence entre les moyennes des résultats des deux échantillons est due à une cause aléatoire, au hasard. o Les deux échantillons sont statistiquement homogènes quant aux moyennes de leurs résultats. o Les deux échantillons proviennent d’une même population statistique quant aux moyennes de leurs résultats. Cette hypothèse nulle sera testée au moyen d’une statistique t dont la formule varie selon que le test F de Snedecor appliqué précédemment donne lieu à un résultat statistiquement significatif ou non. Ensuite, on interprète la valeur du F dans la table du t de Student en utilisant les degrés de liberté appropriés. La table du t de Student comporte une portion « à 1 issue » et une portion « à deux issues » qui seront utilisées selon le plan de la recherche. 77 Lucy Beyens Synthèse : Statistiques En pratique Tester l’homogénéité des moyennes de deux échantillons indépendants 1. Déterminer les statistiques descriptives des échantillons (effectifs, moyennes, écarts types). 2. Tester l’homogénéité des variances (test F de Snedecor). 3. Poser l’hypothèse nulle sur la différence des moyennes (H0) : o Il n’y a pas de différence significative entre les moyennes des résultats des deux échantillons. o La différence entre les moyennes des résultats des deux échantillons est due à une cause aléatoire, au hasard. o Les deux échantillons sont statistiquement homogènes quant aux moyennes de leurs résultats. o Les deux échantillons proviennent d’une même population statistique quant aux moyennes de leurs résultats. 4. Déterminer les variances estimées des deux échantillons : ̅̅̅̅̅ N σ2est = σ2 × L 5. Calculer le t de Student : m1 −m2 N1 ×σ21 +N2 ×σ22 F non significatif : t = N +N avec : 𝜎 𝑒𝑠𝑡 = √ ̅̅̅̅̅ N1 +N2 −2 σest √ 1 2 ̅̅̅̅̅̅ N1 ×N2 m1 −m2 F significatif : t = ̅̅̅̅̅̅̅̅̅ 2 ̅̅̅̅̅̅̅̅̅ 2 √σ1est +σ2est N1 N2 6. Déterminer le degré de liberté pour l’interprétation du t : F non significatif : L = N1 + N2 − 2 N1 +N2 −2 F significatif : L = 2 7. Déterminer les valeurs critiques des IC du t grâce à la table pour la valeur de L. https://web.microsoftstream.com/video/e94a01c3-4874-4b67-82ed- 06c2d05ae43c?referrer=https:%2F%2Fmoodle.umons.ac.be%2F 8. Situer le t calculé entre ces valeurs et déterminer les valeurs d’α et de 1-α (selon le nombre d’issues possibles du test). 9. Interpréter le résultat du test en fonction de ces probabilités d’accepter et de rejeter H0. 10. Statuer sur la significativité de la différence entre les moyennes et conclure. Ex. précédant : Deux groupes de sujets ont présenté la même épreuve, notée sur 20. Leurs résultats sont les suivants : N1 = 29 m1 = 15.80 σ1 = 2.74 N2 = 41 m2 = 14.75 σ2 = 2.81 Les deux groupes ont-ils des résultats moyens statistiquement égaux ? 78 Lucy Beyens Synthèse : Statistiques Formulation de l’hypothèse nulle : Il n’y a pas de différence significative entre les moyennes des résultats des deux échantillons. Application du test t de Student : 29 × 2.742 + 41 × 2.812 𝜎 𝑒𝑠𝑡 = √ ̅̅̅̅̅ = 2.82 29 + 41 − 2 15.80 − 14.75 t= 29 + 41 2.82 √29 × 41 Détermination du degré de liberté : L = 29 + 41 − 2 = 68 Détermination des valeurs critiques dans la table de Student : (Pour L = 60 dans la table ; à 2 issues : pas d’a priori sur le sens de la différence) Détermination des probabilités d’accepter et de rejeter l’H0 (en situant le t calculé parmi les IC) : (1-α) <.90 et α >.10 Il y a donc plus de 10% de chance d’AH0 et moins de 90% de chance de RH0. Le test est donc globalement non significatif (pas de différences entre les moyennes). Conclusion : Il y a plus de 10% de chance que la différence entre les moyennes des résultats des deux échantillons soit due à une cause aléatoire, que les échantillons proviennent d’une même population statistique. ET Il y a moins de 90% de chance que la différence entre les moyennes des résultats des deux échantillons soit due à une cause systématique, que les échantillons proviennent de populations statistiques différentes. On peut donc considérer que les moyennes des deux échantillons ne sont pas statistiquement différentes et que les échantillons sont homogènes quant à leurs moyennes. 79 Lucy Beyens Synthèse : Statistiques 3.3.13. Le test t de Student pour échantillons appareillés Le test t de Student est un test statistique qui compare les moyennes de deux échantillons appareillés de données métriques. C’est donc un test d’homogénéité. Ex. : Résultats d’un prétest comparés avec les résultats d’un post-test. L’hypothèse nulle (H0) peut être formulée de manières différentes : o Il n’y a pas de différence significative entre les moyennes des résultats des deux échantillons. o La différence entre les moyennes des résultats des deux échantillons est due à une cause aléatoire, au hasard. o Les deux échantillons sont statistiquement homogènes quant aux moyennes de leurs résultats. o Les deux échantillons proviennent d’une même population statistique quant aux moyennes de leurs résultats. Cette hypothèse nulle sera testée au moyen d’une statistique t. Ensuite, on interprète la valeur du F dans la table du t de Student en utilisant les degrés de liberté appropriés. La table du t de Student comporte une portion « à 1 issue » et une portion « à deux issues » qui seront utilisées selon le plan de la recherche. 80 Lucy Beyens Synthèse : Statistiques En pratique Tester l’homogénéité des moyennes de deux échantillons appareillés 1. Pour chaque sujet, calculer la différence entre ses deux mesures individuelles (toujours dans le même sens). 2. Calculer la moyenne (mD) et l’écart type (σD) de la distribution de ces différences. 3. Poser l’hypothèse nulle sur la différence des moyennes (H0) : o Il n’y a pas de différence significative entre les moyennes des résultats des deux échantillons. o La différence entre les moyennes des résultats des deux échantillons est due à une cause aléatoire, au hasard. o Les deux échantillons sont statistiquement homogènes quant aux moyennes de leurs résultats. o Les deux échantillons proviennent d’une même population statistique quant aux moyennes de leurs résultats. 4. Calculer le t de Student : mD t= 1 σD × √N − 1 5. Déterminer le degré de liberté pour l’interprétation du t : L= N−1 6. Déterminer les valeurs critiques des IC du t grâce à la table pour la valeur de L. https://web.microsoftstream.com/video/e94a01c3-4874-4b67-82ed- 06c2d05ae43c?referrer=https:%2F%2Fmoodle.umons.ac.be%2F 7. Situer le t calculé entre ces valeurs et déterminer les valeurs d’α et de 1-α (selon le nombre d’issues possibles du test). 8. Interpréter le résultat du test en fonction de ces probabilités d’accepter et de rejeter H0. 9. Statuer sur la significativité de la différence entre les moyennes et conclure. Ex. : 170 sujets ont participé à une formation sur la mise en œuvre de méthodes pédagogiques basées sur les technologies. Ils ont passé deux épreuves de connaissances, notées sur 100, pour vérifier si elles ont évolué grâce à la formation. La moyenne et l’écart type des évolutions individuelles ont été calculées : N = 170 mD = 1.37 σD = 9.93 Formulation de l’hypothèse nulle : Il n’y a pas de différence significative entre les moyennes des sujets aux deux épreuves. Application du test t de Student : 1.37 t= = 1.79 1 9.93 × √170 − 1 81 Lucy Beyens Synthèse : Statistiques Détermination du degré de liberté : L = 170 − 1 = 169 Détermination des valeurs critiques dans la table de Student : (Pour L = 120 dans la table ; à 1 issue : on peut justifier un a priori sur le sens de la différence, on peut en effet s’attendre à ce que la formation ait amélioré le niveau de connaissances des sujets) Détermination des probabilités d’accepter et de rejeter l’H0 (en situant le t calculé parmi les IC) : (1-α) >.95 et α <.05 Il y a donc moins de 5% de chance d’AH0 et plus de 95% de chance de RH0. Le test est donc significatif à α.05 (les moyennes sont statistiquement différentes). Conclusion : Il y a moins de 5% de chance que les moyennes des résultats des sujets aux deux épreuves soient statistiquement égales, que les échantillons soient homogènes quant à leurs résultats moyens, que la différence entre les moyennes soit due à une cause aléatoire. ET Il y a plus de 95% de chance que les moyennes des résultats des sujets aux deux épreuves soient statistiquement différentes, que les échantillons soient hétérogènes quant à leurs résultats moyens, que la différence entre les moyennes soit due à une cause systématique. On peut donc considérer que les résultats moyens aux épreuves sont statistiquement différents et que la formation a eu un effet significatif sur le niveau de connaissances des sujets. 82 Lucy Beyens Synthèse : Statistiques 3.3.14. Le test t de conformité Le test t de Student de conformité est un test statistique qui compare la moyenne d’un échantillon de données métriques avec celle d’une population théorique donnée. C’est donc un test de conformité. L’hypothèse nulle peut être formulée comme suit : o L’échantillon est conforme à la population, à tout le moins en ce qui concerne leur moyenne. Cette hypothèse nulle sera testée au moyen d’une statistique t. Ensuite, on interprète la valeur du F dans la table du t de Student en utilisant les degrés de liberté appropriés. La table du t de Student comporte une portion « à 1 issue » et une portion « à deux issues » qui seront utilisées selon le plan de la recherche. 83 Lucy Beyens Synthèse : Statistiques En pratique Tester la conformité de la moyenne d’un échantillon à celle d’une population 1. Déterminer les statistiques descriptives de l’échantillon (effectif, moyenne, écart type). 2. Poser l’hypothèse nulle sur la différence des moyennes (H0) : o L’échantillon est conforme à la population, à tout le moins en ce qui concerne leur moyenne. 3. Calculer l’erreur type sur la moyenne : σ Sm = √L 4. Calculer le t de Student (avec A, la moyenne de la population) : m−A t= Sm 5. Déterminer le degré de liberté pour l’interprétation du t : L =N−1 6. Déterminer les valeurs critiques des IC du t grâce à la table pour la valeur de L. 7. Situer le t calculé entre ces valeurs et déterminer les valeurs d’α et de 1-α (selon le nombre d’issues possibles du test). 8. Interpréter le résultat du test en fonction de ces probabilités d’accepter et de rejeter H0. 9. Statuer sur la significativité de la différence entre les moyennes et conclure. Ex. : 25 enfants aient passé un test de performance visuo-spatiale (dont on sait que le résultat moyen pour la population des enfants du même âge vaut 83). Leurs résultats sont les suivants : N = 25 m = 78.5 σ = 9.76 A = 83 Peut-on considérer que les enfants de l’échantillon présentent des performances moyennes conformes à celles de la population ? Formulation de l’hypothèse nulle : Il n’y a pas de différence significative entre le résultat moyen des enfants de l’échantillon au test de performance visuo-spatiale et celle de la population. Application du test t de Student : 9.76 Sm = = 1.99 √24 78.5 − A t= = 2.26 1.99 84 Lucy Beyens Synthèse : Statistiques Détermination du degré de liberté : L = 25 − 1 = 24 Détermination des valeurs critiques dans la table de Student : (A 2 issues : pas d’a priori sur le sens de la différence) Détermination des probabilités d’accepter et de rejeter l’H0 (en situant le t calculé parmi les IC) : (1-α) >.95 et α <.05 Il y a donc moins de 5% de chance d’AH0 et plus de 95% de chance de RH0. Le test est donc significatif à α.05 (les moyennes sont significativement différentes). Conclusion : Il y a moins de 5% de chance que la différence entre le résultat moyen des enfants de l’échantillon au test de performance visuo-spatiale et celui de la population soit due à une cause aléatoire, que l’échantillon soit conforme à la population quant à sa moyenne. ET Il y a plus de 95% de chance que la différence entre le résultat moyen des enfants de l’échantillon au test de performance visuo-spatiale et celui de la population soit due à une cause systématique, que l’échantillon ne soit pas conforme à la population quant à sa moyenne. On peut donc considérer que le résultat moyen des enfants de l’échantillon au test de performance visuo-spatiale est statistiquement différent de celui de la population et que l’échantillon ne lui est donc pas conforme. Les enfants de l’échantillon présentent un résultat moyen significativement inférieur à celui de la population. 85 Lucy Beyens Synthèse : Statistiques Crois en toi, personne ne le fera à ta place ! « Croire en soi est la première étape pour atteindre un objectif. » Will Smith Chanson avec laquelle j’ai clôturé cette synthèse : https://www.youtube.com/watch?v=Fi33qkv4Bjw 86