Document Details

BriskKazoo9341

Uploaded by BriskKazoo9341

Université de Montréal

Tags

test t statistiques statistiques descriptives analyse de données

Summary

Ce document présente un chapitre sur le test t en statistique. Il décrit les concepts fondamentaux, telles les différentes utilisations et les étapes du test t. Il aborde aussi l'origine du test t, en lien avec les travaux de W.S. Gosset. Il donne des informations sur l'utilisation du test, ainsi qu'un résumé des différentes façons pour le mener.

Full Transcript

292  S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S Le test t pour des données pairées...................................................... 316 Les degrés de liberté dans le test t pour échantillons pairés...... 318 Une...

292  S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S Le test t pour des données pairées...................................................... 316 Les degrés de liberté dans le test t pour échantillons pairés...... 318 Une illustration du test t pour échantillons pairés...................... 318 Sommaire des étapes pour réaliser un test t...................................... 319 Rédiger une interprétation des données............................................ 320 Sommaire du chapitre........................................................................... 321 Exercices de compréhension................................................................ 322 CHAPITRE 10 UNE OU DEUX POPULATIONS ? LE TEST t Le test t — comme le test z décrit au chapitre 9 ou celui qui sera décrit dans le prochain chapitre (l’ANOVA) — est un test statistique qui permet de déduire, avec un risque d’erreur connu, si deux échantillons sont statisti- quement différents, c’est-à-dire s’ils proviennent d’une seule population ou de deux. La grande différence entre le test t et les autres est que celui-ci est optimisé pour fournir des inférences valides pour des échantillons de petite taille. Bien que le test t soit utilisé principalement pour comparer deux petits groupes, il peut aussi être utilisé pour déterminer si un échantillon unique n’appartient pas à une population connue ou si le même groupe d’informateurs produit des résultats différents sur deux mesures différen- tes et/ou si le même groupe d’informateurs fournit une réponse moyenne différente sur la même variable lorsque celle-ci est administrée à deux moments différents. Dans son utilisation principale, le principe du test t se comprend assez facilement. On calcule la différence entre la moyenne des deux échantillons que l’on va comparer à la différence typique à laquelle on peut s’attendre de deux échantillons tirés aléatoirement d’une population. Si la différence entre les deux moyennes est plus grande que la différence typique, on conclut, avec une probabilité d’erreur connue, que les deux échantillons sont extraits de populations différentes : la différence est statistiquement significative. Si la différence entre les deux moyennes n’est pas plus grande que la différence typique entre deux échantillons tirés de la même population, 294  S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S nous concluons qu’il n’y a pas de preuves voulant que les deux échantillons n’appartiennent pas à la même population. La différence n’est pas statisti- quement significative. William S. Gosset, la statistique et la bière Nous devons la statistique t et le test t, indirectement, à la bière ! Au début du xxe siè- cle, William S. Gosset, chimiste et mathématicien employé par la brasserie britannique Guinness, prit congé de son employeur pour entrer, à titre d’étudiant, au laboratoire de Karl Pearson — le même Pearson qui nous a donné le coefficient de corrélation. Gosset décida de se pencher sur un problème pratique et théorique qui préoccupait les statis- ticiens, ainsi que les brasseurs, de l’époque. Les caractéristiques de la distribution normale étaient fort bien connues et les spé- cialistes savaient s’en servir pour tirer des inférences. Mais était-il possible de se servir de cette distribution normale pour tirer des inférences alors que les échantillons étaient de petite taille ? Après tout, le théorème de la limite centrale (chapitre 9) indique que la distribution des échantillons s’approche de la normalité, mais seulement lorsque le nombre d’observations dans les échantillons est assez grand (N ≥ 30). Les systèmes de production de denrées alimentaires (y compris la bière) sont sou- mis à des contrôles de qualité. Des échantillons du produit sont aléatoirement choisis et analysés afin de tirer une inférence au sujet de la chaîne de production. Donne-t-elle un produit qui est conforme aux exigences de qualité et de pureté ? Ces analyses étant complexes et coûteuses, elles n’étaient appliquées que sur de petits échantillons (seu- lement quelques bouteilles de Guinness). Il fallait donc tirer une inférence au sujet de la population (la chaîne de production de la bière) à partir d’un très petit échantillon (quelques bouteilles de Guinness). C’est Gosset, le chimiste-brasseur-mathématicien, qui réussit le premier à résoudre le problème de l’inférence à partir d’un petit échan- tillon. Sa contribution : la statistique t, la distribution t et le test t. POURQUOI UN « PETIT » ÉCHANTILLON ? Les statisticiens préfèrent utiliser de grands échantillons plutôt que des petits. Les grands échantillons sont en effet plus aptes à nous renseigner sur la moyenne de la population, car l’erreur type de la moyenne est plus petite lorsque le nombre d’observations est plus grand. Des simulations montrent que, lorsque les échantillons contiennent au moins une trentaine d’obser- vations, la distribution de la moyenne de ces échantillons commence à ressembler à la distribution normale. Ainsi, les statisticiens considèrent un échantillon « petit » lorsqu’il est composé de moins de 30 observations et « grand » lorsqu’il en contient plus. UNE OU DEUX POPULATIONS ? LE TEST T  295 Naturellement, ce critère est approximatif. Pour certaines populations, celles qui sont très symétriques, l’approximation à la distribution normale se fera avec des échantillons comprenant moins de 30 observations. À l’in- verse, lorsque la population est très asymétrique (tels les salaires des joueurs de la NHL), seuls les échantillons contenant plus (et parfois beaucoup plus) de 30 observations conduiront à une approximation raisonnable de la dis- tribution normale. L’erreur type de la moyenne et les petits échantillons On se souvient (voir le chapitre 9) que le calcul de l’erreur type de la moyenne (σM) permet de positionner la moyenne de l’échantillon par rap- port à la moyenne de la population. Grâce à cette statistique, il est possible de calculer un intervalle de confiance qui, à son tour, est utilisé pour réali- ser une inférence au sujet de la signification statistique. L’erreur type de la moyenne se définit par le rapport entre l’écart-type de la population (σ) et le nombre d’observations N dans l’échantillon − (σM = σ/√N ). Puisque nous connaissons rarement l’écart-type de la popu- lation, cette formule est inutile en pratique. Mais comme nous l’avons vu au chapitre 9, nous pouvons estimer l’écart-type de la population à partir − de l’écart-type de l’échantillon (sM = s/√N ). Le théorème de la limite cen- trale (chapitre 9), quant à lui, indique que l’approximation de l’écart-type de la population sera bonne à condition que le nombre d’observations N soit grand (N ≥ 30). Qu’arrive-t-il lorsque les échantillons sont petits ? La distribution de ces moyennes est-elle la même que la distribution Z ? W. S. Gosset eut l’idée lumineuse (et la persistance) d’établir empiriquement la forme de la distri- bution des moyennes pour les petits échantillons. Gosset construit une population normale d’observations et il calcule la moyenne de cette population (μ). Utilisant la procédure d’échantillonnage avec remise (voir l’encadré), il tire de cette population plusieurs centaines d’échantillons ayant la même petite taille (par exemple N = 2). Pour cha- cun de ces petits échantillons, il calcule sa moyenne (Mi) qu’il compare à la moyenne (connue) de la population (Mi – μ). Puisque les échantillons sont tous extraits de la même population, nous nous attendons à ce que la 296  S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S différence entre leurs moyennes et la moyenne de la population soit égale à zéro. Mais à cause de l’erreur d’échantillonnage, nous savons que cela ne sera pas le cas. Il calcule, alors, pour chaque échantillon, l’erreur type de la − moyenne (sM = s/√N ). La sélection aléatoire avec ou sans remise Supposons que nous avons une population comprenant cinq familles (A à E) de laquelle nous tirons des échantillons aléatoires de deux familles. Quelle chance la famille A a-t-elle d’être choisie dans le premier échantillon ? Puisque nous avons cinq familles, la probabilité pour n’importe quelle famille d’être choisie est de 1/5, p = 0,20. Mais selon quelle probabilité la famille B sera-t-elle choisie dans ce même échantillon ? Puisqu’il ne reste que quatre familles dans la population, cette probabilité est de 1/4, p = 0,25. La probabilité d’être choisi n’est pas la même pour les deux membres de cet échan- tillon. Cette inégalité dans les chances d’être choisi viole un principe fondamental de la sélection aléatoire (voir le chapitre 8). On nomme échantillonnage sans remise cette procédure d’échantillonnage. Pour pallier cette difficulté, on a créé la procédure de sélection aléatoire avec remise. Son but est d’égaliser les chances d’inclusion dans un échantillon de tous les membres d’une population. À la suite de chaque tirage au sort, l’observation choisie est replacée dans la population la rendant admissible pour le prochain tirage. La sélection aléatoire avec remise donne à chaque membre de la population une chance d’être choisi qui est exactement égale. En pratique, on utilise rarement la sélection aléatoire avec remise parce qu’elle n’est pas nécessaire. Nous travaillons généralement avec des populations de très grande taille (des millions d’observations potentielles). Le biais de sélection que la pro- cédure de sélection aléatoire sans remise occasionne est, par conséquent, négligeable. Mais lorsque l’on travaille avec de petites populations (par exemple les patients atteints d’une maladie très rare), l’échantillonnage avec remise est obligatoire. Ces deux informations — a) la différence entre la moyenne de chaque échantillon et la moyenne de la population (Mi – μ) et b) l’erreur type de − la moyenne (s/√N ) — sont divisées pour produire la statistique t décrite par la Formule 10.1 M–μ t = -------------- Formule 10.1 s/ N Nous voyons alors que la statistique t décrit la distance qui existe entre la moyenne d’un échantillon et la moyenne de la population (M – μ) par rapport à la différence typique (l’erreur type de la moyenne). Gosset construit une distribution des statistiques t obtenues sur les innombrables échantillons de même taille (N = 2, N = 3, etc.). Empirique- UNE OU DEUX POPULATIONS ? LE TEST T  297 ment, il découvre que cette distribution prend la forme générale d’une dis- tribution unimodale (où les trois mesures de tendance centrale coïncident ; voir le chapitre 5). Mais les extrémités de la distribution des valeurs t ne sont pas les mêmes que celles de la distribution normale : la proportion des valeurs t plus extrêmes est plus grande que celle à laquelle nous pourrions nous attendre si la distribution des valeurs t suivait la distribution normale standardisée (Z). La Figure 10.1 représente le graphe des polygones décri- vant la distribution normale et la distribution de la statistique t. figure 10.1 Distribution normale et distribution de la statistique t Distribution t Distribution normale (z) −3 −2 −1 0 1 2 3 Gosset répète ce processus d’échantillonnage en augmentant le nombre d’observations systématiquement (N = 3, N = 4, N = 30, etc.). Pour cha- que série d’échantillons de même taille, il calcule la statistique t et établit pour chacune la distribution de ces statistiques t. En comparant les divers polygones des fréquences de la statistique t, il constate que la forme exacte de la distribution de la statistique t varie en fonction de la taille de l’échan- tillon. Lorsque le nombre d’observations est petit, la distribution t s’éloigne de la distribution normale Z. À l’inverse, lorsque les échantillons sont de grande taille, la distribution t est plus similaire à la distribution Z, et avec un nombre infini d’observations, les distributions Z et t sont parfaitement identiques. L’intervalle de confiance pour les petits échantillons On se souvient (voir chapitre 9) que l’intervalle de confiance est déterminé par la densité des observations sous la courbe normale (Z) et par l’erreur type de la moyenne (σM) que nous estimons avec sM. La formule finale pour 298  S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S le calcul de l’intervalle de confiance est μ ± Z × σM. Nous utilisons la sta- tistique Z parce qu’elle nous indique la proportion des échantillons qui se trouvent entre n’importe quelle valeur et la moyenne de la population. Par exemple, nous savons que 95 % des échantillons tirés d’une distribution normale se situent à une distance Z = ±1,96 de la moyenne de la popula- tion. Ceci découle directement du théorème de la limite centrale. Le travail de Gosset indique que la distribution des moyennes des petits échantillons par rapport à la moyenne de la population est décrite avec plus de précision par la distribution t. Le calcul d’un intervalle de confiance pour les petits échantillons ne peut pas, par conséquent, suivre la forme habituelle : μ ± Z × σM puisque la distribution Z n’est pas la distribution qui décrit le mieux la forme de la distribution pour les petits échantillons. Il faudrait plutôt faire appel à la distribution de la statistique t. La Formule 10.2 décrit la forme qui est appropriée lorsque l’intervalle de confiance est construit sur de petits échantillons. Pour calculer cet intervalle de confiance, il faut trouver une valeur t qui inclut 95 % des échantillons extraits de la même population. Similaire- ment, pour avoir plus de certitude dans notre conclusion, nous pouvons trouver une valeur t qui recoupe 99 % des échantillons, c’est-à-dire choisir un seuil α = 0,01 (voir le chapitre 9). Nous allons appeler cette valeur le tcritique (certains statisticiens préfèrent le terme t [dl] et nous utilisons ici ces deux termes de façon interchangeable). Mais il y a un problème : les valeurs tcritiques dépendent de la taille de l’échantillon (en revanche, la valeur critique Z ne dépend pas de N). Comme nous le verrons plus loin, les valeurs tcritiques sont déjà établies pour toutes les tailles des échantillons entre N = 3 et environ N = 1201. Elles sont reproduites dans le tableau des valeurs critiques de t dans l’Annexe. Nous verrons plus loin comment lire et interpréter ce tableau. Présumons pour l’instant que la valeur tcritique est trouvée. Une fois cette valeur tcritique trouvée, nous pouvons alors utiliser la For- mule 10.2 pour calculer l’intervalle de confiance autour de la moyenne de n’importe quel échantillon 1. Le tableau des valeurs critiques de t va jusqu’à N = 120 parce que, pour les échan- tillons de plus grande taille, la distribution t devient quasi identique à la distribution Z. Il n’est donc plus nécessaire de s’en servir. UNE OU DEUX POPULATIONS ? LE TEST T  299 μ ± tcritique × sM Formule 10.2 où tcritique est une valeur qui définit la proportion des valeurs t qui inclut 95 % (ou 99 %) des valeurs t de la distribution. Cette formule d’intervalle de confiance pour les petits groupes est iden- tique à celle utilisée pour les grands groupes, sauf que la valeur critique se trouve à partir de la distribution t plutôt qu’à partir de la distribution Z. Le calcul de cet intervalle de confiance nécessite le calcul de l’erreur type de la − moyenne (sM = s/√N ), où s est l’écart-type de l’échantillon. Il faut donc cal- culer l’écart-type de l’échantillon (s) que nous divisons par la racine carrée du nombre d’observations. Il faut aussi connaître la valeur critique de t que nous trouvons dans un tableau (voir l’Annexe). Il faut maintenant appren- dre à lire le tableau des valeurs critiques de t. Le tableau des valeurs critiques de t Le tableau des valeurs critiques de t se trouve dans l’Annexe A.2 et le Tableau 10.2 (p. 314) en présente un extrait. Ce tableau est composé de ran- gées et de colonnes. Chaque rangée définit le nombre de degrés de liberté dans l’échantillon. Le nombre de degrés de liberté pour chaque échantillon est donné par N – 1 : le calcul de l’erreur type dépend de l’écart-type de l’échantillon. L’écart-type, à son tour, est calculé en fonction du nombre de degrés de liberté, N – 1. Si on a six observations dans un échantillon, il contient donc cinq degrés de liberté. Pour trouver le tcritique requis pour l’établissement de l’intervalle de confiance, il faut préalablement calculer le nombre de degrés de liberté, N – 1. Nous trouvons alors la rangée du tableau des valeurs critiques de t qui cor- respond au nombre de degrés de liberté dans l’échantillon du Tableau 10.2. Il faut ensuite déterminer un seuil α approprié. Désirons-nous produire un intervalle de confiance doté de bornes étroites ou larges ? Tout comme nous l’avons étudié au chapitre 9, si nous désirons réduire le risque d’une erreur alpha, nous choisissons un seuil α très petit (p < 0,01) plutôt qu’un seuil plus grand (p < 0,05). Les colonnes du tableau des valeurs critiques identifient le seuil alpha désiré. La valeur critique de t est la valeur qui est inscrite dans le tableau à l’in- tersection de la rangée qui correspond au degré de liberté et de la colonne 300  S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S qui correspond au seuil alpha désiré. Par exemple, si nous avons un échan- tillon composé de 7 personnes, les degrés de liberté sont N – 1 = 6, et pour un seuil de α = 0,05, la valeur tcritique = 2,447. Quiz rapide 10.1 Trouvez dans le tableau des valeurs critiques de t (dans l’Annexe) la valeur critique α = 0,05 et 0,01 pour un échantillon contenant un total de 12 observations. L’idée à retenir est que la distribution des moyennes des petits échan- tillons s’apparentant à une distribution t n’est pas la même que celle pro- duite par des grands échantillons, qui, elle, est la distribution Z. À partir de ces considérations, il est possible d’expliquer l’utilisation de la statistique t dans trois applications distinctes. Le test t pour un seul échantillon Cette version du test t est utilisée pour déterminer si un petit échantillon est différent de la moyenne hypothétique de la population lorsque la variance de la population est inconnue (l’échantillon appartient-il à cette popula- tion X ?). Par exemple, une nouvelle marque de voiture a-t-elle le degré de consommation de carburant que prétend le manufacturier ? Le test t pour deux échantillons indépendants Cette version sert à déterminer si deux petits échantillons ont des moyennes différentes, c’est-à-dire s’ils appartiennent à deux populations différentes. Par exemple, une technique chirurgicale est-elle plus efficace qu’une autre ? Le test t pour deux échantillons non indépendants, ou le test t pour les données jumelées Pour déterminer si le même petit échantillon diffère sur deux variables. Cette dernière application est très utile lorsqu’il s’agit d’évaluer le change- ment. Par exemple, la compréhension de la statistique dans un cours s’est- elle améliorée à la suite d’un premier examen ? UNE OU DEUX POPULATIONS ? LE TEST T  301 LE TEST T POUR UN ÉCHANTILLON Le test t sur un seul échantillon est utilisé afin de déterminer si un échan- tillon provient ou non d’une population dont on croit connaître la moyenne, mais pas la variance. Il consiste à établir un intervalle de confiance (par exemple à 95 %) autour de la moyenne de la population. Si la moyenne de l’échantillon tombe à l’intérieur des bornes de cet intervalle de confiance, on n’aura pas de raison de conclure que cet échantillon n’appartient pas à la population. Mais si la moyenne de l’échantillon tombe à l’extérieur de l’intervalle, on aura alors de bonnes raisons de croire que l’échantillon n’appartient pas à cette population. Supposons que, dans une grande manufacture de circuits électroniques, l’employé moyen monte 100 circuits par jour. Nous pouvons dire que la moyenne de productivité de cette population est μ = 100. Un cadre met sur pied un programme de formation qui vise à accroître la productivité. Vingt-cinq employés tirés au hasard participent à ce programme. On mesure ensuite la productivité de ce groupe d’employés et on trouve qu’en moyenne ces N = 25 employés produisent M = 107 circuits par jour et que l’écart-type de son échantillon s = 15. Ce programme de formation amé- liore-t-il la productivité ? Formalisons le jeu d’hypothèses. Nous postulons (H) que la productivité des employés qui ont reçu la formation n’est pas la même que celle des employés en général. L’hypothèse nulle (H0) est que leur productivité est en réalité la même que celle de la population. H0 : μ = 100 H : μ ≠ 100 Pour que ce programme soit jugé efficace, il faut démontrer qu’il est peu probable d’avoir une productivité de 107 circuits dans un échantillon, alors que la population en produit en moyenne 100. Il faut donc établir un inter- valle de confiance en se servant de la Formule 10.2. Nous choisissons un seuil de signification α de 0,05. Le test est de la forme : Rejet de H0 si M n’est pas inclus dans μ ± tcritique × sM. Il faut préciser les degrés de liberté. Ici, nous avons dû calculer l’écart- type de l’échantillon où toutes les données sauf une sont libres. Nous avons 302  S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S donc N – 1 degrés de liberté, où N est le nombre d’observations. Pour N = 25, les degrés de liberté sont 24. Notre échantillon contient N = 25 observations, sa productivité moyenne est M = 107 et l’écart-type de cette productivité est s = 15. Nous pouvons maintenant calculer l’intervalle de confiance et tester notre hypothèse. − a) Calculer sM = s/√N = 15 / 5 = 3. b) Chercher dans la table t la valeur du tcritique. Les degrés de liberté étant N – 1 = 24, nous trouvons dans le tableau des valeurs critiques de t, la valeur tcritique = 2,06 à l’intersection de 24 degrés de liberté et de la colonne α = 0,05. Le test est donc : Rejet de H0 si 107 n’est pas inclus dans 100 ± 2,06 × 3,00 = 100 ± 6,18 = 93,82 à 106,18. Quatre-vingt-quinze pour cent des échantillons de 25 travailleurs aléatoi- rement extraits de cette population auraient une productivité moyenne variant entre 93,8 et 106,2 circuits électroniques. Notre échantillon de per- sonnes formées produit, en moyenne, 107 circuits, un degré de produc- tivité qui n’est pas inclus dans l’intervalle de confiance. Par conséquent, nous rejetons H0 et concluons que la productivité de cet échantillon n’ap- partient pas à la distribution de productivité de la population générale de travailleurs de cette entreprise. Dans ce cas, nous concluons que le pro- gramme de formation est efficace (il résulte en un degré de productivité plus grand que celui de la population de travailleurs qui n’ont pas reçu de formation). Lorsque les observations qui appartiennent à un échantillon ne peuvent pas appartenir à un autre, on dit que les échantillons sont indépendants. Le test t utilisé dans ces conditions est appelé le test t pour deux échantillons indépendants. Par contre, dans certaines études, les mesures sont prises sur les mêmes individus. Ces études sont particulièrement utiles lorsqu’il s’agit d’évaluer le changement. Par exemple, les symptômes de maladie sont-ils aussi fréquents avant qu’après un traitement médical ? Le test t que l’on uti- lise prend alors le nom de test t pour échantillons pairés ou jumellés, aussi appelé test t pour échantillons dépendants. Nous expliquerons cette forme du test t plus loin de ce chapitre. UNE OU DEUX POPULATIONS ? LE TEST T  303 Le lien entre un intervalle de confiance et le test t pour un échantillon Utilisons le symbole t(dl) pour indiquer le tcritique. Une autre façon de voir le test t consiste à noter que : M n’est pas inclus dans μ ± t(dl) × sM. Cela revient au même que de dire : M < μ – t(dl) × sM ou M > μ + t(dl) × sM e. g. M est en bas de la limite inférieure ou au-dessus de la limite supérieure. Si l’on réa- ménage quelque peu ceci, on obtient : M – μ < – t(dl) × sM ou M – μ > + t(dl) × sM ou de façon équivalente : M – μ < – t(dl) ou M – μ > + t(dl) sM sM Cela signifie que M – μ , ignorant le signe, doit excéder t(dl). On dit que la valeur absolue sM de M – μ , notée |M – μ|, doit être plus grande que la valeur absolue de t(dl). sM sM Cela permet un raccourci : |M – μ| sM > t(dl) où t(dl) est sans signe. Aussi, une façon concise d’écrire le test t sur un échantillon est : |M – μ| Rejet de H0 si s > t(dl) M Le test t sur un échantillon est généralement connu sous cette dernière forme, mais en fait, c’est exactement le même test que lorsqu’on a utilisé des intervalles de confiance ! La partie gauche de l’équation, sans valeur absolue, est parfois appelée la statistique tobservé, à ne pas confondre avec t(dl), le tcritique : M–μ tobservé = sM Quiz rapide 10.2 Nous testons une thérapie avec un schème avant-après. Est-ce que les données forment un échantillon ? deux échantillons indépendants ? deux échantillons pairés ? Nous testons une nouvelle méthode d’enseignement du français en 6e année. Nous essayons la nouvelle méthode pendant une année et nous comparons les résultats à ceux de l’année précédente. S’agit-il d’échantillons indépendants ou d’échantillons pairés ? 304  S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S LE TEST T POUR DEUX ÉCHANTILLONS INDÉPENDANTS Le test t pour deux échantillons indépendants est la forme qui est la plus utilisée. Imaginons la situation où nous voulons déterminer si un nouveau médicament améliore l’état de santé de patients souffrant de la maladie d’Alzheimer. Nous tirons aléatoirement deux petits échantillons de cette population de patients. À un groupe, nous administrons le médicament, alors que nous ne le faisons pas pour l’autre groupe. Quelques semaines ou quelques mois plus tard, nous mesurons l’état de santé des patients dans chaque groupe et nous calculons une moyenne pour chacun des groupes. La question est : l’état de santé moyen du groupe qui reçoit le traitement est-il différent de (ou supérieur à) celui du groupe qui ne reçoit pas le trai- tement ? Plus formellement, les deux groupes appartiennent-ils ou non à la même population ? La logique de base pour le test t pour échantillons indépendants Si les deux échantillons sont extraits de la même population (c’est-à-dire que le médicament ne change rien), nous pouvons nous attendre à n’ob- tenir aucune différence entre les moyennes des deux groupes. Or, à cause de l’erreur d’échantillonnage, il est quasi certain que la différence entre ces deux échantillons ne sera pas exactement de zéro. Il faut donc examiner la différence entre la moyenne des deux groupes et l’interpréter à la lumière de l’erreur d’échantillonnage. Nous pouvons estimer la différence typique qui existe entre deux échantillons aléatoirement tirés de la même population. Il s’agit de calcu- ler l’erreur type de la différence entre deux échantillons (nous allons voir comment procéder plus loin). À partir de cette erreur type de la différence, nous pouvons générer un intervalle de confiance en fonction du seuil de signification désiré. Puis, nous calculons la différence observée entre les deux échantillons. Si la différence entre eux tombe à l’extérieur de (est plus grande que) l’intervalle de confiance, nous concluons que la différence observée dans ces échantillons est statistiquement significative : les échan- tillons n’appartiennent pas à la même population. Puisque la seule diffé- rence entre les deux groupes est que l’un prend un médicament et l’autre UNE OU DEUX POPULATIONS ? LE TEST T  305 pas, force est de conclure que le médicament a un effet. Si la différence entre les moyennes est incluse dans l’intervalle de confiance, la différence n’est pas significative et il n’est pas possible de conclure que le médicament produit l’effet escompté. Le calcul de la statistique tobservé pour les échantillons indépendants Le calcul de la statistique tobservé est plus complexe pour un test sur deux échantillons indépendants. Nous présentons les diverses formules requises, mais, en pratique, les logiciels d’analyses statistiques (SPSS ou Excel) font ces calculs automatiquement. La première étape est d’obtenir une estimation de l’erreur type. Il faut estimer σ, l’écart-type de la population, ce que l’on fait à partir de l’écart- type de l’échantillon : l’erreur type est obtenue en divisant l’écart-type de l’échantillon (s) par la racine carrée du nombre de sujets. Mais là, un choix est à faire : il y a deux échantillons. Va-t-on utiliser l’écart-type de l’échantillon 1 ou de l’échantillon 2 ? Lequel est le meilleur pour estimer l’écart-type de la population ? En fait, aucun ne l’est. Selon l’hypothèse nulle, les deux échantillons pro- viennent de la même population (le test t pour échantillons indépendants dira si l’on a raison ou tort). Si toutes les données des deux échantillons viennent de la même population, pourquoi ne pas les regrouper ensemble pour estimer σ ? Appelons S2c la variance combinée des deux groupes. La variance combinée se calcule par 2 2 ( N 1 – 1 )s 1 + ( N 2 – 1 )s 2 S = --------------------------------------------------------- 2 Formule 10.3 c ( N1 – 1 ) + ( N2 – 1 ) où s21 et s22 sont les variances de chaque échantillon et N1 et N2 représentent le nombre d’observations dans chaque échantillon. En fait, cette formule indique que S2c est la moyenne des deux varian- ces. L’ajout des termes (N1 – 1 et N2 – 1) au numérateur de la formule est nécessaire lorsque les deux échantillons ne sont pas de même taille (N). En multipliant les variances de chaque échantillon par N1 – 1, nous créons une variance moyenne pondérée, qui donne plus d’importance à l’échantillon qui contient plus d’observations. Cela est raisonnable puisque l’échantillon 306  S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S qui contient plus d’observations produit une estimation de la population qui est plus précise que celle produite par un échantillon plus petit. − L’erreur type de la moyenne se calcule par s/√N. Puisque S2c est la variance combinée, en la divisant par N1, nous obtenons l’erreur type (au carré) dans l’échantillon 1, et en divisant S2c par N2, nous obtenons l’erreur type (au carré) dans l’échantillon 2. Quelle erreur type doit-on prendre pour estimer l’erreur type de la différence entre la moyenne 1 et la moyenne 2 ? La plus grande ? La moyenne des deux ? Il faut savoir que l’erreur de mesure, ou erreur d’échantillonnage, est toujours croissante : si on sous- trait deux mesures, chacune entachée d’erreurs, l’erreur totale est la somme des erreurs individuelles. En ce qui concerne les erreurs d’échantillonnage, ce sont les erreurs carrées qu’on doit additionner, puis il faut prendre la racine carrée pour obtenir une erreur typique, ce qui donne : 2 2 sc sc sM = ----- - + ------ 1 – M2 N1 N2 ce qui se simplifie en : sM – M2 = sc 1 ⁄ N1 + 1 ⁄ N2 Formule 10.4 1 où SM − M est l’erreur type qui résulte du calcul de la différence entre deux 1 2 moyennes et sc est l’écart-type de la variance combinée S2c, obtenu en faisant la racine carrée. La Formule 10.4 nous donne SM1 − M2 qu’on appelle l’erreur type de la dif- férence. Elle indique la différence typique entre les moyennes de deux groupes. Cette mesure peut finalement être utilisée pour calculer une statistique t qui, elle, sera en mesure de tester la différence entre les deux groupes indépen- dants. Cette valeur t, que l’on nomme le tobservé, est celle que nous allons comparer éventuellement au tableau des valeurs critiques de t. La statis- tique présente donc le rapport de la différence observée entre les deux moyennes et l’erreur type de la différence moyenne entre deux échantillons extraits de la même population. La Formule 10.5 décrit la forme finale que prend le test t pour deux échantillons indépendants. M1 – M2 tobservé = --------------------- Formule 10.5 sM – M2 1 UNE OU DEUX POPULATIONS ? LE TEST T  307 Il s’agit maintenant de tirer une conclusion. Nous avons le tobservé et à partir du tableau des valeurs critiques de t, nous trouvons la valeur tcritique qui correspond au nombre de degrés de liberté et au seuil alpha désiré. Si la valeur tobservé est égale ou plus grande que la valeur du tcritique, nous concluons que les deux groupes n’appartiennent pas à la même population, qu’ils sont statistiquement différents. Les degrés de liberté du test t pour les échantillons indépendants Pour trouver la valeur du t critique, nous nous servons du tableau des valeurs critiques de la statistique t (voir l’appendice). Il nous faut donc trouver la cellule qui correspond à nos degrés de liberté pour le seuil d’erreur choisi. Mais supposons que le nombre d’observations dans cha- que échantillon n’est pas identique. Alors, quel sera le nombre de degrés de liberté ? Celui qui correspond au premier ou au deuxième échantillon ? Comme pour le calcul de l’erreur type de la différence, ni l’un ni l’autre, mais les deux ! Ainsi, nous additionnons le nombre d’observations dans chaque groupe. Puisque nous additionnons ensemble les N, nous devons aussi additionner les degrés de liberté. Nous perdons un degré de liberté pour chaque groupe et, au total, nous en perdons deux. Ainsi, le nom- bre de degrés de liberté devient (N1 – 1) + (N2 – 1) ou, plus simplement, N1 + N2 –2. Nous cherchons donc le t critique à l’intersection de la colonne désirée et du nombre de degrés de liberté N1 + N2 –2. Si nous avons deux groupes, chacun ayant 10 observations, le nombre de degré de liberté est de 18 (10 + 10 – 2). Un exemple de calcul pour le test t pour les échantillons indépendants Le calcul de la variance combinée Au Tableau 10.1, nous reprenons un exemple médical. Un groupe de patients (l’échantillon 1) reçoit un médicament et l’autre (l’échantillon 2) n’en reçoit pas. Après quelques mois, on mesure, pour chaque patient de chaque groupe, le niveau de symptômes, un nombre élevé voulant dire plus de symptômes. Chaque groupe est composé de N1 = N2 = 50 observations. 308  S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S Nous calculons la moyenne de chaque échantillon (M1 = 10 et M2 = 20) et la variance dans ces deux échantillons (S21 = 12 et S22 = 20). L’application de la Formule 10.3 donne la variance combinée qui est indiquée au Tableau 10.1. Tableau 10.1 Calcul de la variance combinée S2c i Échantillon 1 Échantillon 2 (reçoit le médicament) (ne reçoit pas le médicament) M 10 20 s2 12 20 N 50 50 2 2  N1 – 1 s1 +  N2 – 1 s2 S2c = -----------------------------------------------------------  N1 – 1 +  N2 – 1  50 – 1 12 +  50 – 1 20 = ----------------------------------------------------------  50 – 1 +  50 – 1 49 s 12 + 49 s 20 = ------------------------------------------ 98 = (588 + 980) / 98 = 16 Le calcul de la variance combinée, dans ce cas, donne 16. En fait, comme les groupes sont égaux, il s’agit de la moyenne entre 12 et 20. L’écart-type de cette variance combinée se calcule en extrayant sa racine carrée. Dans ce − cas, Sc = √16 = 4,0. Quiz rapide 10.3 Recalculez la variance combinée du Tableau 10.1 avec la Formule 10.3, mais, cette fois, le nombre d’observations est de 50 pour l’échantillon 1 et de 500 pour l’échantillon 2. La variance combinée est-elle toujours 16 ? Pourquoi ? Le calcul de l’erreur type de la différence entre deux moyennes À partir de la variance combinée S2c , nous pouvons calculer l’erreur type de la différence en utilisant la Formule 10.4. L’erreur type de la différence UNE OU DEUX POPULATIONS ? LE TEST T  309 indique la différence moyenne à laquelle nous pourrions nous attendre si les deux échantillons provenaient de la même population (les deux ayant ou n’ayant pas reçu de médicaments). 1 1 sM1 − M2 = Sc ------ + ------ N1 N2 1 1 = 16 ------ + ------ 50 50 = 0,80 Dans ce cas, la différence typique à laquelle nous pouvons nous attendre entre ces deux échantillons, s’ils sont tirés de la même population, est de 0,80. Le calcul de la statistique tobservé Ayant maintenant en main l’erreur type de la différence, nous pouvons enfin calculer la statistique tobservé en utilisant la formule pour son calcul (Formule 10.5). M1 – M2 tobservé = --------------------- sM – M2 1 Pour les données du Tableau 10.2, nous calculons la différence entre les deux moyennes (10 – 20 = –10) et nous divisons cette différence par l’er- reur type de la différence tobservé. M1 – M2 tobservé = --------------------- sM – M2 1 10 – 20 = = –12,5 0,8 tobservé = –12,5 Il faut maintenant tirer une conclusion. Une différence entre deux échantillons qui correspond à tobservé = –12,5 est-elle un événement rare ou fréquent si les deux échantillons proviennent effectivement de la même population ? Cette différence est-elle statistiquement significative ? Pour répondre à cette dernière question, il faut se référer au tableau des valeurs critiques de t. 310  S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S La valeur du tcritique (t[dl]) et les degrés de liberté Comme nous l’avons vu à propos du test t pour un seul échantillon, la valeur tcritique est celle à laquelle on oppose la statistique tobservé. Lorsque le tobservé est égal ou supérieur à la valeur tcritique, nous concluons au rejet de H0 (l’hypothèse nulle) : les deux échantillons proviennent de populations diffé- rentes avec un risque d’erreur d’inférence égal au seuil α. Pour trouver la valeur critique pertinente dans le tableau des valeurs critiques, nous devons calculer le nombre de degrés de liberté et déci- der du seuil alpha. Nous savons que les degrés de liberté se donnent par N1 + N2 – 2. Dans ce cas, nous avons N1 = N2 = 50. Le nombre de degrés de liberté est donc (50 – 1) + (50 – 1) = (50 + 50 – 2) = 98. Nous pouvons maintenant trouver la valeur critique du t. Choisissons un seuil α = 0,001. Au tableau des valeurs critiques dans l’Annexe, nous voyons que pour 98 degrés de liberté (dl = 98) et pour un seuil α = 0,001, tcritique = 3,73. Nous comparons maintenant le tobservé au tcritique. Puisque le tobservé = –12,5 est plus extrême que 3,73 (nonobstant le signe), nous concluons au rejet de H0 car le résultat indique qu’il existe moins d’une chance sur mille (α = 0,001) qu’une telle différence puisse être observée entre deux échantillons provenant de la même population. Le résultat est significatif avec une probabilité p d’erreur de type I inférieure à 0,001. Nous interprétons ces statistiques en disant que le médicament change significa- tivement le nombre de symptômes de la maladie (t(98) = –12,5, p < 0,001). Quiz rapide 10.4 Nous obtenons un tobservé de 10, 74 avec 40 degrés de liberté. Cette différence est- elle statistiquement significative à α = 0,05, 0,01 et 0,001 respectivement ? Le signe de la statistique tobservé Lorsque nous calculons la statistique tobservé, elle peut prendre des valeurs positives ou négatives. Ce signe est déterminé par l’ordre dans lequel nous calculons la différence entre les deux moyennes M1 et M2. Lorsque la moyenne du groupe 1 est numériquement supérieure à celle du groupe 2, la statistique tobservé prendra un signe positif. Si l’inverse est vrai, M2 > M1, UNE OU DEUX POPULATIONS ? LE TEST T  311 le signe sera négatif. Puisque nous sommes libres de spécifier l’ordre des calculs, le signe du test t n’a pas de signification particulière. Les valeurs tcritique tabulées ne contenant pas de signes, lorsque nous comparons le tcritique au tobservé, nous ignorons le signe de ce dernier. Hypothèse unicaudale ou hypothèse bicaudale ? Lorsque nous concevons notre hypothèse, nous devons prendre une déci- sion à son sujet. Proposons-nous une hypothèse directionnelle ou une hypothèse non directionnelle ? Une hypothèse directionnelle prend le nom technique d’hypothèse unicaudale et une hypothèse non directionnelle prend celui d’hypothèse bicaudale. Une hypothèse non directionnelle (bicaudale) signifie qu’on cherche à démontrer l’existence d’une différence, peu importe sa direction. Ainsi, dans l’exemple portant sur l’efficacité du programme de formation, n’importe quelle différence significative aurait appuyé notre hypothèse. Les employés pouvaient avoir une productivité moyenne moindre ou supérieure à 100. L’hypothèse non directionnelle dans ce cas est : H : μavec formation ≠ 100 ; la performance des personnes formées sera différente de celle de la population. Par contre, l’hypothèse directionnelle (unicaudale) indique que l’on veut démontrer que la différence sera dans une seule direction. Dans l’exemple qui porte sur l’efficacité de la formation, nous choisirions fort probable- ment une hypothèse unicaudale, car il nous importe de savoir si la for- mation mène à un accroissement de la productivité. Dans ce cas, notre hypothèse ne serait soutenue que si la moyenne pour le groupe ayant reçu la formation était supérieure à celle des travailleurs qui ne l’ont pas reçue. L’hypothèse directionnelle prendrait la forme suivante : H : μavec formation > 100 ; la performance des personnes formées sera supérieure à la moyenne de la population. Dans l’exemple médical, nous comparons deux groupes, avec ou sans traitement de la maladie d’Alzheimer. Nous faisons l’expérience décrite afin de déterminer si le médicament est efficace. Le médicament ne sera efficace que dans un seul cas : lorsque les patients qui le reçoivent ont moins 312  S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S de symptômes que les autres. Si la condition des patients qui reçoivent le médicament s’aggrave, ou elle demeure inchangée, nous ne pouvons pas conclure que le traitement est efficace. En l’occurrence, poser la question « le traitement est-il efficace ? » revient à vérifier si les symptômes de ceux qui sont traités avec le médicament sont amoindris par rapport à ceux qui n’en bénéficient pas. L’hypothèse s’écrit : H : μavec médicament < μsans médicament. Il s’agit d’une hypothèse directionnelle puisqu’elle ne sera confirmée que si la différence que nous observons est dans une seule direction : les patients recevant le traitement ont moins de symptômes que ceux qui n’en reçoivent pas. Deux résultats peuvent invalider l’hypothèse directionnelle. D’une part, si les deux moyennes sont statistiquement égales, nous ne pou- vons pas rejeter H0 et nous sommes contraints de conclure qu’il n’y a pas de preuve pour H. Mais nous ne pouvons pas plus rejeter H0 si le résultat obtenu est l’inverse de notre hypothèse : les patients qui reçoivent le traite- ment démontrant plus de symptômes. Lorsque nous présentons une hypothèse directionnelle, nous postulons à l’avance non seulement qu’il existera une différence, mais, plus spécifi- quement, quel groupe aura une moyenne supérieure. Advenant une hypo- thèse directionnelle, nous allons tester la statistique tobservé dans la partie du tableau donnant les valeurs tcritique pour un test unicaudal. Quiz rapide 10.5 Reprenez le résultat obtenu t = –12,5 et comparez-le avec la valeur critique de t unicaudale. Le médicament est-il efficace ? La valeur critique de t pour les hypothèses unicaudale et bicaudale Arrêtons-nous au Tableau 10.2, qui est un extrait du tableau des valeurs critiques de t, et suivons une rangée de degrés de liberté à travers toute sa longueur. On remarquera que le tcritique augmente (devient plus grand) lors- que l’on passe d’un seuil α de 0,05 à un seuil plus petit (α = 0,01 ou 0,001). Pour que le tobservé soit significatif, il lui faut être égal ou supérieur au tcritique. Toutes choses étant égales par ailleurs, la taille du t reflète la taille de la dif- UNE OU DEUX POPULATIONS ? LE TEST T  313 férence entre les moyennes, par conséquent la différence entre les moyen- nes doit être plus grande. Lorsque nous rejetons H0 avec un certain α (disons α = 0,05), cela veut dire en réalité que moins de 5 % des différences entre les échantillons extraits aléatoirement d’une même population auront une différence de moyenne aussi forte que le tobservé. Examinons cela plus précisément encore en étudiant les graphiques du Tableau 10.2. Lorsque nous faisons un test unicaudal avec un α de 0,05 (disons H0 : μ1 > μ2), nous voulons que moins de 5 % des échantillons donnent un tobservé plus grand que le t critique. Puis- que le test unicaudal spécifie la direction de la différence, nous n’avons qu’à démontrer que la différence observée (tobservé) est au bon endroit et notre inférence sera juste. Graphiquement, dans ce tableau, nous n’avons qu’à démontrer que le tobservé se situe à l’intérieur de la zone de la distribution des différences grises, en l’occurrence le 5 % supérieur de la distribution des différences. Lorsque nous travaillons avec une hypothèse non directionnelle, il s’en- suit que 5 % des échantillons auront une différence plus grande que celle obtenue dans nos échantillons. Mais nous avons deux façons différentes de conclure au rejet de H0 : soit que M1 est plus grand que M2, soit que M1 est plus petit que M2. Le test non directionnel prend cela en considération en divisant le risque d’erreur α en deux, assignant 2,5 % dans la partie supé- rieure (α/2) et 2,5 % dans la partie inférieure (α/2) de la distribution des différences. Pour ces raisons, le test directionnel est aussi appelé test uni- caudal et le test non directionnel, test bicaudal. L’utilisation du tableau des valeurs critiques pour les tests unicaudaux et bicaudaux Selon la forme de l’hypothèse unicaudale ou bicaudale, nous allons uti- liser une partie différente du tableau des valeurs critiques de t. Lorsque nous posons une hypothèse bicaudale, nous utilisons la partie gauche du Tableau 10.2. Pour les hypothèses unicaudales, il faut faire appel à la partie droite. Supposons que nous comparons deux petits groupes (N1 = N2 = 4) ayant les moyennes suivantes : M1 = 10 et M2 = 8, et qui produisent le tobservé = 2,0. Ici, nous avons 6 degrés de liberté. Si notre hypothèse est 314  S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S Tableau 10.2 Valeurs tcritique pour le test t directionnel et non directionnel 2,5 % 2,5 % 5% Hypothèse bicaudale Hypothèse unicaudale (directionnelle) (non directionnelle) Seuil α Seuil α dl 0,05 0,01 0,001 dl 0,05 0,01 0,001 1 12,706 63,657 636,62 1 6,314 31,821 318,31 6 2,447 3,707 5,959 6 1,943 3,143 5,208 11 2,201 3,106 4,437 11 1,796 2,718 4,025 16 2,12 2,947 4,073 16 1,746 2,583 3,686 40 2,021 2,704 3,551 40 1,684 2,423 3,307 120 1,980 2,617 3,373 120 1,658 2,358 3,160 ∞ 1,960 2,576 3,291 ∞ 1,645 2,326 3,090 bicaudale, nous utilisons la partie gauche du tableau. Nous trouvons, pour dl = 6 et α = 0,05, le tcritique = 2,447. Puisque tobservé = 2,0 est inférieur au tcritique = 2,447, nous ne pouvons pas rejeter l’hypothèse nulle. Nous devons conclure que les deux groupes ne proviennent pas de populations différen- tes, qu’ils ne sont pas statistiquement différents. Mais supposons que l’hy- pothèse est directionnelle et qu’elle postule que le groupe 1 sera supérieur au groupe 2 (M1 = 10 > M2 = 8) et que nous trouvons le même tobservé = 2,0. Nous cherchons alors dans la partie droite du Tableau 10.2, la partie uni- caudale, et nous trouvons tcritique = 1,943. En comparant cette valeur au tobservé = 2,0, nous voyons que cette dernière est supérieure au tcritique. Nous concluons maintenant au rejet de l’hypothèse nulle. Ainsi, il est d’une extrême importance de bien choisir la partie du tableau (unicaudale ou bicaudale) qui correspond correctement à la forme de l’hypothèse. UNE OU DEUX POPULATIONS ? LE TEST T  315 Le seuil α Le seuil α d’un test t a exactement la même signification que celle que nous avons vue au chapitre 9. Il s’agit du risque de tirer une conclusion fausse (erreur de type I) en rejetant l’hypothèse nulle. En choisissant un α de 0,05, nous acceptons un risque de 5 % de faire une erreur de type I. Avec α = 0,01, le risque d’erreur α tombe à 1 chance sur 100, et avec α = 0,001, le risque d’une erreur de type I est de 1 sur 1000. On peut remarquer la différence entre les valeurs critiques de t pour les différents seuils pour les mêmes degrés de liberté. La magnitude du tcritique augmente à fur et à mesure que le niveau α passe de 0,05 à 0,001. Cela est raisonnable. Lorsque la différence de moyenne est grande, on a plus confiance qu’il existe une différence sur le plan de la population. Un seuil de signification de 0,001 donne davan- tage de poids à notre conclusion qu’un seuil de signification de 0,05 (avec α = 0,001, nous avons 1 chance sur 1 000 de nous tromper en concluant qu’il y a une différence, alors qu’avec α = 0,05, notre risque d’erreur est de 5 chances sur 100). Cela donne donc plus de poids à notre rejet de H0 s’il se base sur un seuil α de 0,001 plutôt que sur un seuil α de 0,05. Mais pour obtenir un tobservé supérieur au tcritique pour α = 0,001, la différence entre les moyennes doit être plus grande que celle requise pour conclure à la signifi- cation statistique avec 5 chances sur 100 de se tromper. Si on fait passer un test d’arithmétique à un groupe d’élèves du pri- maire et qu’on compare cette performance avec un groupe de professeurs de mathématiques à l’université, la différence entre les deux groupes sera très grande, ce qui se traduira par une valeur tobservé très grande. Notre conclusion, selon laquelle les mathématiciens universitaires sont meilleurs en mathématiques que les enfants de l’élémentaire, aura plus de poids. Si on répète l’expérience en comparant des élèves de 5e année à des élèves de 6e année, la différence sera plus petite et notre conclusion aura moins de poids. La différence pourrait être significative à α = 0,05, mais pas à α = 0,01. 316  S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S Un exemple de test t sur deux groupes indépendants Supposons que l’on compare deux échantillons dans le but de vérifier s’ils ont des moyennes différentes, s’ils proviennent de populations différentes. H : μ1 ≠ μ2 H0 : μ1 = μ2 L’hypothèse est non directionnelle (bicaudale). La statistique tobservé qui évalue la différence entre les deux moyennes est égale à 3,0. Nous avons 21 observations dans chaque groupe. Le nombre de degrés de liberté est 21 + 21 – 2 = 40. Nous désirons tester notre hypothèse avec un risque d’er- reur α inférieur à 0,01 (nous rejetterons H0 seulement si le risque d’erreur est plus petit que 1 %). Dans l’Annexe, pour dl = 40 et α = 0,01, la valeur critique tcritique = 2,704 (bicaudale). Le tobservé = 3,0 étant plus grand que le t(40) = 2,704, nous concluons que la différence entre les deux groupes est statistiquement significative, et il y a moins de 1 chance sur 100 (p < 0,01) que cette conclusion soit fausse. Nous écrivons : « La différence entre les deux échantillons est significative (t(40) = 3,0, p < 0,01). » Quiz rapide 10.6 Refaites le problème ci-dessus, mais cette fois, testez le tobservé en utilisant une hypothèse directionnelle. La conclusion (H ou H0) change-t-elle ? LE TEST T POUR DES DONNÉES PAIRÉES La dernière utilisation du test t concerne les données pairées ou jume- lées. Cette application du test t est particulièrement utile lorsqu’il s’agit de mesurer le changement. On prend ainsi des mesures avant et après un évé- nement, et on évalue si les deux moyennes, avant et après, sont les mêmes statistiquement. Par exemple, nous pourrions évaluer si l’introduction d’un programme d’accès à des aiguilles sanitaires réduit le taux d’hépatite chez les héroïnomanes. On pourrait alors mesurer l’incidence d’hépatites dans la population d’héroïnomanes avant et après l’introduction du programme. Il est important que ce soit les mêmes sujets (par exemple les mêmes personnes) qui soient mesurés deux fois ; si une personne ne peut pas être mesurée au second passage, il faut retirer sa première mesure de UNE OU DEUX POPULATIONS ? LE TEST T  317 l’échantillon. Par conséquent le nombre d’observations pour la mesure pré-intervention est invariablement égal au nombre d’observations de la mesure post-intervention. Donc, il faut toujours s’assurer que N1 = N2. Supposons que nous voulons étudier l’impact d’une intervention sur un groupe de personnes. Nous avons donc, pour chaque personne, deux informations : sa performance avant et après l’intervention. Si le traite- ment n’a aucun effet, chaque personne produira la même performance sur les deux mesures. De manière équivalente, nous dirons que la différence entre les performances de la même personne aux deux prises d’informa- tion est égale à zéro. Pour chaque personne, nous aurons donc une per- formance pré-intervention (symbolisée par Xi) et une performance évaluée après l’intervention (Yi). Nous pouvons calculer la différence entre les deux informations pour chaque personne. On peut alors écrire : Di = (Xi– Yi), qui représente la différence D, pour chaque personne. On calcule ensuite la moyenne de cette valeur D que nous appelons MD. Si cette valeur est égale à zéro, on ne peut pas conclure que le traitement a eu un effet. Si la moyenne des différences D n’est pas égale à zéro, on peut alors (potentiel- lement) conclure que le traitement a eu un effet, qu’il existe une différence entre avant et après. Pour que cela soit potentiellement vrai, il faut que la différence moyenne (MD) ne soit pas égale à zéro. Ainsi, le jeu d’hypothèses pourrait prendre la forme suivante : H: Δ ≠ 0 H0 : Δ = 0 où Δ (delta) représente la vraie différence en ce qui a trait à la population entière. Il s’agit maintenant de faire un test t sur la différence moyenne de l’échantillon. Cette hypothèse, comme d’habitude, peut être formulée de manière directionnelle ou non directionnelle. En fait, nous avons créé, à partir des deux valeurs (avant et après), une nouvelle variable, D, qui reflète la différence de performance pour chaque personne. La moyenne de cette variable D est MD. Mais parce que D est une variable, comme toutes les variables, on peut calculer son écart-type sD. À partir de l’écart-type sD, il devient possible de calculer l’erreur type sMD − à l’aide de la formule habituelle (s/√N ) qui, dans ce cas, devient : sD s M = -------- D N 318  S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S Puisque l’hypothèse nulle postule que la différence moyenne entre les valeurs avant et après sera égale à zéro, nous connaissons maintenant la valeur présumée de la moyenne de la population (Δ = 0). On peut maintenant construire l’intervalle de confiance avec la formule de calcul pour un unique groupe avec variance inconnue : Δ ± s M × t(dl). D Puisqu’on postule que la moyenne dans la population est 0, la formule se simplifie pour devenir Δ ± s MD × t(dl) = 0 ± s MD × t(dl) = ± s MD × t(dl). Si la différence moyenne observée (MD) se situe à l’extérieur de l’intervalle de confiance, nous concluons au rejet de H0. On peut aussi établir la statistique tobservé directement en utilisant la forme suivante : tobservé = MD/ s MD où MD est la différence moyenne entre les observations avant-après et s MD est l’erreur type de cette différence. Il ne reste alors qu’à comparer le tobservé au tcritique pour conclure. Encore une fois, et selon la teneur de l’hypothèse (uni ou bicaudale), il faudra faire appel à la bonne colonne du tableau des valeurs critiques pour repérer le tcritique. Les degrés de liberté dans le test t pour échantillons pairés Pour analyser la différence entre les deux mesures de chaque observation, on a créé une nouvelle variable, D. Nous calculons la moyenne et l’écart- type de cette variable D. Puisque nous n’avons qu’une seule moyenne et qu’un seul écart-type, nous ne perdons qu’un seul degré de liberté. Par conséquent, le nombre de degrés de liberté pour cette forme du test t est N – 1. Une illustration du test t pour échantillons pairés Prenons pour illustration un programme de relaxation par le yoga visant à réduire le stress ressenti au travail chez les cadres supérieurs. On mesure le stress au travail avec un questionnaire dans lequel un score élevé indique un degré de stress élevé. Nous postulons que le programme de relaxation réduit le stress ressenti par les cadres supérieurs, ce qui donne : UNE OU DEUX POPULATIONS ? LE TEST T  319 H0 : Δ = 0 H: Δ > 0 où Δ est la moyenne des différences dans la population. Il s’agit d’une hypo- thèse directionnelle. Nous adoptons le seuil α de 0,05. Pour tester notre hypothèse, nous mesurons un échantillon de 25 per- sonnes avant le début du cours de yoga et trois mois après la fin du cours. Pour chacune, nous calculons le degré de stress ressenti avant le cours moins le score obtenu après. La différence moyenne MD est de 12 (le degré de stress après l’intervention est moins élevé qu’avant). Est-ce une amélio- ration notable ? Nous calculons l’écart-type de la différence et nous trou- vons que sD = 20. Nous calculons l’erreur type de D ( s M en utilisant la formule habi- D tuelle) sD s M = -------- = 20/5 = 4. D N La valeur critique t(dl) est trouvée dans la table t avec 24 degrés de liberté et pour α = 0,05 (unicaudal). La valeur critique du t(dl) est 1,71. Le test statistique de la différence (pas égale à zéro) est de la forme : Rejet de H0 si MD est plus grand que la limite supérieure de l’intervalle de confiance s M × t(dl). D Ou de façon équivalente : MD Rejet de H0 si --------- > t(dl). sM D Nous trouvons : MD/ s M = 12/4 = 3. D La valeur obtenue étant plus grande que la valeur critique t(dl), nous rejetons l’hypothèse nulle et nous écrivons : « Les cours de yoga ont dimi- nué significativement le stress des cadres supérieurs [t(24) = 3, p < 0,05]. » SOMMAIRE DES ÉTAPES POUR RÉALISER UN TEST T 1. Poser les hypothèses ; décider si elles sont directionnelles ou non directionnelles. 320  S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S 2. Choisir le seuil de confiance α. 3. Décider de la forme du test (un groupe, deux groupes, échantillons pairés). a) Calculer la statistique tobservé. b) Calculer les degrés de liberté et trouver t(dl) (le tcritique) dans le tableau des valeurs critiques de t (Annexe) en fonction des dl, de α et selon que le test est unicaudal ou bicaudal. 4. Conclure. a) Si le tobservé est égal ou plus grand que la valeur critique t(dl), conclure que la différence est statistiquement significative au niveau α choisi et rejeter H0. b) Si le tobservé est plus petit que la valeur critique t(dl), conclure que la différence n’est pas statistiquement significative au niveau α choisi et ne pas rejeter H0. RÉDIGER UNE INTERPRÉTATION DES DONNÉES La rédaction d’une interprétation des résultats n’est pas chose aisée. D’un côté, un travail important de statistique a été réalisé. Or, le lecteur de la recherche n’est pas nécessairement un statisticien. On doit donc lui expli- quer les résultats en termes accessibles et significatifs pour lui. Il est pro- bable que H0, μ, M, etc., ne feront qu’égarer le lectorat. D’un autre côté, pour des raisons de crédibilité, on ne peut pas faire d’affirmations gratui- tes. Chaque fois qu’on vous rapporte une différence ou un effet, on doit mettre dans un rapport des signes linguistiques qui disent en substance : « Je n’affirme pas cela gratuitement, j’ai posé mes hypothèses et fait le test statistique approprié, et l’effet est significatif, ou ne l’est pas. » Dans à peu près toutes les disciplines scientifiques, il y a : 1) l’utilisation du mot « significatif » ; 2) l’inclusion du résultat du test entre parenthèses, suivi du seuil α selon cette écriture très stricte : « (nom-de-la-stat [degrés de liberté, s’il y a lieu] = résultat, p < seuil α) » si le test est significatif. Par exemple, un résultat statistiquement significatif, à la suite d’un test t, serait présenté de la manière suivante : t(12) = 10,45, p < 0,01. Le signe plus petit ( seuil α ». Par exemple, nous pourrions écrire t(12) = 1,45, p > 0,05. Le signe plus grand (>) signifie que la probabilité d’obtenir ce résultat par pur hasard est plus grande que α, ce qui veut dire qu’on n’a pas rejeté H0. Voici un exemple tiré d’un rapport de recherche scientifique. Interprétation des résultats Pour les 135 personnes composant notre échantillon, nous trouvons une amélioration significative à la suite de la thérapie (t(134) = 6,4, p < ,05). Comme on peut le voir, à part l’utilisation du mot « significative » et la présence de codes dans les parenthèses, il n’y a pas de jargon statistique (« hypothèse », « population », « μ », etc.). Quiz rapide 10.7 Pouvez-vous dire quel test statistique a été fait dans l’exemple précédent ? Pouvez-vous dire quel risque le chercheur était prêt à prendre quand il a écrit sa conclusion ? Croyez-vous que s’il avait été prêt à prendre un risque plus faible (disons un sur mille), la conclusion aurait tenu la route ? SOMMAIRE DU CHAPITRE La statistique, la distribution et le test t sont tous attribuables à W. S. Gosset. Ce test a été développé spécifiquement pour être utilisé avec de petits échantillons, généralement définis comme étant inférieurs à N = 30. Ce test statistique sert à déterminer si un échantillon a de fortes ou de fai- bles chances d’appartenir à une population en particulier, ou à déterminer si deux échantillons appartiennent à la même population ou à des popula- tions différentes. La statistique t, comparant deux groupes indépendants, est le rapport entre la différence qui existe entre ces deux moyennes et la différence qui existe entre deux moyennes aléatoirement extraites de la même population. L’interprétation de la statistique t se fait en la comparant avec une valeur standard, le tcritique. Cette valeur standard est tabulée. L’uti- lisation des valeurs tabulées est différente selon que l’hypothèse est direc- tionnelle ou non directionnelle. Lorsque le t obtenu est numériquement 322  S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S égal ou supérieur au tcritique, nous pouvons conclure que les deux groupes ne proviennent pas de la même population. EXERCICES DE COMPRÉHENSION 1. Étant donné deux groupes indépendants avec respectivement 12 et 10 données brutes, quel est le degré de liberté pour réaliser un test t comparant la moyenne des deux échantillons ? a) 22 b) 21 c) 20 d) un autre nombre 2. Nous testons la différence entre deux échantillons, A et B, et la différence entre deux autres échantillons, C et D. Les échantillons A, B, C et D sont tous de la même taille N et ils ont tous la même variance. La différence entre A et B est statistiquement significative seulement à α = 0,05, alors que la différence entre C et D est statis- tiquement différente à α = 0,01. La différence entre les moyennes des groupes A et B est ________ que la différence entre les moyennes des groupes C et D. a) plus grande b) plus petite c) de la même taille d) Toutes ces réponses sont possibles. 3. Nous postulons que les hommes sont moins consciencieux au travail que ne le sont les femmes. Pour tester notre hypothèse, nous choisissons aléatoirement un groupe d’hommes et un groupe de femmes, et nous mesurons leur degré de concentration au travail. Dans ce cas, il ___________________. a) nous faudra faire appel à un test statistique uni ou bicaudal selon l’erreur type b) nous faudra faire appel à un test statistique unicaudal c) nous faudra faire appel à un test statistique bicaudal d) n’est pas possible de faire un test statistique UNE OU DEUX POPULATIONS ? LE TEST T  323 4. Nous voulons examiner si l’étude de ce volume a un impact sur la compréhension que les étudiants ont de la statistique. Nous admi- nistrons un test de statistique aux 12 personnes qui suivent le cours le premier jour de classe et nous l’administrons à nouveau le dernier jour de classe. Il nous faudra alors tester _______________ en faisant appel au test _______ et les degrés de liberté seront de __________. a) la différence entre les moyennes ; t ; 11 b) la différence entre les moyennes ; t ; 10 c) la différence entre les variances ; Z ; 11 d) la différence entre les variances ; Z ; 12 5. Dans la population, nous savons que le salaire moyen est de 30 000 $. Nous examinons un échantillon de forgerons pour trouver qu’en moyenne ils gagnent 35 000 $ et que l’intervalle de confiance autour de cette moyenne est de 2 000 $. Laquelle des conclusions suivantes est juste ? a) Les forgerons sont, en général, mieux payés que la moyenne des gens. b) Les forgerons sont, en général, payés autant que la moyenne des gens. c) Tous les forgerons gagnent plus que 30 000 $. d) Compte tenu des informations disponibles, toutes ces réponses sont possiblement justes. 6. Une compagnie pharmaceutique en est au début du processus d’évaluation d’un médicament. Elle compare deux groupes, l’un recevant un médicament, l’autre non. La compagnie désire minimi- ser l’erreur de type II. Par conséquent, elle choisit de comparer de ______ groupes, elle compare les moyennes avec la statistique t et elle fait appel à un seuil de signification plus _________. a) grands ; petit b) petits ; petit c) petits ; grand d) grands ; grand 324  S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S 7. Voici les résultats des tests t exécutés pour chacune des trois études suivantes. Dans chaque cas, il s’agit d’études qui comparent des groupes indépendants et, dans tous les cas, l’hypothèse faite est non directionnelle avec α = 0,05. Il faut indiquer, pour chaque résultat, si les deux échantillons proviennent d’une ou de deux populations. Étude A : t = 2,58 ; N = 7 ; Étude B : t = 2,1 ; N = 22 ; Étude C : t = 1,99 ; N = 62. 8. En y pensant bien, le test t pour les échantillons indépendants compare la différence entre les moyennes de deux groupes à la différence à laquelle nous pourrions nous attendre entre deux groupes extraits de la même population. Cette phrase est-elle vraie ou fausse ? 9. Pour le contraste entre les moyennes de deux groupes, on pourrait faire appel au test t ou au test Z. Lorsque le N est _____, nous devons faire appel au test t, alors que lorsque nous avons au moins _______ observations, la distribution des valeurs t et des valeurs Z est _____. a) grand ; 30 ; identique b) petit ; 1 000 ; identique c) grand ; 30 ; très différente d) petit ; 120 ; identique Réponses 1. c 2. b 3. b 4. a 5. a 6. d 7. Étude A = 2 ; Étude B = 2 ; Étude C = 1 8. Vraie 9. d CHAPITRE 11 L’ANALYSE DE VARIANCE À UN FACTEUR L’utilisation de l’ANOVA..................................................................... 328 Ce que l’ANOVA dit........................................................................ 329 Ce que l’ANOVA ne dit pas........................................................... 329 Pourquoi l’ANOVA et pas le test t ?................................................... 329 Les tests t multiples : une stratégie peu pratique......................... 330 Les tests t multiples : une stratégie qui cumule les risques d’une erreur de type I (α).......................................................... 331 La variable indépendante et la variable dépendante pour l’ANOVA................................................................................. 334 Le principe fondateur de l’analyse de variance : les différences intergroupes et intragroupes................................ 335 Les composantes de la statistique F............................................... 339 La moyenne globale (M.)................................................................ 339 La différence entre les groupes : la somme des carrés intergroupe (SCinter)..................................................................... 340 La différence intragroupe : la somme des carrés moyens intragroupe................................................................................... 343 Le calcul de la statistique F.............................................................. 344 La distribution théorique de la statistique F................................. 345 La valeur critique F et le tableau des valeurs critiques de la statistique F.......................................................................... 346 L’utilisation du tableau des valeurs critiques de F pour faire une inférence............................................................. 347 326  S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S Sommaire du test de l’hypothèse pour K groupes........................... 348 Poser les hypothèses........................................................................ 348 Choisir le seuil de signification α.................................................. 348 Spécifier la règle décisionnelle pour choisir entre H et H0........ 348 Faire les calculs et conclure............................................................. 348 Le tableau des sources de variance................................................ 349 Les influences sur la probabilité de rejeter H0.................................. 351 Le choix du seuil α : l’erreur de type I versus l’erreur de type II....................................................................................... 353 Comment réduire le risque d’erreur de type I et de type II ?..... 354 Les tests de comparaisons multiples ou tests a posteriori............... 355 Le test de comparaisons multiples de Scheffé.............................. 356 La taille de l’effet et la statistique êta au carré (η 2)........................... 359 Une illustration de la taille de l’effet.............................................. 360 Formule simplifiée pour le calcul d’êta au carré......................... 361 L’interprétation de la taille de l’effet.............................................. 362 Sommaire du chapitre.......................................................................... 363 Exercices de compréhension............................................................... 364

Use Quizgecko on...
Browser
Browser