Cours 4: La Mécanique de l’Inférence Statistique PDF

CHAPITRE 9 LA MÉCANIQUE DE L’INFÉRENCE STATISTIQUE La vérification d’une hypothèse implique qu’on l’oppose à une hypothèse nulle. Nous devons décider si les échantillons proviennent ou ne pro- viennent pas de la même population. Dans ce chapitre, nous présentons les procédures et les conventions qui permettent de rejeter ou non l’hy- pothèse nulle. Nous ne rejetons pas l’hypothèse nulle lorsque les échan- tillons obtiennent les mêmes moyennes, et, dans le cas inverse, nous la rejetons. Mais nous avons vu au chapitre précédent que les échantillons, même lorsqu’ils sont extraits de la même population, n’ont pas exactement la même moyenne. Il existe une variation naturelle dans la composition des échantillons, cette variation étant attribuable à l’aléa. Ainsi, une sim- ple différence entre les échantillons ne peut pas être interprétée directe- ment pour choisir l’une ou l’autre des hypothèses, H ou H0, puisque l’aléa pourrait en être responsable. Par conséquent, il devient impératif de quan- tifier cette variation naturelle, c’est-à-dire la différence typique à laquelle nous pouvons nous attendre entre deux échantillons lorsque les deux sont extraits de la même population ou entre la moyenne de la population et la moyenne d’un échantillon. Nous allons rejeter l’hypothèse nulle lorsque la différence observée entre les échantillons est « nettement plus grande » que cette différence « typique » entre les échantillons ou entre l’unique échan- tillon et la moyenne de la population. Pour cela, il nous faudra un critère qui nous aidera à distinguer une différence « nettement plus grande » d’une différence « typique ». 252 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S Est-ce que le niveau de toxines dans les rivières québécoises dépasse les normes ? Pour répondre à cette question, nous devons mesurer le niveau de toxines dans un échantillon de rivières que nous allons comparer avec la norme, qui, dans ce cas représente la population. Ici, un seul échantillon est requis car nous connaissons la moyenne dans la population (la norme). Par contre, dans le cas suivant, il faut constituer deux échantillons : est-ce que les rivières québécoises sont plus polluées que les rivières ontarien- nes ? Maintenant, nous devons cueillir deux échantillons de rivières, un provenant de la population de rivières québécoises, l’autre provenant de la population de rivières ontariennes. La question statistique, dans ce dernier cas, revient à déterminer si les deux échantillons de rivières (québécoise et ontarienne) ont une forte ou une faible chance de provenir de la même population de pollution. Dans ce chapitre, nous allons voir la procédure statistique qui permet de calculer deux statistiques importantes : l’erreur type de la moyenne et l’intervalle de confiance autour de la moyenne. La confrontation des hypo- thèses H et H0 — et le concept de la signification statistique — découle de ces considérations. La maîtrise des éléments discutés dans ce chapitre est déterminante pour la maîtrise des chapitres subséquents et elle exige la compréhension des chapitres antérieurs, en particulier le chapitre 8 ainsi que le chapitre 5 qui porte sur la distribution normale. QUAND LES ÉCHANTILLONS ALÉATOIRES NE SONT PAS IDENTIQUES : L’ERREUR D’ÉCHANTILLONNAGE Imaginons une population d’observations distribuées normalement. Nous savons (voir le chapitre 5) que la majorité des observations (environ 68 %) se trouvent près de la moyenne de la population (μ ±1 écart-type) et qu’en- viron 32 % des observations se trouvent plus loin. Par exemple, dans une population normale ayant 100 et 15 respectivement comme moyenne et comme écart-type, environ 68 % des observations se situent entre 85 et 115 et environ 32 % des observations sont inférieures à 85 et supérieures à 115. Tirons de cette population plusieurs échantillons de taille identique. Tous ces échantillons étant extraits de la même population, nous nous attendons à ce que chacun soit composé de 68 % d’observations relative- LA MÉCANIQUE DE L’INFÉRENCE STATISTIQUE 253 ment proches de la moyenne de la population (entre 85 et 115) et de 32 % d’observations se situant plus loin (moins que 85 et plus de 115). Mais puisque la sélection des échantillons est aléatoire, nous ne pouvons pas garantir que ces proportions se maintiendront rigoureusement pour tous les échantillons. Certains échantillons contiendront une proportion plus grande d’observations plus éloignées ou plus proches de la moyenne que d’autres échantillons. Cette variation naturelle dans la composition exacte des observations contenues dans les échantillons extraits de la même popu- lation s’appelle l’erreur d’échantillonnage. Cette variation aléatoire dans la composition exacte des observations dans les échantillons occasionnée par l’erreur d’échantillonnage cause, à son tour, une différence dans la moyenne des échantillons : un échan- tillon qui contient plus d’observations dont les valeurs sont grandes aura une moyenne plus forte qu’un échantillon qui contient davantage d’obser- vations dont les valeurs sont petites. Donc, l’erreur d’échantillonnage se répercute dans la moyenne des échantillons. L’erreur type de la moyenne est la statistique qui estime la taille de la fluctuation dans les moyennes des échantillons causée par l’erreur d’échantillonnage. Cette statistique est d’une importance primordiale pour distinguer l’hypothèse (H) de l’hypo- thèse nulle (H0). Un objectif des statistiques consiste à réaliser une inférence à la popu- lation à partir de l’échantillon. En particulier, la moyenne de l’échantillon (M) est utilisée pour inférer la moyenne de la population (μ). Même s’il est vrai que la moyenne de l’échantillon (M) est la meilleure estimation de μ, il est néanmoins possible que la moyenne de la population se situe loin de la moyenne de l’échantillon. Si nous connaissons la différence typique entre la moyenne d’un échantillon et celle de la population — l’erreur type de la moyenne —, nous pourrons alors déterminer si la moyenne obtenue dans notre échantillon est typique ou atypique, si elle est très ou peu différente de la moyenne de la population. Par exemple, si nous savons que typique- ment les moyennes de 68 % des échantillons extraits d’une population ayant une moyenne de 100 se situent entre 85 et 115 (son écart-type étant 15) et que nous trouvons que notre échantillon a une moyenne de 130, nous concluons alors que cette moyenne est fort différente de la moyenne de la population (elle se situe à deux écarts types de la moyenne de la popula- 254 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S tion : [Z = (130-100)/15 = +2]. Cet échantillon n’est pas typique pour cette population et nous concluons qu’il appartient à une population différente. Bien sûr, tout cela présume que nous connaissons l’écart-type des moyen- nes – l’erreur type de la moyenne – des échantillons extraits de la popula- tion, une information rarement disponible directement. Reste que l’erreur type de la moyenne est importante lorsqu’il s’agit d’évaluer l’hypothèse (H) et l’hypothèse nulle (H0). Nous avons vu (cha- pitre 8) que l’hypothèse nulle est rejetée lorsque les moyennes des échan- tillons ne sont pas les mêmes. Lorsque deux échantillons n’ont pas la même moyenne, nous pouvons potentiellement conclure que ces deux échan- tillons proviennent de populations différentes. Il est également possible que les deux échantillons proviennent de la même population, mais que la diffé- rence entre leurs moyennes soit simplement attribuable à l’erreur d’échan- tillonnage. Dans ce dernier cas, le rejet de H0 serait une erreur. Il faut donc trouver un mécanisme pour distinguer une différence attribuable à l’erreur d’échantillonnage d’une autre qui, elle, est attribuable à une différence de populations. Le mécanisme statistique qui permet de faire cette distinction exige la quantification de la taille de l’erreur type de la moyenne. Une fois cette quantité déterminée, il est possible d’estimer la proxi- mité des moyennes de deux échantillons ou la proximité de la moyenne de l’échantillon et de celle de la population. Par exemple, supposons que la différence typique (l’erreur type de la moyenne) entre la moyenne de deux échantillons est de 10 et que la moyenne de la population est de 100. On tire un échantillon ayant 90 comme moyenne. Cet échantillon est-il près ou loin de la moyenne de la population ? La différence entre les deux moyennes est de 10 (90 – 100 = 10), mais comment interpréter cette diffé- rence ? Une solution est de la standardiser en valeur étalon. Puisque nous connaissons la différence typique entre les moyennes des échantillons, c’est-à-dire leur écart-type, le calcul donne : ZM = (90 – 100)/10 = –1 (l’erreur type, puisqu’elle n’est que l’écart-type des moyennes des échantillons, est donc égale à 10). Dans ce cas, nous observons que la moyenne de notre échantillon se trouve à une erreur type en dessous de celle de la population. Est-ce loin ou près de la moyenne ? Nous verrons. Mais on voit que la diffé- rence typique, l’écart-type entre les moyennes des échantillons dû à l’erreur d’échantillonnage, représente une statistique fort importante qui nous per- LA MÉCANIQUE DE L’INFÉRENCE STATISTIQUE 255 met de faire l’interprétation d’une différence. Le défi consiste à déterminer sa valeur numérique. Quiz rapide 9.1 Supposons qu’au Canada le salaire moyen des employés est de 50 000$. Nous tirons un échantillon de travailleurs canadiens qui détiennent tous un Ph.D. En moyenne, ces Ph.D. gagnent 90 000$. Pouvons-nous alors conclure que les Canadiens ayant un Ph.D. appartiennent à une population de salaire différente ? QUANTIFIER L’ERREUR D’ÉCHANTILLONNAGE L’erreur type de la moyenne est l’écart-type des moyennes des échantillons aléatoirement extraits de la même population. Cette statistique n’est pas la même pour tous les échantillons et toutes les populations. Elle peut être plus ou moins grande et sa taille dépend de deux facteurs : le nombre d’ob- servations dans l’échantillon (N) et la variance de la population (σ2). 1. N, le nombre d’observations dans les échantillons : plus la taille de l’échantillon est grande, plus l’erreur d’échantillonnage est petite. Ce principe est appelé la loi des grands nombres. Imaginons un échantillon qui inclut tous les membres d’une population d’un million sauf un. Puisque presque tous sont présents dans l’échantillon, la moyenne de l’échantillon sera à un millionième près la moyenne de la population. Un deuxième échantillon de même taille tiré de cette popula- tion sera obligatoirement composé d’observations quasi identiques. Dans ce cas, il n’y aura virtuellement aucune erreur d’échantillonnage et la dif- férence entre les moyennes de ces deux échantillons sera donc très proche de zéro. En revanche, si nous tirons un échantillon composé d’une seule observation, cette observation pourrait provenir de n’importe quelle partie de la population. La même chose serait vraie pour un deuxième échantillon extrait de cette population, composé lui aussi d’une seule observation. La différence entre les moyennes de ces deux échantillons sera grande, ce qui se traduira par une grande erreur d’échantillonnage et une plus grande différence typique entre les moyennes. Par exemple, la note obtenue à un examen par un seul étudiant est une piètre estimation des notes de toute la classe alors que la note moyenne obtenue par 99 % des étudiants sera très proche de la note moyenne obtenue par tous les étudiants. Ainsi, 256 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S nous comprenons que plus un échantillon contient d’observations, plus sa moyenne sera semblable à la moyenne de la population. L’erreur type de la moyenne sera petite. 2. La taille de l’erreur type de la moyenne est aussi fortement influen- cée par la variance (ou l’écart-type) de la population : plus grande est la variance de la population, plus grandes sont l’erreur d’échantillon- nage et l’erreur type de la moyenne. L’erreur d’échantillonnage est plus grande lorsque les observations dans la population diffèrent davantage les unes des autres. Lorsque les observa- tions sont proches les unes des autres dans la population (la variance de la population, σ2, est faible), les échantillons seront nécessairement composés d’observations qui sont plus similaires, plus proches les unes des autres et la variance des observations (s2) sera plus faible. Lorsque les observations contenues dans les différents échantillons sont similaires, les échantillons auront des moyennes similaires et, dans ce cas, l’erreur type de la moyenne sera plus petite. Pour illustrer le principe, prenons un cas de résultats à un examen où tous les étudiants obtiennent des notes entre 70 et 75. La variance de la population est donc faible et, par conséquent, tous les échantillons d’étu- diants auront des moyennes plutôt similaires (elles seront toutes obligatoi- rement entre 70 et 75). Par conséquent, l’erreur-type de la moyenne sera faible. Mais supposons, à l’inverse, que les notes varient entre 0 et 100. Cha- que échantillon risque fort d’être composé d’observations plus différentes, ce qui fera en sorte que la moyenne d’un échantillon sera différente de celle d’un autre échantillon. L’erreur type de la moyenne sera donc plus grande. Ainsi, l’erreur d’échantillonnage augmente en fonction de la variance de la population (σ2), mais elle se réduit en fonction de la taille de l’échan- tillon (N). Lorsqu’une population est très homogène, tous les échantillons extraits de cette population auront des moyennes proches les unes des autres. Similairement, les grands échantillons extraits d’une population détiendront tous des moyennes similaires. Dans les deux cas, l’erreur type de la moyenne sera petite. LA MÉCANIQUE DE L’INFÉRENCE STATISTIQUE 257 Quiz rapide 9.2 Nous étudions l’attitude envers les hôpitaux de deux populations : les médecins et les citoyens. Quelle population aura probablement une variance plus grande dans les attitudes ? L’expérience d’échantillonnage et l’erreur type de la moyenne L’objectif d’un test statistique consiste à permettre une inférence à la moyenne de la population μ à partir de la moyenne de l’échantillon M. Mais nous savons que chaque échantillon (sauf si la taille des échantillons est infiniment grande ou la variance dans la population est nulle) pro- duit une moyenne différente des autres. Par conséquent, presque toutes les moyennes des échantillons extraits de la même population seront au moins un peu différentes les unes des autres et différentes de la véritable moyenne de la population. C’est-à-dire que chaque échantillon produit une moyenne qui estime la moyenne de la population en faisant, au mieux, une légère erreur. Cette erreur, l’erreur type de la moyenne, doit être calcu- lée si nous voulons interpréter une différence entre deux moyennes. Nous pouvons comprendre et calculer cette erreur type en faisant une expérience particulière qui se nomme l’expérience d’échantillonnage. Supposons qu’à partir d’une population dont nous connaissons la vraie moyenne (μ), nous tirons tous les échantillons différents possibles (disons qu’il en existe K), chacun composé du même nombre d’observations N. Nous calculons, pour chaque échantillon, sa moyenne (Mj) et la différence entre la moyenne de chaque échantillon et la moyenne de la population μ (M-μ). Puisque tous les échantillons sont extraits de la même popula- tion, chaque différence entre la moyenne de l’échantillon et la moyenne de la population est en réalité une indication de l’erreur que la moyenne de chaque échantillon fait dans son estimation de la moyenne de la popula- tion. En ayant ces informations, il nous est alors possible de calculer l’er- reur moyenne que nous pouvons aussi placer sous la rubrique de « l’erreur typique ». La Formule 9.1 formalise cette quantité. On remarquera, dans cette formule, que nous avons mis au carré les quantités M-μ afin d’empê- cher que cette sommation donne zéro. Comme on l’aura peut-être deviné, cette formule n’est rien d’autre que celle utilisée pour calculer la variance 258 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S d’une population (dans ce cas, la variance de la moyenne des échantillons extraite de la même population d’observations). K 2 2 σM = ∑ ( Mi – μ ) /K Formule 9.1 j=1 où σM2 est la variance des moyennes des échantillons, μ est la moyenne de la population, Mi est la moyenne de chaque échantillon, et K est le nombre total d’échantillons. Quiz rapide 9.3 Pourquoi la Formule 9.1 se sert-elle de K plutôt que de K – 1 comme dénominateur ? Si nous prenons la racine carrée de la quantité σM2 (la variance des erreurs), nous obtenons son écart-type (l’écart-type des erreurs : σM). L’écart-type de ces erreurs est l’erreur typique que nous faisons en estimant μ à partir de M, la moyenne des échantillons, c’est-à-dire l’erreur type de la moyenne. Donc, à partir de l’expérience d’échantillonnage, nous obtenons l’information requise pour interpréter une différence entre la moyenne d’un échantillon et la moyenne de la population. L’estimation de l’erreur type de la moyenne des échantillons En pratique, nous ne pouvons jamais sélectionner tous les échantillons possibles d’une population et, en général, nous n’avons à notre disposi- tion qu’un seul échantillon. Néanmoins, il faut connaître l’erreur type de la moyenne si nous voulons interpréter la moyenne d’un échantillon. Heureusement, il est possible de faire une estimation de l’erreur type des moyennes attribuable à l’erreur d’échantillonnage à partir d’un seul échan- tillon. La Formule 9.2a fait cette estimation. 2 2 σ σ M = ------ Formule 9.2a N La Formule 9.2a découle de la Formule 9.1. On en trouve la preuve mathématique (Comment trouver l’erreur type de la moyenne) à la fin de ce chapitre. Pour l’instant, examinons pourquoi la Formule 9.2a est appropriée. LA MÉCANIQUE DE L’INFÉRENCE STATISTIQUE 259 On se souvient que la variance des moyennes des échantillons (σ2M) est plus grande lorsque la variance de la population (σ2) est grande, mais que cette erreur est plus petite lorsque l’échantillon contient plus d’informa- tions (N). La Formule 9.2a met en rapport ces deux influences sur la taille de l’erreur type de la moyenne pour produire la variance des erreurs. Plus la variance de la population (σ2) est grande, plus grand est le numérateur de la Formule 9.2a, et plus grande est la quantité σ2M. Plus grande est la taille de l’échantillon (N), plus grand est le dénominateur et, par consé- quent, plus petite est la quantité σ2M. Comme précédemment, la Formule 9.2a produit l’erreur type au carré, ce qui n’est pas très commode. En calculant la racine carrée de l’erreur type au carré, nous obtenons la formulation de l’erreur type de la moyenne σM, calculée à partir d’un unique échantillon (Formule 9.2b). σ σΜ = -------- Formule 9.2b N Cet écart-type représente le degré avec lequel les moyennes (M) des échantillons fluctuent autour de la vraie moyenne (μ). C’est pour distin- guer l’écart-type des moyennes de l’écart-type des observations à l’intérieur d’un échantillon que nous lui donnons son nom particulier : l’erreur type de la moyenne. Ainsi, l’erreur type de la moyenne est l’erreur typique qui existe entre la moyenne d’un échantillon et la moyenne de la population. Si nous connaissons l’erreur type de la moyenne, il est facile de déter- miner si la moyenne d’un échantillon particulier est près ou loin de la moyenne de la population. Un échantillon décrit (représente) fort bien la population lorsque sa moyenne est proche (située à moins d’une erreur type) de la moyenne de la population. Inversement, plus la moyenne de l’échantillon s’éloigne de la moyenne de la population, moins cet échan- tillon est capable de bien représenter la population. L’estimation de l’erreur type de la moyenne en pratique Jusqu’à présent, nous avons défini l’erreur type de la moyenne comme étant la variabilité des moyennes des échantillons, ce que nous pouvons cal- culer à condition de connaître l’écart-type de la population. Mais, en pra- 260 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S tique, nous ne connaissons (presque) jamais l’écart-type de la population − (σ). Par conséquent, la formule de l’erreur type de la moyenne (σ/√N ) ne peut (presque) jamais être calculée. Mais nous connaissons l’écart-type de l’échantillon et nous savons (cha- pitre 8) que la meilleure estimation de l’écart-type de la population est l’écart-type de l’échantillon. Nous pouvons alors, en pratique, substituer l’écart-type de l’échantillon (s) à l’écart-type de la population (σ). La For- mule 9.3 estime l’erreur type de la moyenne en pratique − sM = s /√N Formule 9.3 où s est l’écart-type de l’échantillon, N est le nombre d’observations dans l’échantillon, et sM est l’estimation de σM lorsque l’écart-type de la popu- lation n’est pas connu. Par exemple, si l’écart-type d’un échantillon de N = 100 observations est s = 10, l’erreur type estimée devient sM = 10/√100= 10/10 = 1. Si la moyenne de l’échantillon est de 5, nous concluons que, typiquement, les échantillons extraits aléatoirement de cette popula- tion auront une moyenne se situant entre 4 et 6 (5±1). De la même manière, nous pouvons dire que la moyenne de la population se situe entre 4 et 6. L’utilisation de l’erreur type de la moyenne : une illustration Nous étudions le QI depuis presque un siècle et des millions de personnes ont passé ce test. Par conséquent, nous connaissons fort bien sa variance et sa moyenne dans la population. Le QI moyen est de 100 et son écart-type est de 16. Supposons que nous prenons un échantillon d’étudiants et que nous observons que le Q1 moyen dans cet échantillon est de 120. Est-ce que les étudiants de cet échantillon sont très différents de la population ? Supposons que l’erreur type de la moyenne est égale à 10. Nous pouvons alors calculer la position de la moyenne de notre échantillon par rapport à la moyenne de la population en transformant cette moyenne en valeur étalon Z. La formule générale pour la valeur étalon d’un score X est Zx = (X – M)/s, où s est l’écart-type des moyennes des échantillons, c’est-à-dire l’erreur type de la moyenne. Puisque nous voulons calculer la valeur Z pour la moyenne (M) d’un échantillon par rapport à la moyenne de la population (μ), nous utilisons la Formule 9.4 LA MÉCANIQUE DE L’INFÉRENCE STATISTIQUE 261 ZM = (M – μ)/σm Formule 9.4 où ZM est la position de la moyenne de l’échantillon par rapport à la moyenne de la population, M est la moyenne obtenue dans l’échantillon, μ est la moyenne de la population et σm est l’erreur type de la moyenne. Calculons ces valeurs pour notre échantillon d’étudiants : μ = 100, M = 120, et σm = 10. En appliquant la Formule 9.3, nous obtenons : ZM = (M – μ)/σm = 120 – 100 /10 = 20/10 =+2 Nous savons maintenant que la moyenne de cet échantillon est à deux erreurs types au-dessus de la moyenne des QI dans la population. Comme nous le verrons plus tard, cet échantillon produit une moyenne que nous allons éventuellement qualifier de « statistiquement différente » de celle de la moyenne de la population. Quiz rapide 9.4 Reprenez l’exemple précédent portant sur le QI. Supposons que le QI moyen d’un échantillon est de 140. Présumez que μ = 100 et que σm = 10. Quelle est la distance, en valeur étalon Z, entre la moyenne de cet échantillon et la moyenne de la population ? En vous référant au tableau de la courbe normale, quelle est la proportion des échantillons extraits de cette population qui auront une moyenne plus grande que 140 ? Quiz rapide 9.5 Supposons maintenant que votre échantillon est composé de 100 personnes et que la variance de cet échantillon est de 100. Le QI moyen de cet échantillon est de 110. Pouvez-vous déduire la moyenne de la population de QI, à partir de ces informations ? Supposons maintenant la même moyenne (M = 110) et la même variance (100) mais un échantillon de 25 personnes seulement, quelle serait alors votre estimation de la moyenne de la population ? Ces deux estimations de la moyenne de la population sont-elles différentes ou non ? Pourquoi ? Le théorème de la limite centrale « L’expérience d’échantillonnage » décrite ci-dessus consiste à extraire tous les échantillons possibles d’une même taille d’une unique population d’ob- 262 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S servations. En calculant la moyenne de chaque échantillon, nous pouvons établir la distribution de ces moyennes et la distribution des différences entre chacune des moyennes et la moyenne de la population. Le théorème de la limite centrale1 énonce une série de propositions qui sont vraies au sujet de la distribution de ces moyennes. Parmi ces propositions, trois sont particulièrement importantes et utiles. La moyenne de la distribution des moyennes des échantillons est égale à μ, la moyenne de la population. La variation entre les moyennes des échantillons sera plus petite que la variation entre les individus de la population. En fait, l’écart-type de cette distribution de moyennes est approximativement égal à l’erreur − type de la moyenne (σ/√N ). La forme de la distribution des moyennes s’approche de la distribution normale lorsque la taille des échantillons est grande (environ N ≥ 30). Cela demeure vrai même lorsque la distribution de la population n’est pas normale. Si la distribution de la population est normale, la distri- bution de la moyenne des échantillons est normale même lorsque les échantillons extraits de cette population sont petits (N

Cours 4: La Mécanique de l’Inférence Statistique PDF

Document Details

Tags

Related

Summary

Full Transcript