PSY 1004A Séance 4 25 Sept 2024 PDF
Document Details
Uploaded by BriskKazoo9341
Université de Montréal
2024
Kevin Jamey
Tags
Summary
These lecture notes cover PSY 1004A, a course on quantitative analyses in psychology. The lecture notes discuss inferential analyses concepts and give examples. The document also references required readings and provides question from upcoming exams.
Full Transcript
P S Y 1 0 0 4 – A N A LY S E S Q U A N T I TAT I V E S E N P S Y C H O L O G I E Séance 4 – Les analyses inférentielles – concepts et inférences Kevin Jamey, MSc, PhD (c) [email protected] 25 Septembre 2024 2 ORDRE DU JOUR Exposé magistral et d...
P S Y 1 0 0 4 – A N A LY S E S Q U A N T I TAT I V E S E N P S Y C H O L O G I E Séance 4 – Les analyses inférentielles – concepts et inférences Kevin Jamey, MSc, PhD (c) [email protected] 25 Septembre 2024 2 ORDRE DU JOUR Exposé magistral et discussions 1. Objectifs et annonces 2. QCMs étudiants - retour 3. Le concept d’inférence statistique 4. La mécanique d’inférence statistique 5. Exercices type examen 3 TP2 NOUVELLE DATE DE REMISE: LE 30 OCTOBRE Mis sur StudiUM jeudi ou vendredi 4 OBJECTIFS (SÉANCE 4) Connaître et maîtriser les concepts et la mécanique reliés aux analyses quantitatives inférentielles. D’autres objectifs? 5 LECTURES POUR LA SÉANCE 5 Lisez le chapitre 6 de Haccoun et Cousineau (2010). Complétez votre lecture à l’aide des questions type examen 6 TESTEZ VOTRE COMPRÉHENSION ! Haccoun, R. R. et Cousineau, D. (2010). Statistiques: Concepts et applications. Montréal : Les Presses de l'Université de Montréal. Voir p. 27-30; 55-57 pour réviser le cours 1. Voir p. 95-97; 124-126 pour réviser le cours 2. Voir p. 144-146 pour réviser le cours 3. Voir p. 246-248; 288-290 pour réviser le cours 4. Approfondissement (vidéo) Probabilités et inférence Place your screenshot here https://www.youtube.com/watch?v =5Z9OIYA8He8 7 Retour sur les QCMs des étudiants 8 Dans une classe de 60 étudiants, la moyenne du premier examen intra est de 65% et l’écart-type de 15. On souhaiterait savoir le nombre d’élèves ayant obtenus des scores entre 50 et 65%. a) 30 étudiants b) 20 étudiants c) Difficile à dire, il manque des informations d) 45 étudiants 9 Vous analyser une distribution normale où la moyenne est égale à 8 et l’écart type est égal à 1.5. Margot a eu 10, on peut en conclure que : (choisissez toutes les réponses vraies) 1. Elle se situe à la valeur étalon Z = 1.33 2. Elle se situe au 91e percentile 3. La densité sous la courbe où elle se situe est supérieure ou égal à 80% 4. 9 personnes ont eu une meilleure note qu’elle. a. 1, 2, 3 (100%) b. 2, 3, 4 (0%) c. 1, 3, 4 (0%) d. Toutes les réponses ci-dessus sont juste (0%) 10 11 LE CONCEPT D’INFÉRENCE STATISTIQUE 12 LE CONCEPT D’INFÉRENCE L’inférence statistique : un concept fondamental nous permettant de tirer des conclusions. Les notions qui seront abordées sont : - Population et échantillon. - Échantillons aléatoires. - Paramètres vs statistiques. - Hypothèse nulle et hypothèse alternative. - Erreur d’échantillonnage. - Erreurs d’inférence alpha (I) et bêta (II). 13 LA POPULATION ET L’ÉCHANTILLON La population : constitue un groupe complet ou un groupe inaccessible que nous souhaitons connaître. - Est-ce que le médicament réduit les symptômes d’anxiété induit par les statistiques pour les étudiant(e)s de PSY 1004 ? VS - Est-ce que le médicament réduit les symptômes d’anxiété induit par les statistiques chez tous les humains ? - Est-ce que l’apprentissage des statistiques est relié à une augmentation des AVC chez les étudiants ? - Existe-t-il une relation entre le stress et la performance ? 14 LA POPULATION ET L’ÉCHANTILLON (SUITE) L’échantillon consiste en ce que que nous connaissons. - Le médicament réduit-il les symptômes des patients du groupe expérimental en comparaison avec ceux du groupe témoin ? - Est-ce que le nombre d’AVC vécus par les étudiants de PSY-1004 A est supérieur à celui vécu par les autres étudiants du même cours ? - Les étudiants qui obtiennent de meilleures notes tendent-ils à être moins stressés ? 15 LA POPULATION ET L’ÉCHANTILLON (SUITE) Échantillon Population 16 LA POPULATION Représente 100 % des informations concernant un phénomène ou un groupe. La population représente LA VÉRITÉ ABSOLUE au sujet d’un phénomène, d’une caractéristique, de la relation entre deux variables, etc. Théoriquement, c’est la vérité car l’information est obtenue pour toutes les personnes / entités constituant la population. IL FAUT TOUTEFOIS AVOIR UNE MESURE VALIDE ET FIDÈLE. - En effet, la « vérité » est obtenue partir de la mesure. Si la mesure porte à faire des erreurs, ce sera une vérité absolue, mais « faussée » (validité / fidélité). 17 LA POPULATION (SUITE) L’ensemble des personnes / entités auxquelles s’appliquent les conclusions d’une recherche ou d’une analyse. - Le degré de dépression de tous les travailleurs de la santé du Canada. - Le quotient intellectuel de tous les étudiants. Lorsque l’on prend une mesure à partir d’une population, elle se nomme « recensement », à l’opposé d’un « sondage » (échantillon). La population est donc, en termes statistiques, « l’ensemble » d’unités (personnes, entités) généralisé par un modèle statistique (échantillon). 18 LA POPULATION (SUITE) Il faut toutefois réaliser qu’il est quasi impossible de mesurer une population dans bien des cas (coûts, ressources, temps, accessibilité, etc. ). À noter, elle doit être définie par le chercheur: il n’existe pas de population « à priori ». Par exemple : - le quotient intellectuel de tous les étudiants -> quasi- impossible; - le quotient intellectuel des étudiants de l’UdeM -> difficile; - ou de tous les étudiants de PSY 1004 -> plus réaliste. 19 L’ÉCHANTILLON (« SAMPLE ») L’information disponible au sujet d’un phénomène. L’échantillon consiste en les informations obtenues sur une parcelle des membres d’une population. Le principe sous-jacent à cette « manipulation » est que l’échantillon s’avère le meilleur estimé de la population. - Le degré de dépression de tous les travailleurs de la santé -> le degré de dépression des travailleurs de la santé d’une province du Canada. - Le quotient intellectuel de tous les étudiants -> le quotient intellectuel des étudiants de l’UdeM. L’échantillon est directement mesurable (en fonction des ressources disponibles). 20 L’INFÉRENCE STATISTIQUE L’inférence consiste à tirer une conclusion au sujet des caractéristiques de la population (qui sont inconnues) à partir des caractéristiques de l’échantillon (qui sont connues). Que signifie « caractéristiques » ? 21 LES PARAMÈTRES VS LES STATISTIQUES Le terme « paramètre » (« parameters ») est utilisé pour décrire les caractéristiques de la distribution de la population. Le terme « statistique » est utilisée pour décrire les caractéristiques d’un échantillon OU de la distribution de la population, par l’intermédiaire d’une inférence. Les caractéristiques de la distribution d’une population ou d’un échantillon sont entre autres sa moyenne, sa variance, son écart-type, son asymétrie et son aplatissement, etc. Les paramètres sont décrits avec des lettres de l’alphabet Grec. Les statistiques sont décrites avec des lettres de l’alphabet Latin. 22 LES SYMBOLES (PARAMÈTRES / STATISTIQUES) Analyse Paramètre Statistique Moyenne µ (mu) 𝛸 (ou M) Variance s² (sigma²) s² Écart-type s (sigma) s Corrélation r (rho) r (à venir) 23 UTILISATION DE L’INFÉRENCE STATISTIQUE L’inférence consiste à « estimer » les paramètres (caractéristiques de la population) à partir des statistiques (les caractéristiques de l’échantillon). Un estimé implique toujours une probabilité. En conséquence, lorsque nous faisons une estimation, il est possible de faire une erreur : une erreur d’inférence. En d’autres mots, les statistiques issues de l’échantillon permettent de faire une inférence (suggérer une conclusion) au sujet des paramètres de la population, mais cette inférence pourrait être erronée. 24 UTILISATION DE L’INFÉRENCE STATISTIQUE (SUITE) Échantillonnage Inférence Échantillon Population 25 EXEMPLES D’INFÉRENCES Nous collectons des données sur un phénomène, dans le but d’établir une conclusion générale à son sujet, i.e. à propos de la population. - Si 𝛸 = 30, c’est le meilleur estimé de µ = 30. - Si s² = 100, c’est le meilleur estimé est s² = 100. Exemples: - Si nous obtenons une corrélation « r » entre x et y, mesurées à l’aide d’un échantillon, nous « inférons » que la corrélation dans la population est « r » (« rho »). - Si dans notre échantillon, les personnes aux cheveux bruns sont meilleures à l’école que celles aux cheveux noirs, nous inférons que cela est aussi le cas dans la population. Mais nous n’avons pas nécessairement raison ! - La représentativité de l’échantillon est un facteur important. 26 EXEMPLES D’INFÉRENCES (SUITE) Exemple pharmaceutique. - Dans l’échantillon, ceux qui prennent du chocolat noir quotidiennement font deux fois moins de crises cardiaques que ceux qui n’en prennent pas. - Inférence: prendre du chocolat noir tous les jours réduit de moitié le risque de crise cardiaque. L’estimé des paramètres de la population réalisé à partir de statistiques présume que l’échantillon est représentatif. 27 L’ÉCHANTILLON REPRÉSENTATIF Puisque nous voulons répondre à une question à propos de la population et que nous n’avons accès qu’à un échantillon, il faut que les caractéristiques de l’échantillon soient similaires à celles que l’on retrouve dans la population. 𝛸 La distribution d’un échantillon représentatif µ devrait ressembler à la distribution de la population (la forme et les caractéristiques de la courbe sont similaires). Utile: économie de temps, d’argent et d’énergie. 28 L’ÉCHANTILLON REPRÉSENTATIF (SUITE) Il existe une incertitude permanente quant à la valeur des conclusions de l’étude réalisée à partir d’un échantillon car ce ne sont pas toutes les personnes (ou entités) concernées d’une population qui sont interrogées. D’où l’importance que l’échantillon soit représentatif (les individus qui composent l’échantillon ont les mêmes caractéristiques que ceux de la population, idéalement dans les mêmes proportions). Les caractéristiques servant à évaluer la représentativité sont tributaires du concept à évaluer (sexe, âge, origine, etc.). 29 L’ÉCHANTILLON REPRÉSENTATIF (EXEMPLE) Supposons que nous souhaitons prédire le niveau d’anxiété des étudiants à l’idée d’étudier les statistiques dans la population québécoise. Nous savons qu’il existe différents « degrés » de cours de statistiques. Imaginons que dans la population: 50 % des cours sont dispensés au cégep, 40 % le sont au bacc. et 10 % le sont aux études supérieures / graduées. L’échantillon représentatif idéal (est stratifié; nous reviendrons sur ce terme), serait constitué de 50 % d’étudiants de cégep, 40 % d’étudiants de bacc. et de 10 % d’étudiants à la maîtrise ou au doctorat. D’autres exemples : sexe et anxiété ; génération et travail, etc. 30 RANDOMISATION ET ÉCHANTILLON REPRÉSENTATIF Lorsque nous connaissons les caractéristiques d’une population (ex.: nous connaissons les caractéristiques de tous les employés d’une organisation), il est plus facile de choisir un échantillon qui la représente. (ex. diapo précédente). Mais … lorsque nous ne connaissons pas les paramètres (ex. : très grande population), comment constituer un échantillon représentatif ? Il faut utiliser un échantillon aléatoire. Grâce aux lois du hasard, s’il contient un nombre « suffisamment » grand d’observations, l’échantillon sera la représentation la plus fidèle de la population. 31 L'ÉCHANTILLON ALÉATOIRE : DEUX CRITÈRES Le critère de la chance égale : chaque individu de la population a une chance égale d’être choisi. - Randomisation / échantillon aléatoire / échantillon probabiliste. Le critère de l’indépendance des réponses : la réponse d’une personne ne doit pas être influencée par la réponse d’une autre personne. - Éthique : anonymat, confidentialité. - Vote à main levée. - Deux personnes d’une même famille dans l’échantillon. LES PENGOUINS 32 33 TYPES D’ÉCHANTILLON ALÉATOIRES Échantillon aléatoire simple. - Chaque élément d’une population a une chance égale d’être contacté / choisi (tirage au sort), peu importe ses caractéristiques (quand nous ne les connaissons pas dans la population). Échantillon aléatoire stratifié. - Les strates correspondent à des caractéristiques connues de la population (exemple de la diapo 25 avec les types de cours de statistiques). Échantillon par grappes - Groupes VS individus (ex. : classe, unités administratives, etc. Il en existe d’autres, non probabilistes, mais ces derniers ne permettent pas l’inférence. - Accidentel, volontaire, quotas, etc … 34 TAILLE DE L’ÉCHANTILLON ET REPRÉSENTATIVITÉ Dans une population normalement distribuée, les observations proches de µ sont plus nombreuses et les observations qui s’en éloignent sont plus rares (comme pour l’échantillon et Χ). Aléatoirement, un échantillon plus grand à plus de chances d’inclure ces observations plus rares. Donc, plus l’échantillon est grand, plus il a de chances d’être représentatif, i.e. de ressembler à la population - Plus les statistiques vont s’approcher des paramètres. 35 RELATION REPRÉSENTATIVITÉ / TAILLE D’ÉCHANTILLON Parfaite Représentativité Faible Petite Grande (près de pop.) Taille d’échantillon 36 RELATION ERREUR / TAILLE D’ÉCHANTILLON Grande Erreur statistique ou d’échantillonnage Petite Petite Grande Taille d’échantillon 37 UN OUTIL À CONSERVER … Voici un raccourci à noter absolument pour votre « coffre à outils ». http://www.raosoft.com/samplesize.html Essayons-le! (population de 1000; p = 0,05; p = 0,01). - Nous verrons le « p » dans quelques instants. Ne pas oublier: pour que l’échantillon soit représentatif, il faut aussi qu’il soit aléatoire. 38 LE CALCUL DES PARAMÈTRES ET DES STATISTIQUES Puisque nous n’avons presque jamais accès à la distribution des populations, le calcul des paramètres est rarement possible en pratique. Pourquoi les formules sont-elles différentes? Paramètres Statistiques Moyenne µ=SX/N 𝛸=SX/n Variance s² = S(X-µ)² / N s² = S(X-𝛸)² / n-1 Écart-type s = S(X-µ)²/ N s = S(X-𝛸)²/ n-1 39 INDÉPENDANCE ET DEGRÉS DE LIBERTÉ Le calcul de µ et de 𝛸 est identique : la somme des observations est divisée par N ou n. - Chaque observation est indépendante. Le calcul de s ² (et s ) et de s² (et s) n’est pas identique: la division, pour les échantillons se fait par n -1. - n - 1 = les degrés de liberté (d.l.). - La division par n -1 produit un estimé « non biaisé » de s² (ou s ) de la population à partir de la s2 (ou s) de l’échantillon. 40 DEGRÉS DE LIBERTÉ Dans toute population, il existe des valeurs très extrêmes et nous savons que ces valeurs affectent beaucoup la variance (x-µ)². Un échantillon restreint, relativement à la population exclura probablement ces valeurs extrêmes (très rares). La variance de l’échantillon sera alors plus petite que la variance dans la population. Ceci est un biais. La division par n – 1 compense ce biais en « exagérant » légèrement la variance de l’échantillon, ce qui produit une meilleure estimation de la variance de la population. Exemple : - S(X - 𝛸)² = 10: n = 5; s² = 10 / 5 = 2. La division par n - 1 « exagère » la variance. - S(X - 𝛸)² = 10: n -1 = 4; s² = 10 / 4 = 2,5. 41 DEGRÉS DE LIBERTÉ (SUITE) L’estimé « non biaisé » de s (calculé avec n - 1) est donc un meilleur estimé de µ. Mais il existe une dernière raison de l’utilisation de n – 1. Attention ! - Les statistiques estiment les paramètres seulement lorsque l’échantillon est aléatoire. - La randomisation exige le respect des deux critères (indépendance et chance égale) pour toutes les observations d’une distribution. 42 POURQUOI N – 1? Nous estimons s a partir de s (axiome statistique). Le calcul de la s se base sur la différence x - 𝛸. Les critères de randomisation exigent que chaque différence x -𝛸 est indépendante. En réalité, cela n’est pas le cas. Un des écarts n’est jamais indépendant et il faut le retirer du calcul s = S(X- 𝛸)²/n - 1. 43 ILLUSTRATION Field (2017) p. 59, ou en français : (Haccoun et Cousineau, 2010) 44 ILLUSTRATION (SUITE) Vous avez la moyenne de l’échantillon (S x/n = 2). Voici deux des observations de l’échantillon : x1 = 1; x2 = 2. Calculons l’écart X-𝛸 pour chaque observation (1 - 2 = -1 et 2 – 2 = 0) Pouvez-vous deviner l’écart x3 - 𝛸 = ? Si vous pouvez deviner ce 3è écart x3- 𝛸 à partir des deux autres (x1- 𝛸 et x2- 𝛸) cet écart n’est donc pas indépendant. N’étant pas indépendant, son inclusion dans le calcul S(x - 𝛸)² sera établi sur un échantillon dont toute les observations x - 𝛸 ne sont pas aléatoires, biaisant ainsi l’estimé du paramètre s². 45 ILLUSTRATION (SUITE) Nous savons que nécessairement : S(Xi - 𝛸) = 0 (X1- 𝛸) + (X2- 𝛸) + (X3- 𝛸) = S(Xi - 𝛸) = 0 -1 + 0 = -1 (x3 - 𝛸) = doit obligatoirement être +1 (-1 + 0 + 1 = 0) Le score x3 est donc de 3: 3 – 2 (𝛸) = +1 Une observation qui n’est pas indépendante doit être retirée du calcul (n - 1). Tous les écarts X-𝛸 restants sont maintenant indépendants, tels que l’exige la règle de la randomisation. 46 MAIS POURQUOI s² = (X - µ)² / N? En travaillant la population nous n’avons pas besoin d’estimer la variance. Il n’y a pas d’inférence à faire. Nous avons 100 % des observations. Par conséquent il n’est pas possible d’avoir un biais d’inférence, aucune correction n’est requise. Ainsi la variance de la population est calculée à partir de /N. 47 LA TAILLE DE L’ÉCHANTILLON ET LES D. L. Lorsque nous travaillons avec de grands échantillons, la division par n - 1 ou par n produit presque le même résultat. Néanmoins, par mesure de prudence, afin de distinguer s de s nous utilisons toujours n -1 lorsque nous calculons la variance (et l’écart-type) de nos échantillons. 48 PREMIÈRE PAUSE Questions type examen QCM Que représente l'expression "degrés de liberté" dans le contexte des tests d'hypothèses statistiques ? A) La possibilité pour le chercheur de choisir n'importe quelle taille d'échantillon. B) Le nombre de différentes hypothèses possibles qui peuvent être testées. C) Le nombre de valeurs dans la population. D) Le nombre de valeurs qui peuvent varier sans affecter une statistique particulière. 49 50 THÉORIE, HYPOTHÈSES ET VÉRIFICATION La méthode scientifique repose sur trois concepts centraux : La théorie : une représentation de la réalité. L’hypothèse alternative (H ou H1 dépendamment des ouvrages). - La prédiction que la manipulation ou expérimentation aura un effet (lien, différence entre les variables, prédiction, etc.). - Une conséquence observable qui sera vraie si la théorie est juste. L’hypothèse nulle (H0): l’inverse de H1. - La théorie ou prédiction est erronée. La vérification de l’hypothèse (NHTS): Un ensemble de procédures logiques qui permettent de vérifier si l’hypothèse alternative est vraie ou si l’hypothèse nulle est fausse. 51 THÉORIE ; H1 ; H0 ET LA VÉRIFICATION : EXEMPLE La théorie : la Terre est ronde. L’hypothèse alternative : l’horizon est courbé. L’hypothèse nulle : l’horizon n’est pas courbé (la terre est plate). La vérification de l’hypothèse : on compare l’horizon à une ligne droite. Si les deux lignes ne sont pas parallèles, nous rejetons l’hypothèse nulle, retenons l’hypothèse alternative et par conséquent, nous sommes plus confiants que la théorie représente bien la réalité (sans jamais en être certains). Pour étudier des pros de la méthode scientifique et prouver que votre professeur dit n’importe quoi, rendez- vous à l’adresse suivante: https://www.tfes.org/ 52 L’HYPOTHÈSE ALTERNATIVE L’hypothèse (H1) prédit que quelque chose est vrai dans la population. - H1: les gens insatisfaits sont plus souvent absents du travail. Mais, n’ayant pas accès à la population, l’hypothèse se vérifie par l’entremise des échantillons et des inférences. - Existe-t-il une corrélation (un lien) entre la satisfaction et l’absence dans cette organisation ? - OU ceux qui sont satisfaits dans cette organisation sont-ils moins absents que ceux qui sont insatisfaits ? 53 PREMIER EXEMPLE (APPARTENANCE À LA POPULATION) Nous posons l’hypothèse (H1) selon laquelle l’attitude envers les statistiques est plus positive pour ceux du PSY 1004 A (vous êtes fantastiques) que celle des étudiants de l’ensemble du département (µ). Nous connaissons l’attitude des étudiants du département (µ et distribution normale). Nous connaissons la 𝛸 de l’attitude des étudiants de PSY 1004 A. H1: 𝛸 ≠ µ ; H0 : 𝛸 = µ Nous trouvons 𝛸 = 120, µ = 100. (𝛸 ≠ µ ) Conclusion: Rejet de H0 (et acceptation de H1). Donc, les étudiants de PSY 1004 A ne font pas partie de la même population que les étudiants « normaux » du département. Ils constituent une autre population. Ils sont différents ! 54 PREMIER EXEMPLE (SUITE) Avertissement: Une distribution normale n’a qu’une seule moyenne (µ) et le meilleur estimé de celle-ci est 𝛸 Cette « règle » sera (échantillon; axiome couvert précédemment). raffinée plus tard Si l’échantillon provient de cette population sa 𝛸 (à chercher pour la suite devrait être la même que µ (ou presque). Mais si 𝛸 est différente de µ, l’échantillon qui produit 𝛸 doit obligatoirement provenir d’une autre population. Nous alors rejetons H0. Éventuellement nous allons dire techniquement que 𝛸 est significativement différente de µ. 55 SECOND EXEMPLE H1 : l’habileté statistique diffère pour les hommes et les femmes. H0 : l’habileté statistique ne diffère pas pour les hommes et les femmes. Elle est similaire. L’habileté statistique se mesure par un test de mathématiques. H1: µ notesF ≠ µ notesH ; H0 : µ notesF = µ notesH Nous testons un échantillon de femmes et un échantillon d’hommes, chacun (aléatoirement extrait) est représentatif de la population qui est normalement distribuée et n’a qu’une seule moyenne (µ). - Si les deux 𝛸 ne sont pas les mêmes, elles ne peuvent pas toutes deux provenir de la même population et ainsi dire que les hommes et les femmes sont équivalents en statistiques (rejet de H0). - Si les deux 𝛸 sont identiques, il n’y a pas de base pour croire qu’ils proviennent de deux populations différentes (non rejet de H0). 56 LA SIGNIFICATION STATISTIQUE La signification statistique porte directement sur la relation entre l’échantillon et la population. (Exemple). Lorsque nous trouvons une corrélation « statistiquement significative » entre x et y, nous inférons qu’il y a de faibles chances que la corrélation x et y au niveau de la population soit en réalité égale à zéro (0 = aucune corrélation). Lorsque nous trouvons une différence « statistiquement significative » entre la performance scolaire des filles et des garçons, nous inférons qu’il y a de faibles chances qu’au niveau de la population la différence entre les filles et les garçons soit égale à zéro. Mais il s’agit d’une inférence. L’erreur est possible. 57 LOGIQUE DU JEU D’HYPOTHÈSE H1 VS H0 Si H1 prédit qu’il y aura une différence ou une corrélation (par exemple), H0 prédit qu’il n’y aura pas de différence ou de corrélation. Si nous rejetons l’hypothèse nulle (elle est « fausse »), son inverse doit nécessairement être vrai (il y a une différence ou une corrélation). Le rejet de H0 mène à « l’acceptation » de H1. Mais l’inverse n’est pas le cas. (Important). Si H0 ne peut pas être rejetée, cela ne veut pas nécessairement dire que H1 est fausse. Nous sommes limités à dire «que nous ne pouvons pas accepter H1 ». - On a peut-être mal mesuré, on n’a pas réussi à trouver, etc … 58 LE REJET DE H0 « PROUVE » H1: EXEMPLE H1: il y a des missiles nucléaires en Iran. H0: il n’y a pas de missiles nucléaires en Iran. Nous en trouvons un sous le lit de Behnam. Il est alors faux de dire qu’il n’y a pas de missiles nucléaires en Iran et rejetons H0. Le rejet de H0 implique nécessairement l’acceptation de H1: il y a (au moins un) missile en Iran (et ainsi il est faux - comme le soutient H0 - qu’il n’y en a pas). LE NON-REJET DE H0 NE PROUVE PAS QUE H1 59 EST FAUSSE: EXEMPLE. H1: il y a des missiles nucléaires en Iran. H0: il n’y a pas de missiles nucléaires en Iran. On fouille toutes les villes de l’Iran et nous ne trouvons que des pétards. Cela ne prouve pas que les missiles nucléaires n’existent pas, car elles pourraient être dans les campagnes (il y en a d’ailleurs un sous le lit de Behman mais il l’a bien caché sous une couverture). On fouille les campagnes et nous n’en trouvons pas. Cela ne prouve pas qu’ils n’existent pas, car elles pourraient être mieux cachés que notre habileté à les trouver ! Le non-rejet de H0 ne prouve pas que H1 est fausse. 60 RAPPEL - ENRICHISSEMENT On se demandait à la séance 1 : - À quoi servent les instruments de mesure valides et fidèles ? Pourquoi est-ce important en statistiques ? Que se passe-t-il si on envoie une personne paraplégique, aveugle et corrompue faire les fouilles des missiles nucléaires en Iran? Que se passe-t-il si l’on mesure l’estime de soi de quelqu’un sur un plateau de télévision ? On augmente la probabilité de commettre une erreur de type I ou II en concluant avec nos mesures ! 61 QUATRE PRINCIPAUX CONCEPTS D’INFÉRENCE Si H0 est rejetée (fausse), H1 est nécessairement vraie. Si H0 n’est pas rejetée (n’est pas fausse), il n’y a pas de preuve confirmant H1 mais H1 n’est pas nécessairement fausse. Nous ne pouvons jamais prouver qu’une H1 est fausse (que le phénomène n’existe pas) à partir d’un échantillon. Pour prouver que quelque chose n’existe pas, il faut examiner la population complète, ce qui est généralement irréalisable. 62 EN D’AUTRES MOTS … Si nous rejetons H0, H1 est vraie. Si nous ne rejetons pas H0, nous ne pouvons pas dire que H1 est vraie mais cela ne veut pas nécessairement dire que H1 est fausse ! Au final, la méthode scientifique ne permet jamais de conclure (i.e. de prouver) que quelque chose n’existe pas. Nous sommes limités à conclure qu’il n’y a pas de preuve (en fonction de la science actuelle) que la chose existe. - Existence d’extra-terrestres. - Preuve d’intelligence divine. - Parapsychologie, etc. 63 POSTULAT DE L’INFÉRENCE (RAPPEL) Nous présumons que le ou les échantillons sont aléatoirement extraits de populations normalement distribuées. Il n’est pas requis que l’échantillon soit parfaitement normalement distribué mais il lui faut être aléatoirement extrait. - Signifie que la symétrie et l’aplatissement ne soient pas trop élevés. 64 SOMMAIRE DE LA LOGIQUE DE L’INFÉRENCE Les hypothèses sont vérifiées par l’entremise d’échantillons et servent à tirer une inférence au sujet de la population. Les échantillons sont aléatoirement tirés de population(s). Lorsque nous rejetons l’hypothèse nulle, nous concluons que l’échantillon ne provient probablement pas de cette population (ou que deux échantillons proviennent de populations différentes). Lorsque nous ne rejetons pas H0, nous concluons qu’il n’y a pas de preuves que l’échantillon ne provient pas de cette population (ou que deux échantillons proviennent de populations différentes). 65 PRINCIPE DE BASE EN INFÉRENCE La population, normalement distribuée ne peut avoir qu’une seule moyenne (µ) et 𝛸 est le meilleur estimé de µ. Si les 𝛸 des deux échantillons A et B (ou 𝛸 est µ) diffèrent, les deux échantillons (ou 𝛸) ne proviennent pas d’une seule population. - H1 = l(es) échantillon(s) ne provien(nen)t pas de la même population. - H0 = l(es) échantillon(s) provien(nen)t de la même population. 66 UNE NUANCE S’IMPOSE Donc nous disons que l’échantillon ne provient pas de cette population lorsque 𝛸 ≠ µ. Également, deux échantillons ayant des 𝛸 différentes ne peuvent pas provenir de la même population. Il faut toutefois nuancer ce principe. Il faut aborder l’erreur d’échantillonnage. Il s’agit du concept le plus important pour comprendre le test de l’hypothèse et le concept de la signification statistique. 67 LA FLUCTUATION DES ÉCHANTILLONS ALÉATOIRES Il est très probable (quasi certain) que deux échantillons de la même taille, extraits de la même population, aient des 𝛸 numériquement différentes. De manière équivalente, n’importe quel échantillon extrait aléatoirement d’une population n’aura pas nécessairement la même 𝛸 que celle de sa population. 68 LA FLUCTUATION (EXEMPLE) Dans une classe, N = 160, la moyenne à l’examen est µ = 70 et les notes varient entre 0 et 100. Nous désirons estimer µ à partir d’un échantillon aléatoire de n = 5 de cette classe. Quelle sera 𝛸 pour cet échantillon: - En pratique 𝛸 pourrait être 70 (74, ou 0, ou 100, ou 43 ou 87 etc.). Tirons un deuxième échantillon n = 5. - En pratique 𝛸 pourrait être 70 mais 𝛸 pourrait aussi être 74 ou 0, 100, etc. Les deux échantillons n’ont pas la même 𝛸. Selon le principe de base de l’inférence, ils ne proviennent pas de la même population ! Mais cela est faux. Les deux échantillons sont vraiment extraits de la même population ! 69 L’ERREUR D’ÉCHANTILLONNAGE ET L’ERREUR-TYPE DE LA MOYENNE (CONCEPT LE PLUS IMPORTANT DU COURS) L’erreur d’échantillonnage : la fluctuation naturelle entre les échantillons tirés de la même population. - Différents échantillons extraits de la même population ne sont pas nécessairement composés des mêmes observations. L’erreur type de la moyenne (« standard error ») : la fluctuation naturelle entre les 𝛸 des échantillons tirés de la même population. - La moyenne des échantillons extraits de la même population ne sera pas nécessairement numériquement la même. L’erreur d’échantillonnage et l’erreur type de la moyenne réfèrent au même principe - (Voir Field, 2017; 2.7 pour plus de détails). 70 PRINCIPE D’INFÉRENCE NUANCÉ Supposons que nous pouvons chiffrer l’erreur type de la moyenne (la fluctuation « naturelle » entre les 𝛸 des échantillons). L’erreur-type = jusqu’à quel point puis-je tolérer qu’une moyenne d’échantillon soit différente d’une moyenne de population ? Nouvelle règle d’inférence : - Rejet de H0 lorsque la différence entre la moyenne des échantillons (ou entre 𝜲 et µ) est plus grande que l’erreur-type de la moyenne. 71 L’INFÉRENCE EN RÉSUMÉ Implique une conclusion au sujet de la population à partir d’un l’échantillon. Exige la formulation de H1 et de H0. Se réduit a la décision: H1 ou H0. La décision H1 vs H0 dépend de la différence entre 𝛸 et µ ou entre les 𝛸 de plusieurs échantillons. Mais il faut prendre en considération l’erreur type de la moyenne (« standard error »). Rejet de H0 si la différence entre les moyennes est plus grande que l’erreur type de la moyenne. 72 ET FINALEMENT: LES ERREURS D’INFÉRENCE L’inférence consiste à conclure H1 ou H0. En rejetant H0, nous disons que les échantillons ne proviennent probablement pas de la même population. Lorsque nous ne rejetons pas H0, nous ne pouvons pas inférer avec certitude que les échantillons ne proviennent pas de la même population. Ces décisions se basent sur des probabilités et non pas des certitudes: la conclusion (H1 ou H0) pourrait être fausse. Une conclusion fausse serait une erreur; une erreur d’inférence. 73 ERREURS DE TYPE I Conclure qu’un phénomène existe alors qu’il n’existe pas consiste en une erreur de type I (alpha; « type I error ») - Conclure qu’il existe une différence entre deux moyennes, un lien entre deux variables (etc.) alors qu’en réalité il n’existe pas de différence ou de lien. - Conclure à tort au rejet de H0. - Il s’agit d’un « faux positif ». 74 ERREURS DE TYPE II Conclure qu’un phénomène n’existe pas alors qu’il existe consiste en une erreur de type II (bêta; « type II error ») - Conclure qu’il n’existe pas de différence entre deux moyennes, aucun lien entre deux variables (etc.) alors qu’en réalité la différence ou le lien existe. - Conclure à tort au non-rejet de H0. - Il s’agit d’un « faux négatif ». 75 EXEMPLES D’ERREURS DE TYPE I ET DE TYPE II Vous établissez un diagnostic auprès d’un client de votre clinique. - H1= le client a une dépression majeure. - H0 = le client n’est pas en dépression (il a autre chose). Vous établissez le diagnostic de dépression. - Il est réellement dépressif. Rejet de H0 : diagnostic juste. - Il a réellement autre chose. Il n’est pas dépressif, mais plutôt bipolaire. Mauvais diagnostic : erreur de type I (alpha); faux positif. Vous avez faussement rejeté H0. Vous établissez un diagnostic de bipolarité (il avait autre chose). - Il est réellement bipolaire. Accepter H0 était la bonne conclusion. - Il est réellement dépressif. Mauvais diagnostic : erreur de type II (bêta); faux négatif. Vous avez faussement rejeté H1. ERREURS ALPHA (I) ET BÊTA (II) : UNE 76 ILLUSTRATION H1 : grossesse. H0 : pas de grossesse. Rejet de H0, alors qu’il ne le faudrait pas. (Type 1 / Alpha) Non-rejet / acceptation de H0, alors qu’il ne le faudrait pas. (Type 2 / Bêta) 77 SECONDE PAUSE 78 LA MÉCANIQUE D’INFÉRENCE STATISTIQUE 79 COMPRENDRE: Χ VS µ … Χ : probabilité ? µ 80 𝛸 VS µ : RARE OU FRÉQUENT ? La probabilité d’obtenir 𝛸 en fonction de la normalité: la plupart des 𝛸 seront près de µ (68 %) et la majorité (95 %) à plus ou moins deux écarts de µ. 𝛸 : non rejet H0 𝛸 : rejet H0 2,5 % 95 % 2,5 % z = 1,96 = 0,9750 - 1,96 0 1,96 81 UNE OU DEUX POPULATIONS : REJET DE H0 Lorsqu’il est peu probable qu’un échantillon provient de la population µ, il est probable qu’il vient d’une autre population µ2. Remarquez : 𝛸 s’éloigne de µ. Serait-ce possible qu’il s’en éloigne trop et donc qu’il y ait peu de probabilité qu’il appartienne à µ ? 𝛸 µ µ2 82 IL FAUT MAINTENANT COMPRENDRE … Comment mesurer concrètement l’erreur type de la moyenne (s Χ ). - L’intervalle de confiance et son lien avec s Χ. - L’utilisation de l’intervalle de confiance pour l’inférence: le rejet ou non de H0. Le concept de la signification statistique. Les erreurs d’inférence. 83 LE REJET OU NON DE H0 : LE PRINCIPE L’inférence scientifique consiste à décider s’il est possible de rejeter l’hypothèse nulle (H0). - Si l’échantillon et la population n’ont pas la même moyenne, nous rejetons H0, sinon, nous ne la rejetons pas. Mais, à cause de l’aspect aléatoire, tous les échantillons extraits de la même population n’auront pas la même moyenne. - Cette variation « naturelle » est l’erreur d’échantillonnage, ou l’erreur type de la moyenne. - La règle décisionnelle indique que nous rejetons H0 lorsque la différence Χ - µ est « bien plus grande » que l’erreur type de la moyenne. 84 DEUX PROBLÈMES À RÉSOUDRE Il faut trouver une façon de calculer l’erreur type de la moyenne. Définir ce que nous voulons dire par : la différence doit être « bien plus grande » que l’erreur type de la moyenne. La distribution normale nous viendra en aide. 85 L’EXPÉRIENCE DE L’ÉCHANTILLONNAGE Créons une population parfaitement normale. Tirons-lui aléatoirement tous les échantillons différents de la même taille (n). Calculons la moyenne de chaque échantillon (𝛸) Enfin, créons la distribution de ces moyennes. 86 L’EXPÉRIENCE DE L’ÉCHANTILLONNAGE : CONSTATS La plupart des échantillons auront une La distribution des 𝛸 des échantillons 𝛸 proche de µ, mais d’autres se trouveront plus loin. La distribution des 𝛸 des échantillons sera invariablement normale si les échantillons sont « grands » La moyenne des 𝛸 sera égale à µ. 16 % 68 % 16 % des 𝛸 des 𝛸 des 𝛸 Donc, les 𝛸 d’échantillons se distribueront de la même manière que les observations au sein d’un échantillon ! C’est ce principe qui nous permettra plus tard si nous faisons une erreur d’inférence ou non. -1 µ +1 87 ATTENTION ET TRÈS IMPORTANT ! Si nous répétons l’expérience d’échantillonnage, mais avec une distribution non normale de la population, les résultats demeureront identiques : la distribution des échantillons sera « normale ». Toutefois, les inférences sont valides seulement lorsque la population de référence est normale. Distribution de la population La distribution des 𝜲 des échantillons (non normale) est toujours normale Pas d’inférence avec les statistiques paramétriques ! Statistiques descriptives = ok Statistiques non paramétriques = ok 88 POSTULAT DE L’INFÉRENCE (RAPPEL) Nous présumons que le ou les échantillons sont aléatoirement extraits de populations normalement distribuées. Il n’est pas requis que l’échantillon soit parfaitement normalement distribué mais il lui faut être aléatoirement extrait. - Signifie que la symétrie et la l’aplatissement ne soient pas trop élevés. 89 DÉMONSTRATION : LA MOYENNE DES 𝛸ÉCHANT. = µ Supposons une population de cinq observations. Pop. Échant. 𝜲 Nous tirons tous les échantillons différents possibles, chacun ayant n = 2. A=1 A et B 1,5 B=2 A et C 2,0 Calculons la 𝛸 de chaque échantillon : C=3 A et D 2,5 D=4 A et E 3 (1,5+2,0+2,5+ … + 4, + 4,5) / 10 = 3 E=5 B et C 2,5 B et D 3 µ=3 B et E 3,5 2.5 2 1.5 C et D 3,5 1 C et E 4 0.5 0 D et E 4,5 1.5 2 2.5 3 3.5 4 4.5 S𝛸/K=3 90 REMARQUES IMPORTANTES Pop. Échant. 𝜲 Les échantillons sont tous extraits de la A=1 A et B 1,5 même population. B=2 A et C 2,0 Les observations des échantillons diffèrent C=3 A et D 2,5 (l’erreur d’échantillonnage). D=4 A et E 3 E=5 B et C 2,5 Les 𝛸 diffèrent (l’erreur type des B et D 3 moyennes). µ=3 B et E 3,5 Ces variation proviennent de la C et D 3,5 C et E 4 randomisation. D et E 4,5 S𝛸/K=3 91 ESTIMATION DE LA TAILLE DE LA FLUCTUATION DES 𝛸 Imaginons que nous tirons tous les échantillons de même taille d’une population et que nous calculons la 𝛸 de chaque échantillon. Calculons la différence moyenne (typique?) entre les 𝛸. Ce calcul produit « un chiffre » qui spécifie le degré de fluctuation entre les 𝛸. Ceci ressemble à un écart-type; fluctuation type, mais au niveau des échantillons et non de la distribution. 92 s 𝛸 : LA DIFFÉRENCE « TYPIQUE » ENTRE LES 𝛸 ET µ Calculer la sommation S (𝛸-µ). Cette dernière est toujours égale à zéro ! Pour éliminer ce problème, il faut mettre chaque différence au carré (𝛸 -µ)² et faire la somme de ces différences S (𝛸 -µ)². Ça ne vous rappelle pas quelque chose ? La divisions par K (le nombre d’échantillons), produit la variance des moyennes des échantillons. La racine carrée de s2 𝛸 produit « l’écart-type » des 𝛸 autour de µ. C’est l’erreur type de la moyenne (s 𝛸). 93 L’ERREUR-TYPE DE LA MOYENNE « L’erreur type de la moyenne » (s 𝛸 ) est la fluctuation « typique » ou « habituelle » entre les 𝛸 des échantillons provenant de la même population. - Si nous connaissions toutes les 𝛸 de tous les échantillons il serait facile de calculer s 𝛸. - Mais nous n’avons jamais tous les échantillons. Alors comment déterminer s 𝛸 ?. 94 DONC… Nous connaissons toujours la taille (n) de notre échantillon. ! Lorsque la variance de la population (s² et s) est connue, la différence typique probable entre 𝛸 et µ peut être estimée 𝜎𝛸 = " s 𝜲. # Mais nous avons un problème ! Nous ne connaissons presque jamais s² ou s ! s𝛸 = " - L’axiome statistique peut nous aider: s est le meilleur estimé de s. - Nous pouvons alors utiliser s. 95 LE CALCUL DE S𝛸 s𝜲 : l’erreur-type de 𝛸 (de l’échantillon 1): 𝛸(76,31) diffèrera de µ, en moyenne par ± 2,39 points. N/n µ/𝛸 s/s s𝜲 ! « Population » 162 73,49 12,45 - s𝛸 = Échantillon 1 21 76,31 10,96 2,39 " s (76,31) = 10,96 / √21 = 2,39 𝜲 Échantillon 2 19 70,00 13,40 3,07 Échantillon 3 17 72,76 13,96 3,39 Échantillon 4 19 67,00 15,96 3,66 96 𝛸 ET S𝛸 POUR L’ESTIMATION DE µ Règle décisionnelle L’échantillon n’appartient PAS à cette population (rejet de H0) si la différence entre 𝛸 et µ est plus grande que s𝛸. 76,31-73,49 = 2,82; 2,82 > 2,39 𝛸 n=21= 76,31 s𝛸 = 2,39 2,39 2,39 76,31 + 2,39 = 78,70 76,31 – 2,39 = 73,92 Rejet de H0 ? Oui. 73,92 78,70 96 (µ =73,49) (𝛸 = 76,31) 97 EN D’AUTRES MOTS … Il faut créer l’intervalle de confiance (± s𝛸 ) à partir de la 𝛸 de l’échantillon. Si µ est inclus dans l’intervalle, il faut accepter H0. L’échantillon appartient à la population, il n’est pas si différent de µ. Si µ est à l’extérieur de l’intervalle, il faut accepter H1. L’échantillon est trop différent de µ. Il doit appartenir à une autre population. Rejet de H0 ? Non. - 3,39 + 3,39 Rejet de H0 ? Oui. - 2,39 + 2,39 72,92 79,70 73,92 78,70 97 (µ =73,49) (𝛸 = 76,31) (µ =73,49) (𝛸 = 76,31) 98 COMPRENDRE L’IC ET L’INFÉRENCE Puisque la distribution des 𝛸 d’échantillons est normale … 68,26 % des échantillons auront des 𝛸 situés dans la zone ±1 s𝛸. Il y a donc environ deux chances sur trois que 𝛸 se trouve à ±1 s𝛸. 34,13 % 34,13 % -1s µ +1 s 98 99 COMPRENDRE L’IC ET L’INFÉRENCE (SUITE) 68,26 % des échantillons auront des 𝛸 situés dans la zone ±1 s𝛸. (p = 0,68 que µ est entre 𝛸 ± 1 s𝛸 ) Non rejet de H0 si µ se situe entre 𝛸 ± 1 s𝛸 (impossible de conclure que l’échantillon provient d’une autre population). Rejet de H0 si µ ne se situe pas entre 𝛸 ± 1 s𝛸 (l’échantillon provient d’une autre population). 34,13 % 34,13 % 99 -1s µ +1 s 100 COMPRENDRE L’IC ET L’INFÉRENCE (SUITE) N/n µ/𝛸 s/s s𝛸 IC68% - IC68% + Rejet H0 « Population » 162 73,49 12,45 - Échantillon 1 21 76,31 10,96 2,39 73,92 78,70 oui Échantillon 2 19 70,00 13,40 3,07 66,93 73,07 oui Échantillon 3 17 72,76 13,96 3,39 69,38 76,15 non Échantillon 4 19 67,00 15,96 3,66 63,34 70,66 oui IC68 % = 𝛸 ± 1 * s𝛸 101 L’IC ET L’ERREUR D’INFÉRENCE N/n µ/𝛸 s/s s𝜲 IC68% - IC68% + Rejet H0 « Population » 162 73,49 12,45 - Échantillon 1 21 76,31 10,96 2,39 73,92 78,70 oui Échantillon 2 19 70,00 13,40 3,07 66,93 73,07 oui Échantillon 3 17 72,76 13,96 3,39 69,38 76,15 non Échantillon 4 19 67,00 15,96 3,66 63,34 70,66 oui 1. Dans 3 cas sur 4 nous avons conclu que l’échantillon ne provient pas de cette population (rejet de H0). 2. Pourtant les 4 échantillons proviennent en réalité de la même IC68 %= 𝛸 ± 1 * s𝛸 population (les véritables notes à l’examen de cette population). 3. Nous avons fait une erreur d’inférence (type I) 3 fois sur 4 ! 102 LES DIFFÉRENTS IC ET LE RISQUE D’ERREUR La distribution des échantillons aléatoirement extrait d’une population étant normale, 68,26 % (environ 2/3) des échantillons se trouverons a ± 1 s𝜲. Mais environ 32 % des échantillons extrait de cette population ne sont pas situés a 𝛸 ± 1 s𝜲 Cette règle produit un risque d’erreur d’environ 32 %. Pourquoi ? Parce que 32 % des 𝛸 seront à l’extérieur de l’IC. Il y a trop de risque de se tromper ! 103 AUGMENTATION DE L’IC, BAISSE DU RISQUE D’ERREUR N/n µ/𝛸 s/s s𝛸 IC95% - IC95% + Rejet H0 « Population » 162 73,49 12,45 - Échantillon 1 21 76,31 10,96 2,39 71,62 81,00 non Échantillon 2 19 70,00 13,40 3,07 63,98 76,02 non Échantillon 3 17 72,76 13,96 3,39 66,13 79,40 non Échantillon 4 19 67,00 15,96 3,66 59,82 74,18 non Inférence : non rejet de H0 Nous n’avons aucune preuve que ces échantillons ne proviennent pas de cette population. IC95 %= 𝛸 ± 1,96 * s𝛸 Pour réduire davantage le risque: nous savons que 99 % des échantillons se situent entre 𝛸 ± 2,58 s𝛸. 104 CALCUL DE L’INTERVALLE DE CONFIANCE (IC) IC = 𝛸 ± z s𝜲 𝛸 = la moyenne de l’échantillon s𝜲 = l’erreur type de la moyenne z = la taille de l’intervalle de confiance: il réfère au nombre de s𝜲 qui vont être utilisés pour établir les bornes. Le plus souvent oublié. En général nous utilisons z = 1,96 (p < 0,05); 2,58 (p < 0,01) et à l’occasion z = 3,1 (p < 0,001). 105 COMPRENDRE L’IC ET L’INFÉRENCE (SUITE) Il y a environ 95 % des chances que l’échantillon tiré aléatoirement se 95,44 % retrouve dans la zone ±2 s𝛸. Si 𝛸 arrive réellement à l’une des deux extrémités de la courbe, que se 47,72 % 47,72 % passe-t-il ? -2s µ +2 s 106 IC ET L’INFÉRENCE H1 VS H0 Il faut établir un IC autour de la valeur connue de l’échantillon. Si la 𝛸 tombe à l’intérieur de l’IC, cela veut dire que la différence 𝛸 - µ pourrait être « causée » par l’erreur d’échantillonnage. Si cela est le cas nous ne pouvons pas rejeter H0. Si 𝛸 tombe à l’extérieur de l’IC, la différence 𝛸 - µ n’est pas causé par l’erreur d’échantillonnage. Nous rejetons H0. 107 REJET DE H0: SIGNIFICATION STATISTIQUE Signification statistique : conclusion que l’échantillon ne provient probablement pas de cette population (ou réponse à une autre question : lien, prédiction, etc.). Cette conclusion est avancée seulement lorsque le risque qu’elle soit fausse est faible : erreur d’inférence de type I (erreur a). Cette conclusion est déclarée, minimalement, lorsque le risque d’une erreur est en deçà ou égale à 5 % (a ≤ 0,05). Lorsqu’il est important de rejeter H0 seulement si le risque d’erreur alpha est très faible, nous faisons appel à un seuil alpha plus petit : (a = 0,01 ou même a = 0,001). Attention: les seuils a sont arbitraires et reflètent un consensus (en psychologie). 108 REJET DE H0 ET LE RISQUE D’UNE ERREUR ALPHA. Il faut rejeter H0 lorsque µ se trouve à l’extérieur des bornes de l’IC = 𝛸 ± z s𝜲 Les bornes de l’IC sont déterminées à l’aide d’un z et de s𝜲. Lorsque les bornes de l’IC sont étroites (proches l’une de l’autre) il est plus probable que µ se trouvera à l’extérieur. A l’inverse lorsque les bornes de l’IC sont larges, il est moins probable que µ se trouve à l’extérieur. 109 LA SIGNIFICATION STATISTIQUE EST ARBITRAIRE Le choix de p ≤ 0,05 pour définir la signification statistique (minimale) est une convention pratique aidant la décision : H1 ou H0. Il n’existe aucun rationnel mathématique qui détermine cette valeur. C’est plutôt le risque à prendre qui compte. Le rejet de H0 est fait en acceptant un risque d’erreur d’inférence (0,05; 0,01; 0,001). Tout dépend du degré d’importance de la décision à prendre ! VS 110 LORSQU’IL Y A ERREUR D’INFÉRENCE … Puisqu’il y a seulement 2,5 % de chances de se tromper (environ) en disant que la 𝛸 de 95,44 % l’échantillon appartient à une autre population (en blanc), nous 47,72 % 47,72 % prenons ce risque. Lorsque toutefois, 𝛸 appartient réellement à la population, ce risque a joué contre nous et nous avons commis une erreur d’inférence. -2s µ +2 s Le 5 % arbitraire tient compte des deux extrémités de la courbe. LA SIGNIFICATION STATISTIQUE ET LES 111 ERREURS D’INFÉRENCE Exemples d’erreurs alpha (type I; faux positif) : - (Séance 4 – 8) Conclure que l’échantillon ne provient pas de cette population (H1) alors qu’il lui appartient en réalité (H0). - (Séance 8) Conclure que le médicament est efficace (H1) alors, qu’en réalité il est inefficace). - (Séance 5) Établir un lien entre deux variables à partir d’un échantillon (H1) alors que ce lien n’existe pas dans la population ou en réalité (H0). - Nous rejetons H0 mais cette décision est une erreur. 112 LA SIGNIFICATION STATISTIQUE ET LES ERREURS D’INFÉRENCE (SUITE) Exemples d’erreurs bêta (type II; faux négatif) : - Conclure que l’échantillon provient de cette population (H0) alors qu’il ne lui appartient pas en réalité (H1) : - Conclure que le médicament est inefficace (H0), alors qu’en réalité il est efficace (H1). - Conclure qu’il n’existe pas de lien entre deux variables à partir d’un échantillon (H0) alors que ce lien existe (H1). - Nous ne rejetons pas H0 mais cette décision est une erreur. 113 COMMENT RÉDUIRE LE RISQUE D’UNE ERREUR ALPHA ? Erreur alpha: Conclure au rejet de H0 alors qu’en réalité cela est faux. Il faut accroitre les bornes de l’IC. - En augmentant l’erreur-type de la moyenne (s𝛸). - En choisissant un seuil alpha plus petit (0,01 plutôt que 0,05). - En réduisant le nombre d’observations n. 114 COMMENT RÉDUIRE LE RISQUE D’UNE ERREUR BÊTA ? Erreur bêta: conclure au non-rejet de H0 alors qu’en réalité cela est faux. Il faut réduire les bornes de l’IC. - En réduisant l’erreur-type de la moyenne (s𝛸). - En choisissant un seuil alpha plus grand (0,05 plutôt que 0,01). - En augmentant le nombre d’observations n. 115 RÉDUIRE LE RISQUE ALPHA OU BETA ? Le choix entre la réduction de l’erreur de type I ou l’erreur de type II dépend totalement du risque d’erreur que l’on désire minimiser. Si fondamentalement, la conséquence de faire une erreur de type II est plus grave que la conséquence d’une erreur de type I, réduisons l’erreur beta (et vice-versa). Voyons deux exemples. 116 RÉDUIRE LE RISQUE D’UNE ERREUR BETA ? Un médicament « guérit » le SIDA. En fonction des différences individuelles, le médicament guérit seulement 1 % des patients (taille de l’effet = petite). Si nous utilisons un petit n dans notre étude, il est peu probable que nous allons conclure H1, car le médicament ne peut pas guérir beaucoup de gens. Il est plus probable de conclure H0. Le médicament ne sera pas mis sur le marché. Mais guérir 1 % des patients d’une maladie aussi grave est important dans ce cas. Donc nous serions mieux de nous servir de grands échantillons, pour vérifier si réellement 1 % des gens sont guéris et d'éviter une erreur de type II. Avec un grand n, nous concluons à la signification statistique et le médicament est mis sur le marché. 117 RÉDUIRE LE RISQUE D’UNE ERREUR ALPHA ? Un médicament « guérit » le rhume. En fonction de différences individuelles, le médicament guérit seulement 1 % des patients. Si nous utilisons un très grand n dans notre étude, il est fort probable de conclure le rejet H0. Le médicament sera mis sur le marché. Mais guérir seulement 1 % des patients n’est pas important dans ce cas. Le rhume n’est pas mortel, alors donner le médicament à tous serait une perte de ressources. Si nous utilisons un petit n dans notre étude, il est peu probable de conclure au rejet de H0. Le médicament ne sera pas mis sur le marché. Questions type examen QCM Que mesure l'erreur standard en statistique ? A) La variabilité de la population. B) La variabilité de la moyenne de l'échantillon. C) La variabilité de l'échantillon. D) La tendance centrale de l'échantillon. 118 Questions type examen QCM Question 2 : Laquelle des affirmations suivantes concernant l'erreur standard de la moyenne (SEM) est correcte ? A) L'erreur standard de la moyenne augmente avec la taille de l'échantillon. B) L'erreur standard diminue lorsque la taille de l'échantillon augmente. C) L'ESM est indépendante de la taille de l'échantillon. D) L'erreur standard est égale à l'écart type de la population. 119 Questions type examen QCM Lors d’un examen de philosophie, on a constaté que les résultats étaient distribués normalement (M = 90,00, ÉT = 10,00). Quel pourcentage de personnes ont obtenu une note qui se situe en dessous de z = -1,00 : a) 90 % b) 16 % 120 Questions type examen QCM Que signifie la signification statistique dans le contexte des tests d'hypothèses ? A) L'importance pratique des résultats. B) La force de la relation entre les variables. C) La probabilité de trouver un résultat statistiquement significatif. D) La probabilité qu'un effet observé ne soit pas dû au hasard. 121