Principes des tests statistiques PDF
Document Details
![EruditeMinotaur9143](https://quizgecko.com/images/avatars/avatar-3.webp)
Uploaded by EruditeMinotaur9143
Université de Rennes I
Marc CUGGIA
Tags
Related
- Cours Chapitre 2 Tests Statistiques Année 3 Semestre 6 PDF
- HPS3U34 Méthodes et Statistiques pour Psychologues - CM3 (PDF)
- Statistiques pour Médecins - 5 Tests Statistiques PDF
- Cours d'échantillonnage et d'estimation Sara GOTTI PDF
- Statistiques pour médecins - Tests statistiques PDF
- Tests Statistiques - 2 Moyennes (2024-2025) - PDF
Summary
Ce document présente les principes des tests statistiques, y compris la notion d'intervalle de confiance, les tests statistiques, et la démarche hypothético-déductive dans l'exemple donné de l'évolution du tour de taille moyen de la population française.
Full Transcript
Principes des tests statistiques Pr Marc CUGGIA L’intervalle de confiance est l’outil statistique de l’estimation Le test statistique est l’outil de la comparaison On peut assimiler le test à une pesée Lorsque l’on effectue une comparaison entre deux ou plusieurs séries de don...
Principes des tests statistiques Pr Marc CUGGIA L’intervalle de confiance est l’outil statistique de l’estimation Le test statistique est l’outil de la comparaison On peut assimiler le test à une pesée Lorsque l’on effectue une comparaison entre deux ou plusieurs séries de données, on observe toujours une différence, plus ou moins grande entres les paramètres mesurés. Le but du test est de déterminer si la différence observée est simplement due au hasard, – c’est-à-dire aux fluctuations d’échantillonnage, – ou si au contraire la différence observée est bien réelle. exemple En 1997 : tour de taille moyen de la population française μ= 84,6 cm En 2006 : sondage : Tirage au sort de 30 personnes (en cm) Population Française 2006 ECHANTILLON (n=30) 88,39 85,92 88,41 96,36 87,15 88,5 87,36 83,82 86,19 87,19 90,34 89,66 87,71 89,91 88,86 90,93 88,6 83,67 87,56 87,98 87,31 88,56 88,95 87,67 91,35 86,44 90,22 91,41 85,92 91,47 m = 88,26 Différence de quelques centimètres entre moyenne observée (88,26) et valeur de référence (84,6) La moyenne du tour de taille des français a-t-elle vraiment changée entre 1997 et 2006 ? exemple Observation d’une différence è2 hypothèses – Soit la différence observée est due uniquement au hasard (fluctuation d’échantillonage) et donc les populations de 1997 et 2006 ont globalement les mêmes tours de tailles (μ1997=μ2006) – Soit la différence est due en partie au hasard ET en partie à l’effet d’un autre facteur (modification de l’alimentation, traitement médicamenteux, etc). et donc les populations de 1997 et 2006 ont changé de tour de taille (μ1997≠μ2006) Démarche des test modifier 1.Hypothèses déduire 5.Conclusion 2.Situation 4.Confrontation interpréter 3. Observation Démarche hypothético-déductive Etape 1: poser les hypothèse Ho (nulle) et H1 (alternative) Etape 2: Déduire des hypothèses la situation observable : « si mon hypothèse est vraie que dois je observer ? » Etape 3 : Etape de l’expérience ó étude de l’échantillon Etape 4 : Confronter l’hypothèse avec les observations recueillies lors du sondage è réalisation du test statistique Etape 5 : Interprétation et conclusion. Il existe un risque systématique de se tromper mais les tests statistiques permettent de maitriser ce risque Ce qu’il ne faut pas faire On veut comparer la taille des individus qui passent le samedi après midi sur les trottoirs droites et gauches de la rue de la liberté à Rennes. On pourrait effectivement trouver une différence, même significative. Mais elle n’aurait aucun sens. La démarche qui consisterait à rechercher à POSTERIORI une explication à ce phénomène serait absurde. Un test n’a de sens que si une hypothèse est préalablement posée afin de répondre à une question. Principe des tests Un test statistique est une mise à l’épreuve d’une hypothèse concernant une population sur la base de données fournies à partir d’un échantillon représentatif de de la population. Le test statistique permet de prendre la décision d’accepter ou de rejeter les hypothèses. è nécessité de suivre une démarche rigoureuse hypothético-déductive Démarche des test modifier 1.Hypothèses déduire 5.Conclusion 2.Situation 4.Confrontation interpréter 3. Observation Démarche hypothético-déductive Etape 1: – Ho le tour de taille des français est resté le même entre 1997 et 2006 – H1 le tour de taille des français est different entre 1997 et 2006 Etape 2: Sous Ho je devrais observer pas de différence significative entre la moyenne μ1997 et μ2006 Etape 3 : Tirage au sort d’un échantillon représentatif de la population en 2006 et mesure du tour de taille Etape 4 : Test de comparaison d’une moyenne observée (m2006=88,26cm) sur l’échantillon à une moyenne théorique (μ1997=84,6cm) Etape 5 : Le test indique si l’écart observé de poids est négligeable (du uniquement à une fluctuation d’échantillon) ou vraiment diffèrent (par exemple du à changement). Dans les deux cas, il y a toujours une incertitude de se tromper On connaît les paramètres de 1997 distribution de la population μ1997=84,6cm de référence 1997 μ1997=84,6cm Grâce au théorème central la distribution des moyennes des échantillons issus de la population de 1997 suivent une loi normale N(μ1997;σ97/√n) On ne connaît pas les paramètres de distribution de la population de référence 2006 Echantillon m2006=88,26 N(?,?) 2006 μ2006=? On connaît juste une σ2006=? moyenne m2006 calculée à partir de l’échantillon Si l’on part de l’hypothèse 1997 μ1997=84,6cm (Ho) que les 2 populations sont équivalentes μ1997=84,6cm On déduit que les moyennes des échantillons issues de de la population 2006 suivent la même loi normale de 1997 donc 2006 m2006~N(μ1997;σ1997/√n) μ2006=? m2006=88,26 sig06=? Sous Ho Si Ho est vraie La probabilité d’observer une valeur m2006 proche de μ1997 est plus grande que de l’observer loin. On ne va raisonner sur le positionnement m2006-μ1997 de m2006 mais sur son écart par rapport à la moyenne de référence : m 2006 − µ1997 m2006 Par conséquent, μ1997=μ2006=84,6cm P(m2006-μ1997 grand ) P(m2006-μ1997 petit) m2006-μ1997 μ1997=μ2006 =84,6cm m2006=88,26 Sous Ho Sous H1 Pm2006-μ1997 Pm2006-μ2006 μ1997=μ2006=84,6cm μ2006=?≠μ1997 m2006=88,26 si l’on compare les deux hypothèse Ho et H1 Toujours si Ho est vraie la probabilité d’observer l’écart (m2006-μ1997) sous l’hypothèse Ho (μ1997=μ2006) (Fleche rouge) reste supérieure à celle d’observer l’écart (m2006-μ2006) sous l’hypothèse H1 (μ1997≠μ2006) (flèche bleue) Sous Ho Sous H1 Pm2006-μ1997 Pm2006-μ2006 μ1997=μ2006=84,6cm μ2006=? m2006=100 Supposons un écart observé plus grand, la probabilité d’observer l’écart (m2006- μ1997 ) sous Ho (Fleche rouge) diminue et celle d’observer l’écart (m1997-μ2006 ) sous l’hypothèse H1 (μ1997≠μ2006) augmente Le problème de rejet ou d’acceptation de l’hypothèse Ho revient donc à étudier la probabilité d’observer l’écart entre la moyenne observée et la moyenne de référence sous cette hypothèse On connaît la loi de distribution de l’écart sous Ho car s s m 2006 ~ N( µ1997 ; ) => (m 2006 − µ1997 ) ~ N(0; ) n n σ et donc en divisant l’écart par on se ramène à une loi n normale centrée réduite sur laquelle on pourra raisonner. m 2006 − µ1997 ( ) ~ N(0;1) s n Appelons Z cet écart réduit m− µ Z=( ) s n on peut calculer zo à partir des données de l’échantillon de la population de 2006 et des données de la population de 1997 m2006 − µ1997 88, 26 − 84, 6 zo = ( )=( ) = 9,86 σ 4,13 n 20 interprétation Donc sous Ho, Z une variable aléatoire suit une loi de distribution « normale ». Loi de distribution Sous Ho de Z 1 0 interprétation L’aire de la courbe entre 2 valeurs de Z représente la probabilité que Z soit compris entre ces deux valeurs Sous Ho On définit deux valeurs seuils symétriques: -Vs et +Vs délimitant 3 zones. – La zone centrale des valeurs probables de Z – et les 2 zones extérieures à cet intervalle dont l’aire totale représente les valeurs peu probables de Z. Sous Ho α1 α2 -Vs +Vs Valeurs peu Valeurs probable de Z Valeurs peu probable de Z probable de Z α = α1+ α 2 ó à la somme des aires des deux zones extérieures de [-Vs;+Vs] peu probables. Sous Ho α1 α2 -Vs +Vs Valeurs peu Valeurs probable de Z Valeurs peu probable de Z probable de Z On en déduit que La probabilité que Z soit inférieur à -Vs est égale à α1 : P(Z+Vs)=α2 La probabilité que Z soit à l’extérieur de l’intervalle [-Vs+Vs] est égale à α : P(Z+Vs)=α1+α2=α α=P(Z>ΙVsI / Ho vraie ) On fixe -Vs et +Vs de manière symétrique de sorte que : § α1=2,5% ( en l’occurrence -Vs=-1,96 et +Vs=+1,96) § α2=2,5% § α=5% Sous Ho α1=2,5% α2=2,5% -Vs=-1,96 +Vs=+1,96 Valeurs peu Valeurs probable de Z Valeurs peu probable de Z probable de Z -Vs et +Vs déterminent les zones d’acceptation ou de rejet de Ho Mais si on décide de rejeter Ho, il persistera toujours un risque d’observer Zo Ce risque est matérialisé par α = α1+ α2 α est le risque de rejeter Ho alors qu’en réalité Ho est vrai α est dit risque de première espèce Pour conclure un test, on va donc rechercher la position de Zo par rapport à ces seuils Sous Ho Zone de Zone de rejet Ho Zone non rejet Ho rejet Ho α1=2,5% α2=2,5% -Vs=-1,96 +Vs=+1,96 Valeurs peu Valeurs probable de Z Valeurs peu probable de Z probable de Z Résultats d’un test de comparaison Concernant la position de zo on a deux situations. 1er situation Si La valeur zo est à l’intérieur de l’intervalle [-Vs;+Vs]. Alors on ne rejette pas Ho l’observation de cet écart réduit Zo est trop probable sous l’Ho (ó les 2 population de 1997 et 2006 sont supposées identiques) On déduit qu’il n’existe donc pas de une différence significative entre les paramètres ou les distributions des populations étudiées. Zone de Zone de rejet Ho Zone non rejet Ho rejet Ho α1 α2 -Vs=-1,96 +Vs=+1,96 Zo Valeurs peu Valeurs probable de Z Valeurs peu probable de Z probable de Z Résultats d’un test de 2 situation, à l’inverse e comparaison Si la valeur zo est à l’extérieur de l’intervalle [-Vs;+Vs]. – Ce qui revient à dire P(zo>IVsI)1,96)n1 α 0 Vs La courbe de la distribution sous H1 se resserrant également du fait de l’augmentation de n, il s’ensuit une augmentation de la puissance (diminution de β).` Toutes choses égales par ailleurs, la puissance et n varient dans le même sens. exercice Le résultat d’un test bilatéral montre uo=4,5 La table suivante donne les probabilité α pour que |U| soit supérieur à 2,3,4,5 U 2 3 4 5 α 0,05 0,02 0,01 0,001 Qu’en concluez vous ? uo=4,5 U 2 3 4 5 α 0,05 0,02 0,01 0,001 La règle est si uo>Uα=5% alors on rejette Ho et on garde l’hypothèse alternative H1 uo=4,5 est supérieur à la valeur U5%=2 On rejette donc Ho. Pour déterminer p, on prend la valeur de U immédiatement inférieure à uo et on regarde le risque α associé. La valeur immédiatement inférieure est 4 soit U1%. On conclut donc de rejeter Ho et d’accepter H1 avec un degré de signification p 30 : permet d’utiliser un test paramétrique fondé sur une loi normale – Les conditions d’applications Elles sont spécifiques pour chaque test, si elles ne sont pas remplies on s’orientera vers des tests non paramétriques plus souple d’utilisation (mais généralement moins puissants). – Le caractère dépendant ou indépendant des échantillons Choix d’un test Echantillons indépendants Echantillons dépendants Type de variable Non Non Paramétrique Paramétrique Paramétrique paramétrique Test de test du χ2 McNemar qual vs qual test du corrigé de yates χ2 et test exact de Fisher et Test Z Test de 2 Test U de Test de Test de student Student échantillons Mann-Whitney Wilcoxon quant vs qual non apparié apparié >2 Test de ANOVA échantillons Kruskall-Wallis r de quant vs quant r de Pearson Spearman Lien entre risque α et β α risque de rejeter Ho alors que Ho est vrai β risque de ne pas rejeter Ho alors que Ho est fausse α et β sont liés. Plus on diminue α, plus β augmente Plus le risque est grand de ne pas rejeter Ho alors que Ho est fausse Et plus la puissance du test diminue (1-β) Et plus il faut d’individus dans l’échantillon pour pouvoir être capable de conclure une différence significative. Zone de Zone de Zone de Zone non rejet Ho Zone de Zone non rejet Ho rejet Ho rejet Ho rejet Ho rejet Ho Sous Ho β Sous H1 Sous Ho β Sous H1 α/2 α/2